Comments 5
Интересно попробовать её обучить для восстановления пунктуации и больших букв. Насколько я помню там 512 токенов на входе можно подать?
Нет, T5 использует relative position embeddings, поэтому тексты могут быть неограниченной длины. Правда, сложность там всё равно квадратичная от длины входа, поэтому на длинных текстах модель будет работать медленно.
А так вообще вчера специально для этой задачи Silero выложили модель: https://habr.com/ru/post/581946/
Не подскажите, а как организовать именно диалог? Чтобы например можно было задать вопрос1-ответ1-вопрос2-ответ2(с учетом предыдущего ответа). Встала такая задача, отвечать с учетом предыдущего контекста.
Была мысль учебные данные компоновать удлиняя строки:
Строки диалога 1:
1) Вопрос1-ответ1
2) Вопрос1-ответ1, Вопрос2-ответ2
3) Вопрос1-ответ1, Вопрос2-ответ2, Вопрос3-ответ3
4) Вопрос2-ответ2, Вопрос3-ответ3
5) Вопрос3-ответ3
и т.п.
Потом подавать в модель стыкуя к текущему вопросу предыдущие вопрос-ответ.
Но учить ресурсоемко, в холостую просто так не хочется. Буду благодарен если кто-то поделился опытом и можно будет минимизировать тесты сразу сделав достаточно оптимально.
Многозадачная модель T5 для русского языка