cointegrated Oct 6 2021 at 16:28

Многозадачная модель T5 для русского языка

7 min

22K

Python*Semantics*Programming*Machine learning*Natural Language Processing*

+16

Comments 5

averkij Oct 6 2021 at 18:43

Для кроссвордов надо, наверное, датасет побогаче, чтобы разные формулировки усвоить. Или парафраз на вопросы, кстати, делать.

cointegrated Oct 6 2021 at 19:41

Это правда, можно и собрать датасет на порядок больше, и позаниматься аугментацией разного рода, и позаниматься генерацией пар (вопрос, ответ) из текстов. Улучшать много чего есть. Но конкретно в этом посте мне хотелось показать, что файнтюнить T5 - просто, и я пренебрёг возможными улучшениями)

Gorodecki Oct 7 2021 at 14:47

Интересно попробовать её обучить для восстановления пунктуации и больших букв. Насколько я помню там 512 токенов на входе можно подать?

cointegrated Oct 7 2021 at 14:50

Нет, T5 использует relative position embeddings, поэтому тексты могут быть неограниченной длины. Правда, сложность там всё равно квадратичная от длины входа, поэтому на длинных текстах модель будет работать медленно.

А так вообще вчера специально для этой задачи Silero выложили модель: https://habr.com/ru/post/581946/

mail-online Dec 13 2023 at 11:23

Не подскажите, а как организовать именно диалог? Чтобы например можно было задать вопрос1-ответ1-вопрос2-ответ2(с учетом предыдущего ответа). Встала такая задача, отвечать с учетом предыдущего контекста.

Была мысль учебные данные компоновать удлиняя строки:
Строки диалога 1:
1) Вопрос1-ответ1
2) Вопрос1-ответ1, Вопрос2-ответ2
3) Вопрос1-ответ1, Вопрос2-ответ2, Вопрос3-ответ3
4) Вопрос2-ответ2, Вопрос3-ответ3
5) Вопрос3-ответ3
и т.п.

Потом подавать в модель стыкуя к текущему вопросу предыдущие вопрос-ответ.

Но учить ресурсоемко, в холостую просто так не хочется. Буду благодарен если кто-то поделился опытом и можно будет минимизировать тесты сразу сделав достаточно оптимально.

Show the best of all time