Pull to refresh

Comments 5

Для кроссвордов надо, наверное, датасет побогаче, чтобы разные формулировки усвоить. Или парафраз на вопросы, кстати, делать.

image

Это правда, можно и собрать датасет на порядок больше, и позаниматься аугментацией разного рода, и позаниматься генерацией пар (вопрос, ответ) из текстов. Улучшать много чего есть. Но конкретно в этом посте мне хотелось показать, что файнтюнить T5 - просто, и я пренебрёг возможными улучшениями)

Интересно попробовать её обучить для восстановления пунктуации и больших букв. Насколько я помню там 512 токенов на входе можно подать?

Нет, T5 использует relative position embeddings, поэтому тексты могут быть неограниченной длины. Правда, сложность там всё равно квадратичная от длины входа, поэтому на длинных текстах модель будет работать медленно.

А так вообще вчера специально для этой задачи Silero выложили модель: https://habr.com/ru/post/581946/

Не подскажите, а как организовать именно диалог? Чтобы например можно было задать вопрос1-ответ1-вопрос2-ответ2(с учетом предыдущего ответа). Встала такая задача, отвечать с учетом предыдущего контекста.

Была мысль учебные данные компоновать удлиняя строки:
Строки диалога 1:
1) Вопрос1-ответ1
2) Вопрос1-ответ1, Вопрос2-ответ2
3) Вопрос1-ответ1, Вопрос2-ответ2, Вопрос3-ответ3
4) Вопрос2-ответ2, Вопрос3-ответ3
5) Вопрос3-ответ3
и т.п.

Потом подавать в модель стыкуя к текущему вопросу предыдущие вопрос-ответ.

Но учить ресурсоемко, в холостую просто так не хочется. Буду благодарен если кто-то поделился опытом и можно будет минимизировать тесты сразу сделав достаточно оптимально.

Sign up to leave a comment.

Articles