cointegrated Aug 3 2019 at 01:11

Создание простого разговорного чатбота в python

7 min

49K

Python*Data Mining*Machine learning*Natural Language Processing*

Tutorial

+28

Comments 20

snamef Aug 3 2019 at 11:44

Спасибо, умеем треннировать попугая. Как писали на Хабре,
— алиса, включи чайник.
— Включаю режим чайника. Ой тут столько кнопочек, ничего не понимаю))

-2

p3p Aug 3 2019 at 11:44

такое ощущение, что это перевод

cointegrated Aug 3 2019 at 11:46

Любопытно, а что создаёт такое впечатление? :)
В каком-то смысле это действительно перевод — это слепленные и немножко переписанные 5 постов из блога. Но они и исходно были на русском.

DmitrySpb79 Aug 3 2019 at 13:53

Интересно, а насколько повышается точность ответов, если использовать оригинальную несжатую матрицу?

kvlsky Aug 3 2019 at 21:09

Идея хорошая, но ответы подбирает как-то слабо.
Нужно датасет побольше или уже нейросеть с Attention-механизмом, для понимания контекста.
Наш разговор:

snamef Aug 3 2019 at 23:08

плюс в датасете может не быть подходящего чёткого контекста к словам. Люди всякую чушь пишут, понимая контекст — попробуй докопаться

cointegrated Aug 4 2019 at 00:22

Да можно и без атеншна, CNN с двумя башнями (для контекста и для ответа) уже сильно лучше работает. Но интересно было, чего можно получить без нейронок и вообще без супервижна.

snamef Aug 4 2019 at 00:30

Дело вообще не в архитектуре а то что для понимания слов контекста тоже нужен контекст.

Но интересно было, чего можно получить без нейронок и вообще без супервижна.

Я сейчас забавляюсь такой бредовой вещью как ~~кибернетическая~~ обьектная модель понятий. Начал для того чтобы генерировать текст с заданным смысловым значением и учить по этому нейронку, в отсутствие нормальных датасетов с покрытием всех слов. Но потом нетрудно увидеть что метод который генерирует текст со связанным смысловым значением фактически «понимает» его и можно использовать наоборот для парсинга из текста в модель. Может когда то даже выложить на Habre, шас в очень неготовом состоянии, это ж хобби проэкт…

snamef Aug 4 2019 at 20:21

отлично, поставленный минус отбил охоту что то тут постить

fingoldo Aug 4 2019 at 18:21

Судя по Вашим примерам, работает подход из рук вон плохо.

spirit1984 Aug 4 2019 at 21:04

Выполнил до конца на своей машине, однако внезапно завалился на взаимодействии с телеграмом. Бота-то я создал, но вот подсоединитьсяк нему не сумел. Это случаем не потому, что код был написан в исходной статье год назад, до блокировки телеграма?

cointegrated Aug 4 2019 at 23:13

Да, всё верно. Нужно соединяться из-под VPN. Спасибо за замечание, сейчас дополню.

cointegrated Aug 5 2019 at 12:57

Или, кстати, можно в гугл колабе запускать бота (в режиме polling, как и на локальном компе). Кажется, это самый дешёвый вариант. Вот минимальный пример.

Vadbeg Aug 4 2019 at 23:13

Большое спасибо за статью!
Есть ли возможность найти оптимальное сочетание размерность/информация об исходной матрице? Или можно подбирать только руками?

cointegrated Aug 4 2019 at 23:15

Я знаю, что есть учёные, которые работают над поиском формулы оптимальной размерности, но, кажется, серебряной пули пока не придумали. Так что, наверное, перебор.

snamef Aug 4 2019 at 23:51

Подбирать, имея принцип что чем сложнее инфа на входе тем больше надо будет слоёв и толщины. У меня есть предположение что примерно прикинуть можно через энкодер. Сделать энкодер-декодер одного ввода, выявить оптимальное узкое горлышко и брать размер этого горлышка умноженный на среднюю длинну секвенции.
Например, применим это к char rnn. Один символ сжимается в энкодере примерно до 10 значений в узком горлышке, до 5 пытался треннировать но плохо, начинает сильно врать. Имея среднюю длинну предложения в 50 символов будет ~ 500 нейронов в скрытом RNN слое, правда одинарной толщины.

Malvica Aug 6 2019 at 23:43

У кого кривые ручки, тем такое не создать. А можно бы было отличного бота замутить, чтоб без геморочного программирования доступно было добавление фраз.

cointegrated Aug 6 2019 at 23:45

Ну есть же всякие конструкторы ботов без написания кода: dialogflow, manychat, aimylogic, botpress, и так далее. Можно развлекаться)

olegmaslov Jul 13 2021 at 14:46

ого

olegmaslov Jul 16 2021 at 08:38

Вот что думаю. Сама задача интересная, а телеграм бот как привлекающий маневр.

Датасет побольше бы, тогда однозначно лучше будет

Show the best of all time