Articles / Bookmarks / Profile of Gehta / Habr

Gehta Sep 1 2020 at 15:24

Использование NLP для построения классификатора сарказма

5 min

3.4K

В этой статье мы попробуем написать классификатор определяющий саркастические статьи используя машинное обучение и TensorFlow

Статья является переводом с Machine Learning Foundations: Part 10 — Using NLP to build a sarcasm classifier

В качестве обучающего набора данных используется датасет «Sarcasm in News Headlines» Ришаба Мишры. Это интересный набор данных, который собирает заголовки новостей из обычных источников новостей, а также еще несколько комедийных с поддельных новостных сайтов.

Набор данных представляет собой файл JSON с тремя столбцами.

is_sarcastic — 1, если запись саркастическая, иначе 0
headline — заголовок статьи
article_link — URL-адрес текста статьи

Читать дальше →