rucola-team May 24 2022 at 12:02

Насколько естественен естественный язык? Представляем датасет RuCoLA

7 min

7.7K

Open source*GitHub*Machine learning*Research and forecasts in IT*Natural Language Processing*

+35

Comments 16

spesso May 24 2022 at 12:25

Хм, NLP это Neuro-linguistic programming?

-3

averkij May 24 2022 at 12:38

Natural Language Processing

webhamster May 24 2022 at 14:48

Какой-то дурдом. Хотят создать корпус русских предложений, и делают "международный" сайт с дичайшими англицизмами.

Заходим и видим промо-сайт со странным заголовком:

данные и бейзлайн^ лидерборд
RUSSIAN
CORPUS
OF LINGUISTIC
ACCEPTABILITY

Что-а? Вы хотите чтобы русскоговорящие пиплсы, увидев этот буллшит, разобрались и понатыкали разметку в ваших сэмплесах? Это должны быть очень замотивированные персонс.

-10

Takagi May 24 2022 at 16:01

Во-первых, Вы явно не умеете читать тексты на русском языке. "Понатыкать" разметку никто никого не просит, ни в статье, ни на сайте. Корпус не просто "хотят создать", а уже создали. И после этого Вы пытаетесь давать советы, как авторам писать их тексты?

Во-вторых, с основной задачей выбранные слова вполне справляются. Корректные переводы ("базовое решение" и "таблица лидеров") довольно громоздки, и я могу понять, почему авторы выбрали англицизмы.

couatl May 24 2022 at 16:31

couatl May 25 2022 at 13:30

Камон, что вы кибербуллите? Вы абьюзер? Несете полный кринж.
Выглядите как криповый токсик и явно хейтите. Зачем так агриться?
Ваш мессадж вызывает у меня батхерт. Не дестройте наш классный вайб.

VAE May 24 2022 at 16:32

Не слишком ли заумно? В последние годы в области NLP произошла настоящая революция;

NLP, как Neuro-linguistic programming, более известно, чем Natural Language Processing. Там тоже произошла революция.

Трудно было сразу раскрыть Ваше NLP? Не надо переоценивать аудиторию и (возможно) себя.

-7

BarakAdama May 24 2022 at 19:06

Справедливости ради, в списке хабов поста есть Natural Language Processing.

romansamoy May 27 2022 at 13:01

подскажите, планируется ли возобновление работы "Балабобы"? Сколько не задавал данный вопрос сотрудникам поддержки, они неизменно ссылаются на технические причины, препятствующие корректной работе сервиса. А между тем уже прошло почти 3 месяца со дня отключения. Это причиняет неудобства многим пользователям. Ведь нейросетью можно было пользоваться не только с развлекательной, но и с практической целью. Например, она помогала писать дескрипшны к статьям и рандомизировать заголовки. Благодаря ее использованию выполнение ряда задач занимало намного меньше времени. Надеюсь на скорое решение проблемы.

romansamoy May 29 2022 at 14:49

вы можете объяснить для рядовых пользователей, по какой причине сервис был отключен?

Tontu May 24 2022 at 20:06

В литературе по ML аббревиатура NLP носит строго определённый характер и никак иначе, кроме как Natural Language Processing не интерпретируется. В статье расписывается весьма сложная высокоуровневая проблема, имеющая практическое значение для очень серьезных дядек, занимающихся актуальными языковыми моделями, не только предобученными, но и даже обучаемыми с нуля, что вообще может себе позволить далеко не каждая контора. Так что такой наезд сродни наезду на статью по квантовой физике за непонятные буковки в формулах. Ну не будут в таких статьях каждый раз расписывать обозначения постоянной Планка

+12

nutcracker1337 May 24 2022 at 17:48

Было бы классно ещё и SOTA-модель выложить на этом датасете в открытый доступ.

couatl May 25 2022 at 13:10

Кажется это может не стыковаться с лидербордом)

hx0 May 27 2022 at 17:41

Модель, которая сейчас занимает первое место в лидерборде, есть в открытом доступе (вот статья про неё на Хабре).

Xeanst Aug 1 2022 at 15:56

Спасибо за интересную статью! Создание корпуса лингвистической приемлемости для русского языка -- очень полезная и важная задача, здорово, что теперь она решена.

В статье вы говорите о том, что "оценка приемлемости непросто даётся и людям, однако нейросетевым моделям ещё есть к чему стремиться", этим объясняя не очень высокий результат для человеческой оценки. Но причина может быть в другом: некоторые предложения датасета не являются однозначно приемлемыми или однозначно неприемлемыми, между носителями может присутствовать вариативность относительно их оценки.

Как вам кажется, стоит ли включать такие вариативные предложения в датасет, или же лучше оставить только те, в отношении которых носители будут единогласны?

KsandrFreeman Sep 29 2023 at 18:27

Коллеги, спасибо за ваш проект!

Вы выложили на Хаггингфейс модельку-классификатор на естественность языка. Подскажите, пожалуйста, корректный пример запуска этой модельки, чтобы полкчить требуемую оценку.

Show the best of all time