Pull to refresh

Comments 66

Например, студентов-гуманитариев, учащихся на технических факультетах, можно автоматически переводить на более подходящие им факультеты.

вот это вы лихо!
На самом деле я бы не сильно доверял профилям в социальных сетях — и таким параметрам как отношение к алкоголю и кол-ву скобочек…

Тем не менее, банки и страховщики используют соц сети как один из факторов при анализе человека

Переводить не надо, но давать им такую рекомендацию можно, причём желательно в 11 классе.

… а вы думаете, что в 11 классе этот классификатор будет работать?

Нервно курящий гуманитарий (менеджер) в ожидании выхода из состояния увлечения алкоголем технаря (забухавший программист).
Интересно. Но по-моему зря отброшены обращения — можно провести анализ кто с кем больше общается — как часто гуманитарии обращаются к технарям, технари к гуманитариям, технари к технарям, гуманитарии к гуманитариям. Померять количество пользователей которые одинаково много или одинаково мало общаются с обеими категориями среди первых и вторых.
Также интересно добавить категории естественных наук и сравнить все три варианта. Можно так же анализировать саму систему образования — разделить не только по типу факультета, но и по классу вуза, и проверить, кореллирует ли грамотность и развёрнутость предложений, использование терминов и прочее с категорией вуза, или с его рейтингом по разным системам. Тогда можно сравнить адекватность оценки частных рейтинговых систем между собой и с государственной системой аккредитации.
Ещё было бы интересно добавить анализ фото нейросетями, если это позволяют вычислительные мощности. Анализировать корелляции с причёской, телосложением, цветом одежды по метрикам из разряда систем Person Recognition. А также померять гомогенность каждой группы.

Интересная идея про анализ кто с кем общается, благо обращений действительно много.
Кстати про классификацию по лицу очень крутая мысль. Недавно как раз была статья по определению сексуальной ориетанции по фото, довольно успешная.
Спасибо за большое количество интересных todo

Ещё интересная особенность — абсолютно все мои комментарии на хабре система пометила как технарьские. Хотя а) я получал классическое естественнонаучное образование и б) пишу всегда развёрнуто и даже с буквой «ё» =), был уверен что получится чисто гуманитарный результат.

upd Хм… Кроме вот прямо вот этого.

Это она на смайлик отреагировала)

Скопировал несколько записей из своих комментариев на Хабре. Выяснил, что я — гуманитарий. Не удивился.

Не хочу вас расстраивать, но, как мне кажется, ваш анализатор научился оценивать словарный запас (использование редких корней в языке, знание которых чаще можно приписать «гуманитариям»), обилие знаков препинания, на которые «технари», вестимо, куда чаще забивают и, возможно, длину предложений.

В целом, результат вполне логичный со статистической точки зрения. Но не интересный, так как задача, на мой взгляд, поставлена некорректно.

Попробуйте выдачу изменить: пусть ваша сеть работает не как классификатор (чего больше, то и победило), а выдает обе метрики. Скажем, «в вас 37% гуманитария и 63% технаря» было бы куда интереснее.
Смотрите: закономерность вполне выделяется:

№ Комментарий
0 (зеленый) Скопировал несколько записей из своих комментариев на Хабре. Выяснил, что я — гуманитарий. Не удивился.
1 (красный) Не хочу вас расстраивать, но, как мне кажется, ваш анализатор научился оценивать словарный запас (использование редких корней в языке, знание которых чаще можно приписать «гуманитариям»), обилие знаков препинания, на которые «технари», вестимо, куда чаще забивают и, возможно, длину предложений.
2 (зеленый) В целом, результат вполне логичный со статистической точки зрения.
3 (зеленый) Но не интересный, так как задача, на мой взгляд, поставлена некорректно.
4 (красный) Попробуйте выдачу изменить: пусть ваша сеть работает не как классификатор (чего больше, то и победило), а выдает обе метрики. Скажем, «в вас 37% гуманитария и 63% технаря» было бы куда интереснее.

Там, где я употреблял больше технических терминов, я был «технарь». Там, где говорил «в общем», был «гуманитарий».

При этом фраза "вы удивитесь, но музыканты давно это знают" трактуется как "красная".

обилие знаков препинания, на которые «технари», вестимо, куда чаще забивают

Знаки препинания — это отражение структуры передаваемой информации, технари на них не забивают, скорее — используют не согласно правил естественного языка.
[humor]lisp-программисты ставят запятых в предложении, больше чем слов[/humor]

… а "согласно чего"? Знаки препинания могут определять структуру информации только в контексте языка, потому что только язык определяет значение знака препинания.

Да, фигню сказал.
Я понимаю, что:
1. естественные языки — живые и развивающиеся инструменты и все нормы использования знаков препинания как раз появились из необходимости структурировать информацию
2. Кроме стабильных общих правил расстановки знаков препинания есть еще и «авторская пунктуация» (собственный набор правил конкретного автора, выражающий его личность и удовлетворяющий его какие-то частные потребности в выражении мысли) и стилистическая(ситуативная?) пунктуация (набор правил, характерный для каких-либо особых видов текста)

Что я хотел сказать предыдущим комментарием:
1. Мне кажется, что незакрытая кавычка будет раздражать технаря ровно также как и гуманитария. (если не больше, но я не знаю как измерить уровень раздражения у читателя)

2. Мне кажется, что в случаях, когда выделение структурных частей предложения запятыми не обязательно, но допустимо, технарь с большей вероятностью поставит запятую, чем гуманитарий.

3. Обычно, «авторская пунктуация» подразумевает расширение и дополнение общеупотребительных норм литературного языка, а не «переписывание». Так вот — «технарям», по моему мнению, свойственно как раз изобретение каких-то собственных структур, явно нарушающих общие правила. (У гуманитариев общие правила более свежи в памяти и они не будут «переизобретать велосипед»)
Обычно, «авторская пунктуация» подразумевает расширение и дополнение общеупотребительных норм литературного языка, а не «переписывание».

… нет. Нет такого "обычно".


Так вот — «технарям», по моему мнению, свойственно как раз изобретение каких-то собственных структур, явно нарушающих общие правила.

Тоже нет. Вообще, вы совершенно зря пытаетесь построить корреляцию между технари/гуманитарии и пунктуацией. Люди пишут либо грамотно, либо нет. У тех, кто пишет неграмотно, бывает нехватка запятых или их избыток (я сейчас про русский язык).

… нет. Нет такого «обычно».


А́вторская пунктуа́ция — ситуативное, контекстуально обусловленное отступление от общих норм пунктуации. Иногда под авторской пунктуацией понимают индивидуальные особенности пунктуационного оформления текста, не противоречащие принятым правилам, или вообще все знаки, стоящие в авторской рукописи. Последнее употребление термина характерно для издательских работников.


Ок, не обычно, а иногда. Я говорил как раз про
особенности пунктуационного оформления текста, не противоречащие принятым правилам


А не про «пунктуация автора сохранена»

вы совершенно зря пытаетесь построить корреляцию между технари/гуманитарии и пунктуацией.


Сложно построить корреляцию несуществующего разделения с чем-то существующим, да.

Люди пишут либо грамотно, либо нет

Я говорил про людей пишущих грамотно.
Мое сугубо личное наблюдение:

Есть факультативные знаки препинания. Люди, чья работа связана с конструированием и анализом сложных объектов, склонны ставить такие факультативные знаки препинания. Люди, чья работа связана непосредственно с текстом — склонны эти знаки не ставить
Мое сугубо личное наблюдение:

Есть факультативные знаки препинания. Люди, чья работа связана с конструированием и анализом сложных объектов, склонны ставить такие факультативные знаки препинания.

Знаете, я такого никогда не видел. В русском языке не так много факультативных знаков препинания. В частности, в предыдущем предложении просто нельзя поставить запятую.

Сейчас я специально освежил в памяти примеры факультативных знаков препинания и пришел к выводу, что мое мнение сформировалось из-за того, что я ошибочно считал некоторые знаки препинания факультативными.

PS, вот пример наполненного факультативными знаками препинания предложений:

«И когда, месяц спустя, мы вернулись к этому разговору, тема его потеряла уже свою остроту»

«Я не отрицаю этой возможности; но, всё равно, она меня не устраивает»

Вот как раз там, где вы взяли эти примеры, есть прекрасная фраза:


Отмечая синонимичность в употреблении знаков препинания, не следует думать, что в конкретных случаях они полностью взаимозаменяемы, т. е. вполне равноценны. Отнюдь нет: абсолютно синонимичных знаков препинания не бывает, и, выбирая тот или иной вариант пунктуационного оформления текста, автор находит в нем определенные преимущества смыслового, стилистического, интонационного характера.

Некоторые люди, которые работают с текстом — или просто наделены так называемым "чувством языка", — больше других уделяют внимание тому, насколько точно текст (включая пунктуацию) передает их сообщение. Кстати, определить это "подсчетом запятых" невозможно, потому что надо анализировать смысл или хотя бы структуру предложения, чтобы проверить правильность расстановки.

Бинго!


Пишем комментарии "из головы" — получаем "гуманитария". Копируем комментарии (мои же) с хабра — получаем "технаря".


Особенно поучительно, что вот эти комментарии система распознает как "технарские":


  • Так все-таки, что же такое "современная музыка", про которую вы утверждаете, что вся она "производится людьми которые почти не разбираются в нотной грамоте"?
  • Отражение на бумаге не является обязательной частью творчества (ни музыкального, ни литературного). Дописьменная культура, вот это вот все.

А вот этот — "гуманитарный":


Я же уже задавал этот вопрос (неоднократно). Вот вы в статье пишете "обратимся к определению системы" — но не говорите, откуда вы взяли это определение. А ведь определение существует в рамках системы (или bounded context, если угодно).

А теперь сравним его вот с этим, распознанным как "технарский":


Я и задал вам два конкретных вопроса. В частности, саундтрек к Macross Frontier — это современная музыка? Человек, который его написал, "почти не разбирается" в нотной грамоте?

У них суть-то одна и та же — вопрос об определениях. Только в "технарском" определения про музыку, а в "гуманитарном" — про системную инженерию.

Так все-таки, что же такое «современная музыка», про которую вы утверждаете, что вся она «производится людьми которые почти не разбираются в нотной грамоте»?

Технарский, потому что «не разбираются». Гуманитарии это словосочетание в срачах не употребляют.

Я же уже задавал этот вопрос (неоднократно). Вот вы в статье пишете «обратимся к определению системы» — но не говорите, откуда вы взяли это определение.

А тут есть явный маркер гуманитария — слово «неоднократно».

Как в свое время очень метко пошутил Жванецкий о Гайдаре, «человек, имеющий в активном словарном запасе слово „отнюдь“ в России президентом не станет».

И, кстати, в целом это — лютый вин, что корреляция между темой обсуждения и типом мышления системой не прослеживается. Это означает, что задача действительно имеет смысл. Только вот постановка слишком упрощена. Я бы, например, выделил несколько конкретных наук и раскладывал по ним. Но тут с учебной выборкой было бы посложнее…
И, кстати, в целом это — лютый вин, что корреляция между темой обсуждения и типом мышления системой не прослеживается.

Тогда почему по комментариям на хабре я "технарь", а по комментариям, написанным вне обсуждения — "гуманитарий"?

А тут есть явный маркер гуманитария — слово «неоднократно».

"Я же уже задавал этот вопрос (неоднократно). [...]" — гуманитарный.
"Я же уже задавал этот вопрос (дважды). [...]" — технарский.
"Я же уже задавал этот вопрос. [...] — снова гуманитарный.


Технарский, потому что «не разбираются». Гуманитарии это словосочетание в срачах не употребляют.

"современная музыка производится людьми которые почти не разбираются в нотной грамоте"
"современная музыка производится людьми которые ничего не понимают в нотной грамоте"
"современная музыка производится людьми которые не разбираются в нотной грамоте"
"современная музыка производится людьми которые не обучались нотной грамоте"
"современная музыка производится людьми которые разбираются в нотной грамоте"
"современная музыка производится людьми которые обучались нотной грамоте"


Все "технарские" (и, кстати, правильная расстановка запятых не влияет).

Теперь, когда система разработана и запущена, можно подумать об ее применении. Например, студентов-гуманитариев, учащихся на технических факультетах, можно автоматически переводить на более подходящие им факультеты.

А авторов статей, пишущих глупости, автоматически переводить с Хабра на Рен-ТВ.


У вас есть две группы людей, разделенных де-факто по произвольному принципу, ибо вы не озвучили ни список факультетов, ни критерии, по которым тот или иной отнесен в ту или иную группу, или исключен. А вот выпускники
института математики, физики, информатики и технологий УГПУ к какой категории относятся, и почему, и много ли у них общего с выпускниками ВМК МГУ или МХТИ, скажем — можете обоснованно рассказать? Далее, вы с точностью не более 66% можете определить, к какой из этих групп относится тот или иной человек из уже исследованных вами, а точность прогнозов модели на другой выборке вы исследовать даже не пытались. И на основании этого вы хотите что-то "применять"? :)

Когда не умеешь различать сарказмы

Дело в том, что наличие в статье сарказма не делает ее содержание лучше. Вы применили алгоритмы машинного обучения не пойми к чему и на выходе получили тоже не пойми что.

Прошел тест по ссылке, три ответа — гуманитарий, два — технарь. Всегда думал что я технарь.
Нужен еще опрос: «каков ваш результат после прохождения теста?», у нас с коллегами результат как-то очень далек от объективного.
«начиная с 4-х часов утра, количество комментариев от пользователей класса «гуманитарий» значительно больше, что говорит о более раннем времени подъема» что-то мне это напоминает
image
Вообще, статья очень познавательная. В том плане, что мне было интересно следить за рассуждениями автора, и я очень хотела увидеть что получится в итоге. По-моему, это отличное начало, буду ждать дальнейших исследований и результатов :)
Мне тест не показался объективным. Если у меня все хорошо с русским языком, то я что, гуманитарий?
Если бы это так работало, то можно было сделать такой тест в ворде
За технарский ответ был посчитан только с нецензурной лексикой. Ну ок…
UFO just landed and posted this here
Вся брехня разделяется на ложь, большую ложь и статистику Не хахаха, а бигдата! ЕВПОЧЯ
Всего лишь говорит об очередной кривой матмодели, на которую натягивают теперь тёплые ламповые интерфейсы
На мой взгляд, деление на «технарь и гуманитарий» это деление по принципу «ценит логику в рассуждениях своих и чужих / не ценит» (с образованием и полом это коррелирует, но косвенно).
Сомнительно, что столь простым, как в статье, методом можно выявить такие вещи.
На мой взгляд, деление на «технарь и гуманитарий» это деление по принципу «ценит логику в рассуждениях своих и чужих / не ценит»

То есть "гуманитарий" — это такое ругательное слово, обозначающее "не ценит логику"?

Не согласен. Скорее разделение касается не логического мышления, а структурного — технари предполагают всё по умолчанию структурированым по стандартам, владеют набором предопределённых в технических сферах паттернов. А гуманитарии структурируют всё сообразно структур речи, и ближе к внутренним человеческим понятиям. Ну а те кто вместо структурного мышления используют логическое, по моему опыту общения — чаще занимаются математикой и естественными науками. Те кто — эмоциональное — соответственно, тяготеют к искусствам.
А гуманитарии структурируют всё сообразно структур речи

Эээ, кто вам это сказал?

Так для того, чтобы структурировать — нужно логическое мышление. Ну т.е. в некотором смысле это два названия одного и того же.
Сфера сама по себе тут непричём. Я знаю нескольких женщин с гуманитарным образованием, занимающихся совершенно нетехническими дисциплинами (например, одна рисует, вторая танцует). При этом конкретно они очень хорошо структурируют информацию, последовательны и логичны в рассуждениях.
Также знаю _много_ людей с техническим образованием работающих в технических сферах, которые непоследовательны, нелогичны и вообще не имеют представления о структурировании чего-либо.
Можно ещё сказать (с некоторой натяжкой) что у одних преобладают (определяют их поведение в широком смысле слова) эмоции, у других сознание. Хотя это всё же упрощение.
Ну есть конкретное деление в психологии, что люди строят логические, структурные и ассоциативные связи. Также есть встроенный в голову оптимизатор, который использует готовые структуры вместо логики, везде где это возможно, таким образом структурное мышление — это когда используется готовая структура решения вместо поиска с нуля (это менее надёжно, но на какие-то доли секунды быстрее).
Структурное мышление — это когда слова в предложении ставятся в определённом порядке в английском, или с определёнными окончаниями в русском. Раз освоив речь, человек уже не задумывается о том, как он говорит. Точно так же человек вырабатывает техническую граммотность — вся суть техники в том что есть готовые решения которые ты находишь и используешь, это чисто структурное мышление — но не логическое. Строя логические связи можно реализовать некий функционал в программе или устройстве, даже если так ещё никто не делал. Это задачи разработки и исследований. Задачи техники — применение уже готовых решений, и лёгкая подкрутка под задачи заказчика. Для этого достаточно структурного мышления. В случае программирования людям в университетах прошиваются готовые оптимизации — паттерны, парадигмы, стили написания кода — это всё элементы структурного мышления, которые запоминаются и всё. Знание этих вещей и работа в сфере не гарантирует что человек хоть где-то будет логичен и последователен. Это просто структуры.
Филологам прошиваются другие структуры — например, структура эссе, или структура слова у специалистов по теории языка. К речи человека привязана вся его социальная деятельность, потому надстройками к её структуре идут структуры социального взаимодействия, психологические аспекты всякие… Вот и получается две сферы где применяется два класса готовых решений. И оба они — не гарантируют того что человек хоть как-то использует логику, равно как и ничего не говорят о том что он её не использует. Потому что логично мыслящий человек может взять готовые структуры в долгосрочную память и никогда не применять в качестве оптимизаций (вместо логики). Так получаются умные технари и умные гуманитарии которые логически мыслят.
Что касается танцев и рисования — это творческие занятия, здесь вообще задействован третий вид — ассоциативные связи. Так как болшая часть гуманитарных дисциплин типа филологии, социологии, психологии — так же прокачивают и ассоциативное мышление (как сочинение текстов так и вообще — любое взаимодействие с людьми требует этого) то творческие занятия тоже плюсуют к ним в кучу. Вот и получается два больших класса — люди которые по разному учатся в университетах и потом работают на разных работах.
Хорошо сказано. Как вы думаете, могут ли эти вложенные в университете разные структуры быть видны в речи/письме?

И только на третий день индеец Зоркий глаз заметил...


Я разделил все факультеты на гуманитарные, технические и другие (естественные или вовсе не относящиеся к научным, например, музыкальные или художественные). Эти “другие” факультеты были отброшены и не участвовали в эксперименте.

Теперь меня не удивляют результаты: у нас были (помимо неразмеченных), грубо говоря, четыре класса (на самом деле — больше, но не суть), а результат мы запихиваем в два (вместо, хотя бы, двух классов и "не понял, кто").

Меня распознали как технаря, браво. Только я не поняла, почему мой комментарий "слева или справа?" — больше гуманитарный коммент.

Как уже писали выше, чем грамотнее речь — тем больше вероятность получить классификацию "гуманитарий". Странно и смешно, но факт остаётся фактом :)

«Гороскоп точнее категоризирует чем эта балалайка» — красненький.
Вот интересно, вы смотрите на параметр «большая буква в начале предложения», но ведь при этом все сообщения с обращением по умолчанию правильно начинать с маленькой буквы, ибо они формируются видом «Иван, ты...». А если заменить обращение на айдишник, то предложение начинается вообще с маленькой цифры.

А ещё я попробовал тест пройти, но не смог. Комментировать рандомные короткие фразы без контекста просто не получается.
Впрочем, кнопка «ответить» вообще не жмётся в приватном окне фуррифокса.
UFO just landed and posted this here
Меня опредилило технарем 4/5, но себя таковым не считаю
Меня ошибочно приписали к гуманитариям.
UFO just landed and posted this here
Интересная статья, но по трем тестам из десяти вопросов меня определило как технаря, гуманитария и не смогла определить )
классификация «физики/лирики» более чем условна. можете посмотреть классификацию ОЭСР обучающихся студентов по направлениям, данные по РФ — там есть. условна, т.к. куда Вы денете медиков? они лирики или физики? музыка и ко — это гуманитарные науки. общественные науки тоже выпали куда-то (то есть я думаю, что Вы их к гуманитариям зачислили, но филологам небось обидно будет в одном котле с менеджерами быть — все же словарный запас, если следовать Вашей логике, должен отличаться, а Вы их под одну гребенку).
В начале написано, что «Итоговый результат можно будет использовать, например, для таргетированной рекламы», а в конце «студентов-гуманитариев, учащихся на технических факультетах, можно автоматически переводить на более подходящие им факультеты» — то есть о рекламе в конце забыто.
Если все же цель ближе к «таргетированной рекламе», то можно посмотреть другие публикации по анализу лексики + соцположения + заработка и т.п. с целью чем бы еще дополнить journals.plos.org/plosone/article?id=10.1371/journal.pone.0138717 и вот надеюсь откроется список со статьями scholar.google.ru/scholar?q=related:YMtIdmEoKZAJ:scholar.google.com/&hl=en&as_sdt=0,5
Жалко, что паблик относительно нейтральный. Иначе можно было бы посмотреть агрессивность комментариев в зависимости от времени суток… В зависимости от тем постов… В зависимости от возраста/пола и т.п. комментирующего… И инфа по алкоголю/курению бы пригодилась)))
куда Вы денете медиков? они лирики или физики?

Конечно же физики, какие могут быть сомнения?
Их работа заключается в обслуживании сложнейших инженерных систем.

Только малая часть физиков — технари. Только радиофизики, а все остальные — это естественные науки. Музыка — это лирики, но не гуманитарии.
Гуманитарное образование — это 100% филологов, переводчиков, историков, социологов и психологов.
Техническое — программисты, механики, дорожники, геодезисты, радиотехники.

Физики и музыканты не классифицируются по такой системе.
Музыка — это лирики, но не гуманитарии.

Как минимум, вся история и теория музыки — это гуманитарное знание. А если (образованные) музыканты это должны знать, почему они не гуманитарии? И почему, если продолжать аналогию, переводчики-синхронисты — гуманитарии?

А никого не смутило, что рассматривалось 170к комментариев от 10 тыс человек? Как формировалась трейн и тест выборка? Могло ли так получиться, что один пользователь был и в трейне и в тесте и в итоге угадывалась «стилистика» написания комментария пользователем?
Пользователи были разделены на две части в пропорции 80 к 20. На первой проводилось обучение моделей, на второй – тестирование.
Sign up to leave a comment.

Articles