Comments 8
Изначально было заявлено, что он жрёт абсолютно любые данные. Но в документации были приведены примеры только с численными и текстовыми.
А как же ему таки скормить что-то более сложное? Как ему, для пример, скормить набор страниц со смешанным контентом, чтобы он мог распознать содержимое?
А как же ему таки скормить что-то более сложное? Как ему, для пример, скормить набор страниц со смешанным контентом, чтобы он мог распознать содержимое?
0
Хороший вопрос. Присоединяюсь.
Это проблема большинства подобных решений.
Это проблема большинства подобных решений.
0
Если бы он жрал набор страниц со смешанным контентом, приведите пример формата датасета и способа обращения с ним в смысле API?
tech.yandex.com/catboost/doc/dg/concepts/input-data_values-file-docpage
tech.yandex.com/catboost/doc/dg/concepts/input-data_values-file-docpage
0
Какое-то сложное предложение. Я не смог понять.
Можете привести пример по моему вопросу? Поскольку я вот смотрел в примеры из документации.
В целом, я бы мог сказать, что документация какая-то скудная.
Можете привести пример по моему вопросу? Поскольку я вот смотрел в примеры из документации.
В целом, я бы мог сказать, что документация какая-то скудная.
0
Ну наверное, этот вопрос стоит задать самой Анне. При возможности, задам.
Судя документации, волшебной фичи, на которую вы надеетесь, нет. Обрабатываемая информация — произвольная, но только в том смысле, в каком произволен входящий текст. Яндексу было важно научить машину работать не только с числами, но и с категориями напрямую, закономерности между которыми она будет выявлять самостоятельно, без нашей низкокачественной ручной помощи. В результате появился CatBoost, одинаково хорошо работающий «из коробки» как с числовыми признаками, так и с категориальными. В этом и есть задекларированная свобода.
Но можно пофантазировать, если бы ваша магическая фича существовала — как бы для нее выглядел входящий датасет, и каким могло бы быть апи. Наверное, такого эффекта можно достичь самостоятельно, комбинацией разных инструментов — еще одна тема для вопросов к Анне.
Судя документации, волшебной фичи, на которую вы надеетесь, нет. Обрабатываемая информация — произвольная, но только в том смысле, в каком произволен входящий текст. Яндексу было важно научить машину работать не только с числами, но и с категориями напрямую, закономерности между которыми она будет выявлять самостоятельно, без нашей низкокачественной ручной помощи. В результате появился CatBoost, одинаково хорошо работающий «из коробки» как с числовыми признаками, так и с категориальными. В этом и есть задекларированная свобода.
Но можно пофантазировать, если бы ваша магическая фича существовала — как бы для нее выглядел входящий датасет, и каким могло бы быть апи. Наверное, такого эффекта можно достичь самостоятельно, комбинацией разных инструментов — еще одна тема для вопросов к Анне.
0
Catboost — не про обработку неструктурированных данных, он решает совсем другую задачу — как с помощью набора каких-то характеристик объекта предсказать класс объекта(задача классификации и мультиклассификации) или какую-то численную характеристику объекта (задача регрессии). То есть для начала вам нужно построить набор численных и/или категориальных признаков, которые описывают ваши объекты и разметить обучающее множество объектов тем значением, которое мы будем предсказывать (проставить таргеты).
0
Sign up to leave a comment.
Как дела у CatBoost? Интервью с разработчиками