1) Как сейчас оценивается точность в вашем варианте кластеризации?
2) Будет ли использоваться получаемая разметка для дальнейших изысканий, или дрифт данных в этой задаче очень высок?
3)
Стандартные методы кластеризации не работают из-за большого количества признаков. Проклятье размерности не позволяет даже загрузить данные в память,… какие-то алгоритмы кластеризации.
Не хочу показаться капитаном, но ведь сейчас хватает инструментов для distributed computing (Spark, Dask), или объем данных настолько немыслим? Как же вы сейчас с обработкой справляетесь? :)
В данном случае схема работает только если пакеты доходят в том же порядке, в котором были отправлены. Поэтому приходится жертвовать скоростью (задержка между пакетами), чтобы использовать поле ID не по назначению.
Мне думается что в сетях где достаточно тонко настроен QoS — могут быть проблемы с сохранением порядка. Поправьте если не прав.
Не особо силен в тонкостях протоколов, поэтому вопрос вызвают пара моментов:
Поле ID нужно для того, чтобы собрать упорядоченные фрагменты данных. Т.е. в случае единственного пакета это поле не используется. Значит для наших целей уже можно использовать 2 байта.
При многопакетной передаче вы все таки должны упорядочить пакеты?
Мы узнали, что сканирование портов может оказаться совсем не сканированием портов.
Об этом только один коммент, если не сложно — поясните плиз)
Поле Sequence Number первого пакета соединения не является фиксированным, потому что иначе его бы могли знать злоумышленники (RCF 793). А это еще 4 байта.
В чем его «фиксированность»?
Получается что объем инфы, передаваемый на каждый пакет, варьируется?
Похоже вы путаете комментарии с аннотациями. Аннотации отображаются и их можно редактировать.
А вот комментарии, как уже в статье упоминалось — наследие PostScript. Согласно стандарту при работе с файлом они игнорируются.
Хочется задать пару-тройку вопросиков:
1) Как сейчас оценивается точность в вашем варианте кластеризации?
2) Будет ли использоваться получаемая разметка для дальнейших изысканий, или дрифт данных в этой задаче очень высок?
3)
Не хочу показаться капитаном, но ведь сейчас хватает инструментов для distributed computing (Spark, Dask), или объем данных настолько немыслим? Как же вы сейчас с обработкой справляетесь? :)
Мне думается что в сетях где достаточно тонко настроен QoS — могут быть проблемы с сохранением порядка. Поправьте если не прав.
Поле ID нужно для того, чтобы собрать упорядоченные фрагменты данных. Т.е. в случае единственного пакета это поле не используется. Значит для наших целей уже можно использовать 2 байта.
При многопакетной передаче вы все таки должны упорядочить пакеты?
Мы узнали, что сканирование портов может оказаться совсем не сканированием портов.
Об этом только один коммент, если не сложно — поясните плиз)
Поле Sequence Number первого пакета соединения не является фиксированным, потому что иначе его бы могли знать злоумышленники (RCF 793). А это еще 4 байта.
В чем его «фиксированность»?
Получается что объем инфы, передаваемый на каждый пакет, варьируется?
Так хочется попасть, а узнал лишь сегодня…
А вот комментарии, как уже в статье упоминалось — наследие PostScript. Согласно стандарту при работе с файлом они игнорируются.