Новый алгоритм классификации повысит качество зашифрованного трафика
Предложенный объединенной научной группой из МФТИ и ИППИ РАН алгоритм позволяет эффективно определять тип передаваемых данных, даже если они зашифрованы с использованием новейших технологий. Для анализа его эффективности была собрана база данных шифрованного трафика шести стран Северной Америки, Европы и Азии. Доказанное качество классификации — 94,6%. Результаты исследования опубликованы в журнале IEEE ACCESS. Об этом CNews сообщили представители МФТИ.
С увеличением объема шифрованного интернет-трафика задача определения типа передаваемых данных становится все более сложной. Протокол Transport Layer Security (TLS) обеспечивает защиту данных, однако новая версия протокола — Encrypted ClientHello (ECH) — скрывает ключевые метаданные, такие как Server Name Indication (SNI), что затрудняет процесс ранней классификации трафика (eTC). Это может негативно сказаться на качестве обслуживания в сетях, так как правильная классификация трафика необходима для эффективного управления ресурсами.
В ответ на эти вызовы исследователи из МФТИ и ИППИ РАН разработали новый алгоритм под названием hybrid Random Forest Traffic Classifier (hRFTC). Этот алгоритм использует не только открытые параметры TLS ECH, но и статистические признаки трафика, такие как размеры пакетов и интервалы между их приходами. Такой подход позволил существенно увеличить точность распознавания данных с 38,4% до 96,4% по метрике F-score.
Как отмечает один из авторов проекта, студент базовой кафедры МФТИ в ИППИ РАН Антон Курапов, разработанный алгоритм может быть использован на промежуточных сетевых узлах для повышения качества обслуживания.
«Наш алгоритм hRFTC превзошел лучшие существующие классификаторы и может быть использован на промежуточных сетевых узлах для повышения качества обслуживания. С другой стороны, мы выявили оставшиеся утечки приватности шифрованного трафика, которые необходимо устранить в будущих версиях протоколов защиты транспортного уровня», — сказал Антон Курапов.
В настоящее время командой лаборатории беспроводных сетей ведется исследование по устранению этих утечек приватности с помощью рандомизации открытых параметров, а также изменения длин первых пакетов потока и отправки дополнительных фиктивных пакетов.