Спецпроекты

Обзор скоро выйдет
Георгий Тарасов, Curator: Для обучения ИИ требуется все больше бот-трафика

ИИ-боты в интернете становятся все активнее, и многие из них маскируются под обычных пользователей. Они собирают данные для обучения языковых моделей и других продуктов на базе ИИ, при этом отличаются высокой интенсивностью, избирательностью контента и нередко игнорируют правила сайтов. О том, как меняется бот-трафик, чем современные ИИ-краулеры отличаются от классических роботов и как компании защищают свои ресурсы, рассказывает Георгий Тарасов, менеджер продукта Curator.CDN компании Curator.

Георгий ТарасовCurator

«За последние годы боты проделали большой путь»

CNews: Сегодня мы наблюдаем рост активности ИИ-ботов, в том числе маскирующихся под обычных пользователей. Насколько сильно изменилась картина бот-трафика за последние полтора года и в чем главные отличия новых ИИ-краулеров от классических поисковых роботов?

Георгий Тарасов: Сегодня доля бот-трафика, создаваемого специально для поддержки ИИ-инфраструктуры и обучения генеративных моделей, заметно выросла. Это однозначно общий тренд. Раньше боты в основном использовались в коммерческих целях, для хакеров или в серой зоне интернета. Но с 2023 года начался активный перебор публичной информации крупными краулерами, за которыми подтянулись более мелкие игроки. Этот трафик растет количественно и занимает все большую долю.

Главное отличие новых краулеров от классических поисковых роботов, таких как Яндекс, Google или Bing, в том, что они не индексируют все страницы подряд. Их интересуют определенные диапазоны контента, который потом используют для обучения языковых моделей в зависимости от компании. Эти краулеры работают гораздо интенсивнее, делают больше запросов в единицу времени и часто игнорируют правила сайта, например указания в файле robots.txt.

Георгий Тарасов, Curator: Сегодня доля бот-трафика, создаваемого специально для поддержки ИИ-инфраструктуры и обучения генеративных моделей, заметно выросла

CNews: По вашим данным, GPTBot от OpenAI в момент запуска стал одним из самых заметных ботов в российском сегменте, но позже его активность снизилась. Чем это вызвано — блокировками, развитием антибот-систем или изменением стратегии самой OpenAI?

Георгий Тарасов: Здесь сыграли роль несколько факторов. Во-первых, у GPTBot была очень высокая активность на старте, что вызвало моментальную обратную реакцию. Владельцы ресурсов начали блокировать любые обращения с таким юзер-агентом. В тех случаях, когда краулер явно заявлял о себе как об ИИ-боте, его почти сразу блокировали.

За чуть более чем год около 90% клиентов, защищающихся от ботов с помощью наших продуктов, полностью заблокировали GPTBot. То есть действие породило противодействие.

Среди топовых сайтов — например в Alexa Top-1000 — доля блокировок в некоторые моменты превышала 30%. Эта цифра плавает в зависимости от политики компании. С точки зрения глобальной картины, интенсивность GPTBot снизилась, но на рынок вышли и другие жадные краулеры, например Perplexity или DeepSeek. Их техническая нагрузка в сумме многократно выше, поэтому GPTBot уже не доминирует.

CNews: ИИ-боты все чаще пытаются «притворяться» живыми пользователями. Насколько сложно технически выявить такие маскировки и каковы наиболее эффективные методы защиты сегодня?

Георгий Тарасов: За последние годы боты проделали большой путь: от примитивных запросов, которые легко можно было определить, как роботные, до мимикрии под человеческое поведение. С развитием антибот-систем краулерам пришлось усложнять маскировку.

Изначально компании ИИ-индустрии, включая OpenAI, просто делали большой объем явных запросов. Получив противодействие, они начали эволюционировать, усложняя внешний вид ботов и маскируясь под пользователей.

Сейчас используются эмуляции устройств — мобильные телефоны, планшеты, десктопы, браузеры Chrome и Firefox. Боты могут скроллить, кликать, переходить между страницами, имитируя поведение человека. Это сильно усложняет детектирование. Алгоритмы антибот-систем также стали многократно сложнее, что привело к своего рода «гонке вооружений» между создателями ботов и системами защиты.

«Если не мы будем создавать качественный контент, кто-то другой будет генерировать более низкокачественные тексты, которыми будут кормить искусственный интеллект»

CNews: Российские компании часто жалуются на нагрузку от ИИ-краулеров в периоды пиковых продаж, например во время «черной пятницы». Как именно бот-трафик влияет на стабильность и затраты бизнеса, и можно ли говорить о реальных финансовых потерях?

Георгий Тарасов: Мы в компании Curator начинали с защиты от ботов как от атаки на отказ в обслуживании. Раньше задача была сугубо технической: фильтровать трафик, чтобы серверы оставались онлайн. Сегодня бот-трафик влияет не только на нагрузку, но и на динамику цен, акции, распродажи — особенно если конкуренты отслеживают цены в реальном времени.

Кроме того, боты могут оставлять отзывы, комментарии, спам, что отражается на репутации и социальной инженерии. Перебор публичных данных также используют для тестирования кибербезопасности. В целом большинство применений бот-трафика — это паразитные, нелегитимные действия, которые могут косвенно и прямо влиять на финансовые показатели бизнеса.

CNews: Власти, включая Роскомнадзор, предпринимают попытки ограничить деятельность GPTBot и аналогичных систем. Насколько такие запреты эффективны, если у разработчиков ИИ есть возможность использовать обходные методы?

Георгий Тарасов: Роскомнадзор достаточно своевременно отреагировал, выпустив рекомендации для компаний, как блокировать явные обращения от GPTBot. Для сайтов, где бот явно заявляет о себе, это этичный и эффективный способ ограничения.

Проблема в том, что при закрытии этой «двери» компании начинают искать обходные методы: скрейперы и парсеры, маскирующие трафик под обычных пользователей, устройства и браузеры. Эти ухищрения требуют больше вычислительных ресурсов и трафика, но решают задачу сбора данных. Административные меры дают базовую защиту, но технически полностью остановить таких ботов невозможно.

CNews: Существует мнение, что собранные ИИ-ботами русскоязычные данные неизбежно становятся частью глобальных датасетов. Можно ли в принципе предотвратить утечку ценного контента в обучение западных моделей или речь идет лишь о снижении масштабов этого процесса?

Георгий Тарасов: Мое мнение может быть непопулярным. Если данные публикуются открыто, без авторизации или аутентификации, доступ к ним возможен независимо от языка или региона. Компании, работающие с ИИ, собирают данные на всех языках, даже если пока не предоставляют сервис в конкретных странах.

Поэтому борьба с «утечкой» открытых данных бессмысленна. Важно работать над качеством публикуемого контента: чтобы тексты на русском языке, попадающие в датасеты, были достоверными и полезными. Если не мы будем создавать качественный контент, кто-то другой будет генерировать более низкокачественные тексты, которыми будут кормить искусственный интеллект.

«Основная борьба идет за самый свежий контент»

CNews: Если говорить о перспективах: какие тенденции вы видите в развитии ИИ-ботов? Будет ли расти их число и сложность или рынок скорее ждет консолидации и появления правил игры?

Георгий Тарасов: Крупные компании, такие как OpenAI, Perplexity, Google, сейчас вырабатывают некоторые правила поведения для взаимодействия с поставщиками данных — соцсетями, онлайн-медиа, поисковыми агрегаторами. Для них самый ценный контент — свежие публикации пользователей, которые можно использовать для обучения моделей.

Однако помимо крупных игроков есть стартапы и продукты, которые не имеют таких возможностей вести диалог с поставщиками данных. Им приходится использовать краулеры, маскирующиеся под реальных пользователей, обходя правовую базу. Поэтому рынок продолжает расти, а краулеры становятся интенсивнее, несмотря на блокировки.

Основная борьба идет за самый свежий контент: новые публикации обходят все существующие нейросети одновременно.

CNews: Известно, что наряду с легитимными ИИ-ботами существуют сценарии их использования для фишинга, взломов или даркнет-проектов. Где проходит грань между «мирным» применением и злоупотреблением и как компании могут защититься от последнего?

Георгий Тарасов: С технической точки зрения инструментов нет «чистых» или «плохих» — они почти одинаковые, эволюционируют с новыми браузерами или защитными технологиями. Разница в целях: кто-то использует ботов для анализа цен и открытых данных, кто-то — для фишинга и кражи информации.

Если информация предназначена для публичного доступа, это не кибератака. Но если данные собираются для мошеннических схем — это злоупотребление. Компании могут защититься, фильтруя трафик, управляя ботами и блокируя подозрительные активности.

CNews: Curator.Antibot позиционируется как решение для защиты от автоматизированных атак. Какие новые вызовы ставит именно появление ИИ-ботов и как вы адаптируете технологию под эти угрозы?

Георгий Тарасов: Появление ИИ-краулеров увеличило нагрузку и изобретательность маскировки. Кроме того, компании используют профессиональных «ботоводов», которые делают ботов сложнее для детектирования.

Мы развиваем неинтерактивные методы анализа, но понимаем, что в ближайшем будущем могут понадобиться интерактивные аутентификации, заменяющие привычные капчи, чтобы проверять, кто человек, а кто бот. При этом мы даем клиентам возможность быть гибкими: где они хотят блокировать ИИ-ботов, а где допускают их активность.

CNews: Если заглянуть на два-три года вперед: каким вы видите баланс между бизнес-потребностями в открытости данных и необходимостью защиты от неконтролируемого ИИ-сбора информации? Возможен ли компромисс или нас ждет эскалация противостояния между провайдерами контента и разработчиками ИИ?

Георгий Тарасов: Я ожидаю эскалацию. С одной стороны, боты собирают все больше публичной информации. С другой, интернет наполняется сгенерированным контентом, который никому кроме ботов не нужен.

Ценные данные, которые использует бизнес, прячутся за аутентификацией и бот-проверками. Их добывать становится все сложнее, а нагрузка на инфраструктуру растет. Баланс между открытостью данных и контролем будет оставаться напряженным, компромисс, скорее всего, ограничен.

Краткая биография

Георгий Тарасов

  • 12-лет опыта работы, в том числе разработчиком, пресейл-инженером, менеджером проектов, специализируясь на высокопроизводительных сетях, распределённых системах и исследовании атак на отказ в обслуживании.
  • Георгий стоял у истоков решения Curator по защите от ботов.
  • В настоящее время – менеджер продукта Curator.CDN.
  • Георгий — опытный технический спикер, выступивший с десятками докладов на конференциях в разных городах и странах.
Рекламаerid:2W5zFG561aYРекламодатель: Общество с ограниченной ответственностью «Эйч-Эль-Эль»ИНН/ОГРН: 7704773923/1117746022074Сайт: https://curator.pro/