ИИ-боты в интернете становятся все активнее, и многие из них маскируются под обычных пользователей. Они собирают данные для обучения языковых моделей и других продуктов на базе ИИ, при этом отличаются высокой интенсивностью, избирательностью контента и нередко игнорируют правила сайтов. О том, как меняется бот-трафик, чем современные ИИ-краулеры отличаются от классических роботов и как компании защищают свои ресурсы, рассказывает Георгий Тарасов, менеджер продукта Curator.CDN компании Curator.
Георгий ТарасовCurator
«За последние годы боты проделали большой путь»
CNews: Сегодня мы наблюдаем рост активности ИИ-ботов, в том числе маскирующихся под обычных пользователей. Насколько сильно изменилась картина бот-трафика за последние полтора года и в чем главные отличия новых ИИ-краулеров от классических поисковых роботов?
Георгий Тарасов: Сегодня доля бот-трафика, создаваемого специально для поддержки ИИ-инфраструктуры и обучения генеративных моделей, заметно выросла. Это однозначно общий тренд. Раньше боты в основном использовались в коммерческих целях, для хакеров или в серой зоне интернета. Но с 2023 года начался активный перебор публичной информации крупными краулерами, за которыми подтянулись более мелкие игроки. Этот трафик растет количественно и занимает все большую долю.
Главное отличие новых краулеров от классических поисковых роботов, таких как Яндекс, Google или Bing, в том, что они не индексируют все страницы подряд. Их интересуют определенные диапазоны контента, который потом используют для обучения языковых моделей в зависимости от компании. Эти краулеры работают гораздо интенсивнее, делают больше запросов в единицу времени и часто игнорируют правила сайта, например указания в файле robots.txt.
CNews: По вашим данным, GPTBot от OpenAI в момент запуска стал одним из самых заметных ботов в российском сегменте, но позже его активность снизилась. Чем это вызвано — блокировками, развитием антибот-систем или изменением стратегии самой OpenAI?
Георгий Тарасов: Здесь сыграли роль несколько факторов. Во-первых, у GPTBot была очень высокая активность на старте, что вызвало моментальную обратную реакцию. Владельцы ресурсов начали блокировать любые обращения с таким юзер-агентом. В тех случаях, когда краулер явно заявлял о себе как об ИИ-боте, его почти сразу блокировали.
За чуть более чем год около 90% клиентов, защищающихся от ботов с помощью наших продуктов, полностью заблокировали GPTBot. То есть действие породило противодействие.
Среди топовых сайтов — например в Alexa Top-1000 — доля блокировок в некоторые моменты превышала 30%. Эта цифра плавает в зависимости от политики компании. С точки зрения глобальной картины, интенсивность GPTBot снизилась, но на рынок вышли и другие жадные краулеры, например Perplexity или DeepSeek. Их техническая нагрузка в сумме многократно выше, поэтому GPTBot уже не доминирует.
CNews: ИИ-боты все чаще пытаются «притворяться» живыми пользователями. Насколько сложно технически выявить такие маскировки и каковы наиболее эффективные методы защиты сегодня?
Георгий Тарасов: За последние годы боты проделали большой путь: от примитивных запросов, которые легко можно было определить, как роботные, до мимикрии под человеческое поведение. С развитием антибот-систем краулерам пришлось усложнять маскировку.
Изначально компании ИИ-индустрии, включая OpenAI, просто делали большой объем явных запросов. Получив противодействие, они начали эволюционировать, усложняя внешний вид ботов и маскируясь под пользователей.
Сейчас используются эмуляции устройств — мобильные телефоны, планшеты, десктопы, браузеры Chrome и Firefox. Боты могут скроллить, кликать, переходить между страницами, имитируя поведение человека. Это сильно усложняет детектирование. Алгоритмы антибот-систем также стали многократно сложнее, что привело к своего рода «гонке вооружений» между создателями ботов и системами защиты.
«Если не мы будем создавать качественный контент, кто-то другой будет генерировать более низкокачественные тексты, которыми будут кормить искусственный интеллект»
CNews: Российские компании часто жалуются на нагрузку от ИИ-краулеров в периоды пиковых продаж, например во время «черной пятницы». Как именно бот-трафик влияет на стабильность и затраты бизнеса, и можно ли говорить о реальных финансовых потерях?
Георгий Тарасов: Мы в компании Curator начинали с защиты от ботов как от атаки на отказ в обслуживании. Раньше задача была сугубо технической: фильтровать трафик, чтобы серверы оставались онлайн. Сегодня бот-трафик влияет не только на нагрузку, но и на динамику цен, акции, распродажи — особенно если конкуренты отслеживают цены в реальном времени.
Кроме того, боты могут оставлять отзывы, комментарии, спам, что отражается на репутации и социальной инженерии. Перебор публичных данных также используют для тестирования кибербезопасности. В целом большинство применений бот-трафика — это паразитные, нелегитимные действия, которые могут косвенно и прямо влиять на финансовые показатели бизнеса.
CNews: Власти, включая Роскомнадзор, предпринимают попытки ограничить деятельность GPTBot и аналогичных систем. Насколько такие запреты эффективны, если у разработчиков ИИ есть возможность использовать обходные методы?
Георгий Тарасов: Роскомнадзор достаточно своевременно отреагировал, выпустив рекомендации для компаний, как блокировать явные обращения от GPTBot. Для сайтов, где бот явно заявляет о себе, это этичный и эффективный способ ограничения.
Проблема в том, что при закрытии этой «двери» компании начинают искать обходные методы: скрейперы и парсеры, маскирующие трафик под обычных пользователей, устройства и браузеры. Эти ухищрения требуют больше вычислительных ресурсов и трафика, но решают задачу сбора данных. Административные меры дают базовую защиту, но технически полностью остановить таких ботов невозможно.
CNews: Существует мнение, что собранные ИИ-ботами русскоязычные данные неизбежно становятся частью глобальных датасетов. Можно ли в принципе предотвратить утечку ценного контента в обучение западных моделей или речь идет лишь о снижении масштабов этого процесса?
Георгий Тарасов: Мое мнение может быть непопулярным. Если данные публикуются открыто, без авторизации или аутентификации, доступ к ним возможен независимо от языка или региона. Компании, работающие с ИИ, собирают данные на всех языках, даже если пока не предоставляют сервис в конкретных странах.
Поэтому борьба с «утечкой» открытых данных бессмысленна. Важно работать над качеством публикуемого контента: чтобы тексты на русском языке, попадающие в датасеты, были достоверными и полезными. Если не мы будем создавать качественный контент, кто-то другой будет генерировать более низкокачественные тексты, которыми будут кормить искусственный интеллект.
«Основная борьба идет за самый свежий контент»
CNews: Если говорить о перспективах: какие тенденции вы видите в развитии ИИ-ботов? Будет ли расти их число и сложность или рынок скорее ждет консолидации и появления правил игры?
Георгий Тарасов: Крупные компании, такие как OpenAI, Perplexity, Google, сейчас вырабатывают некоторые правила поведения для взаимодействия с поставщиками данных — соцсетями, онлайн-медиа, поисковыми агрегаторами. Для них самый ценный контент — свежие публикации пользователей, которые можно использовать для обучения моделей.
Однако помимо крупных игроков есть стартапы и продукты, которые не имеют таких возможностей вести диалог с поставщиками данных. Им приходится использовать краулеры, маскирующиеся под реальных пользователей, обходя правовую базу. Поэтому рынок продолжает расти, а краулеры становятся интенсивнее, несмотря на блокировки.
Основная борьба идет за самый свежий контент: новые публикации обходят все существующие нейросети одновременно.
CNews: Известно, что наряду с легитимными ИИ-ботами существуют сценарии их использования для фишинга, взломов или даркнет-проектов. Где проходит грань между «мирным» применением и злоупотреблением и как компании могут защититься от последнего?
Георгий Тарасов: С технической точки зрения инструментов нет «чистых» или «плохих» — они почти одинаковые, эволюционируют с новыми браузерами или защитными технологиями. Разница в целях: кто-то использует ботов для анализа цен и открытых данных, кто-то — для фишинга и кражи информации.
Если информация предназначена для публичного доступа, это не кибератака. Но если данные собираются для мошеннических схем — это злоупотребление. Компании могут защититься, фильтруя трафик, управляя ботами и блокируя подозрительные активности.
CNews: Curator.Antibot позиционируется как решение для защиты от автоматизированных атак. Какие новые вызовы ставит именно появление ИИ-ботов и как вы адаптируете технологию под эти угрозы?
Георгий Тарасов: Появление ИИ-краулеров увеличило нагрузку и изобретательность маскировки. Кроме того, компании используют профессиональных «ботоводов», которые делают ботов сложнее для детектирования.
Мы развиваем неинтерактивные методы анализа, но понимаем, что в ближайшем будущем могут понадобиться интерактивные аутентификации, заменяющие привычные капчи, чтобы проверять, кто человек, а кто бот. При этом мы даем клиентам возможность быть гибкими: где они хотят блокировать ИИ-ботов, а где допускают их активность.
CNews: Если заглянуть на два-три года вперед: каким вы видите баланс между бизнес-потребностями в открытости данных и необходимостью защиты от неконтролируемого ИИ-сбора информации? Возможен ли компромисс или нас ждет эскалация противостояния между провайдерами контента и разработчиками ИИ?
Георгий Тарасов: Я ожидаю эскалацию. С одной стороны, боты собирают все больше публичной информации. С другой, интернет наполняется сгенерированным контентом, который никому кроме ботов не нужен.
Ценные данные, которые использует бизнес, прячутся за аутентификацией и бот-проверками. Их добывать становится все сложнее, а нагрузка на инфраструктуру растет. Баланс между открытостью данных и контролем будет оставаться напряженным, компромисс, скорее всего, ограничен.
■ Рекламаerid:2W5zFG561aYРекламодатель: Общество с ограниченной ответственностью «Эйч-Эль-Эль»ИНН/ОГРН: 7704773923/1117746022074Сайт: https://curator.pro/