«Перфоманс Лаб» добавила в DataSan ИИ-профилирование для ускорения и повышения точности обезличивания данных
Компания «Перфоманс Лаб» анонсировала выход крупного обновления решения для обезличивания данных DataSan. В новой версии интегрирована функция профилирования персональных данных (ПДн) на базе алгоритмов машинного обучения (ML). Это позволяет автоматизировать поиск и классификацию ПДн в больших массивах данных, снижая трудозатраты и повышая точность. Об этом CNews сообщили представители компании «Перфоманс Лаб».
DataSan — решение для деперсонализации данных в тестовых и аналитических средах. Продукт позволяет создавать безопасные, обезличенные копии баз данных, сохраняя при этом их структуру, логику и связность. Решение исключает риски утечки чувствительной информации и помогает компаниям соблюдать требования Федерального закона № 152-ФЗ «О персональных данных» при разработке и тестировании. Запись в реестре отечественного ПО №22780 от 06.06.2024.
В новой версии решения используется предобученная LLM-модель, которая анализирует наименования и содержимое колонок в базах данных, а также их корреляцию. Это позволяет с точностью до 95% обнаруживать и классифицировать различные типы ПДн. К ним относятся ФИО, адреса, номера телефонов, банковские карты, паспортные данные, а также биометрические и специальные категории данных, например национальная принадлежность или религиозные убеждения.
Ручной и полуавтоматический методы поиска ПДн в базах занимают много времени и ресурсов, при этом ручной поиск не отличается высокой точностью. Функция ИИ-профилирования в DataSan ускоряет процесс поиска данных до 10 раз по сравнению с полуавтоматическим режимом, что позволяет обрабатывать десятки терабайт информации, то есть базы данных любого размера. При этом оператор проверяет только конечные результаты работы модели.
Одно из ключевых преимуществ решения — высокая производительность поиска ПДн до 300 столбцов в час на одном ядре процессора. DataSan проводит глубокий анализ большого количества строк, сохраняя высокую точность выходных данных. Пользователи могут настраивать правила профилирования, включая и исключая необходимые атрибуты.

Например, в рамках пилотного проекта финансовая компания смогла завершить поиск ПДн в одном миллиарде строк в 10 раз быстрее полуавтоматического режима, обнаружив 93% всех персональных данных.
«Ручной поиск и классификация персональных данных — это львиная доля всей задачи маскирования. С учетом растущих требований регуляторов, особенно в части защиты ПДн, бизнесу необходимо эффективное решение для выполнения ФЗ без потери качества. Функция ИИ-профилирования в DataSan не только значительно ускоряет этот процесс, но и удешевляет деперсонализацию как ключевой процесс защиты данных», — сказал Василий Жидков, владелец продукта DataSan.
Обновление уже доступно всем клиентам DataSan с момента анонса.