Спецпроекты

HeadHunter запатентовал технологию скоростного поиска вакансий и сотрудников

Бизнес Интернет Веб-сервисы Маркет
Патент компании HeadHunter на «умное сжатие» данных с технологией машинного обучения позволяет ускорить отбор подходящих вакансий, сократив время и расходы на создание рекомендаций.

Умный хедхантинг

Компания HeadHunter запатентовала компоненты технологии «умного» поиска сайта hh.ru для рекомендации резюме и вакансий. В качестве патентообладателя изобретения указано ООО «Хэдхантер», авторами указаны Георгий Даньщин, Виктор Реушкин и Александр Сидоров.

Патентная заявка к изобретению под названием «Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных» опубликована за №2019107661 на сайте Федеральной службы по интеллектуальной собственности (Роспатент).

Как рассказал CNews Александр Сидоров, руководитель направления анализа данных компании HeadHunter и один из изобретателей технологии, запуск запатентованных технологий в рамках умного поиска hh.ru был произведен во второй половине 2019 г., однако разработка проекта продолжалась на протяжении нескольких лет, начиная с 2017 г.

Патентная заявка описывает изобретение как специализированную систему для поиска вакансий и резюме «в рекомендательных системах подбора персонала с большим количеством записей в базах данных». Суть изобретения сводится к применению особого алгоритма сжатия данных из резюме и вакансий с минимальной потерей смысла. Это значительно ускоряет их обработку, обеспечивая при этом выборку релевантных по тексту и смыслу документов из миллионов резюме и сотен тысяч вакансий за сотни миллисекунд.

Отобранные таким образом данные применяются для ускоренного предварительного отбора вакансий и резюме, и затем с помощью моделей машинного обучения производится точный отбор подходящих кандидатов.

По информации пояснительной записки к изобретению, весь комплекс компонентов технологии поиска для сайта HeadHunter преимущественно работает лучше правил, подобранных вручную. При этом качество рекомендаций резюме и вакансий повышается, на их обработку затрачивается меньше вычислительных ресурсов.

Особенности технологии «умного» хедхантинга

Ключевой проблемой поиска соответствий резюме и вакансий является огромное число возвращаемых поисковых результатов, обусловленное большим количеством объявлений о поиске работы теми, кто уже трудоустроен, но потенциально готов сменить работу. В итоге множество однотипных результатов поиска затрудняет быстрый и верный выбор кандидата. Обратная задача проще, поскольку число вакансий, как правило, на порядок или два меньше числа резюме в базе данных.

Запатентованный умный поиск внедрен в hh.ru в 2019 г.

Изобретение используется как для обработки запросов работодателей при поиске в базе резюме, так и для обработки запросов соискателей при поиске вакансий. Изобретение hh.ru предлагает автоматизированный поиск релевантных документов для рекомендательного подбора персонала с машинным обучением и с понижением размерности многомерных данных.

Алгоритм понижает размерности части векторного представления текста и смысловых категорий в вакансии и резюме до последовательностей из нескольких битов, составляет из них LSH-хеши (Locality-sensitive hashing — вероятностный метод для понижения размерности многомерных данных).

Длина хэш-функции может быть задана заранее. В процессе обработки запроса LSH-хеши сравниваются прямо в поисковом движке, и далее вакансия помещается в предварительный список только при совпадении ее LSH-хеша с LSH-хешем резюме до 1 бита. Так удается экономить расход машинного времени без снижения качества рекомендаций и количества откликов.

Уменьшение размерности также позволяет представлять тексты для обучающих моделей на ансамблях решающих деревьев. В векторном представлении текст вакансии и резюме обычно составлен из векторов длиной порядка 40 тыс. значений для вакансии и около 60 тыс. для резюме, где преимущественно записаны нули.

Пример платформы умного поиска. Источник: Роспатент

Алгоритм hh.ru уменьшает размерности векторов терминов и использует их как признаки для ансамблей решающих деревьев. Такой подход для рекомендаций вакансий дает порядка 2 900 дополнительных откликов в сутки, в поиске вакансий — порядка 4 500 откликов в сутки.

По словам Александра Сидорова, обучение представляет собой перманентный процесс, который подразумевает улучшение алгоритмов умного поиска за счет постоянно обновляемой базы данных.

Эффективность и перспективы технологии

Как отмечено в пояснительной записке к патенту, отказ от изобретения снизил бы число откликов на вакансии примерно на 5%, при этом рекомендованные резюме для 75% вакансий появлялись бы на сутки позже, а не сразу после создания вакансии.

В дополнение, значительно бы увеличилось время обработки данных для рекомендации резюме – с нынешних 200 миллисекунд, и потребовались бы значительно большие серверные мощности, что в конечном итоге повлияло бы на стоимость сервиса для работодателей.

За счет экономии времени пользователей и вычислительных мощностей, алгоритм позволяет внедрять сложные модели машинного обучения для более качественных рекомендаций. В качестве обучающих данных используется реакция пользователей на результаты работы поисковой системы.

Отвечая на вопрос о том, возможна ли интеграция описанных в патенте компонентов технологии в сервисах для других отраслей, Александр Сидоров пояснил, что технология разрабатывалась специально для оптимизации бизнес-процессов компании HeadHunter, однако внедрение компонентов этого изобретения могло бы показать высокую эффективность в любых отраслях, где требуется получение быстрого результата при сопоставлении больших массивов данных.