Ученые Академгородка разрабатывают приложение для поточной обработки данных рентгеновской фотоэлектронной спектроскопии
Приложение для поточной обработки данных рентгеновской фотоэлектронной спектроскопии (РФЭС), пользоваться которым смогут ученые без навыков программирования, разрабатывают ученые Новосибирского государственного университета и Института катализа им. Г.К. Борескова СО РАН. Данное приложение станет своего рода конвейером поточной обработки спектров, в который интегрирована глубокая нейронная сеть. Об этом CNews сообщили представители НГУ.
Модель глубокого машинного обучения для автоматизации анализа спектров РФЭС в рамках своей дипломной работы разработал выпускник бакалавриата Факультета естественных наук Новосибирского государственного университета Артем Вахрушев. Его проект вошел в число победителей как первого, так и второго раундов молодежного конкурса научно-исследовательских проектов «Рентгеновские, синхротронные, нейтронные методы междисциплинарных исследований». В 2025 г. молодой исследователь защитил дипломную работу, в которой представил первую версию приложения с графическим интерфейсом. Нейросеть для обработки спектров Артем Вахрушев разрабатывал при финансовой поддержке Министерства науки и высшего образования России в рамках государственного задания ИК СО РАН (проект FWUR-2024-0032), а также при поддержке Программы «Приоритет—2030». В настоящее время Артем Вахрушев проходит дипломную практику в ИК СО РАН и продолжает вместе со своими старшими коллегами работать над совершенствованием приложения для обработки данных РФЭС.
Рентгеновская фотоэлектронная спектроскопия (РФЭС) — спектроскопический метод исследования элементного состава, химического и электронного состояния атомов изучаемого материала, основанный на явлении внешнего фотоэффекта. Спектры РФЭС получают путем облучения материала пучком рентгеновских лучей с регистрацией зависимости количества испускаемых электронов от их энергии связи. Метод РФЭС — один из самых распространенных спектроскопических методов в катализе, материаловедении, физике полупроводников и многих других областях современной науки. В настоящее время обработка рентгеновских фотоэлектронных спектров в подавляющем большинстве случаев осуществляется вручную и представляет собой рутинный процесс — на описание одного спектра у научного сотрудника уходит от 10 минут. Классические алгоритмы анализа спектров могут вызывать значительную ошибку при обнаружении и подгонке пиков, и поэтому не могут использоваться в задачах автоматизации.
«Задача автоматизации анализа данных РФЭС очень актуальна, и ее значимость только возрастает в связи с запуском ЦКП «Сибирский кольцевой источник фотонов» (СКИФ). С введением в эксплуатацию соответствующей станции, обладающей большой производительностью, объем данных многократно увеличится, и потребуются инструменты для их автоматической обработки. Необходимо будет получать первичную информацию со скоростью, превышающей скорость традиционного анализа, например, ручного. Существует достаточно большое количество классических подходов к решению этой задачи, но, к сожалению, они не универсальны. Чтобы ученые не тратили ценное экспериментальное время на промежуточный анализ полученных спектров, необходимый для принятия решения о дальнейшем ходе исследования, мы и создаем свое приложение. Важная часть данного продукта — нейронная сеть, перед которой поставлена задача идентифицировать пик и его область, после чего на конвейере производится его разложение по классическим алгоритмам, используемым в стандартных программных продуктах. Для удобства пользователей все эти компоненты объединены графическим интерфейсом, и у них нет никакой необходимости разбираться в коде. Все, что предлагается пользователю, — некая оболочка, в которую он может загрузить спектры РФЭС и на выходе получить готовую информацию. Важно, что у пользователя есть возможность при этом объединять разные файлы и выбирать различные возможности выдачи информации, что в итоге приводит к значительному ускорению анализа спектров», — сказала преподаватель, доцент Факультета естественных наук НГУ, старший преподаватель Физического факультета НГУ, старший научный сотрудник ИК СО РАН Анна Нартова.

Модели нейронных сетей способны обрабатывать такие неструктурированные данные, как изображения и последовательности сигналов, находя в них закономерности и оптимизируя ручной труд, поэтому задачи обработки спектров могут быть решены методами глубокого машинного обучения. Разработчики приложения рассматривали проблему обнаружения пиковых площадей и максимумов как проблему сегментации, а для обучения модели использовали синтетические данные. Каждый такой спектр включал в себя шум, пики и фон неупругого рассеяния. Разработка архитектуры модели, ее обучение и тестирование были выполнены с использованием PyTorch на Python. А поскольку архитектура была оптимизирована для быстрого вывода, процесс обработки спектра занимает менее секунды на домашнем ноутбуке, тогда как ручная обработка занимает как минимум 10 минут. Работая над своей дипломной работой, Артем Вахрушев обработал более сотни спектров за 30 минут, тогда как при обычным методе обработки на это потребовалось несколько дней. Принципиально важной особенностью использования нейронных сетей является то, что по мере развития их самих и обучающего набора данных, у разработчиков появляется возможность без принципиальных изменений всей системы добавлять и изменять сам модуль и тем самым улучшать результат анализа спектров. Поэтому работа по совершенствованию самого приложения и обучающего нейросеть набора данных будет продолжена.
«В приложение заложены возможности развития и совершенствования по мере продвижения научного и технологического прогресса, и мы продолжим работу в данном направлении. В качестве данных для проверки модели и алгоритмов постобработки использовались спектры хлорида серебра (AgCl). Работы проводились по гранту РНФ № 24-63-00037, в рамках которого планируется в дальнейшем широко использовать данную автоматизацию. В ходе тестирования выяснилось, что наш поход, сочетающий в себе сегментацию спектров нейросетью и алгоритмов постобработки, хорошо согласуется с результатами ручного анализа. Уже этим летом мы провели бета-тестирование нашего приложения в ИК СО РАН с привлечением наших коллег — высококвалифицированных экспертов в области РФЭС. Ученые, участвующие в экспериментах и являющиеся специалистами в области РФЭС, составили для нас список своих пожеланий и пояснили, чего им не хватает для эффективной и комфортной работы с нашим приложением. В ближайшие полгода мы будем над этим работать, учитывая все их потребности и замечания. Благодаря нашей работе в ИК СО РАН по применению РФЭС для исследования различных катализаторов и материалов у нас сформирована обширная база данных спектров, которыми мы пользуемся и планируем применять в дальнейшем в качестве обучающего дата-сета. Мы уверены, что такая автоматизация так или иначе должна быть обязательно интегрирована в СКИФ, потому что иначе большая часть данных, которая будет получена на его станции РФЭС, может быть утрачена: немалая часть спектров не будет проанализирована, а значит, не будут получены результаты некоторых экспериментов — положительные или отрицательные. Они могут просто быть пропущены и затеряются в лавине информации, обработка которой требует от исследователей больших временных и физических затрат. Нейтросети же способны справляться с ней практически мгновенно и в значительно больших объемах, а потому их использование необходимо», — сказала Анна Нартова.