Разделы

Бизнес-приложения Техника

Microsoft исправила дефект Excel, который годами бесил ученых

Корпорация Microsoft добавила в Excel возможность отключения автоматического преобразования данных. Ее отсутствие в течение многих лет доставляло ученым-генетикам, нередко использующим популярный редактор, массу неудобств и приводило к возникновению ошибок в научных работах. Для нейтрализации проблемы в 2020 г. международная организация по изучению генома человека была вынуждена изменить правила наименования человеческих генов.

Приятный сюрприз для генетиков

Microsoft выпустила обновление для табличного редактора Excel. В новой версии предусмотрена возможность отключения автоматического конвертирования напоминающих дату последовательностей символов в дату, пишет The Verge.

Призванная, по задумке разработчиков, упростить ввод функция на деле долгое время представляла серьезную проблему для ученых, в частности, занятых исследованиями в сфере генетики и применяющих инструмент корпорации Microsoft в своей работе. Нежеланное преобразование отдельных комбинаций букв и цифр, используемых для обозначения названий генов, в даты приводило к тому, что во множество научных работ по генетике закрадывались ошибки.

Ранее, чтобы минимизировать последствия проблемы, которую по неизвестной причине игнорировала Microsoft, ученые приняли решение изменить названия нескольких десятков генов.

Как воспользоваться новшеством

Для того, чтобы воспользоваться новой возможностью, необходимо в Excel перейти в меню «Файл» (File) -> «Параметры» (Options), переключиться на вкладку «Данные» (Data) и в ней деактивировать переключатель «Преобразовывать непрерывные буквы и цифры в даты» (Convert continuous letters and numbers to a date).

Фото: Microsoft
Настройки, позволяющие отключить автоматическое преобразование данных в Excel

Опция доступна пользователям десктопных приложений Excel для операционных систем семейств Windows, начиная с версии 2309 (сборка 168808.10000 и более поздние); macOS, начиная с версии 16.77 (сборка 23091003 и более поздние). О сроках появления функции в мобильной и веб-версии редактора таблиц не сообщается.

Корни проблемы

В 2020 г. комитет HGNC (HUGO Gene Nomenclature Committee) международной организации по изучению генома человека (HUGO) выпустил обновленное руководство по наименованию человеческих генов.

В нем, в частности, сообщалось об изменении названий нескольких генов. Часть из них – не менее 27 штук – были переименованы в связи с неправильной интерпретации соответствующих названий табличным редактором Microsoft Excel в конфигурации по умолчанию.

Программа «воспринимала» их как даты и приводила ячейку и ее содержимое в соответствующий формат. К примеру, такое поведение наблюдалось при вводе или загрузке в ячейку таких названий генов человека как MARCH1 (аббревиатура для “Membrane Associated Ring-CH-Type Finger 1”) и SEPT1 (“Septin 1”), которые автоматически превращались в “1-Mar” (первое марта) и “1-Sep” (первое сентября). Эти конкретные гены решением комиссии были переименованы в MARCHF1 и SEPTIN1.

Фото: Microsoft
Microsoft добавила востребованную функцию в Excel из состава пакета Office

Названия генам – длинное и сокращенное (генный символ) – присваиваются решением комитета HGNC. Символ должен быть уникальным, состоять из набора заглавных латинских букв и арабских цифр.

Особенность Excel, создававшая проблемы ученым при загрузке данных генетических исследований для дальнейшего анализа, в действительности имеет сравнительно простое решение: достаточно выбрать диапазон ячеек, данные в которых не следует ни в коем случае автоматически преобразовывать в дату, и вручную изменить его формат с «общего» на «текстовый».

Дискуссия в метавселенной: ИИ, обмен данными и иммерсивные сценарии
ИТ в банках

Однако при экспорте такой таблицы в CSV-файл особенности форматирования оказываются утраченными и при повторной его загрузке в Excel другим специалистом-генетиком его тоже ожидает аналогичная проблема.

Согласно выводам исследования, проведенного австралийскими учеными в 2016 г., примерно в одной пятой от общего числа научных работ по генетике, сопровождающихся дополнительными материалами в виде таблиц Excel, содержатся ошибки наименования генов. Всего ученые изучили 3597 публикаций, вышедших с 2005 по 2015 гг.

«Это [автоматическое преобразование данных] очень, очень раздражает», – заявил в разговоре с The Verge Дезсо Модос (Dezső Módos), системный биолог из Quadram Institute в Великобритании, который по роду деятельности часто занимается обработкой свежих данных генетических исследований. По его словам, ошибки такого рода в Excel, который является крайне распространненым инструментом, возникают постоянно.

Дмитрий Степанов