Российские ученые представили общедоступную онлайн-платформу SpecML, предназначенную для прогнозирования оптических свойств новых органических красителей на основе их молекулярной структуры с применением технологий машинного обучения. Разработка специалистов из Института химии растворов имени Г.А. Крестова РАН (Иваново) позволяет химикам, биологам и материаловедам определять спектральные характеристики соединений в десятки раз быстрее и с многократно более высокой точностью по сравнению с классическими квантово-химическими методами расчетов. Особенностью алгоритма является его способность учитывать влияние растворителя на оптические свойства молекулы, что критически важно для практического применения красителей. Как отметил руководитель проекта, старший научный сотрудник института Александр Ксенофонтов, SpecML представляет собой простой и мощный инструмент для дизайна материалов, который находится в открытом доступе и может быть использован любым заинтересованным исследователем для ускорения разработки новых красителей с заранее заданными свойствами.

Новая платформа ориентирована прежде всего на работу с красителями класса бор(III)дипиррометенов (BODIPY), которые широко применяются в качестве флуоресцентных маркеров в медицине, химических и биологических сенсорах. Эти молекулы способны испускать яркое свечение, а их химическая модификация позволяет смещать длину волны излучения в необходимую область спектра. Особую ценность представляют красители, работающие в так называемом фототерапевтическом «окне» (650–900 нанометров), где биологические ткани максимально прозрачны для света, что делает их незаменимыми для диагностики опухолей, воспалений и нарушений кровообращения. Однако традиционный процесс создания такого красителя с заданными характеристиками требует трудоемкого синтеза и последующей экспериментальной проверки, тогда как квантово-химические расчеты, призванные оптимизировать поиск, требуют значительных вычислительных ресурсов и времени.
Модели машинного обучения, лежащие в основе SpecML, были обучены на обширном массиве, включающем около 36 000 экспериментальных записей для более чем 6 500 уникальных молекул BODIPY, исследованных в 82 различных растворителях. Такой объем данных позволил алгоритму выявлять сложные взаимосвязи между структурой молекулы и ее оптическими свойствами, прогнозируя с точностью от 70 до 90% такие параметры, как длина волны поглощения и испускания, эффективность и время жизни флуоресценции. В сравнительных тестах на предсказание свойств 300 известных молекул SpecML продемонстрировал результат за секунды при ошибке в восемь раз меньшей, чем у классических квантово-химических расчетов, занимающих часы.
По словам Александра Ксенофонтова, в дальнейшем планируется дообучение моделей на расширенном массиве данных и добавление новых функциональных возможностей в платформу, что будет способствовать созданию более эффективных флуоресцентных маркеров для терапии онкологических заболеваний и материалов для органической электроники следующего поколения. Исследование выполнено при поддержке гранта Российского научного фонда.