Источник фото: scientificrussia.ru
Международный коллектив исследователей из Института общей и неорганической химии им. Н.С. Курнакова РАН, НИУ ВШЭ, МГУ им. М.В. Ломоносова и Венского университета представил самую масштабную на сегодняшний день базу данных растворимости органических соединений в неводных растворителях BigSolDB 2.0. Этот уникальный ресурс содержит свыше 100 тысяч экспериментальных значений и предназначен для создания моделей машинного обучения в химии и фармацевтике.
Как пояснил Лев Краснов, младший научный сотрудник ИОНХ РАН, в ходе работы было проанализировано 1595 научных статей, из которых извлечено 103 944 экспериментальных данных по растворимости 1448 органических соединений в 213 различных растворителях. Температурный диапазон исследований охватывает значения от 243 до 425 K (-30°C до +152°C). Особое внимание уделялось качеству данных — все записи прошли тщательную проверку, стандартизацию и валидацию.
Все молекулярные структуры в базе представлены в машиночитаемом формате SMILES, а значения растворимости приведены к логарифмической шкале LogS, что делает данные оптимальными для обработки алгоритмами машинного обучения. Для удобства пользователей разработано специальное онлайн-приложение, позволяющее осуществлять поиск как по химической структуре, так и по тривиальным названиям соединений.
До настоящего времени большинство исследований в этой области фокусировались исключительно на водных растворах, тогда как новая база данных охватывает широкий спектр органических растворителей, включая низкомолекулярные спирты, ацетон, этилацетат и ацетонитрил. Это открывает новые возможности для различных отраслей — от фармацевтики, где растворимость определяет эффективность препаратов, до химической промышленности, где точные данные необходимы для разработки новых материалов.
Исследование, поддержанное Министерством науки и высшего образования Российской Федерации в рамках государственного задания ИОНХ РАН, опубликовано в научном журнале Scientific Data. По мнению разработчиков, BigSolDB 2.0 не только решает проблему дефицита комплексных данных по растворимости, но и создает основу для ускоренного проектирования новых химических соединений с заданными свойствами, что может значительно сократить временные и финансовые затраты на проведение экспериментов.