Академия / Статьи / AI и машинное обучение / MOSAIC: Yale создал мозаику из 2 498 малых ИИ-моделей для химического синтеза

MOSAIC: Yale создал мозаику из 2 498 малых ИИ-моделей для химического синтеза

Исследователи Yale University, во главе с Тимоти Ньюхаусом (Timothy Newhouse) и Виктором Батистой (Victor Batista), представили революционный подход к предсказанию химических реакций. Их система MOSAIC (Multiple Optimized Specialists for AI-assisted Chemical Prediction) — это не одна гигантская модель, а мозаика из 2498 специализированных малых языковых моделей, каждая из которых обучена предсказывать определённые типы химических реакций. Результаты, опубликованные в Nature, показывают, что специализированный подход превосходит универсальные модели в точности и практичности.

MOSAIC: Yale создал мозаику из 2 498 малых ИИ-моделей для химического синтеза
⚗️ Ключевые показатели MOSAIC

2498 специализированных малых LLM на базе Llama 3.1

1M+ процедур синтеза из патентной литературы

95% точность предсказания успешных реакций

35/37 нестандартных реакций выполнены по предсказаниям

полный вывод экспериментальных процедур на английском

Проблема универсальности в органической химии

Традиционные подходы к ИИ в химии сталкиваются с фундаментальной проблемой. Органическая химия невероятно разнообразна: существуют тысячи различных типов реакций, каждая с собственными правилами, катализаторами, растворителями и условиями температуры. Единая универсальная модель должна быть таким огромным резервуаром знаний, что становится неэффективной и дорогой в обучении и применении.

Кроме того, большие языковые модели, обученные на общих текстах, часто "галлюцинируют" — выдумывают реакции, которые на практике не работают. В то время как для литературы или кода небольшая ошибка приемлема, в химии неправильное предсказание может привести к вспыхиванию в лаборатории или потере драгоценных реагентов.

Мы задались вопросом: почему мы пытаемся обучить одну модель всему, если химия естественным образом разделяется на тысячи подмножеств? Каждый тип реакции имеет свои закономерности, и модель, обученная только на этих закономерностях, может быть одновременно меньше и точнее.

Архитектура MOSAIC: специализация вместо универсальности

Вместо создания одной большой модели, команда Yale разработала радикально иной подход. Они разделили 1+ миллион процедур синтеза из патентной литературы на тысячи подмножеств, каждое содержащее реакции одного конкретного типа: реакции замещения, конденсации, окисления-восстановления, циклизации и так далее.

На каждом подмножестве была обучена отдельная небольшая языковая модель на базе Llama 3.1. Размер каждой модели варьировался от нескольких миллионов до нескольких миллиардов параметров в зависимости от сложности типа реакции. В сумме вся система содержит 2498 таких специализированных моделей.

Компонент системы Количество Средний размер модели
Типы химических реакций 2498 1.2B параметров
Процедуры синтеза (обучение) 1,240,000+ ~495 процедур на модель
Валидационный набор 87,000 35 процедур на модель
Маршрутизаторы (классификаторы) 5 Иерархическая схема
Интеллектуальная маршрутизация: Система использует иерархическую архитектуру маршрутизации. Когда пользователь вводит запрос о синтезе, специальный классификатор сначала определяет тип реакции, затем направляет запрос к одной или нескольким релевантным специализированным моделям.

Вывод полных экспериментальных процедур

Одно из самых впечатляющих достижений MOSAIC — способность генерировать полные, пошаговые экспериментальные процедуры на понятном английском языке. Это не просто предсказание молекулярной структуры продукта, а полная инструкция, которую химик может использовать в лаборатории.

🧪 Что включает вывод MOSAIC
  • Реагенты и растворители: Точное количество, молярность, источники
  • Температурные режимы: Начальные, промежуточные и финальные температуры
  • Катализаторы и добавки: Специфические условия использования
  • Времена реакции: В какой момент добавлять компоненты, как долго выдерживать
  • Выделение и очистка: Методы выделения продукта из смеси
  • Хранение и безопасность: Рекомендации по обращению и хранению
  • Выход и чистота: Ожидаемые результаты и контрольные методы

Тестирование на нестандартных реакциях

Самым убедительным доказательством мощи системы MOSAIC стало тестирование на реакциях, которых никогда не было в обучающем наборе. Исследователи выбрали 37 новых синтетических путей, которые были разработаны химиками экспериментально, но никогда не документировались в патентной литературе.

MOSAIC предсказал условия для 35 из этих 37 реакций, и при синтезе в лаборатории эти условия сработали без изменений. Это означает, что система не просто запомнила данные обучения, а научилась действительно понимать принципы химического синтеза и может применять их к новым ситуациям.

Когда мы впервые увидели, что предсказания MOSAIC работают на синтезах, которых система никогда не видела, мы поняли, что достигли качественного прорыва. Система не просто интерполирует, она экстраполирует знание химии.

Преимущества специализированного подхода

MOSAIC демонстрирует несколько ключевых преимуществ по сравнению с универсальными моделями для молекулярного дизайна:

Точность и надежность

Специализированные модели достигают точности 95% в предсказании успешных реакций, тогда как универсальные модели обычно находятся на уровне 60-75%. Это критически важно для применения в фармацевтике и материаловедении, где неправильное предсказание может быть дорогостоящим.

Интерпретируемость

Поскольку каждая модель направлена на один тип реакции, её предсказания легче интерпретировать. Химики могут понять, почему модель выбрала определённые условия, опираясь на известные механизмы этого типа реакции.

Масштабируемость и поддерживаемость

Если появляется новый тип реакции или новые данные, не нужно переобучать всю систему. Достаточно добавить новую специализированную модель или обновить существующую. Это делает систему намного более гибкой по сравнению с монолитными архитектурами.

Энергоэффективность

Множество малых моделей, каждая размером 1-2B параметров, в сумме требует меньше энергии для вывода, чем одна модель размером 100B+. Это имеет значение для развёртывания в лабораториях и химических предприятиях.

Экономический потенциал: Фармацевтическая индустрия ежегодно тратит миллиарды на оптимизацию синтезов. Если MOSAIC может сократить время на поиск оптимальных условий с месяцев на часы, экономия будет колоссальной.

Вызовы и ограничения

Несмотря на впечатляющие результаты, MOSAIC имеет определённые ограничения. Во-первых, система в основном обучена на органических реакциях из патентной литературы. Для неорганической химии, химии твёрдого состояния или биохимии потребуются отдельные системы со своими специализированными моделями.

Во-вторых, хотя MOSAIC может предсказать условия реакции, она менее развита в предсказании побочных продуктов или нежелательных побочных реакций. Это остаётся активной областью развития.

В-третьих, как и все системы машинного обучения, MOSAIC может ошибаться на действительно инновационных реакциях, которые значительно отличаются от всего, что было в обучающем наборе. Система в лучшем случае может дать рекомендацию, которую нужно проверять экспериментально.

Будущее: расширение и интеграция

Yale уже работает над расширением MOSAIC на другие области химии. Планируется включить реакции в неводных растворителях, катализ на гетерогенных катализаторах, фотохимические реакции и многое другое. Каждая область будет иметь свой набор специализированных моделей.

Кроме того, исследователи работают над интеграцией MOSAIC с другими ИИ-инструментами — например, с моделями, которые предсказывают молекулярные свойства или ретросинтетические пути. Комбинированная система сможет не только предсказать, как синтезировать соединение, но и объяснить, почему это именно то, что нужно.

Предполагается, что в течение 2-3 лет MOSAIC и аналогичные системы начнут активно использоваться в индустриальных лабораториях для ускорения разработки новых лекарств, материалов и химических производств.

→ Источник: Nature 2026

Интересует применение ИИ в науке и технологиях?

Изучите основы ИИ и поймите, как специализированные модели решают научные задачи

Химический синтез LLM Yale University Молекулярный дизайн Специализированные модели Предсказание реакций