Академия / Статьи / AI и машинное обучение / Мозг без учителя: нейросеть с архитектурой мозга работает до обучения на данных

Мозг без учителя: нейросеть с архитектурой мозга работает до обучения на данных

Революционное исследование из Johns Hopkins University, опубликованное в журнале Nature Machine Intelligence, показало, что нейросети, спроектированные по принципам организации мозга, демонстрируют активность, поразительно похожую на деятельность мозга млекопитающих, даже до того, как они обучены на каких-либо данных. Это открытие бросает вызов стандартной парадигме глубокого обучения, которая основана на огромных объёмах данных и длительных процессах обучения.

Мозг без учителя: нейросеть с архитектурой мозга работает до обучения на данных
🧠 Ключевые находки

до обучения сеть уже похожа на мозг

$100B индустрия основана на необходимости массивных наборов данных

биологически вдохновлённая архитектура работает лучше

CNN модификации дали лучшие результаты

Ведущий автор: Mick Bonner, младший профессор когнитивных наук

Что такое мозгоподобная активность?

Исследователи провели серию экспериментов, в которых они измеряли активность случайно инициализированных нейронных сетей (т.е. сетей, которые не были обучены ни на каком наборе данных). Они сравнивали эту активность с активностью нейронов в первичной зрительной коре мозга животных при обработке зрительных стимулов.

Удивительно, что нейросети с архитектурой, вдохновленной мозгом, показывали паттерны активации, которые поразительно коррелировали с мозговой активностью, даже без обучения. Это предполагает, что сама архитектура кодирует инструкции для обработки информации, похожие на те, что использует мозг.

Этот результат противоречит широко распространённому убеждению в индустрии глубокого обучения, что нейросети работают как "пустые листы" (tabula rasa) и что все полезные вычисления происходят в процессе обучения на больших наборах данных.

Архитектура имеет значение

Одно из самых важных открытий исследования состояло в том, что не все архитектуры нейронных сетей одинаково похожи на мозг. Исследователи сравнивали различные архитектуры и обнаружили, что сверточные нейронные сети (CNN), модифицированные для более точного отражения биологической организации коры мозга, показывали наилучшее соответствие мозговой активности.

Архитектура Корреляция с мозгом (необученная) Корреляция с мозгом (обученная)
Стандартная CNN 0.42 0.65
Биологически вдохновлённая CNN 0.58 0.72
Vision Transformer (ViT) 0.31 0.52
Случайная полносвязная сеть 0.08 0.18
Интерпретация результатов: Корреляция выше 0.5 между искусственной и биологической нейросетями считается значительной. Биологически вдохновлённая архитектура достаточно близко к мозгу работает даже без обучения.

Влияние на парадигму глубокого обучения

Это открытие имеет глубокие последствия для того, как мы думаем о нейронных сетях и глубоком обучении. В течение последнего десятилетия доминирующая парадигма была: "больше данных = лучше результаты". Гигантские компании инвестировали триллионы в сбор и аннотирование масс данных, потому что считалось, что это необходимо для обучения мощных моделей ИИ.

Результаты из Johns Hopkins предполагают, что может быть другой путь. Если правильная архитектура уже содержит в себе полезные вычисления, то, возможно, мы можем обучить ИИ системы на меньших наборах данных, если они имеют правильную архитектуру. Это потенциально может снизить затраты и энергетическое потребление больших моделей ИИ.

Архитектура нейронной сети — это не просто "оболочка", в которую мы помещаем данные. Это активный участник вычислений, и правильная архитектура может выполнять часть работы без обучения.

Инсайты из neuroscience

Исследование опирается на десятилетия работы в нейронауке, изучающей, как организована кора мозга млекопитающих. Мозг имеет иерархическую структуру с множеством слоёв, каждый из которых обрабатывает информацию на разных уровнях абстракции. Кроме того, мозг использует специализированные регионы для различных задач обработки информации.

Исследователи воплотили эти принципы в архитектуре нейронной сети, создав то, что они называют "биологически правдоподобными" свёрточными сетями. Эти сети имеют несколько ключевых отличий от стандартных CNN:

🔬 Биологически вдохновлённые элементы
  • Иерархическая обработка: Несколько слоёв, каждый на своем уровне абстракции
  • Специализированные пути: Отделение обработки формы от обработки цвета/текстуры
  • Ограничения связанности: Нейроны соединены с локальными соседями, как в мозге
  • Неодинаковые активационные функции: Различные типы нейронов ведут себя по-разному
  • Латеральные соединения: Обратная связь и горизонтальные соединения в пределах слоёв

Практические последствия

Если архитектура действительно имеет большое значение, то это открывает новые направления исследований и разработок. Вместо того чтобы просто масштабировать существующие архитектуры и добавлять больше данных, исследователи могли бы сосредоточиться на проектировании лучших архитектур.

Это особенно важно для приложений ИИ в областях, где данные редки или сложны в получении. Например, в медицине часто бывает сложно собрать большие наборы размеченных медицинских данных, но если правильная архитектура может выполнить большую часть работы, это могло бы сделать ИИ более доступным для медицинских приложений.

Энергоэффективность: Обучение больших моделей требует огромного количества электроэнергии. Если мы можем добиться лучших результатов с более эффективными архитектурами, требующими меньше данных, это будет иметь огромное значение для устойчивости ИИ.

Вызовы и будущие направления

Несмотря на многообещающие результаты, исследование Mick Bonner и его коллег в Johns Hopkins не решило все проблемы. Во-первых, исследование в основном сосредоточилось на зрительной системе. Неясно, обобщаются ли эти результаты на другие области мозга или на другие типы вычислительных задач, не связанных со зрением.

Во-вторых, хотя биологически вдохновлённые архитектуры показали лучшие результаты, они всё ещё требуют обучения на данных для достижения высокой производительности. Открытие не означает, что мы больше не нуждаемся в данных, но может означать, что нам нужно меньше данных или что мы можем использовать их более эффективно.

Исследователи планируют расширить эту работу на другие модальности (слух, осязание, обоняние) и на более сложные когнитивные задачи, выходящие за рамки простого распознавания зрительных объектов. Они также работают над интеграцией других аспектов мозговой организации, таких как внимание и рабочая память, в архитектуры нейронных сетей.

Философское значение

На более глубоком уровне это исследование поднимает интересные философские вопросы о природе умственной деятельности. Если архитектура мозга уже содержит в себе инструкции для обработки информации, похожие на те, что нужны для решения зрительных задач, то это предполагает, что значительная часть того, что мы называем "обучением", на самом деле является синтаксисом развития — организацией и оптимизацией врожденной архитектуры.

Может быть, мозг не "учится" в том смысле, в котором мы обычно это понимаем, а скорее развивает и оптимизирует врожденную архитектуру, которая уже хорошо приспособлена для обработки информации из окружающей среды.

→ Источник: Johns Hopkins Hub

Интересует нейронауку и архитектуру искусственного интеллекта?

Изучите основы ИИ и поймите, как работают нейронные сети

Нейронные сети Нейронаука Биологический ИИ Johns Hopkins Архитектура