Какой следующий шаг после LLM? ч.2 —
Как на это смотрят выходцы из Google DeepMind
В прошлом посте я писал о взгляде Яна ЛеКуна: LLM — зрелая технология, и ждать от неё новых прорывов не стоит. Он верит в агентов, которые умеют планировать, взаимодействовать с миром и строить собственную модель реальности.
С этим взглядом перекликается новая статья Welcome to the Era of Experience Дэвида Сильвера и Ричарда Саттона — основателей и идеологов современного reinforcement learning. Они называют следующий этап в развитии ИИ эрой опыта.
Важно понимать: это уже не языковые модели в привычном смысле. Это следующий класс систем — не LLM, а агенты, которые живут в "среде", а не в диалоге. Они не просто генерируют ответы, а действуют, наблюдают, учатся и адаптируются.
Сегодняшние модели вроде GPT выросли на сгенерированных людьми данных — текстах, диалогах, коде. Они умеют имитировать мышление, давать советы, писать эссе. Но есть потолок: такие модели не выходят за пределы того, чему их научили люди. В науке, математике, инженерии — там, где нужны открытия, а не повторение — они упираются в стену.
Что дальше? ИИ-агенты, которые учатся не из данных, а из взаимодействия с миром. Они не просто отвечают на вопрос, а живут в потоке опыта. Действуют, получают обратную связь от среды, корректируют поведение.
Как AlphaZero научился играть в шахматы не по партиям гроссмейстеров, а через самообучение. Или как AlphaProof решал олимпиадные задачи, создавая 100 млн собственных доказательств.
Что это значит для бизнеса (в будущем)?
- Ценность — не в токенах, а в последствиях. Главное не как агент “думает”, а как он действует и к чему это приводит;
- Метрики ИИ-продуктов станут другими: важна не точность ответа, а вклад в долгосрочную цель (здоровье, обучение, рост выручки);
- Изменится и сам UX: агент будет не просто отвечать на команды, а сам наблюдать за действиями пользователя, адаптироваться и учиться — как персональный ассистент, который становится полезнее с каждым днём;
- Data flywheel превращается в experience flywheel: действие => результат => адаптация => новое действие.
Следующий шаг — это ИИ, который не просто “отвечает”, а сам ставит цели, действует и учится на своих ошибках.