Генеративные нейросети – это класс моделей, обученных генерировать новые данные (изображения, текст, видео, аудио) на основе примеров из обучающей выборки. Они узнают закономерности в большом объёме данных и создают похожий контент.
В отличие от них, большие языковые модели (large languages model) специализируются на работе с текстом. LLM генерируют и понимают естественный язык (иногда код), используя архитектуру трансформеров. Проще говоря, все LLM – это генеративные модели, но не все генеративные модели – LLM.
Генеративный ИИ шире: он охватывает не только текст, но и изображения (например, DALL-E, Midjourney), аудио (MusicLM) и видео, а также специализированные задачи вроде синтеза данных
В отличие от них, большие языковые модели (large languages model) специализируются на работе с текстом. LLM генерируют и понимают естественный язык (иногда код), используя архитектуру трансформеров. Проще говоря, все LLM – это генеративные модели, но не все генеративные модели – LLM.
Генеративный ИИ шире: он охватывает не только текст, но и изображения (например, DALL-E, Midjourney), аудио (MusicLM) и видео, а также специализированные задачи вроде синтеза данных
Чем отличаются LLM от генеративных моделей
Ключевые отличия в моделях заключается в следующем, LLM ориентированы только на текст, а генеративные модели – на любые форматы. Генеративные сетевые могут опираться на различные архитектуры (GAN, VAE, диффузионные модели и пр.), тогда как в основе LLM почти всегда трансформеры.
Генеративная модель обучается на мультимедийных данных, LLM – на текстовых корпусах. Задачи тоже отличаются: LLM хорошо умеют генерировать тексты, переводить, отвечать на вопросы, кратко излагать сложные тексты и вести диалог. В то время как другие генеративные сети создают изображения (Midjourney, DALL-E), видео (Sora), аудио (например, ElevenLabs) или синтетические наборы данных.
Генеративная модель обучается на мультимедийных данных, LLM – на текстовых корпусах. Задачи тоже отличаются: LLM хорошо умеют генерировать тексты, переводить, отвечать на вопросы, кратко излагать сложные тексты и вести диалог. В то время как другие генеративные сети создают изображения (Midjourney, DALL-E), видео (Sora), аудио (например, ElevenLabs) или синтетические наборы данных.
Популярные модели LLM
В последние годы появилось много эффективных LLM – от закрытых коммерческих до открытых исследований. Перечислим основные из них и их особенности:
- GPT-4 (OpenAI). Очень крупная модель (несколько сотен миллиардов параметров) от OpenAI, выпущенная в 2023 году. GPT-4 – мультимодальная модель: она понимает и текст, и изображения. Её «ум» намного превосходит GPT-3.5; например, на симуляторе экзамена для адвокатов GPT-4 показала результат, сопоставимый с верхними 10% сдающих. OpenAI подчёркивает, что GPT-4 даёт более точные и креативные ответы, надежнее следит за инструкциями и лучше справляется с тонкими заданиями, чем предыдущие версии. К концу 2024 – началу 2025 стала доступна улучшенная версия GPT-4o (он же GPT-4.1) с расширенным контекстом (~1 047 576 токенов входа) и скорректированными ответами. Пользователи отмечают, что GPT-4o стала более «интуитивной» и «естественной» в общении. GPT-4 (и её потомки) сейчас считаются одними из самых сильных текстовых моделей.
- Google Gemini (ранее Bard). В 2024 году Google объединила технологии Google Research и DeepMind в семейство моделей Gemini. Первая версия 1.0 представлена в конце 2023, а в феврале 2024 года вышла топовая конфигурация Gemini Ultra. Это мультимодальная модель: она обрабатывает текст, изображения, звук и видео. Google пишет, что Gemini Ultra превзошла на многие проценты существующие SOTA-модели почти на всех академических бенчмарках: например, она набрала 90,0% баллов по MMLU (Massive Multitask Language Understanding) и впервые превзошла средний результат экспертов-человека. На диаграмме Google сравнивает Gemini Ultra и GPT-4 – видно, что Ultra лидирует во многих категориях. На практике Gemini особенно хороша в мультимодальных задачах. Например, демонстрировалось, как Gemini одновременно помогала с написанием HTML/CSS/JS-кода и генерировала изображения по текстовому описанию (скриншот ниже
Google Gemini Ultra – мультимодальная LLM, способная одновременно работать с текстом и изображениями (скриншот демонстрации). Текстовая часть на английском иконке предполагает работу над HTML-кодом, а изображения слева – генерацию картин по запрос
- Claude (Anthropic). Модель Claude от компании Anthropic впервые появилась в 2021, но в 2024–2025 вызвала настоящий ажиотаж благодаря серии новых версий. В марте 2024 года вышло семейство Claude 3 (версии Opus, Sonnet, Haiku). Opus 3 – «самый умный» вариант, набирающий наивысшие оценки по сложным задачам. Anthropic подчёркивает, что Claude 3 Opus демонстрирует двукратный рост точности по сравнению с прошлой версией при ответах на сложные вопросы и достигает практически идеального результата (99% правильных ответов) при поиске «иголки в стоге сена» в длинном тексте. Модели Claude оптимизированы и для скорости: версия Haiku 3 – самая быстрая, «для мгновенных ответов». В мае 2025 представили Claude 4 (Opus 4 и Sonnet 4) – эти модели ещё сильнее в программировании и рассуждении. В частности, Claude 4 Opus показал 72.5% на реальном бенчмарке программирования SWE-bench, став «лучшей моделью для кодирования в мире». Claude ставит акцент на безопасности и удобстве: модели обучены давать сноски на источники и следовать сложным инструкциям
- Mistral (Mistral AI). Это французская компания, известная своими открытыми моделями. Модели Mistral в большинстве бесплатны и очень эффективны для своего размера. В сентябре 2023 года выпустили Mistral 7B (7,3 миллиарда параметров) – самую мощную на тот момент модель в своём классе. Mistral 7B с помощью новых приемов (Grouped-Query Attention и Sliding Window Attention) работает быстрее и может обрабатывать длинные контексты. При этом она переигрывает более крупную Llama 2 13B во многих задачах Компания приводит результат: по ряду тестов Mistral 7B «под капотом» эквивалентна модели Llama в три раза более крупной. То есть эта компактная модель даёт качество, сопоставимое с 34B-параметровой Llama! Далее Mistral выпустила и масштабную LLM: в сентябре 2024 года Mistral Large 2 (123B) заявили как лучшую открытую модель по общим метрикам, уступающую лишь гипермасштабной Meta Llama 3.1 (405B). А в марте 2025 вышла Mistral Small 3.1 – мультимодальная компактная модель с контекстом 128K и рекордной скоростью. Разработчики отмечают, что Small 3.1 превосходит по производительности другие небольшие коммерческие LLM (Gemma 3, GPT-4o Mini) и генерирует до ~150 токенов в секунду. Главные плюсы Mistral – открытая лицензия (Apache 2.0 для многих моделей) и сочетание высокой точности с малым размером, что позволяет запускать её локально на одном GPU.
- LLaMA (Meta). Семейство моделей от Meta (Facebook AI). LLaMA 2 (2023) выпускается в размерах 7B, 13B, 70B с открытым доступом (для исследований) и показала себя очень конкурентоспособной. Meta утверждает, что настроенные под диалог версии Llama-2-Chat по полезности и безопасности сравнимы с ChatGPT и Google PaLM. В 2024 году вышло Llama 3 – ещё более крупные модели (самая большая Llama 3.1, 405B) с новыми трюками для ускорения (Grouped-Query Attention). Несмотря на то, что Llama 3 – закрытая модель, её доступность для исследований и качество сделали её заметной. В целом LLaMA ценится за то, что её веса можно скачать и дообучить самому, а она по-прежнему демонстрирует очень высокую точность на общих текстовых задачах.
- Другие модели. Существуют и другие LLM: например, Claude Sonnet (менее мощная, но дешевая версия Claude), открытые Qwen и BLOOM, а также специализированные (GPT-4 и Claude умеют и код генерировать). Но перечисленные выше – самые влиятельные на сегодня: GPT-4/Claude/Gemini задают планку закрытых моделей, а Mistral и LLaMA – лучших открытых. Каждая из них считается «качественной» из-за комбинации широкого обучения, архитектурных оптимизаций и проверенных результатов на бенчмарках.
Как оценивают LLM — основные подходы, метрики и бенчмарки
Чтобы разобраться, на что действительно способна та или иная LLM-модель, специалисты используют целый набор критериев. Вопреки распространённому мнению, оценка не сводится к одной-двум цифрам — это всегда комбинация разных навыков и тестов.
Во-первых, учитывается способность модели работать с языком. Сюда входит то, насколько связно она пишет тексты, правильно ли отвечает на вопросы, умеет ли обобщать, резюмировать или переводить. Это базовый слой, без которого невозможно построить ни качественного ассистента, ни автоматизированную систему анализа данных.
Во-вторых, оценивают широту её «эрудиции» — насколько хорошо модель ориентируется в разных областях: от естественных наук до гуманитарных дисциплин. По сути, это проверка того, насколько эффективно она впитала мировые знания.
Третий важный блок — способность рассуждать и решать задачи. Это включает логику, цепочки рассуждений, математические задачи, программирование, умение выдерживать многошаговые инструкции. На практике именно этот навык отличает продвинутые модели от просто «хорошо начитанных».
Отдельно выделяют качество кодогенерации — важнейший параметр для тех, кто работает с автоматизацией и разработкой. Здесь оценивается не красота текста, а практичность: проходит ли сгенерированный код тесты, насколько он безопасен, масштабируем и исправен.
Если модель мультимодальная, добавляется ещё один критерий — многофункциональность. Это способность работать не только с текстом, но и, например, с изображениями, таблицами или длинными документами. Большой поддерживаемый контекст в этом случае становится огромным преимуществом.
Во-первых, учитывается способность модели работать с языком. Сюда входит то, насколько связно она пишет тексты, правильно ли отвечает на вопросы, умеет ли обобщать, резюмировать или переводить. Это базовый слой, без которого невозможно построить ни качественного ассистента, ни автоматизированную систему анализа данных.
Во-вторых, оценивают широту её «эрудиции» — насколько хорошо модель ориентируется в разных областях: от естественных наук до гуманитарных дисциплин. По сути, это проверка того, насколько эффективно она впитала мировые знания.
Третий важный блок — способность рассуждать и решать задачи. Это включает логику, цепочки рассуждений, математические задачи, программирование, умение выдерживать многошаговые инструкции. На практике именно этот навык отличает продвинутые модели от просто «хорошо начитанных».
Отдельно выделяют качество кодогенерации — важнейший параметр для тех, кто работает с автоматизацией и разработкой. Здесь оценивается не красота текста, а практичность: проходит ли сгенерированный код тесты, насколько он безопасен, масштабируем и исправен.
Если модель мультимодальная, добавляется ещё один критерий — многофункциональность. Это способность работать не только с текстом, но и, например, с изображениями, таблицами или длинными документами. Большой поддерживаемый контекст в этом случае становится огромным преимуществом.
Бенчмарки: стандартизированные испытания
Чтобы сравнивать модели между собой, используют специальные тестовые наборы — бенчмарки. Каждый из них отвечает за свой блок компетенций.
Один из самых известных — MMLU. Это многопрофильный экзамен, в котором встречаются задачи из десятков дисциплин. Он показывает, насколько модель разбирается в различных областях знаний и умеет работать с информацией, требующей рассуждений.
Для проверки глубокого понимания языка применяют GLUE и SuperGLUE — они оценивают способность модели анализировать смысл текста, распознавать контекст и делать выводы.
Качество программирования проверяют через HumanEval и его расширенные версии: здесь важно, насколько корректный код создаёт модель и проходят ли решения реальные тесты.
Отдельно существуют бенчмарки для математического и логического мышления — задачи из наборов GSM8K, MATH и наборы, фокусирующиеся на сложных цепочках рассуждений.
Наконец, существуют комплексные тесты, которые объединяют сразу множество навыков: от знаний и рассуждений до способности работать в разных ролях — например, анализировать документы, консультировать, вести диалог и т.д.
Один из самых известных — MMLU. Это многопрофильный экзамен, в котором встречаются задачи из десятков дисциплин. Он показывает, насколько модель разбирается в различных областях знаний и умеет работать с информацией, требующей рассуждений.
Для проверки глубокого понимания языка применяют GLUE и SuperGLUE — они оценивают способность модели анализировать смысл текста, распознавать контекст и делать выводы.
Качество программирования проверяют через HumanEval и его расширенные версии: здесь важно, насколько корректный код создаёт модель и проходят ли решения реальные тесты.
Отдельно существуют бенчмарки для математического и логического мышления — задачи из наборов GSM8K, MATH и наборы, фокусирующиеся на сложных цепочках рассуждений.
Наконец, существуют комплексные тесты, которые объединяют сразу множество навыков: от знаний и рассуждений до способности работать в разных ролях — например, анализировать документы, консультировать, вести диалог и т.д.
Ограничения и нюансы оценки LLM
Важно понимать, что любой бенчмарк — это лишь модель реальности, а не сама реальность. На тестах модели порой показывают выдающиеся результаты, но в «полевых» условиях ведут себя иначе. Длинные диалоги, размытые запросы, отсутствие чёткой структуры — всё это по-прежнему остаётся испытанием даже для сильных систем.
Кроме того, существует риск «подгонки под бенчмарк». Производители могут оптимизировать модели под конкретные тесты, и тогда цифры в отчёте будут красивыми, но не факт, что это скажется на практической полезности.
Не стоит забывать и о том, что стандартные тесты плохо измеряют мультимодальность, устойчивость к ошибочным данным, безопасность, конфиденциальность и корпоративные требования. Поэтому при выборе модели важно сочетать формальные метрики с пилотами на реальных задачах, живыми кейсами и внутренним тестированием под конкретный бизнес-сценарий.
Кроме того, существует риск «подгонки под бенчмарк». Производители могут оптимизировать модели под конкретные тесты, и тогда цифры в отчёте будут красивыми, но не факт, что это скажется на практической полезности.
Не стоит забывать и о том, что стандартные тесты плохо измеряют мультимодальность, устойчивость к ошибочным данным, безопасность, конфиденциальность и корпоративные требования. Поэтому при выборе модели важно сочетать формальные метрики с пилотами на реальных задачах, живыми кейсами и внутренним тестированием под конкретный бизнес-сценарий.
Сравнительная таблица LLM
* «Точность / качество» в таблице — оценка на основе публичных бенчмарков (benchmarks) и данных компаний-разработчиков; конкретные цифры могут меняться в зависимости от задачи и промптов.
Контекстное окно — это объём текста, который модель способна удерживать в голове одновременно. Чем оно шире, тем проще работать с длинными документами, переписками или кодом: модель видит не отдельные фрагменты, а всю картину целиком. Когда окно ограничено, приходится делить текст на части, подрезать или пересказывать его — и это неизбежно снижает качество ответа, потому что у модели исчезают связи между разрозненными кусками. Большое же окно позволяет опираться на весь массив исходной информации, сохранять логику и детали от начала до конца и тем самым делает работу над сложными материалами более надежной. Но важно помнить, что само по себе число токенов не гарантирует идеального результата: разные модели используют свой контекст по-разному, и реальная эффективность зависит от архитектуры и задачи.
Обновления LLM 2024–2025
За последние два года мир LLM заметно оживился. Вот ключевые события и релизы:
- 2024, февраль – Google переименовала Bard в Gemini и выпустила Gemini Ultra (самую мощную версию Gemini) в составе подписки Google One AI Premium. Ultra предлагает расширенный 1-миллионный контекст и топовую точность.
- 2024, март – Anthropic представила Claude 3 (семейство Opus/Sonnet/Haiku), сделав модели в разы умнее и добавив длинный контекст (200K). Claude 3 занял лидирующие позиции по ряду задач и открыл новую эру «умных» ассистентов.
- 2024, весна–лето – Meta анонсировала Llama 3 (развитие Llama 2) – крупные модели до сотен миллиардов параметров (самая сильная версия 3.1 – 405B). Благодаря многопоточному обработчику внимания (Grouped-Query) и другим оптимизациям, Llama 3 получила широкую огласку, хотя официальная информация ограничена.
- 2024, сентябрь – Французская Mistral AI выпустила Mistral Large 2 (123B). Она превзошла все открытые модели (кроме гигантской Llama 3.1) по большинству бенчмарков, подтвердив лидерство Mistral среди «открытых» AI. Модель ориентирована на быстрый вывод на одном сервере с высокой пропускной способностью.
- 2024–2025 – Активно развиваются более лёгкие варианты LLM (GPT-4o Mini, Claude Sonnet, Llama 3.2/3.3 и т.п.), а также исследования по уменьшению энергозатрат и времени ответа. Например, появились так называемые «reasoning models» (GPT-o4 mini/medium/pro) с настроенным временем обдумывания.
- 2025, март – OpenAI обновила GPT-4o – «последний снэпшот GPT-4» – улучшающими правки: модель стала чище формулировать ответы и лучше следовать инструкциям. Пользователи отмечают, что обновлённый GPT-4o даёт более понятные и точные ответы, особенно в кодинге.
- 2025, март – Mistral выпустила Mistral Small 3.1– кросс-модальную модель с улучшенной производительностью. Она поддерживает 128K-токенов контекст и оптимизирована для высокоскоростного вывода (~150 токенов/с), то есть идеально подходит для встраивания в приложения.
- 2025, май – Anthropic представила Claude 4 (Opus 4 и Sonnet 4). Opus 4 позиционируется как «самая мощная» модель для глубоких рассуждений и программирования (72.5% по SWE-бенчу), Sonnet 4 – как «баланс скорости и интеллекта» для широкого применения. Этот выпуск включает новые возможности долгого «мышления» с инструментами (search, memory API) и улучшенные контексты.
- 2025, июль - Компания xAI, основанная Илоном Маском, представила Grok 4 в начале июля 2025 г. Модель позиционируется как значительный шаг вперед по сравнению с Grok 3, выпущенной в феврале того же года. Согласно заявлениям xAI, новинка превосходит конкурентов по ряду тестов, включая AIME (математическое мышление) и GPQA (научные задачи уровня PhD). Grok 4, а также его более мощная версия Grok 4 Heavy демонстрируют высокую производительность на бенчмарке Humanity’s Last Exam, решая до 50% задач в многоагентном режиме.
- 2025, Ноябрь - Команда Cursor представила обновление 2.0 – основной акцент в свежем обновлении на multi-agent интерфейс, в котором несколько моделей пишут код вместе. Кроме того, ребята зарелизили Composer – новую agentic-LLM, которая работает в 4 раза быстрее аналогов
- Другие новинки: Azure OpenAI в документации уже упоминает GPT-4.1 и GPT-5.1 (ранние модели 2025–2026) с ещё большими контекстами и адаптивным временем ответа. Также появляются новые стартапы и модели (как DeepSeek, Qwen, Sparkly и др.), но они лишь дополняют картину – гонка LLM идёт полным ходом.