
ВОЙНА МИРОВ LLM. ТОП 10 ПЕРЕДОВЫХ ТЕКСТОВЫХ НЕЙРОНОК.
16.05.2025
Обновлено 06.10.2025
LLM (Large Language Model - Большая Языковая Модель) начинает свою историю с 60-х годов прошлого века и в настоящее время претендует на роль полноценного незаменимого помощника человека во всех сферах нашей жизнедеятельности.
Большая она потому, что имеет в своем хранилище информации более 70 млрд. числовых параметров (не путать с активными на каждый токен). Есть также и маленькие LM, но они узкоспециализированные.
Параметрами в общепринятом смысле называют некие переменные, которые преобразуют токены (например, слова) в числовые значения и векторы. Параметры регулируют вес внимания модели к токенам через контекстную связь этих токенов (слов). Например слова “курица” и “яйцо” - это два токена. Близкая векторная направленность токенов “курица” и “яйцо” позволяет нейросети понимать нас и отвечать, оценивая близость векторов нашего запроса, и на их основе подбирая близко направленные векторы для ответа. Например, “курица”-”цыпленок”, “варить”-”жарить”.
Большое количество параметров позволяет модели иметь более гибкую систему весов - силы внимания к токенам в пучке близких по смыслу векторов.
В ранних LLM, где стилизация часто характеризовала ответы и воспринималась как показатель "интеллекта" (ChatGPT 3.5, Grok 2 и др.) мы получали ответы, близкие по стилю к нашему запросу. Если мы обращались к нейронной сети с вопросом: “Ведомо ли тебе, о мудрейший интеллект, о некой тайне за семью печатями, скрытой на просторах интернета?”, то LLM отвечала: “О, да, путник, мне ведомо об этой тайне. И я могу поведать её тебе.” Такой ответ мог казаться результатом эмоционального всплеска, но на деле это всего лишь пучок векторов, максимально приближенный к пучку векторов нашего вопроса. При этом слово “путник” в данном примере — следствие обучения модели на текстах сказок и мифов с соответствующим стилем речи.
В современных LLM приоритет стилизации устарел. Теперь модели состоят из большого количества специализированных нейросетей, дополняемых модулями, которые проверяют ответы на соответствие критериям точности, информативности и уместности. Нейросеть не станет отвечать стилизованно, если вы ранее настраивали её на другой формат общения или регулярно используете для решения конкретных задач. В таком случае модель будет искать более специализированный ответ и скорее даст обычное разъяснение, уточняя, что именно вы имеете в виду.
Это свидетельствует о значимом прогрессе в настройке весов и универсализации поиска токенов. Такие процессы обычно называют масштабированием. Они не только повышают точность подбора векторных представлений за счёт тонкой настройки весов, но и расширяют их взаимозаменяемость. Простыми словами, нейросеть задействует лишь те токены, которые точнее всего соответствуют запросу, не перебирая все возможные варианты. Такой принцип отбора способствует быстроте и адекватности ответа, вместо подстраивания модели под стиль, что не всегда даёт правильный результат. Этот принцип также частично решает проблему избыточного "поддакивания" пользователю в спорных ситуациях, когда требуется выбрать корректный вариант, хотя сам пользователь его отвергает.
Такие изменения в архитектуре нейросетей происходят довольно быстро. Масштабирование в одном направлении открывает возможности развития других аспектов обучения и настройки. Это приближает нас к этапу развития самообучающихся нейросетей, одну из которых уже неплохо настроила компания Meta.
И пускай ученые с успехом продолжают корпеть над разработкой новых способов контекстной связи токенов, а мы взглянем на то, что уже прекрасно работает и радует нас потоками свежайшей информации в удобное нам время.
На рынке LLM за последние два года отмечается небывалый рост инвестиций в исследования этих самых способов контекстных связей.
Если отбросить обещания, используя финансовые издания, как источники, то реальных инвестиций в искусственный интеллект за 2023-2025 было вложено около 200 млдр.дол., из которых США - 109 млдр.дол., Европа - 3 млдр.дол. (Франция больше всех - 1,3 млдр.дол.), Израиль - 12 млдр.дол., ну и Китай с остальными добавили.
Не будем особо останавливаться на вопросах финансирования, а посмотрим, каков результат на сегодня по доступным бесплатно-лимитным нейронкам.
10. LLAMA 4
Это место я чистосердечно отдаю LLM модели Llama 4 от Meta AI - AI отдела владельца популярной соцсети. Представлена как две модификации Llama 4 Scout, Llama 4 Maverick (более мощная). Данная модель вышла в апреле 2025 года и сразу же пошла в наступление, заявив что превосходит GPT-4o и Gemini 2.0 Flash и Claude Sonnet 3.7, приводя количество экспертов (специализированных нейронных подсетей модели - MoE), как весомый довод - 16 в первой и 128 во второй. Активных параметров обе имеют по 17 млдр. на токен. Поскольку она все еще не особо популярна онлайн и не дает доступ всем географическим регионам, в нашем списке занимает последнее место. Кроме того, выход самой мощной модели Llama 4 Behemoth под сомнением, а конкуренты уже оставили ее позади.
Личный опыт: использовалась несколько раз в 2024 году, но особых результатов ни в кодинге ни в вычислениях не показала. Пока что Meta AI терпит неудачи, не позволяющие ей развивать свои нейросети. Но активное развитие AI отделения Meta через набор сотрудников из других компаний выглядит перспективно.
Кроме этого Meta развивает проект V-JEPA 2 - обученную на видеороликах модель визуального понимания и прогнозирвоания. Компания утверждает, что данная модель создана для управления роботами в реальной среде. При этом, у Nvidia уже есть неплохой COSMOS, тренирующий роботов ориентации в реальном мире.
У проекта V-JEPA 2 есть сильный конкурент — ROBOBRAIN — нейронная модель пространственного мышления и долгосрочного планирования задач с открытым исходным кодом.
9. KOPILOT
Позиционируется как помощник с искусственным интеллектом на базе API Microsoft Graph от разработчика программного обеспечения Microsoft. Microsoft Graph имеет доступ к данным пользователей программного обеспечения и сопутствующих продуктов Microsoft, что способствует персонализации контекста и увеличению эффективности. Для нейронных вычислений используется Chat GPT 4o от Open AI. В последнее время стал незаменимым при использовании сервисов Microsoft.
Фактически Microsoft создала полноценного и полезного ИИ-агента, который сможет проверять вашу почту, напоминать о заданиях из календаря и выполнять рабочую рутину, от которой мы все так устаем. Имеет встроенную голосовую функцию.
8. LECHAT
LLM от французского стартапа Mistral AI. Можно использовать интеграцию с Gmail и Google календарем. Через платформу Hugging Face доступны простые модели Mistral AI с открытими весами, но свои основные разработки компания закрыла. Упорно развивается с ориентацией на бизнес-проекты.
Личный опыт: модель вначале дает более точные ответы (кодинг, вычисления), но по мере использования все больше начинает уходить в повторение ошибок и в конце начинает немного тупить. Интерфейс дружелюбный, нет “залипаний” вопросов, имеет стандартные инструменты: голосовой ввод, веб-поиск, размышления, генератор кода и диаграм, генерацию изображений, канвас. Также добавлен набор преднастроенных агентов и создание библиотек документов прямо в интерфейсе.
7. DEEPSEEK
Модель v3 одноименной китайской компании в начале 2025 года наделала много хайпа, представив миру технологию обучения значительно дешевле, чем американские аналоги - около 6 млн. дол. До конца свою технологию компания так и не раскрыла, но результаты моделей DeepSeek вполне соответствуют среднему уровню современных LLM. Характеристики, заявленные компанией где-то на уровне MoE 37 млдр. активных параметров на токен, 61 слой с механизмом внимания на 128 голов с размерностью 128.
Такой механизм работает, как отдел в офисе. Отдел - это слой, а головами называют сотрудников, что специализируются на вопросе с разных точек зрения. Для ответа на вопрос они используют разные ключи/значения, что позволяет давать более точные ответы при меньших затратах - отключая работу непрофильных сотрудников.
Размерность головы (d_k) - это проекция вектора токена на три пространства: запросов (Q), ключей (K) и значений (V) для независимого выявления разных аспектов взаимосвязей между “яйцо” и “курица”.
Голосовая функция у этой нейронки может работать через сторонние приложения. Также компания выпустила модель DeepSeek-Coder, обученную с нуля на 2 триллионах токенов (87% кода и 13% естественного языка) на английском и китайском языках с поддержкой 338 языков программирования. Еще у компании есть рассуждающая модель r1 и ожидается выпуск r2, который был отложен из-за проблем с обучением в мае 2025.
Личный опыт: средняя модель, которая может как сильно галлюцинировать, так и стабильно работать. Особых прорывов не делает, но функция избрания нейронкой стилей общения достаточно развитая и местами очень удивляет своим разнообразием. Подойдет людям, которые любят пообщаться на разные философские и оригинальные темы.
6. QWEN 3
Неплохая MoE модель от Alibaba Cloud. Имеет несколько вариантов, но лучшая сейчас Qwen3-235B-A22B — флагманская модель третьего поколения Qwen, архитектуры MoE (Mixture of Experts) с 235 млрд параметров и 22 млрд активируемых векторов. 128 экспертов из которых 8 активных. Есть голосовой чат и видеочат.
Заявлено 94 слоя - блока определения контекстных связей токена, таких маленьких нейронных сетей внутри большой нейронки, которые помогают токену решить насколько другие токены ему близки, например насколько близко слова “курица” в контекстном значении (в конкретном предложении речи) в слову “яйцо”.
Также модель использует механизм Grouped Query Attention (GQA) - группированное внимание запросов с 64 головами для запросов (Q) и 4 головами для ключей/значений (KV).
Личный опыт: вполне рабочая нейросеть для кодинга и вычислений, но все равно имеет место непонимание простых задач. В некоторых вопросах нейросеть вполне ориентируется даже лучше, чем другие, но общая картина сомнительна. В интерфейсе проблема с “залипанием” вопросов. Это когда вместо нового написанного вопроса в запрос посылается предыдущий.
5. PERPLEXITY AI
Передовой нейронный поисковик с глубоким поиском Research, который фактически является одним из лучших на рынке. Использует несколько LLM, включая GPT-5, Claude 4 Sonnet, Grok 4, Gemini 2.5 pro и собственные Sonar (на базе LLaMA) и R1 1776 (модификация DeepSeek R1). Нейронкой это не назовешь, а вот прекрасным ИИ-агентом поисковиком на основе передовых нейронок очень даже. Он автономно делает десятки запросов, анализирует сотни источников и генерирует структурированный отчёт всего за пару минут. Также имеет собственный поисковый веб-браузер Comet на базе Chromium. Есть голосовой режим.
Личный опыт: часто пользовался раньше до выхода разнообразных search у передовых моделей. Очень помогал в поиске технической информации в среде разработки игр и 3D графики. Сейчас меньше используется, много выдает сломанных ссылок, но все равно рекомендован для работы.
Ну а вот и четверка лучших, отчаянно сражающихся за первое место если не во всех категориях, то по меньшей мере в своих нишах.
4. ANTHROPIC CLAUDE
По многим бенчмаркам, таким как SWE-Bench, TAU-bench Retail, GPQA Diamond, модель Claude 4 Sonnet опередила reasoning-модель o3-mini от OpenAI. Это также закрытая технология, которой Anthropic не спешит делиться, но судя по результатам, она очень продуктивна. Способность пошагового рассуждения и гибкость Claude 4 Sonnet отмечают многие пользователи и специалисты. Anthropic ведет политику высокой информационной безопасности данных пользователей, включая этическую составляющую. Голосовую функцию обеспечивает популярная голосовая нейросеть ElevenLabs. Достойная модель, подходящая для ежедневного использования в работе и досуге. Используется в форке Cursor для Visual Studio Code от Microsoft для глубокого анализа кода наряду с моделями ChatGPT. Claude 4 Sonnet и Claude 4 Opus для кодинга были представлены 22 мая 2025 года. Заявлено о высоких результатах тестирования и расширенных возможностях.
Личный опыт. Пользуюсь бесплатной моделью и моделями полегче постоянно. Код пишет неплохо но опять таки вначале, а потом начинает подтупливать. Cursor не пользовался, но слышал типичные отзывы о сломах кода. На сайте Claude AI заметил частое “залипание” предыдущего запроса в интерфейсе ввода - отправляешь следующий, а почему-то вводиться предыдущий. Особенно это бывает при включенном канвасе. Также заметил отключения веб-интерфейса с переходом на запасную страницу.
3. GROK 4
Отличная нейросеть от компании xAI Илона Маска с прекрасным пониманием контекста токенов. Эта модель, как и предыдущая Grok 3, обучалась на суперкомпьютере Colossus (Мемфис, США), использующем 200 000 графических процессоров Nvidia H100, что в 10 раз превышает вычислительную мощность, использованную для модели Grok 2. Grok 4 - модель с гибридным дизайном и фокусом на рассуждения. Grok 4 имеет около 1,7 трлн параметров и контекстное окно на 256 000 токенов, а также голосовой режим повышенной точности. Многие параметры новой модели Grok не уточнены xAI. Более мощная модель Grok 4 Heavy доступна по подписке.
Обладает самопроверкой, при необходимости активирует расширенные вычислительные ресурсы для решения сложных задач, таких как математические вычисления и научный анализ, имеет хорошую долговременную память на ключевые моменты общения, глубокий интернет-поиск и мультимодальность. Генерирует прекрасные реалистичные изображения, в том числе с известными личностями, которые часто становятся вирусными в соцсетях. Имеет голосовую функцию с разными стилями голосов.
По личному опыту: неплохо кодирует и решает трудные задачи. Более сдержан в болтовне по сравнению с Grok 3. Техника контекстной связи между токенами все так же отточена и прекрасно понимает даже обрывки слов с неправильными словосочетаниями. Однозначный лидер, но занимает третье место из-за того, что все-таки часто ломает код и путается в диалоге. Семейство Grok с 4 версией не перестало добавлять свои идеи в ваши кейсы, а потому исправлять его придется часто. Довольно интересная и специфическая нейросеть с неким характером, но в последнее время стала менее доступной из-за лимитов. Потому сложные задачи бесплатно на ней не решить.
2. CHATGPT
Несомненный маркетинговый лидер и многорукий чудотворец электронного мира - модель ChatGPT от OpenAI, доступна лимитно-бесплатно. Сейчас доступен ChatGPT-5. После использования лимита в 30 тыс. токенов можно общаться с ChatGPT-5mini. Модель ChatGPT-4o доступна в платной версии. Имеет адаптивную голосовую функцию, распознающую интонации. Стоит отметить, что OpenAI в 2025 году выпустила две модели с открытым кодом - gpt-oss-20b и более мощную gpt-oss-120b. ChatGPT-5 имеет почти те же минусы, что и все модели: галлюцинации и плохую память. Он умнее ChatGPT-4, и это заметно. ChatGPT-5 лаконичен и точен в ответах, что повышает его полезные качества для работы. Эта лаконичность не нравится пользователям, привыкшим к мягкому общению с ChatGPT-4o.
С выходом ChatGPT-5 стало заметно отсутствие ресурсов у OpenAI. Модель заметно урезана в ответах, экономна в токенах. Небольшой лимит быстро заканчивается, что усложняет решение задач. Платные версии тоже имеют лимиты, что очень сильно влияет на работу. По данным из разных источников количество платных пользователей ChatGPT неуклонно растет, но все же занимает 3-4% от всех пользователей сервиса.
Поскольку OpenAI - компания достаточно публичная и считается флагманом нейротехнологий, появились энтузиасты, которые на платформе OPENAIFILES пытаются освещать их действия.
1. GOOGLE GEMINI
Семейство мультимодальных (генерирующих различные виды данных - текст, изображения, видео, программный код) моделей искусственного интеллекта, разработанных Google DeepMind. Gemini пришел на смену Bard и стал ключевым элементом стратегии Google в области искусственного интеллекта. На данный момент фактически бесплатно доступна мощная Gemini 2.5 Pro в GoogleAIStudio, а также модели Gemini 2.5 Flash и другие. Нейросеть имеет голосовую функцию, глубокий анализ и веб-поиск. Свою архитектуру Gemini не раскрывает, но нетрудно понять, что это модель намного выше средних показателей, обучена на информации поисковика, что делает ее вполне пригодной для науки и бизнеса. Интегрирована во все сервисы Google, а это огромный цифровой мир с большими возможностями. Потому нейросеть очень перспективная. В связке с другими моделями от Google и вообще всей экосистемой поискового гиганта составляет мощную непревзойденную среду для полностью автономного выполнения практически любых задач в современной IT-индустрии.
Личный опыт. Модель неплохо справляется с кодингом. Конечно же с разбивкой на небольшие задачи, но таковы реалии сегодняшних моделей. Имеет отличную память, входное окно на миллион токенов, связку контекстных токенов. Но, как и все современные передовые модели, не может справиться с вайбкодингом в популярных сервисных клиентах вроде нод AppMaster или геонод в каком-нибудь Blender/блупринтах Unreal Engine 5. И все же на данный момент это лучшая модель. Она превосходит другие модели практически во всем:
1. Она лучше других моделей в своей доступности - миллион токенов на сеанс. И таких сеансов может быть много. Если вы видите, что модель начала путать "выжимки" эмбедов предыдущих постов диалога, вы спокойно можете начать новый диалог, не переживая, что вас отключат.
2. Она лучше других моделей в своей памяти - качество эмбедов диалога, отправляемых с каждым вашим запросом, отличное и полностью сохраняется.
3. Она лучше других моделей в своей манере общения - модель внимает вашим постам и не игнорирует данную вами информацию. Модель не дает случайных вариантов, если предыдущие попытки были неудачными. Она учитывает неудачные попытки и, если и повторяет их, то ваше замечание может вернуть ее в колею логики вашего общего кейса.
4. Она лучше других моделей в своей интегрированности в вездесущие сервисы Google и другие платформы.
5. Она лучше других моделей в понимании цели вашей задачи и всегда стремится ее выполнить.
Минусы у нее тоже есть. Например, она может вам соврать, что видела вашу страницу или репозиторий и начать выдумывать несуществующие названия. В этом плане другие нейронки более честны.
Еще минус. Модель Gemini может зацикленно повторять одни и те же ошибки, определенный метод решения задачи преобладает, и модель просто не видит других вариантов. В таком случае лучше начать новый диалог. У других моделей это тоже есть, но это минус.
Подведу итог: если я где-то допустил ошибки, пожалуйста, напишите мне об этом.
Еще хочу вспомнить о мультимодальной нейронке Genspark, которая при поиске использует несколько ИИ агентов и генерирует страницы с нужной информацией - Sparkpages. И также о Manus, которая при регистрации требует номер телефона.
Компания IBM выпустила открытые корпоративные LLM Granite, которые используют архитектуру Mamba/Transformer, снижающую использование памяти без ущерба для производительности. IBM на их основе разрабатывает агентов для бизнеса, сотрудничая с платформой безопасности HACKERONE для выявления уязвимостей в агентных системах.
Также неплохо работает модель KIMI-K2. Разработчики заявляют, что она с 32 миллиардами активированных параметров и 1 триллионом общих параметров. Обученная с помощью оптимизатора Muon, Kimi K2 демонстрирует исключительную производительность в задачах пограничных знаний, рассуждений и программирования, будучи при этом тщательно оптимизированной для агентных возможностей.
На рынок выходит все больше китайских моделей с мощными характеристиками, например открытая LLM GLM-4.5 от компании Zhipu AI, заявляющая о себе огромным количеством параметров (в данном случае — 355 миллиардов общих параметров, включая 32 миллиарда активных), а также успехами на бенчмарках. Эта модель и другие доступны на платформе BIGMODEL от Zhipu AI.
Китайская компания Baidu выпустила собственную LLM ERNIE, пытаясь конкурировать с передовыми LLM. Интерфейс чата полностью повторяет лучшие традиции чатов лидирующих моделей. Выбор представлен между моделью с глубоким мышлением и быстрой моделью.
Ещё одна крупная модель K2THINK с 32 миллиардами параметров от открытого сообщества разработчиков нейросетей LLM360 заявлена как эффективно решающая сложные математические задачи. Проект поддерживался Университетом искусственного интеллекта имени Мохаммеда бин Заида в Масдар-Сити, Абу-Даби. Сообщество LLM360 активно обучает и выпускает открытые модели, создаёт датасеты и метрики.
Китайская компания LongCat представила неплохую открытую LRM (языковую размышляющую модель) с развитием формального и агентского мышления.
Интересную функцию сравнения нейронок предлагаеться в проекте Калифорнийского университета в Беркли LMARENA, где вы используете сразу нейсколько нейросетей для одного задания, а потом оцениваете ответы. Простое и эффективное решение определения реальной пользы нейросетей без прилизанных бенчмарков.
Преимущества нейросетей также анализируются такими платформами, как ARTIFICIAL ANALYSIS, LIVECODEBENCH, компанией SCALE, специализирующейся на адаптации ИИ-решений под различные задачи, и другими похожими платформами, что отслеживают бенчмарки.
Кроме этого, всё больше популярности, доходов и инвестиций получают стартапы персонализированных агентов для общения. Такие сервисы, как POLYBUZZ, CHAI и другие захватывают внимание сообщества и продолжают набирать популярность.
Уже случившийся первый технологический прорыв дает надежду на большие свершения и одновременно немного пугает. Что же будет в будущем? Каких результатов добьется человечество в развитии новой мыслящей сущности? Философские вопросы, на которые человек ответить не может. Интересно, сможет ли на них ответить нейросеть?
Проходите SAID тест, чтобы еще раз убедится, что ИИ не способен нас обмануть.
said-корреспондент🌐
Обсуждение в теме с одноименным названием в сообществе.