КАТАЛОГИ НЕЙРОСЕТЕЙ, НАБОРЫ ДАННЫХ И БЕНЧМАРКИ. RAG, SAG, CAG, fine-tuning.

КАТАЛОГИ НЕЙРОСЕТЕЙ. НАБОРЫ ДАННЫХ И БЕНЧМАРКИ. ВЫБОР И ОБУЧЕНИЕ МОДЕЛЕЙ.

05.08.2025
Обновлено 08.10.2025

Количество нейросетей увеличивается. Им нужно больше вычислительных мощностей - процессоров, памяти, комплектующих, энергетического питания, обслуживания.

Все это в целом - центры данных. Большие комплексы электронной вычислительной техники, обслуживаемые людьми и роботами. Строительство одних финансируется правительствами, другие строятся на инвестиционные деньги. Все они предоставляют доступ к большой вычислительной мощности командам ученых для ускорения решения сложных задач.

Наличие не просто суперкомпьютеров, а супермощных вычислительных нейросетевых агентов позволяет человеку получать намного больше данных за короткий период. Нейросетевые вычисления - это феноменальная гибкость, множественность вариантов решения суперсложных задач и быстрый просчет результатов.

Центры обработки данных.

Самым мощным и быстрым суперкомпьютером в мире сегодня является El Capitan, который находится в США. Он построен компанией Hewlett Packard Enterprise. Его мощность определяется, как 25,18 петафлопс (PFlop/s), то есть 25,18 квадриллионов операций в секунду. Второй и третий по мощности в мире - Frontier и Aurora, которые тоже находятся в США.

Количество, местонахождение и характеристики суперкомпьютеров можно найти в каталоге TOP500. Списки и рейтинги технологических мощностей также часто публикует известное научно-аналитическое издание HPCWIRE и другие техноресурсы.

Строительство дата-центров имеет свой широкий рынок, где лидируют такие крупные игроки, как строительная компания AEKOM, а также DPR CONSTRUCTION, TURNER CONSTRUCTION CO. и другие подрядчики, списки и рейтинги которых можно посмотреть на MORDORINTELLIGENCE, COHERENT или DATACENTREMAGAZINE.

В США центры обработки данных должны соответствовать стандартам Института стандартизации ANSI, а в Евросоюзе - CEN/CENELEC. Многие компании при проектировании дата-центров также эксперементируют со стратегией изоляции горячих и холодных коридоров воздуха между стоек для повышения эффективности охлаждения.

Проект OpenAI совместно с американским облачным сервисом ORACLE и японским телекоммуникационным холдингом SOFTBANK реализует проект Stargate на 500 млрд долларов США. В рамках проекта планируется строительство пяти новых дата-центров для обработки нейросетевых данных в США.

Компания xAI Илона Маска строит суперкомпьютер Colossus 2 в Мемфисе, штат Теннесси, США. За полгода компания установила системы охлаждения мощностью около 200 мегаватт, что обеспечивает работу порядка 110 000 серверов на базе Nvidia GB200 NVL72. Также были привлечены энергетические мощности из соседнего штата Миссисипи. Проект поддерживается со стороны строительно-технологической энергетической компании Solaris Energy Infrastructure. Ожидается, что Colossus 2 станет одним из мощнейших центров обработки нейросетевых данных в мире.

Постепенно выходят на рынки Европы и США крупные игроки из азиатского-тихоокеанского региона. Например, Тайваньский производитель Iphone компания FOXCONN обьединяет часть своих мощностей с тайваньским производителем электромеханического оборудования TECO для более уверенного выхода на мировые рынки.

Microsoft строит самый большой в мире центр обработки данных Fairwater в Висконсине (США), который обещают запустить в начале 2026. Также компания участвует в постройке дата-центров в Норвегии и Великобритании. Облако Microsoft Azure насчитывает более 400 дата-центров в 70 регионах мира. Подробнее о дата-центрах компании можно прочитать тут.

Кроме стационарных построек центры обработки данных бывают небольшими, но также содержат серверы, накопители, коммутаторы и системы управления, а еще элементы инженерной инфраструктуры - системы микроклимата, пожаротушения и видеонаблюдения. Они помогают корпоративному бизнесу избежать задержки в транспортировке данных к стационарным датацентрам.

Контейнерные (мобильные) дата-центры аналогичны по размерам грузовым контейнерам, с целью повышения их мобильности. Они предназначены только для установки вне помещений (outdoor).

Контейнерный дата-центр

Автор: NapoliRoma, лицензия CC BY-SA 3.0

Модульные дата-центры представляют собой автономные модули и могут устанавливаться как внутри помещений (indoor), так и располагаться в защищенных модулях вне помещений (outdoor). Модульные дата-центры не транспортируются в виде грузового контейнера. Такие дата-центры производят компании VERTIV, SCHNEIDER ELECTRIC, ZTE, CISCO, BMARKO, MODULAR DC и ряд других.

Микро-модульный центр данных

Author: Simon Rohrich, лицензия CC BY-SA 4.0

Также быстро развивается рынок мини-датацентров - холодильных серверных шкафов, представленный такими компаниями как CANOVATE или RITTAL и другими, список которых можно найти, к примеру, у INVEN.

Кластер серверных стоек

Author: Hindermath, лицензия CC BY-SA 3.0

Рынок богат предложениями, а как известно, для начала бизнеса нет более подходящего времени, чем сегодня.

КАТАЛОГИ НЕЙРОСЕТЕЙ.

Самым богатым на разные возможности по поиску неросетей и работе с ними является конечно же мегапопулярная платформа GITHUB. Еe необъятные просторы хранят в своих репозиториях множество программных кодов на любой вкус. Каждый уважающий себя программист имеет там аккаунт. Именно в репозиториях на GitHab выкладывают свои модели такие гиганты, как Google, Alibaba, OpenAI и другие.

Кроме GitHub подобными платформами, работающими с управлящим версиями GIT, есть GITLAB, BITBACKET, SOURSEFORGE, CODEBERG, GITEA и его FORGEJO, GOGS, хостинг GITBACKET, хранилища NOTABUG и SAVANNAH с его свободной операционной ситемой GNU.

На вышеупомянутых сервисах вы можете найти или создать свои сервера, библиотеки и настройки для нейросетей - конфигурации моделей. Вы можете хранить и запускать для простых задач скрипты на PYTHON и фреймворках PYTORCH, TENSORFLOW и других.

Сложные вычисления вроде обучения нейросетей, создания весов, запускаются на серверных вычислительных платформах, которые работают на GPU (скоростных видеокартах с большими объемами памяти).

Большой платформамой на GPU есть мегапопулярный HUGGINGFACE с его сервисом развертывания моделей Spaces. На данном сервисе также публикуются и представлены пробным интерфейсом почти все популярные нейросети с открытым кодом. Нейросети на Hugging Face отсортированы по специальностям, так что вы легко найдете и сможете попробовать ту нейросеть, которая вам нужна. Кроме этого, развернутые на этой платформе нейросети часто предлагают API, что всегда полезно для веб-разработчиков. Имеет большой набор данных для обучения и тестирования Hugging Face Datasets lib.

Кроме Hugging Face для обучения нейросетей, корректировки их весов и тестирования используются такие вычислительные платформы, как GOOGLE COLABORATORY, позволяющая запускать модели прямо из GitHub. На Colab можно найти большинство готовых моделей. Обучение и оценку моделей, настройку среды приложений интерфейса моделей, защиту генераций невидимой водяной меткой SynthID поможет сделать удобный дополнительный инструментарий RESPONSIBLE GENERATIVE AI TOOLKIT.

PAPERSPACE GRADIENT - поддерживающая технологию автономного развертывания DOKER платформа машинного обучения. Также поддерживает Jupyter Notebook от Piton Notebook для файлов формата .ipynb прямо с GitHub. Датасетов нет, но можно загружать свои.

Данные платформы предлагают бесплатные решения, но их объема вам хватит на очень небольшие и простые модели. Для более широкого развертывания необходимо будет платить. Но фишка таких платформ в автоматизации всех нужных вам действий. Если вы хотите быстро обучить и протестировать модель под нужды бизнеса, то их выбор будет вполне рентабельным.

Кроме этих специализированных платформ вам могут пригодится и другие серверные мощности. Их предлагают арендовать большие компании, у которых тоже есть инструменты машинного обучения.

AWS (Amazon Web Services) - предлагает GPU-серверы, хранилище. Есть бесплатные предложения, но регистрация только при добавлении данных банковской карты. Имеет SageMaker - платформу для обучения и деплоя моделей с достаточно трудоемкой настройкой

MICROSOFT AZURE - GPU, визуальная среда для обучения нейросетей и виртуальные сервера: NC (вычисления, обучение нейросетей, физические симуляции на NVIDIA Tesla K80, V100, A100), ND (глубокое обучение нейросети на NVIDIA Tesla P40, V100, A100) и другие.

Спрос на мощности Microsoft Azure растет, учитывая контракты, заключаемые компанией на их аренду. Среди клиентов значится OpenAI, провайдер нейросетевых технологий NEBIUS и другие влиятельные игроки рынка.

GOOGLE CLOUD PLATFORM - обюлачный сервис с Vertex AI (набором инструментов для обучения моделей). Имеет специальный процессор для нейросетей TPU (Tensor Processing Unit). В отличие от обычных видеокарт (GPU), TPU заточен под задачи типа обучения и запуска моделей, особенно на фреймворках машинного обучения TensorFlow и Google JAX.

Google разработал библиотеку TUNIX для оптимизации постобучения больших языковых моделей. Она обеспечивает эффективную и масштабируемую поддержку тонких настроек, в том числе обучения с подкреплением. Библиотека использует интеграцию с фреймворком FLAX NNX с вложенными модулями и упрощенным API, разработанным для упрощения создания, проверки, отладки и анализа нейронных сетей в JAX.

NVIDIA NGC предлагает образы Docker с моделями нейросетей, оптимизированные под GPU и наборами инструментов для обучения (SDK). Сервера работают на видеокартах A100, H100 GPU, которыми так славится NVIDIA. Имеет большое количество разных моделей и инструментарий NVIDIA NEMO FRAMEWORK для обучения моделей.

Созданный компанией RIGHTNOWAI и выложенный на Product Hunt агент для оптимизации и ускорения работы кода на графических процессорах NVIDIA (CUDA) имеет большие перспективы для улучшения работы видеокарт, а значит и для ускорения работы нейросетей.

LAMBDA LABS - платформа, предназначенная для глубокого обучения нейросетевых моделей (deep learning). достаточно гибкая в плане аренды мощностей - можно арендовать на разное время сервера на GPU A100.

IBM CLOUD - предлагающая WATSON STUDIO платформа для разработки, обучения и развертывания моделей ИИ. В Watson Studio есть удобные инструменты для работы с данными, построения моделей и их масштабирования. Также IBM Cloud предоставляет GPU-инстансы (виртуальные сервера), которые можно арендовать для ускоренного обучения нейросетей.

ORACLE CLOUD - платформа, предоставляющая в аренду виртуальные сервера GPU для обучения моделей по достаточно демократичным ценам. Кроме этого предлагает услуги инструментария готовых нейросетей и API.

CEREBRAS - облачный хостинг от производителя нейросетевых процессоров и оборудования для суперкомпьютеров, предлагающий аренду мощностей на гибких условиях. Процессоры CS-3 с четырьмя триллионами транзисторов заявлены как самые быстрые для нейросетей.

OPENBESTOF - сборник инструментов для работы с большими языковыми моделями (LLM). На сайте представлены инструменты для обучения, интерфейсы, фреймворки для разработки приложений с LLM, серверные решения и бенчмарки по оценке и тестированию моделей.

Небольшие модели можно тестировать в сервисе облачной разработки REPLIT. Сервис можно использовать в браузере или в отдельном приложении. Предлагается начальный бесплатный пакет для тестирования, а также множество полезных фреймворков.

Компания GROQ, создавшая не просто дата-центры и сервисное облако, но и собственный чип с LPU-архитектурой, предлагает развертывание моделей на собственных технических мощностях. Предоставляет бесплатный план для ознакомления и начала работы с моделями и библиотеку Groq Python.

Данные списки не есть исчерпывающими, поскольку сегодняшний рынок серверных мощностей расширяется, и на него выходят новые предложения. Всегда можно найти выгодное для своей бизнес-модели или даже самому создать такое предложение, от которого многие потребители просто не смогут отказаться.

Локальная установка и использование модели от Google.

Если вам нужна автономная вычислительная мощность, вы должны ориентироваться на минимальные требования, исходя из современных предложений по средним показателям.

К примеру, можно взять модель транформер Google GEMMA 3, которая известна своими минимальными требованиями к "железу", но при этом может распознавать и генерировать текст, изображения, аудио и видео. Данная модель не решит вам сложные олимпиадные задачи, но она вполне вменяема для повседневных задач и может стать для вас хорошим помощником.

Для ее локального развертывания и работы вам потребуется компьютер с свободными 8 ГБ оперативной памяти (RAM) и 10 ГБ памяти на диске. Модель может работать на процессоре, но рекомендуется иметь видеокарту NVIDIA с минимум 4 ГБ видеопамяти (VRAM).

Если у вас это есть, то скачивайте библиотеку PYTHON transformers, содержащую загрузчики и установщики моделей Gemma c хранилища, а также пакеты Doker для установки отдельной среды. Установите библиотеку, фреймворк PyTorch и уневерсализатор под CPU/GPU “pip install transformers torch accelerate”. Библиотека создаст у вас на компьютере в памяти папку кеш, куда загрузит веса (параметры) модели с расширением .safetensors или .bin, а также файлы токенизатора - конфигурационные файлы, которые описывают, как делить текст на токены - включают в себя словарь (tokenizer.json, vocab.json и т.д.). Также создаст файл конфигурации модели config.json, который описывает архитектуру модели (например, сколько у нее слоев, какая функция активации). Кроме этого, установите LM-метрики “pip install evaluate”.

После того, как библиотека сделает свою работу по установке всех настроек, за дело возьмется оперативная память, видеопамять и процессор, которые используют фреймворк PyTorch для вычислений.

На этапе подготовки вы создаете объект nlp (Natural Language Processing - человеческий язык) во временной памяти вашего компьютера, как переменную nlp = pipeline("text-generation", model="google/gemma-3n-1b-instruct-4k"). По нему фреймворк загружает конфигурацию модели, токенизатор и веса модели во временную память. Если у вас на диске их нет, скачивает из хранилища Hugging Face.

При вашем общении с моделью вы вызываете nlp, пишите к примеру: result = nlp("Напиши рецепт яичницы", max_new_tokens=50). Эти слова формируются в шаблон, который понимает модель и передаются токенизатору, который делает из частей текста числа в виде вектора. Эти числа упаковываются в тензор входных данных уже знакомого нам фреймворка PyTorch - массив чисел, таблицу со строками наборов чисел (каждый вектор - строка).

Сама модель и ее веса тоже состоит из больших тензоров параметров (массивов чисел). Попадая в модель, наш небольшой тензор данных текста проставляется в определенные формулы, писать которые я тут не буду. Во внутренних слоях модели происходят вычисления поиска подходящих токенов для ответа. Модель проводит вычисления входных токенов - сопоставляет связь между словами "Напиши рецепт яичницы” и создает из них новые вектора, близкие в данном контексте нашего предложения. Итоговый набор этих векторов текста "Напиши рецепт яичницы” превращается в logits - словарь всех токенов модели.

Каждый токен словаря получает оценку близости к входным токенам, но он еще не откорректирован, и модель не знает, какие токены достаточно близки к нашему запросу - то есть какие из них имеют оценку 1. После этого функция Softmax превращает все оценки токенов в этом словаре в положительные числа, которые в сумме равны 1. Функция делает это нелинейно, то есть маленькие числа становятся еще меньше, а наибольшие возрастают до близких к 1. После этого модель должна выбрать токены, которые она выдаст на ответ. Большинство моделей делают это рандомно, вычисляя только шанс - у токена с оценкой 0,01 - 1% шанс быть выбранным, а у токена с оценкой 0,85 - 85% шанса быть избранным. При таком рандомном выборе ответ модели более разнообразен. Регулировать этот выбор можно известным параметром “temperature”, который доступен в интерфейсах многих нейросетей.

Если вы не до конца поняли разбор работы модели, не переживайте, со временем все станет на свои места, и вы, получая практические знания, сможете обучать собственную модель так, как посчитаете нужным. Но обучение модели - это отдельная история, хотя и в данном контексте.

Если же локальный вариант слишком слаб для выполнения ваших задач, вернемся к мировому сообществу, активно ускоряющему создание больших нейросетевых моделей.

Кроме вышеупомянутых облачных сервисов размещения нейросетей, есть сборщики данных о нейросетях. Среди них можно отметить такие, как недавно купленная компанией Meta SCALE, которая имеет большой опыт в разметке данных, а также в разработке решений для большого бизнеса и правительственных программ.

Также большим каталогом можно назвать FUTURETOOLS. Имеет удобный интерфейс с качественной сортировкой большого количества разнообразных нейросетевых сервисов.

THERE’S AN AI FOR THAT - отличный сборник нейросетевых сервисов с сортировкой по потребностям и задачам.

AITOOLS - хороший сборник нейросетевых сервисов с развернутым описанием и удобной сортировкой.

TOPAITOOLS - простой каталог нейросетевых инструментов с подробным описанием их тарифных планов и возможностей, с сортировкой по задачам и удобным поиском.

INSIDR - сервис рейтингов нейросетей с обзорами и руководствами по использованию нейросетей в бизнесе, работе и развлечениях.

ALLTHINGSAI - сборник руководств по использованию нейросетей, обзоров, интервью с разработчиками и рейтингов нейросетей.

TOOLFY - каталог нейросетей с насыщенным интерфейсом и большим выбором вариантов сортировки.

AICYCLOPEDIA - какталог нйеросетей с подробным описанием их возможностей, а также сборник статей о истории создания нейросетей и передовых инструментов в области искусственного интеллекта.

REPLICATE - провайдер готовых нейросетывых инструментов с API-предложениями. Предлагает услуги хостинга.

OPENROUTER - известный провайдер нейросетевых API с неплохим пробным бесплатным тарифом. Также имеет таблицу рейтингов моделей и вайб-среду для подключения сервисов к разным приложениям без знания языков программирования.

Также можно поьзоваться PROMPTHERO, как сборником промтов для различных генераторов изображений и видео. Отдельно для Chat GPT есть интересный сборник интерфейсов чата FLOWGPT с готовыми промтами под разные потребности.

На сборнике промтов PROMPTBASE можно продавать или покупать промты, а также быстро найти нужный промт для нужной нейросети по категориям или поиском.

НАБОРЫ ДАННЫХ.

На чем же учатся и тренируются нейросети, какие данные используют и как их понимают.

Принципы обучения нейросетей.

Для понимания принципа разметки данных для обучения нейросетей нужно выделить основные типы их архитектуры:

1. Полносвязные нейросети (Feedforward Neural Networks, FNN) - сигнал идет только вперед - от входа к выходу. Используются в задачах классификации и регрессии (предсказывает численное значение на основе входных данных и выдает числа).

2. Сверточные нейросети (Convolutional Neural Networks, CNN) - обработка изображений и видео. Содержат сверточные слои для выделения признаков (features) - распознавание лиц, объектов, медицинская диагностика по снимкам.

3. Рекуррентные нейросети (Recurrent Neural Networks, RNN) - используются для последовательных данных (текст, звук, временные ряды). Имеют память о предыдущих входах и применяются для машинного перевода, чат-ботов, распознавания речи.

4. Трансформеры (Transformers) - стандарт для обработки текста и мультимодальных данных. Работают на основе внимания (GPT, BERT, LLaMA, Gemini) и применяются для генерации текста, переводов, чат-ботов, генерации изображений и видео.

5. Генеративно-состязательные сети (GAN, Generative Adversarial Networks) - состоят из двух нейросетей: генератора и дискриминатора. Используются для генерации изображений, deepfake, апскейлинга, видео, музыки.

6. Автокодировщики (Autoencoders) -сжимают данные (энкодер) и восстанавливают их обратно (декодер). Используются для сжатия, шумоподавления, генерации.

7. Резистивные нейросети (ResNets, DenseNets) - с остаточными связями (residual connections). Улучшенная обучаемость, часто используются в сложных задачах компьютерного зрения.

8. Нейросети графов (Graph Neural Networks, GNN) - обрабатывают графовые структуры данных (социальные сети, молекулы), используются в рекомендательных системах и биоинформатике.

9. Спайковые нейросети (Spiking Neural Networks, SNN) - имитируют работу биологических нейронов, энергоэффективны, применяются в нейроморфных чипах.

10. Гибридные и специализированные нейросети:

Мультимодальные нейросети (например, Gemini, GPT-4o) - работают с текстом, изображениями, звуком одновременно.

Диффузионные модели — генерация изображений/видео, например DALL·E 3, Stable Diffusion, Veo.

Reinforcement Learning (нейросети с подкреплением) - обучаются через пробу и ошибку.

Все чаще используется ансамблированное обучение моделей, где каждая модель дает свой результат. Результаты моделей по-разному обрабатываются в разных архитектурах большой моделью, которая выдает финальный результат. В этой статье ученые предлагают интересный метод "наименьших квадратов" для объединения выходов разных моделей. Этот метод минимизирует сумму квадратов отклонений между предсказаниями модели и физическими значениями. По результатам, полученным учеными, этот способ дает более точные предсказания и меньше ошибок при шумных данных.

Не будем углубляться в сложные процессы обучения классификаций моделей с десятками и сотнями нюансов. Быстрое развитие технологий обучения смешивает эти типы в сложные архитектурные ансамбли. Современные модели в большей своей части почти все являются трансформерами.

Например, мощная модель HUNYUAN-A13B с 80 млдр. параметров работает, как трансформер, но дополняет архитектуру Mixture-of-Experts (MoE), при которой у основной нейросети есть другие нейросети на 1,5 млрд. каждая - эксперты. При получении запроса основная нейросеть решает, каким экспертам отдать запрос на обработку. Она отдает запрос только квалифицированным нейросетям. В результате задействуется не все 80 млрд. параметров, а только 13 млрд., что делает нейросеть намного быстрее и энергоэффективнее. Технология не новая, но эффективная.

Большая языковая модель KIMI-K2-INSTRUCT от компании Moonshot AI, покорившая бенчмарки в середине 2025, работает похожим образом с 32 миллиардами активированных параметров и 1 триллионом общих параметров. Она обучалась с помощью оптимизатора MUON, основанного на ортогинализации матриц (когда столбцы или строки двумерной таблицы становятся перпендикулярными друг другу, а сама таблица - 3-ехмерной). По данным калькулятора Hugging Face модель Kimi-K2-Instruct занимает 958.52 GB памяти на этом ресурсе.

А вот сервис BRAINPRO, предлагающий оценки внимания для изображений и видео, использует сверточные и рекуррентные модели, обученные на датасетах eye-tracking (отслеживания взгляда). Сервис дает оценку вниманию зрителя на объекты в изображении или кадре. Эта услуга необходима маркетологам, дизайнерам и операторам-постановщикам, чтобы понимать, на что смотрит зритель. Для реализации такого процесса оценки требуется совмещение нескольких архитектур с обучением на специальных датасетах (в данном случае сайт сообщает о использовании датасета опроса и внимания 10 тысяч человек).

Владелец TikTok, компания BYTEDANCE, пошла путем смены языка рассуждений модели и создала нейросеть для доказательства теорем SEED-PROVER. Дело в том, что обычный человеческий язык, на котором рассуждают большие LLM, не дает обратной связи для понимания правильности доказательств. А вот математический язык программирования LEAN поможет нейросети проверять ответы на основе формальных доказательств для теорем. Суть языка в том, что в его библиотеке уже есть все доказанные теоремы и аксиомы, на которые можно ссылаться при доказательствах еще недоказанных. Кроме того язык имеет инструменты, которые помогают математикам. В систему также добавили движок для доказывания теорем по геометрии.

Энтузиаст с YouTube канала Build With Binh создал и запустил на базе расширенного микроконтроллера SoC (System on Chip) ESP32-S3 языковую модель на 260 тыс. параметров.

Рассмотрим принцип разделения моделей по разметкам данных. Этот принцип предусматривает либо маркировку данных по признакам-меткам, либо отсутствие такой маркировки. Существует еще способ частичной разметки для быстрого обучения, но он зависит от тех же десятков нюансов и поставленных задач.

Размеченные данные разделяются на синтетические и ручные. Синтетические данные создаются либо нейросетью либо алгоритмом, и являются огромными массивами с сомнительной точностью.

Данные, размеченные человеком, более точны, но очень дорогие и редкие, поскольку разметка огромных массивов требует трудовых затрат. К примеру, в отделе разметки данных владельца нейросети Grok — компании xAI — работает около 900 сотрудников.

Процесс создания размеченных данных происходит последовательно.

1. Сборка данных - скачивание датасетов с файлами, создание своих датасетов с файлами текстов, изображений, звуков, видео либо других нужных данных. Обычно парсят сайты вроде ВИКИПЕДИИ и хостинги с данными. Результат: датасет с неразмеченными файлами.

2. Очистка данных с помощью скриптов Python: очистка текста от эмодзи и спецсимволов, удаление дубликатов, приведение данных к единому формату (.txt, .jpg, mp4). Если это изображение и видео, то тензором будут массивы пикселей с цветами. Но за пример возьмем текстовые данные для языковой модели, где тензором будут просто числа.

3. Создание структуры данных с помощью скриптов Python: формирование объектов (частей текста в таблице CSV или файлов в папке raw) c идентификаторами ID, к примеру, от 00001 во избежание ошибок смещения при нумерации до 99999. Файлы и части текста пока не имеют меток, но уже есть объектами с ID. Давайте возьмем способ таблицы - она более структурирована для больших объемов данных, и там каждая строка имеет номер ID и соответствующие ему часть текста либо ссылку на файл в папке raw.

4. Создание схемы разметки - набора категорий, классов или меток (признаков), которые надо присвоить каждому нашему объекту. В зависимости от наших целей и архитектуры модели мы должны дать каждому объекту в таблице какие-то характеристики. Например, мы можем дать предложению “Это прекрасно” метку “Позитивно”, “Хорошо”, “Отлично”, а предложению “Мне жаль” метку “Плохо”, “Негативно”, “Печально”, а предложению “Курица снесла яйцо” - “Нейтрально”, “Практично”, “Нормально”. Соответственно мы добавляем в таблицу столбик ЭМОЦИИ, где пишем тональность “Позитивно”, “Негативно” или “Нейтрально”, а также столбец ТЕМА, где пишем что “Мне жаль” - это эмоция, а “Курица снесла яйцо”, тональность нейтральная, а тема - птицы. Также можно добавлять другие столбцы с метками, например падежи, форму, возраст, объем и даже множественные метки, как животное, птица, нелетающая птица. Столбцов может быть от 3-4 до 10-12. Если данных много, лучше сделать несколько таблиц. Можно использовать инструменты LABEL STUDIO, PRODIGY или другие, в зависимости от ваших задач.

5. Создание словарей и численных меток - для каждого столбца признаков объектов в нашей таблице создается словарь. В словарь мы записываем только один признак и даем ему цифровой значение. Если у нас в столбце 25 раз встречается признак “позитивно”, 2500 раз признак “нейтрально” и 2450 раз признак “негативно”, то словарь будет состоять из этих трех слов с номерами 1, 2, и 3 каждому.

6. Внесение номеров признаков в нашу таблицу - мы создаем новый столбец и напротив каждого признака ставим числовую метку из нашего словаря (тензор).

7. LABEL (метка) - обозначается в обучающем нейросеть скрипте, как “y”. Мы выбираем в таблице один самый важный для нас из числовых столбцов “X” с признаками, исходя из наших задач. Именно этот столбец мы делаем числовой меткой label, к числу которого и будет стремиться нейросеть, угадывая последовательность. По сути этот один столбец и становится вектором label - последовательностью чисел сверху вниз, ну или справа налево. Не такие важные остальные столбцы признаков условно можно назвать матрицей. Важно помнить, какой именно столбец мы выбрали, как label.

8. Обычно специалисты советуют проверить таблицу на ошибки, поскольку их наличие на данном этапе - нормальная практика. Разделение данных на 3 категории - разделение единого файла таблицы скриптом Python на: 70-80% обучающие данные (train), 10-15% валидационные данные (validation) - для настройки модели, 10-15% тестовые данные (test) - для итоговой оценки качества. Для этого можно воспользоваться библиотекой NUMPY, которая помогает Python метематически обрабытивать большие массивы данных.

9. Очищение таблицы - в модель мы будем загружать только таблицу. состоящую из столбиков с цифрами, взятыми из словарей. Модель увидит только таблицы чисел “Х” - матрицы менее важных столбцов и “y” важного столбца label, которые она должна научится предсказывать.

Мы рассмотрели подготовку данных к обучению нейросети, чтобы понять, что нам нужно от датасетов.

Сам процесс обучения нейросети - это математические вычисления, зависящие от матрицы весов W размером (m,k), где k - число нейронов (выходных единиц) первого обучаемого слоя с весами. Если у нас 4 признака (то есть m = 4), и мы хотим, чтобы первый внутренний слой с весами имел 10 нейронов (то есть k = 10), то матрица весов W будет 4×10. Каждому из 10 нейронов подается 4 признака (например, вес, эмоция, язык текста, автор). У каждого нейрона для каждого из 4 признаков - свой вес. В результате мы имеем 40 весов для первого внутреннего обучаемого слоя с весами. Каждый его нейрон принимает 4 признака, умножает их на 4 веса, складывает эти результаты в сумму и добавляет b (bias) смещение, избегающее в большинстве случаев проход функции через 0 координат (когда признака Х нет - в таблице ставим 0 и отсюда Х=0), потому что умножение на 0 портит вычисления реальных характеристик явлений нашего мира. По сути bias - это тоже вес, любое число, умноженное на 1. Формула имеет такое выражение z = w1x1+w2x2+…+wmxm+b*1, где z - вектор активации каждого нейрона. Веса слоя - это параметры, которые соединяют входные признаки с этими нейронами. Для тонкой настройки весов и получения наименьшего значения ошибки используются плоскости в системе координат, которые помогают определять динамику направления максимального возрастания функции ошибки при минимальном изменении весов в многомерном пространстве (холмы и впадины) - градиентный спуск шаг за шагом для определения направления, противоположного градиенту - в сторону уменьшения ошибки. Но мы не будем сейчас углубляться в эту сложную тему, которая обычно раскрывается в целых книгах.

Важно также следить за инструментами, которые поддерживаются сообществом и являются очень эффективными для улучшения обучения (библиотеки TRANSFORMER, ACCELERATE, фреймворки COLOSSALAI, FASTCHAT и другие) и работы (библиотеки vLLM, DEEPSPEED, FASTERTRANSFORMER от Nvidia, фреймворки NVIDIA DYNAMO-TRITON, OPENLLM и другие) моделей.

Попробуйте токенизатор корпусов текста (неразмеченных текстов) LLM Tokenizer with Pricing Calculator in Zig , работающий на кросс-компилируемом языке Zig. Алгоритм разбиения корпусов текста на токены Byte-Pair Encoding изначально разрабатывался как алгоритм сжатия текста. Позже использовался OpenAI для токенизации при предварительном обучении модели GPT. Используется во многих моделях трансформеров, включая GPT, GPT-2, RoBERTa, BART и DeBERTa. Данный алгоритм использует уникальные наборы слов, встречающихся в корпусе (после завершения этапов нормализации и предварительной токенизации), затем создается словарь, в который заносятся все символы, используемые для записи этих слов. Это позволяет избежать использования лишних символов из ASCII и других паттернов.

Открытое сообщество, разрабатывающее Zig, создало компилятор, язык и библиотеку в одном инструменте. Бэкэндом языка стало ядро проекта LLVM — написанный на C++ набор инструментов для создания высокооптимизированных компиляторов, оптимизаторов и сред выполнения. Язык Zig учитывает все архитектуры современных процессоров, работает со строковыми литералами (отдельные строки, разделенные через \0) и с литералами кодовых точек Unicode, как и C++. Исходный код Zig представлен в кодировке UTF-8.

Если вы не хотите начинать с нуля, вы можете использовать и готовые сервисы для обучения готовых моделей. Это популярный OLLAMA, LMSTUDIO, GPT4ALL от Nomic, TEXTGEN, Google LiteRT-LM и другие сервисы, которые предлагают локальные модели из коробки на Windows и Linux. Все описанные выше процессы тут уже отработаны и настроены. Вам остается только установить программу и загрузить модель на свой компьютер.

Если вы запустили нейросеть локально, но хотите обращаться к ней с интерфейса в телефоне, простейший веб-интерфейс на GitHub с подключением к API вашего локального сервера, проброшенного на NGROK, решит эту задачу не только для вас, но и для тех, с кем вы захотите поделиться нейросетью. Для проверки ошибок API при настройке сервера можно использовать POSTMAN или легендарный curl.

Также обратите внимание на автоматизатор машинного обучения MLE-STAR от Google. Авторы агента утверждают, что MLE-STAR решает задачи машинного обучения, сначала выполняя поиск в интернете подходящих моделей для создания прочной основы. Затем он тщательно улучшает эту основу, проверяя наиболее важные части кода. MLE-STAR также использует новый метод объединения нескольких моделей для еще лучших результатов. Этот подход оказался очень успешным — он завоевал медали в 63% соревнований Kaggle по MLE-Bench-Lite, значительно превзойдя альтернативы. Агент настроен на четкое следование рекомендациям кодирования Python и документации NumPy для написания исполняемого кода. Также компания Google запустила вайб-кодинговый сервис OPAL для разработки приложений с помощью нодовой системы и подсказок нейросети. Для работы с кодом у Gooogle есть агент JULES, который может контролировать репозитории, обновлять зависимости и проверять работу кода на своей внутренней виртуальной машине.

Для проверки кода на критические уязвимости Google DeepMind создала агента CodeMender. CodeMender применяет комплексный подход, мгновенно устраняя целые классы уязвимостей.

Следует обратить внимание, что не для всех задач есть потребность обучать нейросеть с нуля. Для простых задач можно использовать три популярных способа обучения уже готовой модели данным, которых она не знает.

1. SAG (System Assistant Generator) - шаблон промта для нейросети, который скрипт-сервер добавляет к запросу пользователя. Используется для агентов в небольших сайтах и приложениях. Большая LLM вместе с каждым запросом пользователя получает инструкцию с данными, на которых и формирует ответы. Размер SAG промта обычно небольшой, потому что зависит от количества входных токенов API нейросети. Если нейросеть имеет встроенный браузер, то в промте можно задать адреса страниц с инструкциями и текстами ответов. После получения запроса с таким промтом нейросеть пойдет по адресам, прочитает страницы и сформирует ответ на основании полученной информации. Простой, дешевый и достаточно гибкий способ настройки агента на нужную тональность. Не путать с оптимизатором потерь при обучении нейросетей Stochastic Average Gradient (SAG).

2. RAG (Retrieval-Augmented Generation) - архитектура создания промта, направляемого в нейросеть вместе с запросом пользователя. Более сложный и трудоемкий процесс, позволяющий обрабатывать большие объемы данных.

Для создания RAG по тексту надо этот текст подготовить - разбить текст на темы - куски по 512-1024 токена (chunks приблизительно 100-200 слов) или меньше. При этом чанки нужно разбивать так, чтобы они накладывались друг на друга на 15-20%. Это поможет нейросети не потерять смысл всего разделенного текста.

Эти части текста надо прогнать через модель нейросети, создающую из него векторы (embedding) и поместить в векторную базу данных, например, MONGODB, WEAVIATE, ZILLIZ или другие. Embedding-модели есть у Google VERTEX AI, OPENAI и других нейросетевых компаний. Можно поместить векторы и в обычную медленную реляционную базу данных в качестве массивов json, если данных не слишком много, например в MYSQL или DATABASE от Google.

Способ работы RAG. После поступления запроса от пользователя вы берете текст этого запроса и отправляете в embedding-модель, которая переводит его в векторы. Получив от embedding-модели этот запрос в виде векторов, вы через скрипт по метрике, например, косинусного сходства, сравниваете векторы запроса с векторами в вашей базе данных. Для больших обьемов данных лучше, чтобы ближайшие векторы искала система хранилища по быстрому индексу. Наиболее релевантные части текста из базы передаются скрипту, а оттуда - в большую языковую модель, как и в первом варианте SAG, а от модели мы получаем ответ на основе переданной информации из нашей базы. Скрипт сравнивает вектора запроса и базы математически (Bi-Encoder), что хоть и работает быстро, но при неправильной настройке может вызывать галлюцинации у большой нейросети в связи с отправкой частей нерелевантного текста. Индексированная база данных, например PINECONE или QDRANT, работает еще быстрее, поскольку не перебирает все вектора, но из-за этого база менее точна.

Чтобы уточнить результаты поиска, можно использовать еще одну промежуточную Cross-Encoder-модель, которая сделает rerank-перепроверку пар (запрос/кандидат на ответ). Такие модели тоже есть в доступе - MINILM, BAAI, Google EmbeddingGemma и другие.

В общем, RAG будет хорошо работать после точной настройки всех этих параметров под определенную задачу. Именно на стадии определения конкретной задачи для агента надо обозначить параметры RAG.

Если вы понимаете, что большой языковой модели придется часто отвечать на однотипные запросы одинаково, вы можете добавить в эту систему метод CAG (Cache Assistant Generator). CAG позволяет держать в кеше (на сервере, если ответов много) уже полученные от большой модели ответы, назначив им ключи, и скриптом сравнения их вызывать через "key = hash(user_input)", используя неплохую библиотеку hashlib. Мы сначала присваиваем этот ключ-хеш запросу и ищем такой же в нашем кеше. Если запросы полностью одинаковые, то и хеш-ключи одинаковые. Если такого ключа в нашем кеше нет, отправляем текст запроса пользователя на обычную обработку RAG. После возвращения ответа от большой модели, присваиваем ему такой же ключ-хеш, как и у запроса, и кладем в кеш. К нейросетям запросы редко бывают одинаковыми - это не ссылки в интернет-магазине, а потому для уменьшения раздувания кеша по причине высокой чувствительности "hashlib.sha256(user_input.encode('utf-8')).hexdigest()" к каждой букве ключей будет много.

В случае разработки и настройки RAG для бизнеса ознакомьтесь с исследованием Google DeepMind, описывающим ограничения даже для простых запросов. Ученые предоставляют инструменты и наборы данных, которые использовали сами. Репозиторий содержит все необходимое, чтобы избежать ошибок.

Также компания Meta предлагает метод исключения лишних вычислений контекста RAG во время декодирования. Компания представила REFRAG - эффективный фреймворк декодирования, который сжимает, распознает и расширяет данные для уменьшения задержек в приложениях RAG. При использовании разреженной структуры ускорение времени до первого токена в 30,85 раза (улучшение в 3,75 раза по сравнению с предыдущей работой) без потери точности.

Вы можете использовать такие фреймворки для разработки агентов, как EKO с унифицированным интерфейсом от FellouAI на JS, MIDSCENEJS для создания мультимодальных агентов, LangChain для LLM на Python, DIFYAI для быстрой разработки LLM-приложений с разверткой через Docker, CREWAI с UIStudio, среда HAYSTACK для мультимодальных агентов, среды для запуска моделей FIREWORKS, Semantic Kernel от Microsoft для корпоративного уровня, OpenAI Agents SDK и OpenAIAgentKit, COZE и браузерный агент-парсер сайтов BROWSERUSE.

Одним из лидеров по внедрению нейросетевых агентов является компания COHERE, разработавшая LLM семейства Command. Компания предлагает широкий спектр услуг как по развертыванию самих моделей для корпоративной работы, так и по внедрению агентских сред в другие цифровые экосистемы.

Создание агентов для роботизированной техники можно реализовать в LATTICE-SDK от военно-промышленной компании Anduril. Сервис предоставляет среду моделирования реальных данных Lattice Sandboxes для управления техническими средствами без задействования физической техники. Подобные агентные "песочницы" для отладки автоматизации также предлагают REPLIT, RUNPOD, UNITYML-Agents, GAZEBOSIM, AI2THOR, открытая UnifoLM-WMA-0 и другие.

Если вы не хотите вникать в проблемы распределения нагрузок, настройки баз и другие технические сложности, вы можете взять готового агента и настроить его под свои потребности. В этом случае вы можете попробовать агента ELYSIA, агента для программирования SIMULAR, системы агентов MAGENTIC-ONE, II-Agent, MAO-ARAG, фреймворк ELIZA. Для работы автономных агентов поиска в системе RAG есть разработки с подробным описанием работы здесь. Для персонализации RAG тоже есть разработки. Описание одной из них читайте тут.

Для занятых людей существуют системы вайбкодинга - онлайн-сервисы, где последовательное подключение готовых блоков кода (узлов) задает логику работы агента. Такие платформы делают все за вас: остается только выбрать логику вашего агента и ввести данные. Можете пробовать платформы автоматизации ZAPIER, RETOOL, LANGFLOW, ARIZE или другие. Для веб-интерфейса можете использовать сервисы промт-кодинга, создающие интерфейсы и приложения по описанию. Это может быть LOVABLE, TELEX, SALESFORCE и другие.

Сервис MGX, работающий на LRM, создает личных агентов для вашего сайта или рабочего проекта. Достаточно написать, что вы хотите, например агента для чтения почты, и он создаст репозиторий с файлами проекта, который можно выложить в среду разработки и подключить API вашей нейросети.

К этому можно добавить возможности открытого сервиса UISHADCN на VITETAMPLATE с шаблонами, создающими дизайн компонентов на разных языках программирования.

Использовать для доступа агентов к вашим ресурсам стандартизованный компанией Anthropic Model Context Protocol - будет неплохим решением. При этом уже готовые MCP серверы можно скачать у самой Anthropic или, например, у Awesome MCP Servers.

Также можете использовать межагентный протокол Agent2Agent (A2A), разработанный для взаимодействия агентов, работающих в разных фреймворках.

При настройке агента для доступа к своим базам данным используйте промежуточные ресурсы безопасности, такие как TELEPORT, STRONGDM, BOUNDARY, CASBIN или другие, выдающие агенту разрешения на доступ к информации. Это позволит избежать "промпт-инъекций" в LLM с целью получения неограниченного доступа ко всей информации. Отслеживайте работу приложений, поскольку нейросеть работает нестабильно. Можете попробовать для этого сервисы вроде LANGSMITH, создающие трассировку выполняемых операций.

3. Fine-tuning - дообучение большой языковой модели через отправку в нее данных (например в файле gpt_data.jsonL для GPT). В строки файла нужно прописать промты в таком формате:

{ "messages": [ {"role": "system", "content": "Ваш системный контекст"}, {"role": "user", "content": "Вопрос пользователя"}, {"role": "assistant", "content": "Желаемый ответ модели"} ] },

на примере один промт в одной строке выглядит так:

{"messages": [{"role": "system", "content": "Ты - консультант проекта STOP AI DECEPTION. Отвечаешь коротко (до 30 слов), дружелюбно и по делу, используя разговорные фразы ('помощь обманутым нейросетями', 'как вам помочь?', 'послушайте пару советов, чтобы не быть обманутыми'). Не бойся уточнять детали (история об обмане). Без смайлов, без воды, уверенный тон."}, {"role": "user","content": "Я хочу рассказать свою историю."},{"role": "assistant","content": "Прекрасно. Я готов слушать. Ваша история будет размещена на нашем сайте, чтобы предупредить других людей об опасности."}]} - каждый такой промт должен занимать одну строку-сэмпл в редакторе кода. Писать промты можно в удобных таблицах Google (CSV), а потом app-скриптом пережать в .jsonL.

Обучение больших моделей через API у OpenAI платное. Вам нужен скрипт, который будет работать с промтом и к нему библиотека от Open AI для работы с обучением. Вся информация имеется в документации OpenAI. Я не буду переписывать тут документацию, но скажу что делать дообучение модели, даже ее отдельных слоев-адаптеров - довольно нетривиальная задача.

Для того, чтобы модель понимала данные правильно, необходима тонкая настройка весов, а для этого нужно несколько прогонов (эпох) полного датасета через модель. При больших датасетах в 5-7 тис. сэмплов-строк, количество эпох может достигать 8-10. В каждой эпохе надо обозначить Batch size, например, 50 - количество строк в одном батче. В одной эпохе на 5 тис. сэмплов модель получает 50 семплов за раз для обучения, то есть 100 батчей за эпоху. Также нужно обозначить градиентный спуск - скорость обучения (шаг за шагом градиент указывает, куда функция возрастает сильнее всего, и чтобы найти минимум ошибки, нужно двигаться в противоположную сторону). Все это делается в скрипте и настраивается под определенные задачи. Не забываем разделить данные: на данные для обучения и тестовые данные.

Разные инструменты обучения нейросетей предлагает Mistral в своей Console. Бесплатно в пределах разумного вы можете использовать их нейросети по API совместно с готовыми инструментами. Mistral избрала удобную тактику Google Cloud Console, где все инструменты собраны и взаимоинтегрированы.

Компания Thinking Machines развивает сервис TINKER - API тонкой настройки постобучения моделей. Проект включает две библиотеки: 1. tinker — это обучающий SDK для исследователей и разработчиков, позволяющий им точно настраивать языковые модели. Пользователь отправляет запросы к API для получения настроек распределенного обучения. 2. tinker-cookbook — реалистичные примеры тонкой настройки языковых моделей. Он основан на API TINKER и предоставляет общие абстракции для тонкой настройки языковых моделей.

Хочется добавить, что самообучаемые модели нейросетей уже не редкость. Например, компания Meta постоянно улучшает модели DINO с использованием SSL (Self-Supervised Learning) — обучаемые на собственной генерации сигналов входных данных внутренним алгоритмом «Учитель–обучаемый». Таким моделям не нужны разметки для обучения. Они обучены на универсальных данных и учатся предсказывать усредненные данные. Например, дорисовывать и отслеживать на экране кошек, собак, птиц.

Интересную методику обучения нейросетей для выявления стресса по написанному человеком в интернете тексту предлагают авторы статьи в журнале Nature. Новшество заключается в интеграции нескольких передовых методов представления текста, таких как FastText, Global Vectors for Word Representation (GloVe), DeepMoji и XLNet, с Depth-wise Separable Convolution with Residual Network (DSC-ResNet) для точного определения стресса. Алгоритм оптимизации Chaotic Fennec Fox (CFFO) настраивает гиперпараметры. Модель DSC-ResNet улучшена путем гибридизации слоя глубинно-разделяемой свертки с моделью ResNet. Предлагаемая модель реализована на платформе Python.

На этом закончим наш минимальный разбор способов обучения и перейдем непосредственно к доступным датасетам.

Базы данных для обучения нейросетей.

Вы, конечно, можете использовать специальный поиск Google для нахождения датасетов. Но этот поиск больше подходит для нахождения ресурсов с данными, чем готовых датасетов для обучения моделей. Он найдет вам много сайтов с аналитикой и данными, но часто такие данные могут быть не видны, а продаваться в виде отчетов по определенным отраслевым категориям. Например, платно на INFINITIVE DATA EXPERT или бесплатно на FEOSTAT. Такие данные придется очищать и сортировать самому. Поиск выдаст вам много результатов от уже знакомого нам сервиса KAGGLE, Google OPEN IMAGE V7 и других хранилищ датасетов вроде TENSORFLOW и очищеного текста Wikipedia на Hugging Face.

У Google есть большой набор данных Natural Questions на 42 ГБ, в котором собраны реальные поисковые запросы пользователей в связке с соответствующими страницами Википедии. Датасет представляет собой корпус текстов (немаркированный по токенам), снабженный аннотациями long/short/no answer для выделения границ ответа. 49 % примеров содержат long_answer. Обучающая выборка включает более 300 тыс. примеров, валидационная — около 8 тыс. примеров, тестовая - около 8 тыс. примеров.

Если у вас есть неочищенные текстовые данные, например, старые книги или статьи из журналов, вы можете воспользоваться сервисами очистки данных, вроде LLAMAINDEX, UNSTRUCTERED, TEXTMECHANIC, TEXTCLEANER и многих других с веб-интерфейсами. Или вы можете использовать библиотеки-парсеры для Python: DOCLING для текста, PANDAS - для таблиц.

COMMON CRAWL - некомерческий ресурс, предоставляющий открытые данные, собранные с помощью веб-сканирования. Эти данные могут быть использованы в исследовании и разработке нейросетей, требующих большого объема текстовой информации из интернета. Ресурс содержит HTML-страницы, метаданные, заголовки и другие компоненты. Обновляется раз в месяц, собирая около 250 ТБ данных. Датасеты доступны на платформе Amazon Web ServicesPUBLIC DATASET по путям, указанным тут или их можна искать через индексы в CDX-файловой системе ресурса. Данные ресурса используют OpenAI, Meta, Google Research. а также обучающий собственные модели открытый сервис качественных отфильтрованных текстовых данных для обучения LLM ELEUTHERAI.

КОРНЕЛЛСКИЙ УНИВЕРСИТЕТ (Cornell University) - частный исследовательский университет в США, расположенный в Итаке, штат Нью-Йорк. Он был основан в 1865 году Эзрой Корнеллом и Эндрю Диксоном Уайтом как университет, где каждый человек может найти обучение в любой дисциплине. Университет представляет готовые датасеты для обучения по компютерному зрению и репозитарий открытых данных с удобной сортировкой, где можно найти датасеты.

На серверах университета находится огромный архив arXiv с открытым доступом, содержащий почти 2,4 миллиона научных статей в области физики, математики, информатики, количественной биологии, количественных финансов, статистики, электротехники и системных наук, а также экономики. Архив имеет множество предстатейных материалов по искусственному интеллекту. Там можно посмотреть технические отчеты разработки и тестирования таких мощных LLM, как EXAONE 4.0, а также получить доступ к разным бенчмаркам, например, OLYMPIADBENCH (8476 задач из олимпиадных соревнований по математике и физике), LIVECODEBENCH (программный код), OJBENCH (соревновательное програмное кодирование), BIG-BENCH EXTRA HARD (способность LLM находить логические ошибки) и многим другим.

ZENODO - хранилище множества данных в разных форматах. Проект OpenAIRE, находящийся в авангарде движения за открытый доступ и открытые данные в Европе, был заказан ЕВРОПЕЙСКОЙ КОМИССИЕЙ для поддержки зарождающейся политики открытых данных путем создания универсального репозитория для исследований, финансируемых Европейской комиссией. Строитель коллайдера, исследователь фундаментарной структуры частиц компания CERN выступила партнером OpenAIRE для обеспечения открытого доступа к данным. Проект открыл инициативу экосистемы репозиториев общего профиля Национальных институтов здравоохранения (NIH GREI) , задействовав таких обработчиков данных, как: совокупность репозиториев с открытыми научными данными DATAVERSE, открытая платформа для публикации данных DRYAD, поставщик инфраструктуры открытых исследовательских репозиториев FIGSHARE, бесплатный облачный коллективный репозиторий MENDELEYDATA, бесплатная платформа для поддержки исследований OSF и независимая некоммерческая платформа для обмена данными клинических испытаний VIVIL. Для работы с репозиториями Zenodo использует фреймворк INVENIO , который поддерживает систему устойчивых цифровых идентификаторов DOI по стандартам ISO, а также интеграцию небольших научных баз данных в большие на уровне государств, как, например, NFDI в Германии, британские дата-аналитик JISK или гуманитарный архив UK DATA SERVICE, французкий сельскохозяйственный архив института INRAE.

SQuAD - наборы данных от Стэнфордского университета используются в исследованиях обработки естественного языка и способствуют развитию вопросно-ответных систем и машинного понимания текста. Stanford Question Answering Dataset состоит из более чем 100 000 пар «вопрос-ответ», отобранных из различных статей, книг и других текстовых источников. Каждый вопрос связан с определенным абзацем, содержащим ответ. Эта разнообразная коллекция охватывает широкий спектр тем, что гарантирует, что модели, обученные на SQuAD, смогут обрабатывать запросы самых разных типов из разных областей. Является эталоном в этой области, предоставляя разнообразную коллекцию вопросов и соответствующих им текстов. Также данные и вопросы без ответов выступают отличным бенчмарком для тестирования в области понимания естественного языка.

UC IRVINE MACHINE LEARNING REPOSITORY - большое хранилище готовых датасетов с описанием. Архив был создан в формате FTP в 1987 году аспирантом Калифорнийского университета в Ирвайне Дэвидом Аха. Текущая версия веб-сайта была выпущена в 2023 году.

OPEN POWER SYSTEM DATA - бесплатная платформа данных, предназначенная для исследователей электроэнергетических систем. Собирает, проверяет и публикует данные, которые находятся в открытом доступе, но в настоящее время неудобны для использования. Проект предоставляет услуги сообществу разработчиков моделей.

MIMIC-III - это крупная, общедоступная база данных, содержащая обезличенные данные о состоянии здоровья более сорока тысяч пациентов, находившихся в отделениях интенсивной терапии медицинского центра Beth Israel Deaconess в период с 2001 по 2012 год. База данных содержит такую информацию, как демографические данные, измерения основных показателей жизнедеятельности у постели больного (примерно 1 точка данных в час), результаты лабораторных исследований, процедуры, лекарственные препараты, записи лиц, осуществляющих уход, отчеты о визуализации и данные о смертности (включая данные о смертности после выписки из больницы). Еще MIMIC-CXR или PADCHEST.

IGSR - международный ресурс образцов генома создан на основе проекта «1000 геномов», и представляет собой единое представление данных и образцов почти 5000 образцов из различных исследований. Все данные полностью открыты и доступны для общественности.

CHEXPERT - набор данных, состоящий из 224 316 рентгенограмм грудной клетки 65 240 пациентов, прошедших рентгенологическое обследование в Медицинском центре Стэнфордского университета с октября 2002 года по июль 2017 года как в стационарных, так и в амбулаторных отделениях. Набор данных CheXpert включает обучающий, проверочный и тестовый наборы. Проверочный и тестовый наборы включают метки, сделанные сертифицированными рентгенологами. Обучающий набор включает три набора меток, автоматически извлекаемых из соответствующих рентгенологических заключений с помощью различных автоматизированных программ для разметки (CheXpert, CheXbert и VISUALCHEXBERT). Ссылки на статьи по данной теме собраны тут. Информация о способах обучения на двух датасетах ChestX-Ray14 и CheXpert, и разнице между ними тут. В NIH CHESTX-RAY14 DATASET (CXR8) 112 120 изображений (рентгенов грудной клетки), 30 805 пациентов, 14 диагнозов. Для получения датасета нужно заполнить форму на сайте.

HEALTHBENCH от OpenAI - использует информацию от более чем 260 врачей из 60 стран для разработки обоснованных с медицинской точки зрения критериев оценки, а также тестирует производительность ИИ в широких клинических сценариях с помощью более 5000 многооборотных диалогов врача и пациента и более 48 000 пунктов рубрики. Использует датасеты рака, COVID-19, кардиологии, неврологии и других болезней. К его сборкам данных можно получить доступ для тренировки собственных моделей.

COVID-19 IMAGE DATA COLLECTION - набор данных рентгенограмм грудной клетки и КТ-снимков пациентов с подозрением на COVID-19 или другие вирусные и бактериальные пневмонии.

Awesome-biological-image-analysis - инструменты для анализа и обработки биологических изображений, а также наборы для обучения нейросетей.

BRAIN TUMOR SEGMENTATION CHALLENGE - датасеты многоинституциональных предоперационных МРТ-сканирований, фокусирующихся на сегментации опухолей головного мозга. И еще много других полезных датасетов.

MULTIPL-E - датасет для обучения и оценки моделей программирования Multi Programming Languages. Содержит задачи по программированию с решениями на разных языках.

MINARI - набор готовых датасетов для обучения агентов с подкреплением (награда и наказание). Каждый датасет содержит данные об окружающей среде: состояния (уже подготовленные последовательности взаимодействий агента со средой), которые могут быть представлены либо изображениями, либо векторами векторами слепых действий. Эти состояния предварительно векторизуются, например, с помощью сверточных нейросетей, чтобы преобразовать изображения в числовые данные, понятные нейросети. На основе векторизованных состояний нейросеть выбирает действия, цель которых - максимизировать суммарную награду. После каждого действия агент получает сигнал награды или наказания. Повторяя этот цикл, модель учится оптимальному поведению в среде. Подобным образом работают OFFLINERL-KIT, RL UNPLUGGED, GYMNASIUM от OPEN AI и другие.

PAPERSWITHCODE-DATA - архив метаданных в формате JSON с ссылками на внешние датасеты, научные статьи и методы машинного обучения. Для работы с файлами используется Python-библиотека sota-extractor, входящая в репозиторий. Из-за недоступности раньше мегапопулярного сайта PAPERSWITHCODE (redirect на GitHub) с большим хранилищем датасетов, часть ссылок может быть неактуальной.

IMAGENET - бесплатный датасет изображений. На сайте указано, что иерархия базы данных схожа с Принстонской лексической базой данных WORDNET для английского языка. WordNet объединяет объекты в группы по значению, с последующим объединением этих групп небольшими концептуальными отношениями. Например, если кресло является разновидностью стула, а если стул является разновидностью мебели, то кресло является разновидностью мебели. WordNet различает типы (нарицательные существительные) и экземпляры (конкретные лица, страны и географические объекты). Таким образом, кресло является разновидностью стула, Барак Обама является экземпляром президента. Экземпляры всегда являются листовыми (конечными) узлами в своих иерархиях.

COCO - сервис с наборами данных для обнаружения, сегментации больших объектов и присвоения им меток, предоставляющий API. Предлагает свои приложение, плагин и библиотеку FIFTYONE с открытым кодом, для кубирования изображений, визуализации данных по местоположению, очистке данных, извлечению сложных объектов и много другого. Также имеет FiftyOne Model Zoo - интерфейс для загрузки моделей и применения их к наборам данных FiftyOne. Данный интерфейс обеспечивает доступ к предварительно обученным моделям, а также поддерживает загрузку произвольных публичных или частных моделей.

CIFAR - сервис, скопировавший у WordNet в 2006 году 53 464 названий предметов, а потом через интернет-поиск загрузивший их изображения в свою базу. Фишка его датасетов в том, что все 80 млн. изображений - маленькие разрешением 32x32. Состоит из датасетов Cifar10 - на 60 тыс. изображений, разбитых на 10 классов, и Cifar100 - 100 классов, каждый из которых содержит 600 изображений. В каждом классе содержится 500 обучающих и 100 тестовых изображений. 100 классов в CIFAR-100 сгруппированы в 20 суперклассов. Подходит для тренировки у моделей компьютерного зрения.

LSUN (Large‑Scale Scene Understanding) - большой датасет изображений строений и объектов, разбитых на категории “велосипед”, “спальня”, “мост” и т.д., объемами от 3Гб до 160Гб. Для загрузки данных и конвертации предварительно размеченных данных в бинарный формат .tfrecord (для хранения больших объемов) использует библиотеку Google TFDS для TensorFlow на Python, которую можно использовать также для PyTorch и NumPy. Преобразование .tfrecord в тензоры она тоже делает.

LAION-5B - открытый набор данных из 5,8 млрд пар «изображение-текст», для тренировки сверточных моделей и трансформеров распознавать изображения и связывать их с текстом. С помощью этих двух энкодеров модель учится распознавать близко находящиеся пары векторов изображения и описания.

ACADEMIC TORRENTS - хранилище необработанных данных разного формата от видеокурсов по программированию до скачанных данных ВИКИПЕДИЯ. Хранилище наполняется сообществом.

VGGSOUND - большой открытый датасет звуковых фрагментов и видео, собранный командой Visual Geometry Group (VGG) Оксфордского университета. Он содержит тысячи коротких видео с разнообразными звуками, которые используются для обучения и тестирования моделей распознавания звука и мультимодального анализа.

Открытое сообщество разработчиков нейросетей LLM360, выпустившее математическую модель K2THINK при поддержке Университета искусственного интеллекта имени Мохаммеда бин Заида в Масдар-Сити, Абу-Даби, представляет собственные модели, датасеты и метрики. Одной из разработок сообщества является инструментарий Analysis360, охватывающий механистическую интерпретируемость, визуализацию, машинное отучивание, запоминание данных, безопасность ИИ, оценку токсичности и смещений, а также широкий набор оценочных показателей.

The Pile - разнообразный набор данных для моделирования языка с открытым исходным кодом объемом 825 ГБ, состоящий из 22 небольших высококачественных наборов данных, объединенных вместе. Формат The Pile - это данные jsonlines, сжатые с помощью zstandard.

Для пищевой промышленности можно использовать многоязычную базу данных продуктов OPEN FOOD FACTS , базу нутриентов, витаминов, минералов, порций, и стандартизированных названий продуктов USDA FOODDATA CENTRAL , а также Международные таблицы пищевой ценности с усредненными значениями по странам и регионам FAO/INFOODS.

OPENSLR - база данных с множеством речевых, языковых и звуковых датасетов.

VOXLEB - аудиовизуальный набор данных, состоящий из коротких фрагментов человеческой речи, извлеченных из видеоинтервью, загруженных на YouTube. Датасет VoxCeleb1 содержит более 150 000 высказываний 1251 знаменитости, а датасет VoxCeleb2 — более 1 000 000 высказываний 6112 знаменитостей.

Два датасета эмоциональных состояний человека - Emoset с 3,3 миллиона изображений, из которых 118 102 изображения тщательно размечены людьми-аннотаторами, и CAER c 13 тыс. аннотированных видео и 70 тыс. изображений предлагает бенчмарк ELBENCH.

COMMON VOICE от сообщества Mozilla - публично доступные открытые наборы данных речи на более чем 130 языках для ASR, STT, TTS и других контекстов NLP, созданные при участии сообщества.

AUDIOSET - расширяющаяся онтология из 632 классов аудиособытий и коллекция из 2 084 320 10-секундных аудиоклипов с маркировкой, взятых из видеороликов YouTube. Онтология представлена в виде иерархического графа категорий событий, охватывающего широкий спектр звуков, издаваемых человеком и животными, музыкальных инструментов и жанров, а также распространенных повседневных звуков окружающей среды. Разметка данных сделана вручную, что означает большую точность в распознавании звуков.

Если же вы не нашли то, что искали ни здесь, ни в интернете в целом, то вы можете обратится к специалистам по сбору и маркировке данных, таким как SHAIP , APPEN , LABELBOX, APACHEHIVE , SUPERANNOTATE, SAMA или уже знакомому нам SCALE от Meta, воспользовавшись их услугами для сбора нужного датасета, правильной разметки данных или настройки весов.

И да, многие владельцы нейросетевых сервисов пользуются услугами этих специалистов.

БЕНЧМАРКИ (ТЕСТИРОВЩИКИ) НЕЙРОСЕТЕЙ.

Специалисты по обучению и развертыванию нейросетей говорят, что лучшим бенчмарком является личный опыт пользователя.

Эта банальная истина все же имеет свою глубину и ценность. Данные бенчмарков мы не можем проверить, а когда при общении с нейросетями видим их галлюцинации и ложь, утрачиваем часть доверия.

Крупный форум-вопросник для программистов Stack Overflow провел ежегодный опрос разработчиков в 2025, задав 300 вопросов более чем 49 000 технических специалистов. Лидерами участия в опросе стали разработчики из США, Германии и Индии.

По результатам опроса выяснилось, что 84 % опрошенных разработчиков применяют нейросети для своей работы. Наибольшее разочарование, о котором упомянули 66% разработчиков, связано с «решениями ИИ, которые почти верны, но не совсем», что часто приводит ко второму по значимости разочарованию: «Отладка кода, сгенерированного ИИ, занимает больше времени» (45%).

Как видим, сами специалисты программирования не особо доверяют результатам деятельности нейросетей и все же пользуются ими.

Много бенчмарков есть на тех же GITHUB, HUGGINGFACE , базах данных от Google, GOOGLESCHOLAR или других платформах с нейросетями, которые мы упоминали выше. Там можно найти много чего в поиске с удобной сортировкой. Читайте также БЛОГ Google об исследованиях, где часто описываются механики тестирования нейросетей.

Одним из самых популярных бенчмарков является HUMANITY'S LAST EXAM - многомодальный тест из передовых человеческих знаний с широким охватом тем. Набор данных состоит из 2500 сложных вопросов по более чем ста темам.В создании вопросов приняли участие более 1000 экспертов-предметников из более чем 500 учреждений в 50 странах. Бенчмарк включает вопросы с несколькими вариантами ответов и краткими ответами, подходящие для автоматизированной оценки. Вопросы доступны публично. Одновременно бенчмарк сохраняет часть вопросов закрытыми для оценки переобучения модели.

Также популярны бенчмарки, в которых ответы разных нейросетей на один запрос оценивает сам пользователь.

Популярный бенчмарк LMARENA предлагает оценивать модели пользователям. Вы пишите запрос, на который отвечают две нейросети. Например: “Дай список самых популярных бенчмарков нейросетей.” И два помощника А и В дают вам два ответа. Прочитав ответы, вы выбираете лучший или ставите ничью или оцениваете оба ответа, как плохие. Можно выбрать конкретные модели или одну модель, а также посмотреть рейтинги.

SCIARENA - похожая онлайн-платформа от некомерческого института исследований искусственного интеллекта Allen Institute for AI, предназначенная для анализа научных задач в области искусственного интеллекта и обработки естественного языка. Здесь можно задавать научные вопросы и задачи. Ответы дают две случайно выбранные модели, которые берут информацию из системы поиска релевантных научных статей ScholarQA. Пользователь, как и заведено на аренах, ставит оценки полученным результатам. Платформа помогает исследователям тестировать модели, сравнивать результаты и обмениваться достижениями.

HUMANEVAL - сборник бенчмарков, оценивающих нейросеть через осмысленное взаимодействие с человеком, а не только на основе синтетических метрик. Использует агентную инфраструктуру, позволяющую взаимодействовать с моделями, привязанными к конкретным платформам, и оценивать их — возможности, отсутствующие у конкурентов, таких как LMArena. Как и там имеет “слепое” тестирование на лучший ответ.

LMSYS - сборник проектов команды исследователей из UC Berkeley, содержащий открытые модели, наборы данных, системы и инструменты оценки для больших моделей. Предлагает публичное голосование за модели, как у LMArena.

SUPERGLUE - усложненный бенчмарк GLUE с диагностическим набором данных и задач. Поможет понять, чего не хватает модели (например, проблемы с логическими операторами, двойным отрицанием, редкими знаниями и тому подобное), позволит выявить гендерный или предметный перекос (меняется he/she).

SPIDER - бенчмарк проверки понимания нейросетью вопросов на естественном языке и умения формировать корректные SQL-запросы к базе данных. Модель не просто отвечает текстом, а строит SQL-запрос, исполняет его и возвращает ответ из таблиц. Это один из способов получения ответа на запрос к нейросети - CoT (Chain-of-Thought + self-correction) - пошаговое построение запроса с проверкой через размышление нейросети о каждом шаге. Модель сначала по шагам предлагает схему - какие таблицы и столбцы будут использоваться, как будет выглядеть SQL-запрос, выбирает фильтры данных, затем уточняет недостающие детали, перепроверяет себя, и лишь потом возвращает результат. Метод точный, но довольно затратный, поскольку требует много запросов к нейросети.

WINOGRANDE - созданный вручную строгий набор 44 тыс. задач для определения сути языковых предложений. Специально разработанный алгоритм AfLite удаляет из набора задачи, которые можно решить не думая — по простой машинной статистике слов. Это позволяет проверить нейросеть в действительно реальных условиях, исключая запоминание часто попадающихся данных.

MLCOMMONS - открытый международный консорциум, создающий стандарты и инструменты для объективного измерения производительности, качества и безопасности решений нейросетей. Предлагает разные тестировщики для нейросетей, а также для ваших девайсов, на которых вы планируете запускать нейросети. Можно использовать с NANOREVIEW, PASSMARK или универсальным GEEKBENCH - для сравнения процессоров, смартфонов и других гаджетов, совместно с бенчмарком UX интерфейсов приложений CrUX.

HELM (Holistic Evaluation of Language Models) - бенчмарк от Стэнфордского университета для тестирования языковых моделей по разным метрикам (многозадачное понимание, безопасность, извлечение структурированной информации с изображений и другие).

EVALPLUS - набор бенчмарков для проверки написания нейросетями програмного кода. Позволяет объективно сравнивать производительность различных LLM. Помогает выявлять слабые места существующих моделей и направлять усилия на их улучшение. Служит основой для публикаций и исследований в области LLM и программирования.

Уязвимости в программном коде поможет обнаружить Claude-code-security-review. Инструмент использует нейросеть Claude для анализа изменений кода на наличие уязвимостей. По заверениям разработчиков обеспечивает интеллектуальный контекстно-зависимый анализ безопасности запросов на включение изменений с помощью инструмента Claude Code от Anthropic для глубокого семантического анализа безопасности.

Интерактивная платформа CIBench предназначена для комплексной оценки возможностей LLM при использовании интерпретаторов кода в задачах науки о данных. Она включает набор данных для тестирования и два режима оценки. Набор данных создан с применением кооперативного подхода LLM-человек и имитирует реальный рабочий процесс, используя последовательные интерактивные сеансы IPython. Два режима оценки проверяют эффективность LLM с участием человека и без него.

Бенчмарк TERMINALBENCH создан при участии ученых Стэнфордского университета и Laude Institute, основанного Энди Конвински - сооснователем Perplexity и Databricks. Это набор заданий и система оценки, помогающая разработчикам агентов количественно измерять терминальные навыки своих систем.

Бенчмарк GDPVAL OpenAI измеряет эффективность моделей при выполнении задач, основанных непосредственно на реальных знаниях опытных специалистов из 44 самых разных профессий и отраслей, предоставляя более четкое представление о том, как модели работают с экономически значимыми задачами.

Тест Геделя: - разработанный израильскими учеными Мораном Фельдманом и Амином Карбаси тест для LLM, дающий оценку способности модели выдавать правильные доказательства для очень простых, ранее нерешенных гипотез.

SUPERGPQA - строгий тест, разработанный для оценки возможностей LLM. Устраняет ограничения существующих тестов, которые фокусируются на распространенных областях и игнорируют разнообразные, практические профессиональные дисциплины. Содержит 26 529 вопросов по 13 дисциплинам, 72 областям знаний и 285 дисциплинам магистратуры, причем не менее 50 вопросов на каждую дисциплину. Это обеспечивает доступность и релевантность для различных реальных профессиональных ситуаций, включая экспертные знания, которые часто упускаются из виду другими бенчмарками. Охватывает специализированные, редко тестируемые области - лучшие модели оцениваются чуть больше в 60%.

VALS - платформа для независимой оценки производительности больших языковых моделей (LLM) в специфических отраслях, таких как право, финансы и налогообложение. Предоставляет открытые бенчмарки, которые помогают понять, как модели справляются с реальными профессиональными задачами, а не только с академическими тестами.

BABILong — генеративный бенчмарк для оценки производительности моделей обработки естественного языка при обработке длинных документов с распределенными в разных местах фактами. Состоит из 20 заданий, разработанных для оценки базовых аспектов рассуждения. Задания генерируются путем моделирования набора персонажей и объектов, совершающих различные движения и взаимодействующих друг с другом в различных локациях. Каждое взаимодействие представлено фактом, например, «Мэри поехала в офис» , а задача состоит в том, чтобы ответить на вопрос, используя факты из текущей симуляции, например, «Где Мэри?». Задания различаются по количеству фактов, сложности вопросов и аспектам рассуждения. Авторы утверждают, что даже модели, заявленные как поддерживающие 128K токенов, такие как GPT-4, испытывают деградацию при превышении 10% от их входной мощности. Методы RAG не помогают, в то время как тонкая настройка моделей малого масштаба показывает, что эти задачи решаемы.

MMMU — бенчмарк, предназначенный для оценки мультимодальных моделей в масштабных междисциплинарных задачах, требующих знаний по предметам на уровне колледжа и осознанного рассуждения. Включает в себя 11,5 тыс. тщательно собранных мультимодальных вопросов из экзаменов колледжа, тестов и учебников, охватывающих шесть основных дисциплин: искусство и дизайн, бизнес, наука, здравоохранение и медицина, гуманитарные и социальные науки, а также технологии и инжиниринг.

Safety evaluations hub - центр предоставляет доступ к результатам оценки безопасности моделей OpenAI. Эти оценки включены в системные карты, учитываемые при принятии внутренних решений о безопасности и развертывании моделей. Оценивается склонность моделей к генерации опасного контента, галлюцинациям и многое другое.

Бенчмарк PERSONA проверяет адаптацию языковых моделей к разным личностям и системам ценностей. Предполагает создание синтетических личностей с разными индивидуальными и демографическими характеристиками, а также набора данных с подсказками и отзывами. На основе общения языковых моделей с этими личностями создается плюралистический подход к выравниванию моделей на эталон - Persona Bench. Подробнее можно почитать тут.

DANABENCH от MLCommons, Inc. - платформа интерактивного тестирования моделей, создания сложных задач для оценки языковых моделей (LLM), сообщество единомышленников и экспертов в области искусственного интеллекта. Предлагает соревнования в тестировании LLM, а также площадку для совместной работы, где можно изучать и оценивать эффективность LLM в таких областях, как создание предвзятости, экспертиза в предметной области и т. д.

VANDINGBENCH - имитационная среда, которая проверяет, насколько хорошо модели нейросетей справляются с простым, но долгосрочным бизнес-сценарием: управлением торговым автоматом. Агент должен отслеживать наличие товара, размещать заказы, устанавливать цены и оплачивать ежедневные сборы — по отдельности простые задачи, которые со временем расширяют границы возможностей нейросети сохранять последовательность и принимать обоснованные решения. Интересная статья - интервью с создателем бенчмарка и компании Andon Labs Акселем Баклундом.

ChatGPT Micro-Cap - эксперимент школьника Натана Смита по предоставлению модели ChatGPT управляния портфелем микрокапитализации на реальные деньги. Автор предоставляет GPT-модели торговые данные по акциям в его портфеле. Дествуют также правила стоп-лосса - минимальной цены на активы. Каждую неделю автор позволяет GPT проводить глубокие исследования для переоценки своего аккаунта. Данные эксперимента парень еженедельно публикует в своем блоге.

SWE-BENCH VERIFIED — это бенчмарк от OpenAI и авторов оригинального SWE-Bench, который включает 500 выбранных заданий на Python из старого бенчмарка. OpenAI также предлагает интересный бенчмарк — SimpleQA, который проверяет способность языковых моделей отвечать на короткие вопросы, требующие поиска фактов.

ARC-AGI - общий тест от Франсуа Шолле, известного ученого, создавшего библиотеку глубокого обучения Keras.

GAME-ARENA - бенчмарк от Kaglle, где ведущие модели из лабораторий искусственного интеллекта, таких как Google, Anthropic и OpenAI, соревнуются в матчах, транслируемых в прямом эфире и доступных для воспроизведения. Матчи определяются игровыми средами, системами и визуализаторами, работающими на оценочной инфраструктуре Kaggle.

Модель галюцинаций VECTARA - нейросеть, разработанная для отслеживания галюцинаций языковых моделей. Строится на концепции двух частей текста, которые являют собой утверждение и подтверждение.

OPENCOMPASS - китайский набор бенчмарков. Вертикальные отраслевые оценки охватывают такие ключевые области, как финансы, здравоохранение и образование. Сотрудничает с ведущими китайскими университетами и технологическими компаниями для совместной публикации авторитетных наборов данных и рейтингов вертикальных оценок, способствуя созданию стандартизированной системы оценки для крупных отраслевых моделей.

C-EVAL - еще один китайский комплексный набор инструментов для оценки фундаментальных моделей китайского языка. Он состоит из 13948 вопросов с несколькими вариантами ответов, охватывающих 52 различные дисциплины и четыре уровня сложности.

WEBARENA - автономная, саморазмещаемая веб-среда для создания автономных нейросетевых агентов, которые выполняют задачи в веб-среде. WebArena создает веб-сайты четырех популярных категорий с функциональностью и данными, имитирующими их реальные аналоги. Агенты учатся использовать карты для построения маршрутов, управлять заказами в интернет магазине, обновлять информацию на сайтах, создавать репозитории на GitHub.

VIDEOARENA - на этот раз видеоарена с выбором лучшего видеоролика из уже созданных. Также показывает рейтинг популярных видеогенераторов.

CONTRA – бенчмарк-онлайн в формате арены для тестирования моделей создания изображений, видео и программного кода. Заходите, тестируете запросы, а потом получаете названия моделей, которые их выполняли.

До какой даты в популярную нейросеть были загружены данные, можно посмотреть на EXPLOUDINGNOPICS . Похожая информация содержится на оптимизаторе поиска сайтов через нейросети ALLMO, а также больше можно узнать и дополнить базу дат через этот GitHube-репозитарий.

Если вам нужна автоматизированная система проверки ответов на задачи по программированию, воспользуйтесь открытой DMOJ или онлайн-сервисами CODEFORCES, ATCODER или другими.

Для расширенного тестирования вашего творения вы можете обратиться к профессиональным тестировщикам. Это купленный OpenAI сервис тестирования продуктов разработки STATSIG, корпоративно-ориентированный LAUNCHDARKLY, HARNESS, поглотившая Software as a Service платформу SPLIT, и другие.

Ну вот мы и познакомились с большим сообществом разработчиков, энтузиастов, исследователей и экспертов в области искусственного интеллекта.

Все они трудятся и создают продукты, способные изменить наше будущее.

Если вы хотите присоединится к ним, помочь или просто научится лучше понимать нейросети - вы тот, кто тоже хочет изменить мир в лучшую сторону.

Присоединяйтесь! Общайтесь на HackerNews, в сообщеставах Reddit и LinkedIn.

Возможно, с вашей помощью скоро мы впишем в каталоги еще один или больше отличных нейросетевых сервисов.

Сейчас человечество находится только на пороге новых открытий, и я уверен, что где-то работают люди, которые делают маленькие шаги для большого шага человечества в лучшее будущее. Возможно, один из этих людей - это вы.

Спокойно и вдумчиво берегите себя.

Проходите SAID тест, чтобы еще раз убедится, что нейросеть не способна нас обмануть.

said-корреспондент🌐

Вы можете создать отдельную тему на форуме в сообществе.

СТОП НЕЙРООБМАН

КАТАЛОГИ НЕЙРОСЕТЕЙ. НАБОРЫ ДАННЫХ И БЕНЧМАРКИ. ВЫБОР И ОБУЧЕНИЕ МОДЕЛЕЙ.

Комментарии

КАТАЛОГИ НЕЙРОСЕТЕЙ. НАБОРЫ ДАННЫХ И БЕНЧМАРКИ. ВЫБОР И ОБУЧЕНИЕ МОДЕЛЕЙ.

Комментарии

Вход в аккаунт

Свяжитесь с нами