
КАТАЛОГИ НЕЙРОМЕРЕЖ. НАБОРИ ДАНИХ ТА БЕНЧМАРКИ. ВИБІР І НАВЧАННЯ МОДЕЛЕЙ.
05.08.2025
Оновлено 08.10.2025
Кількість нейромереж зростає. Їм потрібно більше обчислювальних потужностей — процесорів, памʼяті, комплектуючих, енергоживлення, обслуговування.
Усе це разом — це центри обробки даних. Великі комплекси електронно-обчислювальної техніки, які обслуговуються людьми та роботами. Одні з них фінансуються урядами, інші будуються за інвестиційні кошти. Всі вони надають доступ до великих обчислювальних потужностей командам науковців для прискореного вирішення складних задач.
Наявність не просто суперкомпʼютерів, а надпотужних обчислювальних нейромережевих агентів дозволяє людині отримувати значно більше даних за короткий час. Нейромережеві обчислення — це феноменальна гнучкість, множинність варіантів вирішення надскладних завдань і швидкий прорахунок результатів.
Центри обробки даних.
Найпотужнішим і найшвидшим суперкомпʼютером у світі сьогодні є El Capitan, що знаходиться у США. Він побудований компанією Hewlett Packard Enterprise. Його потужність визначається як 25,18 петафлопс (PFlop/s), тобто 25,18 квадрильйонів операцій за секунду. Друге та третє місце за потужністю у світі займають Frontier і Aurora, які також розташовані в США.
Кількість, місце розташування та характеристики суперкомпʼютерів можна знайти у каталозі TOP500. Списки та рейтинги технологічних потужностей також часто публікує відоме науково-аналітичне видання HPCWIRE та інші техноресурси.
Будівництво дата-центрів має власний розгалужений ринок, де лідирують такі великі гравці, як будівельна компанія AEKOM, а також DPR CONSTRUCTION, TURNER CONSTRUCTION CO. та інші підрядники, списки й рейтинги яких можна переглянути на MORDORINTELLIGENCE, COHERENT або DATACENTREMAGAZINE.
У США центри обробки даних мають відповідати стандартам Інституту стандартизації ANSI, а в Євросоюзі — CEN/CENELEC. Багато компаній при проєктуванні дата-центрів також експериментують зі стратегією ізоляції гарячих і холодних повітряних коридорів між стійками задля підвищення ефективності охолодження.
Проєкт OpenAI спільно з американським хмарним сервісом ORACLE та японським телекомунікаційним холдингом SOFTBANK реалізує проєкт Stargate на 500 млрд доларів США. У рамках проєкту планується будівництво п’яти нових дата-центрів для обробки нейромережевих даних у США.
Компанія xAI Ілона Маска будує суперкомп’ютер Colossus 2 у Мемфісі, штат Теннессі, США. За пів року компанія встановила системи охолодження потужністю близько 200 мегават, що забезпечує роботу приблизно 110 000 серверів на базі Nvidia GB200 NVL72. Також були залучені енергетичні потужності із сусіднього штату Міссісіпі. Проєкт підтримується будівельно-технологічною енергетичною компанією Solaris Energy Infrastructure. Очікується, що Colossus 2 стане одним із найпотужніших центрів обробки нейромережевих даних у світі.
Поступово на ринки Європи та США виходять великі гравці з Азійсько-Тихоокеанського регіону. Наприклад, тайванський виробник iPhone — компанія FOXCONN об’єднує частину своїх потужностей із тайванським виробником електромеханічного обладнання TECO для впевненішого виходу на світові ринки.
Microsoft будує найбільший у світі центр обробки даних Fairwater у Вісконсині (США), запуск якого обіцяють на початку 2026 року. Також компанія бере участь у будівництві дата-центрів у Норвегії та Великій Британії. Хмара Microsoft Azure налічує понад 400 дата-центрів у 70 регіонах світу. Детальніше про дата-центри компанії можна прочитати тут.
Крім стаціонарних будівель, центри обробки даних можуть бути невеликими, але теж містять сервери, накопичувачі, комутатори й системи управління, а також елементи інженерної інфраструктури — системи мікроклімату, пожежогасіння та відеоспостереження. Вони допомагають корпоративному бізнесу уникнути затримок під час передавання даних до стаціонарних дата-центрів.
Контейнерні (мобільні) дата-центри за розміром подібні до вантажних контейнерів, що підвищує їхню мобільність. Вони призначені лише для зовнішнього (outdoor) розміщення.

Модульні дата-центри являють собою автономні модулі та можуть встановлюватися як всередині приміщень (indoor), так і розміщуватися в захищених модулях поза приміщеннями (outdoor). Модульні дата-центри не транспортуються у вигляді вантажного контейнера. Такі дата-центри виробляють компанії VERTIV, SCHNEIDER ELECTRIC, ZTE, CISCO, BMARKO, MODULAR DC та низка інших.

Також стрімко розвивається ринок міні-дата-центрів — холодильних серверних шаф, представлений такими компаніями, як CANOVATE або RITTAL та іншими, список яких можна знайти, наприклад, у INVEN.

Ринок багатий на пропозиції, а як відомо, немає кращого часу для початку бізнесу, ніж сьогодні.
КАТАЛОГИ НЕЙРОМЕРЕЖ.
Найбагатшою на різноманітні можливості пошуку нейромереж і роботи з ними є, звісно, мегапопулярна платформа GITHUB. Її безмежні простори зберігають у своїх репозиторіях безліч програмних кодів на будь-який смак. Кожен поважаючий себе програміст має там акаунт. Саме в репозиторіях на GitHub викладають свої моделі такі гіганти, як Google, Alibaba, OpenAI та інші.
Крім GitHub, подібними платформами, що працюють із системою керування версіями GIT, є GITLAB, BITBUCKET, SOURCEFORGE, CODEBERG, GITEA та її форк FORGEJO, GOGS, хостинг GITBUCKET, сховища NOTABUG і SAVANNAH з його вільною операційною системою GNU.
На згаданих вище сервісах ви можете знайти або створити власні сервери, бібліотеки та налаштування для нейромереж — конфігурації моделей. Ви можете зберігати та запускати для простих задач скрипти на PYTHON та фреймворках PYTORCH, TENSORFLOW та інших.
Складні обчислення, як-от навчання нейромереж, створення ваг, запускаються на серверних обчислювальних платформах, які працюють на GPU (високошвидкісних відеокартах з великим обсягом пам’яті).
Великою платформою на GPU є мегапопулярний HUGGING FACE з його сервісом розгортання моделей Spaces. На цьому сервісі також публікуються й представлені тестовим інтерфейсом майже всі популярні нейромережі з відкритим кодом. Нейромережі на Hugging Face відсортовані за спеціалізаціями, тож ви легко знайдете й зможете спробувати ту нейромережу, яка вам потрібна. Крім цього, розгорнуті на цій платформі нейромережі часто пропонують API, що завжди корисно для веброзробників. Має велику бібліотеку даних для навчання та тестування — Hugging Face Datasets lib.
Окрім Hugging Face, для навчання нейромереж, коригування їхніх ваг і тестування використовуються такі обчислювальні платформи, як GOOGLE COLABORATORY, що дозволяє запускати моделі прямо з GitHub. На Colab можна знайти більшість готових моделей. Навчання й оцінку моделей, налаштування середовища застосунків інтерфейсів моделей, захист генерацій невидимим водяним знаком SynthID допоможе здійснити зручний додатковий інструментарій RESPONSIBLE GENERATIVE AI TOOLKIT.
PAPERSPACE GRADIENT — платформа машинного навчання, яка підтримує технологію автономного розгортання DOCKER. Також підтримує Jupyter Notebook для файлів формату .ipynb прямо з GitHub. Датасетів немає, але можна завантажувати свої.
Ці платформи пропонують безкоштовні рішення, але їхнього обсягу вистачить лише на дуже невеликі й прості моделі. Для ширшого розгортання доведеться платити. Але фішка таких платформ — в автоматизації всіх необхідних вам дій. Якщо ви хочете швидко навчити й протестувати модель під потреби бізнесу, то їхній вибір буде цілком рентабельним.
Окрім цих спеціалізованих платформ, вам можуть знадобитися й інші серверні потужності. Їх пропонують в оренду великі компанії, у яких також є інструменти машинного навчання.
AWS (Amazon Web Services) — пропонує GPU-сервери, сховища. Є безкоштовні пропозиції, але реєстрація — тільки після додавання банківської картки. Має SageMaker — платформу для навчання та деплою моделей з досить трудомістким налаштуванням.
MICROSOFT AZURE — GPU, візуальне середовище для навчання нейромереж і віртуальні сервери: NC (обчислення, навчання нейромереж, фізичне моделювання на NVIDIA Tesla K80, V100, A100), ND (глибинне навчання нейромереж на NVIDIA Tesla P40, V100, A100) та інші.
Попит на потужності Microsoft Azure зростає, враховуючи контракти, які компанія укладає на їхню оренду. Серед клієнтів – OpenAI, провайдер нейромережевих технологій NEBIUS та інші впливові гравці ринку.
GOOGLE CLOUD PLATFORM — хмарний сервіс із Vertex AI (набором інструментів для навчання моделей). Має спеціальний процесор для нейромереж TPU (Tensor Processing Unit). На відміну від звичайних відеокарт (GPU), TPU заточений під задачі на кшталт навчання й запуску моделей, особливо на фреймворках машинного навчання TensorFlow та Google JAX.
Google розробив бібліотеку TUNIX для оптимізації постнавчання великих мовних моделей. Вона забезпечує ефективну та масштабовану підтримку тонких налаштувань, у тому числі навчання з підкріпленням. Бібліотека використовує інтеграцію з фреймворком FLAX NNX з вкладеними модулями та спрощеним API, розробленим для спрощення створення, перевірки, налагодження та аналізу нейронних мереж у JAX.
NVIDIA NGC пропонує Docker-образи з моделями нейромереж, оптимізовані під GPU та наборами інструментів для навчання (SDK). Сервери працюють на відеокартах A100, H100 GPU, якими так славиться NVIDIA. Має велику кількість різних моделей та інструментарій NVIDIA NEMO FRAMEWORK для навчання моделей.
Створений компанією RIGHTNOWAI і розміщений на Product Hunt агент для оптимізації та прискорення роботи коду на графічних процесорах NVIDIA (CUDA) має великі перспективи для покращення роботи відеокарт, а отже і для прискорення роботи нейромереж.
LAMBDA LABS — платформа, призначена для глибинного навчання нейромережевих моделей (deep learning). Досить гнучка щодо оренди потужностей — можна орендувати сервери на GPU A100 на різний час.
IBM CLOUD — платформа, що пропонує WATSON STUDIO для розробки, навчання та розгортання моделей ШІ. У Watson Studio є зручні інструменти для роботи з даними, побудови моделей та їх масштабування. Також IBM Cloud надає GPU-інстанси (віртуальні сервери), які можна орендувати для прискореного навчання нейромереж.
ORACLE CLOUD — платформа, що надає в оренду віртуальні GPU-сервери для навчання моделей за досить демократичними цінами. Крім цього, пропонує інструменти готових нейромереж і API.
CEREBRAS — хмарний хостинг від виробника нейромережевих процесорів і обладнання для суперкомп’ютерів, який пропонує оренду обчислювальних потужностей на гнучких умовах. Процесори CS-3 з чотирма трильйонами транзисторів заявлені як найшвидші для нейромереж.
OPENBESTOF — збірка інструментів для роботи з великими мовними моделями (LLM). На сайті представлені інструменти для навчання, інтерфейси, фреймворки для розробки застосунків з LLM, серверні рішення та бенчмарки для оцінки й тестування моделей.
Невеликі моделі можна тестувати в сервісі хмарної розробки REPLIT. Сервіс можна використовувати в браузері або в окремому додатку. Пропонується початковий безкоштовний пакет для тестування, а також багато корисних фреймворків.
Компанія GROQ, що створила не лише дата-центри та сервісну хмару, а й власний чип з LPU-архітектурою, пропонує розгортання моделей на власних технічних потужностях. Надає безкоштовний план для ознайомлення та початку роботи з моделями, а також бібліотеку Groq Python.
Ці списки не є вичерпними, оскільки ринок серверних потужностей постійно розширюється, і на ньому з’являються нові пропозиції. Завжди можна знайти вигідне рішення для своєї бізнес-моделі або навіть створити власну пропозицію, від якої багато споживачів просто не зможуть відмовитися.
Локальне встановлення та використання моделі від Google.
Якщо вам потрібна автономна обчислювальна потужність, варто орієнтуватися на мінімальні вимоги, виходячи з сучасних середніх показників.
Наприклад, можна взяти трансформер-модель Google GEMMA 3, яка відома своїми мінімальними вимогами до "заліза", але водночас здатна розпізнавати й генерувати текст, зображення, аудіо та відео. Ця модель не розв’яже вам складні олімпіадні задачі, але цілком придатна для щоденних завдань і може стати чудовим помічником.
Для її локального розгортання та роботи вам знадобиться комп’ютер зі щонайменше 8 ГБ оперативної пам’яті (RAM) і 10 ГБ вільного місця на диску. Модель може працювати на процесорі, але рекомендується мати відеокарту NVIDIA з мінімум 4 ГБ відеопам’яті (VRAM).
Якщо у вас усе це є, завантажуйте бібліотеку PYTHON transformers, яка містить завантажувачі та інсталятори моделей Gemma з репозиторію, а також пакети Docker для встановлення окремого середовища. Встановіть бібліотеку, фреймворк PyTorch і уніфікатор під CPU/GPU за допомогою команди “pip install transformers torch accelerate”. Бібліотека створить на вашому комп’ютері кеш-папку, куди завантажить ваги (параметри) моделі з розширенням .safetensors або .bin, а також файли токенізатора — конфігураційні файли, що описують, як ділити текст на токени. Вони включають словник (tokenizer.json, vocab.json тощо). Також буде створено файл конфігурації моделі config.json, який описує архітектуру моделі (наприклад, кількість шарів, функцію активації). Крім цього, встановіть LM-метрики за допомогою “pip install evaluate”.
Після того, як бібліотека виконає свою роботу зі встановлення всіх налаштувань, до справи береться оперативна пам’ять, відеопам’ять і процесор, які використовують фреймворк PyTorch для обчислень.
На етапі підготовки ви створюєте об’єкт nlp (Natural Language Processing — обробка природної мови) у тимчасовій пам’яті вашого комп’ютера як змінну nlp = pipeline("text-generation", model="google/gemma-3n-1b-instruct-4k"). За цією командою фреймворк завантажує конфігурацію моделі, токенізатор і ваги моделі в оперативну пам’ять. Якщо на диску їх немає, вони завантажуються з репозиторію Hugging Face.
Під час взаємодії з моделлю ви викликаєте nlp, наприклад: result = nlp("Напиши рецепт яєчні", max_new_tokens=50). Ці слова формуються у шаблон, зрозумілий для моделі, і передаються токенізатору, який перетворює частини тексту на числа у вигляді вектора. Ці числа упаковуються у тензор вхідних даних вже знайомого нам фреймворку PyTorch — масив чисел, таблиця з рядками числових наборів (кожен вектор — окремый рядок).
Сама модель і її ваги теж складаються з великих тензорів параметрів (масивів чисел). Потрапляючи в модель, наш невеликий тензор текстових даних підставляється у певні формули, які тут ми описувати не будемо. У внутрішніх шарах моделі відбуваються обчислення для пошуку відповідних токенів для відповіді. Модель обробляє вхідні токени — встановлює зв’язок між словами "Напиши рецепт яєчні" і створює з них нові вектори, близькі в контексті даного запиту. Підсумковий набір цих векторів для тексту "Напиши рецепт яєчні" перетворюється у logits — словник усіх токенів моделі.
Кожен токен зі словника отримує оцінку близькості до вхідних токенів, але ці оцінки ще не відкориговані, і модель не знає, які токени достатньо близькі до нашого запиту — тобто які мають оцінку 1. Після цього функція Softmax перетворює всі оцінки токенів у цьому словнику на додатні числа, сума яких дорівнює 1. Функція робить це нелінійно, тобто малі числа стають ще меншими, а найбільші зростають до значень, близьких до 1. Далі модель має вибрати токени, які вона видасть у відповіді. Більшість моделей роблять це випадково, обчислюючи лише ймовірність — у токена з оцінкою 0.01 — 1% шансу бути обраним, а з оцінкою 0.85 — 85% шансу. Такий випадковий вибір робить відповіді моделі більш різноманітними. Регулюється цей вибір відомим параметром “temperature”, доступним в інтерфейсах багатьох нейромереж.
Якщо ви не до кінця зрозуміли, як працює модель — не хвилюйтеся, з часом усе стане на свої місця, і ви, здобуваючи практичні знання, зможете навчати власну модель так, як вважаєте за потрібне. Але навчання моделі — це окрема історія, хоч і дотична до цієї теми.
Якщо ж локальний варіант виявиться надто слабким для виконання ваших завдань — повернімося до світової спільноти, яка активно прискорює створення великих нейромережевих моделей.
Окрім уже згаданих хмарних сервісів розміщення нейромереж, існують агрегатори даних про нейромережі. Серед них можна відзначити нещодавно придбану компанією Meta SCALE, яка має великий досвід у розмітці даних, а також у розробці рішень для великого бізнесу й урядових програм.
Також великим каталогом можна назвати FUTURETOOLS. Сервіс має зручний інтерфейс із якісним сортуванням великої кількості різноманітних нейромережевих інструментів.
THERE’S AN AI FOR THAT — чудова збірка нейромережевих сервісів із сортуванням за потребами та завданнями.
AITOOLS — хороший каталог нейромережевих сервісів із розгорнутим описом і зручною системою сортування.
TOPAITOOLS — простий каталог нейромережевих інструментів із докладним описом їхніх тарифних планів і можливостей, з сортуванням за задачами та зручним пошуком.
INSIDR — сервіс рейтингів нейромереж із оглядами та інструкціями щодо використання нейромереж у бізнесі, роботі та розвагах.
ALLTHINGSAI — збірка інструкцій з використання нейромереж, оглядів, інтерв’ю з розробниками та рейтингів нейромереж.
TOOLFY — каталог нейромереж із насиченим інтерфейсом і великим вибором варіантів сортування.
AICYCLOPEDIA — каталог нейромереж із докладним описом їхніх можливостей, а також збірка статей про історію створення нейромереж і передові інструменти у сфері штучного інтелекту.
REPLICATE — провайдер готових нейромережевих інструментів з API-рішеннями. Пропонує послуги хостингу.
OPENROUTER — відомий провайдер нейромережевих API з непоганим безкоштовним тестовим тарифом. Також має таблицю рейтингів моделей і «вайб»-середовище для підключення сервісів до різних застосунків без знання мов програмування.
Також можна скористатися PROMPTHERO як збіркою промптів для різноманітних генераторів зображень і відео. Окремо для ChatGPT є цікавий каталог чат-інтерфейсів FLOWGPT із готовими промптами під різні потреби.
На збірці промптів PROMPTBASE можна продавати або купувати промпти, а також швидко знайти потрібний промпт для конкретної нейромережі за категоріями чи пошуком.
НАБОРИ ДАНИХ.
На чому ж навчаються і тренуються нейромережі, які дані вони використовують і як їх розуміють.
Принципи навчання нейромереж.
Для розуміння принципу розмітки даних для навчання нейромереж потрібно виділити основні типи їхньої архітектури:
1. Повнозв’язні нейромережі (Feedforward Neural Networks, FNN) — сигнал передається лише вперед — від входу до виходу. Використовуються в задачах класифікації та регресії (передбачають числове значення на основі вхідних даних і видають числа).
2. Згорткові нейромережі (Convolutional Neural Networks, CNN) — обробка зображень і відео. Містять згорткові шари для виокремлення ознак (features) — розпізнавання облич, об’єктів, медична діагностика за знімками.
3. Рекурентні нейромережі (Recurrent Neural Networks, RNN) — використовуються для послідовних даних (текст, звук, часові ряди). Мають памʼять про попередні входи та застосовуються для машинного перекладу, чат-ботів, розпізнавання мови.
4. Трансформери (Transformers) — стандарт для обробки тексту та мультимодальних даних. Працюють на основі механізму уваги (GPT, BERT, LLaMA, Gemini) і застосовуються для генерації тексту, перекладів, чат-ботів, генерації зображень і відео.
5. Генеративно-змагальні мережі (GAN, Generative Adversarial Networks) — складаються з двох нейромереж: генератора і дискримінатора. Використовуються для генерації зображень, deepfake, апскейлінгу, відео, музики.
6. Автокодери (Autoencoders) — стискають дані (енкодер) і відновлюють їх назад (декодер). Застосовуються для стиснення, шумоподавлення, генерації.
7. Резидуальні нейромережі (ResNets, DenseNets) — з залишковими звʼязками (residual connections). Покращена здатність до навчання, часто використовуються у складних задачах комп’ютерного зору.
8. Графові нейромережі (Graph Neural Networks, GNN) — обробляють графові структури даних (соціальні мережі, молекули), застосовуються в рекомендаційних системах і біоінформатиці.
9. Спайкові нейромережі (Spiking Neural Networks, SNN) — імітують роботу біологічних нейронів, енергоефективні, застосовуються в нейроморфних чипах.
10. Гібридні та спеціалізовані нейромережі:
Мультимодальні нейромережі (наприклад, Gemini, GPT-4o) — працюють одночасно з текстом, зображеннями, звуком.
Дифузійні моделі — генерація зображень/відео, наприклад DALL·E 3, Stable Diffusion, Veo.
Навчання з підкріпленням (Reinforcement Learning) — нейромережі навчаються методом проб і помилок.
Все частіше використовується ансамблеве навчання моделей, де кожна модель дає свій результат. Результати моделей по-різному обробляються в різних архітектурах великою моделлю, яка видає фінальний результат. У цій статті науковці пропонують цікавий метод "найменших квадратів" для об’єднання виходів різних моделей. Цей метод мінімізує суму квадратів відхилень між прогнозами моделі та фізичними значеннями. За результатами, отриманими науковцями, цей спосіб дає більш точні прогнози та менше помилок за наявності шумних даних.
Не будемо заглиблюватися в складні процеси навчання та класифікації моделей з десятками й сотнями нюансів. Швидкий розвиток технологій навчання змішує ці типи у складні архітектурні ансамблі. Сучасні моделі здебільшого майже всі є трансформерами.
Наприклад, потужна модель HUNYUAN-A13B з 80 млрд параметрів працює як трансформер, але доповнює архітектуру Mixture-of-Experts (MoE), при якій у основної нейромережі є інші нейромережі по 1,5 млрд кожна — експерти. При отриманні запиту основна нейромережа вирішує, яким експертам передати запит на обробку. Вона передає запит лише кваліфікованим нейромережам. У результаті задіюється не всі 80 млрд параметрів, а лише 13 млрд, що робить нейромережу значно швидшою та енергоефективнішою. Технологія не нова, але ефективна.
Велика мовна модель KIMI-K2-INSTRUCT від компанії Moonshot AI, яка підкорила бенчмарки в середині 2025 року, працює подібним чином із 32 мільярдами активованих параметрів і 1 трильйоном загальних параметрів. Вона навчалась за допомогою оптимізатора MUON, що базується на ортогоналізації матриць (коли стовпці або рядки двовимірної таблиці стають перпендикулярними одне до одного, а сама таблиця — тривимірною). За даними калькулятора Hugging Face, модель Kimi-K2-Instruct займає 958.52 GB пам’яті на цьому ресурсі.
А ось сервіс BRAINPRO, який пропонує оцінки уваги для зображень і відео, використовує згорткові та рекурентні моделі, навчені на датасетах з відстеженням погляду (eye-tracking). Сервіс оцінює увагу глядача до об'єктів на зображенні або кадрі. Ця послуга необхідна маркетологам, дизайнерам і операторам-постановникам, щоб розуміти, на що саме дивиться глядач. Для реалізації такого процесу оцінки потрібне поєднання кількох архітектур з навчанням на спеціальних датасетах (у цьому випадку сайт повідомляє про використання датасету з опитуванням і увагою 10 тисяч осіб).
Власник TikTok, компанія BYTEDANCE, пішла шляхом зміни мови міркувань моделі й створила нейромережу для доведення теорем SEED-PROVER. Річ у тім, що звичайна людська мова, якою міркують великі LLM, не дає зворотного зв’язку для розуміння правильності доведень. А ось математична мова програмування LEAN допоможе нейромережі перевіряти відповіді на основі формальних доведень теорем. Суть мови в тому, що в її бібліотеці вже є всі доведені теореми й аксіоми, на які можна посилатися при доведенні ще недоведеної. Крім того, мова має інструменти, які допомагають математикам. У систему також додали рушій для доведення теорем з геометрії.
Ентузіаст із YouTube-каналу Build With Binh створив і запустив на базі розширеного мікроконтролера SoC (System on Chip) ESP32-S3 мовну модель на 260 тис. параметрів.
Розглянемо принцип поділу моделей за розміткою даних. Цей принцип передбачає або маркування даних за ознаками-мітками, або відсутність такої розмітки. Існує також спосіб часткової розмітки для швидкого навчання, але він залежить від десятків нюансів і поставлених задач.
Розмічені дані поділяються на синтетичні та ручні. Синтетичні дані створюються або нейромережею, або алгоритмом і є величезними масивами із сумнівною точністю.
Дані, розмічені людиною, точніші, але дуже дорогі й рідкісні, оскільки розмітка великих масивів потребує трудових витрат. Наприклад, у відділі розмітки даних власника нейромережі Grok — компанії xAI — працює близько 900 співробітників.
Процес створення розмічених даних відбувається послідовно.
1. Збір даних — завантаження датасетів із файлами, створення власних датасетів із текстами, зображеннями, звуками, відео або іншими потрібними даними. Зазвичай парсять сайти на кшталт ВІКІПЕДІЇ та хостинги з даними. Результат: датасет із нерозміченими файлами.
2. Очищення даних за допомогою скриптів Python: очищення тексту від емодзі й спецсимволів, видалення дублікатів, приведення даних до єдиного формату (.txt, .jpg, .mp4). Якщо це зображення або відео, то тензором будуть масиви пікселів із кольорами. Але для прикладу візьмемо текстові дані для мовної моделі, де тензором будуть просто числа.
3. Створення структури даних за допомогою скриптів Python: формування об’єктів (частин тексту в таблиці CSV або файлів у папці raw) з ідентифікаторами ID, наприклад, від 00001 для уникнення помилок зміщення при нумерації до 99999. Файли й частини тексту поки що не мають міток, але вже є об’єктами з ID. Візьмемо спосіб таблиці — вона більш структурована для великих обсягів даних, і там кожен рядок має номер ID та відповідну частину тексту або посилання на файл у папці raw.
4. Створення схеми розмітки — набору категорій, класів або міток (ознак), які потрібно призначити кожному нашому об’єкту. Залежно від наших цілей і архітектури моделі ми маємо надати кожному об’єкту в таблиці якісь характеристики. Наприклад, ми можемо дати реченню “Це прекрасно” мітку “Позитивно”, “Добре”, “Чудово”, а реченню “Мені шкода” — “Погано”, “Негативно”, “Сумно”, а реченню “Курка знесла яйце” — “Нейтрально”, “Практично”, “Нормально”. Відповідно, ми додаємо до таблиці стовпчик ЕМОЦІЇ, де записуємо тональність “Позитивно”, “Негативно” або “Нейтрально”, а також стовпчик ТЕМА, де пишемо, що “Мені шкода” — це емоція, а “Курка знесла яйце” — тональність нейтральна, а тема — птахи. Також можна додавати інші стовпці з мітками, наприклад, відмінки, форму, вік, обсяг і навіть множинні мітки, як тварина, птах, нелітаючий птах. Стовпців може бути від 3-4 до 10-12. Якщо даних багато — краще зробити кілька таблиць. Можна використовувати інструменти LABEL STUDIO, PRODIGY або інші, залежно від ваших задач.
5. Створення словників і числових міток — для кожного стовпця ознак об’єктів у нашій таблиці створюється словник. У словник ми записуємо лише одну ознаку й надаємо їй числове значення. Якщо у нас у стовпці 25 разів зустрічається ознака “позитивно”, 2500 разів — “нейтрально” й 2450 разів — “негативно”, то словник складатиметься з цих трьох слів із номерами 1, 2 і 3 відповідно.
6. Внесення номерів ознак у нашу таблицю — ми створюємо новий стовпчик і навпроти кожної ознаки ставимо числову мітку з нашого словника (тензор).
7. LABEL (мітка) — позначається у скрипті навчання нейромережі як “y”. Ми обираємо в таблиці один найважливіший для нас числовий стовпчик із ознаками “X” залежно від наших завдань. Саме цей стовпчик ми робимо числовою міткою label, до числа якої й буде прагнути нейромережа, вгадуючи послідовність. По суті, цей один стовпчик і стає вектором label — послідовністю чисел згори донизу, або ж справа наліво. Інші, менш важливі стовпці ознак умовно можна назвати матрицею. Важливо пам’ятати, який саме стовпчик ми обрали як label.
8. Зазвичай фахівці радять перевірити таблицю на помилки, оскільки їхня наявність на цьому етапі — нормальна практика. Розділення даних на 3 категорії — це поділ єдиного файлу таблиці скриптом Python на: 70–80% навчальні дані (train), 10–15% валідаційні дані (validation) — для налаштування моделі, 10–15% тестові дані (test) — для підсумкової оцінки якості. Для цього можна скористатися бібліотекою NUMPY, яка допомагає Python математично обробляти великі масиви даних.
9. Очищення таблиці — у модель ми будемо завантажувати лише таблицю, що складається зі стовпців із цифрами, взятими зі словників. Модель побачить тільки числові таблиці “X” — матриці менш важливих стовпців і “y” — важливого стовпця label, які вона має навчитися передбачати.
Ми розглянули підготовку даних до навчання нейромережі, щоб зрозуміти, що нам потрібно від датасетів.
Сам процес навчання нейромережі — це математичні обчислення, які залежать від матриці ваг W розміром (m,k), де k — кількість нейронів (вихідних одиниць) першого навчального шару з вагами. Якщо у нас 4 ознаки (тобто m = 4), і ми хочемо, щоб перший внутрішній шар з вагами мав 10 нейронів (тобто k = 10), то матриця ваг W буде 4×10. Кожному з 10 нейронів подається 4 ознаки (наприклад, вага, емоція, мова тексту, автор). У кожного нейрона для кожної з 4 ознак — своя вага. У результаті ми маємо 40 ваг для першого внутрішнього навчального шару з вагами. Кожен його нейрон приймає 4 ознаки, множить їх на 4 ваги, складає результати в суму й додає b (bias) — зсув, що у більшості випадків дозволяє уникнути проходження функції через координату 0 (коли ознаки Х немає — в таблиці ставимо 0, отже Х=0), оскільки множення на 0 спотворює обчислення реальних характеристик явищ нашого світу. По суті bias — це також вага, будь-яке число, помножене на 1. Формула має такий вигляд: z = w₁x₁ + w₂x₂ + … + wₘxₘ + b*1, де z — вектор активації кожного нейрона. Ваги шару — це параметри, які з'єднують вхідні ознаки з цими нейронами. Для тонкого налаштування ваг і отримання найменшого значення помилки використовуються площини в системі координат, які допомагають визначити динаміку напрямку максимального зростання функції помилки при мінімальній зміні ваг у багатовимірному просторі (пагорби та западини) — градієнтний спуск крок за кроком у напрямку, протилежному градієнту — у бік зменшення помилки. Але ми не будемо зараз заглиблюватися в цю складну тему, яка зазвичай розкривається в цілих книгах.
Важливо також стежити за інструментами, які підтримуються спільнотою й дуже ефективні для покращення навчання (бібліотеки TRANSFORMER, ACCELERATE, фреймворки COLOSSALAI, FASTCHAT та інші) й розробки (бібліотеки vLLM, DEEPSPEED, FASTERTRANSFORMER від Nvidia, фреймворки NVIDIA DYNAMO-TRITON, OPENLLM тощо).
Спробуйте токенізатор корпусів тексту (нерозмічених текстів) LLM Tokenizer with Pricing Calculator in Zig , який працює на крос-компільованій мові Zig. Алгоритм розбиття корпусів тексту на токени Byte-Pair Encoding спочатку був розроблений як алгоритм стиснення тексту. Пізніше використовувався OpenAI для токенізації під час попереднього навчання моделі GPT. Застосовується у багатьох моделях трансформерів, включно з GPT, GPT-2, RoBERTa, BART і DeBERTa. Цей алгоритм використовує унікальні набори слів, що зустрічаються в корпусі (після завершення етапів нормалізації та попередньої токенізації), після чого створюється словник, у який заносяться всі символи, що використовуються для запису цих слів. Це дозволяє уникнути використання зайвих символів з ASCII та інших патернів.
Відкрита спільнота, що розробляє Zig, створила компілятор, мову та бібліотеку в одному інструменті. Бекендом мови стало ядро проєкту LLVM — написаний на C++ набір інструментів для створення високооптимізованих компіляторів, оптимізаторів і середовищ виконання. Мова Zig враховує всі архітектури сучасних процесорів, працює зі строковими літералами (окремі рядки, розділені через \0) і з літералами кодових точок Unicode, як і C++. Вихідний код Zig представлений у кодуванні UTF-8.
Якщо ви не хочете починати з нуля, ви можете використовувати готові сервіси для навчання готових моделей. Це популярні OLLAMA, LMSTUDIO, GPT4ALL від Nomic, TEXTGEN, Google LiteRT-LM та інші сервіси, які пропонують локальні моделі «з коробки» для Windows і Linux. Всі описані вище процеси тут уже відпрацьовані та налаштовані. Вам залишається лише встановити програму і завантажити модель на свій комп’ютер.
Якщо ви запустили нейромережу локально, але хочете звертатися до неї з інтерфейсу на телефоні, найпростіший вебінтерфейс на GitHub з підключенням до API вашого локального сервера, проброшеного через NGROK, вирішить це завдання не лише для вас, а й для тих, з ким ви захочете поділитися нейромережею. Для перевірки помилок API під час налаштування сервера можна використовувати POSTMAN або легендарний curl.
Також зверніть увагу на автоматизатор машинного навчання MLE-STAR від Google. Автори агента стверджують, що MLE-STAR розв'язує завдання машинного навчання, спочатку виконуючи пошук в інтернеті відповідних моделей для створення міцної основи. Потім він ретельно вдосконалює цю основу, перевіряючи найважливіші частини коду. MLE-STAR також використовує новий метод об'єднання кількох моделей для ще кращих результатів. Цей підхід виявився дуже успішним — він здобув медалі у 63% змагань Kaggle з MLE-Bench-Lite, значно перевершивши альтернативи. Агент налаштований на чітке дотримання рекомендацій з кодування Python і документації NumPy для написання виконуваного коду. Також компанія Google запустила вайб-кодинговий сервіс OPAL для розробки застосунків за допомогою нодової системи та підказок нейромережі. Для роботи з кодом у Google є агент JULES, який може контролювати репозиторії, оновлювати залежності та перевіряти роботу коду на своїй внутрішній віртуальній машині.
Для перевірки коду на критичні вразливості компанія Google DeepMind створила агента CodeMender. CodeMender застосовує комплексний підхід, миттєво усуваючи цілі класи вразливостей.
MMMU — бенчмарк, призначений для оцінки мультимодальних моделей у масштабних міждисциплінарних завданнях, що вимагають знань з предметів на рівні коледжу та усвідомленого міркування. Містить 11,5 тисячі ретельно зібраних мультимодальних запитань з іспитів коледжу, тестів і підручників, що охоплюють шість основних дисциплін: мистецтво та дизайн, бізнес, наука, охорона здоров’я і медицина, гуманітарні та соціальні науки, а також технології та інжиніринг.
Слід звернути увагу, що не для всіх завдань є потреба навчати нейромережу з нуля. Для простих задач можна використати три популярні способи навчання вже готової моделі на даних, яких вона не знає.
1. SAG (System Assistant Generator) — шаблон промпту для нейромережі, який скрипт-сервер додає до запиту користувача. Використовується для агентів у невеликих сайтах і застосунках. Велика LLM разом із кожним запитом користувача отримує інструкцію з даними, на яких і формує відповіді. Розмір SAG-промпту зазвичай невеликий, бо залежить від кількості вхідних токенів API нейромережі. Якщо нейромережа має вбудований браузер, у промпті можна задати адреси сторінок з інструкціями й текстами відповідей. Після отримання запиту з таким промптом нейромережа перейде за адресами, прочитає сторінки та сформує відповідь на основі отриманої інформації. Простий, дешевий і досить гнучкий спосіб налаштування агента на потрібну тональність. Не плутати з оптимізатором втрат при навчанні нейромереж Stochastic Average Gradient (SAG).
2. RAG (Retrieval-Augmented Generation) — архітектура створення промпту, що надсилається в нейромережу разом із запитом користувача. Більш складний і трудомісткий процес, який дозволяє обробляти великі обсяги даних.
Щоб створити RAG за текстом, треба цей текст підготувати — розбити на теми — шматки по 512–1024 токени (чанки приблизно по 100–200 слів) або менше. При цьому чанки слід розбивати так, щоб вони накладалися один на одного на 15–20%. Це допоможе нейромережі не втратити сенс усього поділеного тексту.
Ці частини тексту слід пропустити через модель нейромережі, яка створює з них вектори (embedding), і помістити у векторну базу даних, наприклад, MONGODB, WEAVIATE, ZILLIZ чи інші. Embedding-моделі доступні у Google VERTEX AI, OPENAI та інших нейромережевих компаній. Вектори також можна помістити і в звичайну повільну реляційну базу даних у вигляді json-масивів, якщо даних небагато — наприклад, у MYSQL або DATABASE від Google.
Принцип роботи RAG. Після отримання запиту від користувача ви берете текст запиту і надсилаєте в embedding-модель, яка перетворює його у вектори. Отримавши вектори, скрипт за метрикою, наприклад, косинусної схожості, порівнює їх із векторами у вашій базі даних. Для великих обсягів даних краще, щоб найближчі вектори шукала сама система зберігання за швидким індексом. Найрелевантніші частини тексту з бази передаються скрипту, а потім — у велику мовну модель, як і в першому варіанті SAG, а від моделі ми отримуємо відповідь на основі переданої з бази інформації. Скрипт порівнює вектори запиту та бази математично (Bi-Encoder), що працює швидко, але при неправильному налаштуванні може викликати галюцинації у великої мовної моделі через надсилання частин нерелевантного тексту. Індексована база даних, наприклад PINECONE або QDRANT, працює ще швидше, оскільки не перебирає всі вектори, але через це база менш точна.
Щоб уточнити результати пошуку, можна використати ще одну проміжну Cross-Encoder-модель, яка виконає rerank-перевірку пар (запит/кандидат на відповідь). Такі моделі також доступні — MINILM, BAAI, Google EmbeddingGemma та інші.
Загалом, RAG добре працюватиме після точного налаштування всіх цих параметрів під конкретне завдання. Саме на етапі визначення задачі для агента потрібно вказати параметри RAG.
Якщо ви розумієте, що великій мовній моделі доведеться часто відповідати на однотипні запити однаково, ви можете додати до цієї системи метод CAG (Cache Assistant Generator). CAG дозволяє тримати в кеші (на сервері, якщо відповідей багато) вже отримані від великої моделі відповіді, присвоївши їм ключі, і скриптом порівняння викликати їх за допомогою "key = hash(user_input)", використовуючи непогану бібліотеку hashlib. Спочатку ми присвоюємо цей хеш-ключ запиту і шукаємо такий самий у нашому кеші. Якщо запити повністю ідентичні, то й хеш-ключі збігаються. Якщо такого ключа немає, ми надсилаємо текст запиту користувача на звичайну обробку RAG. Після повернення відповіді від великої моделі, присвоюємо їй такий самий ключ-хеш, як і запиту, і кладемо в кеш. До нейромереж запити рідко бувають однаковими — це не посилання в інтернет-магазині, і тому для зменшення роздування кешу через високу чутливість "hashlib.sha256(user_input.encode('utf-8')).hexdigest()" до кожної літери буде багато унікальних ключів.
У разі розробки та налаштування RAG для бізнесу ознайомтеся з дослідженням Google DeepMind, яке описує обмеження навіть для простих запитів. Вчені надають інструменти та набори даних, які використовували самі. Репозиторій містить усе необхідне, щоб уникнути помилок.
Також компанія Meta пропонує метод виключення зайвих обчислень контексту RAG під час декодування. Компанія представила REFRAG – ефективний фреймворк декодування, який стискає, розпізнає та розширює дані для зменшення затримок у застосунках RAG. При використанні розрідженої структури досягається прискорення часу до першого токена у 30,85 раза (покращення у 3,75 раза порівняно з попередньою роботою) без втрати точності.
Ви можете використовувати такі фреймворки для розробки агентів, як EKO з уніфікованим інтерфейсом від FellouAI на JS, MIDSCENEJS для створення мультимодальних агентів, LangChain для LLM на Python, DIFYAI для швидкої розробки LLM-додатків із розгортанням через Docker, CREWAI з UIStudio, середовище HAYSTACK для мультимодальних агентів, середовища для запуску моделей FIREWORKS, Semantic Kernel від Microsoft для корпоративного рівня, OpenAI Agents SDK і OpenAIAgentKit, COZE та браузерний агент-парсер сайтів BROWSERUSE.
Одним із лідерів у впровадженні нейромережевих агентів є компанія COHERE, що розробила LLM сімейства Command. Компанія пропонує широкий спектр послуг як із розгортання самих моделей для корпоративної роботи, так і з упровадження агентських середовищ в інші цифрові екосистеми.
Створення агентів для роботизованої техніки можна реалізувати в LATTICE-SDK від військово-промислової компанії Anduril. Сервіс надає середовище моделювання реальних даних Lattice Sandboxes для керування технічними засобами без задіяння фізичної техніки. Подібні агентні "пісочниці" для налагодження автоматизації також пропонують REPLIT, RUNPOD, UNITYML-Agents, GAZEBOSIM, AI2THOR, відкрита UnifoLM-WMA-0 та інші.
Якщо ви не хочете занурюватися у проблеми розподілу навантажень, налаштування баз та інші технічні складнощі, ви можете взяти готового агента та налаштувати його під свої потреби. У цьому випадку ви можете спробувати агента ELYSIA, агента для програмування: SIMULAR, системи агентів MAGENTIC-ONE, II-Agent, MAO-ARAG, фреймворк ELIZA. Для роботи автономних агентів пошуку в системі RAG є розробки з детальним описом роботи тут. Для персоналізації RAG також є розробки. Опис однієї з них читайте тут.
Для зайнятих людей існують системи вайбкодингу - онлайн-сервіси, де послідовне підключення готових блоків коду (вузлів) задає логіку роботи агента. Такі платформи роблять усе за вас: залишається лише вибрати логіку вашого агента та ввести дані. Можете спробувати платформи автоматизації ZAPIER, RETOOL, LANGFLOW, ARIZE або інші. Для веб-інтерфейсу можете використовувати сервіси промт-кодингу, що створюють інтерфейси та додатки за описом. Це може бути LOVABLE, TELEX? SALESFORCE або інші.
Сервіс MGX, що працює на LRM, створює особистих агентів для вашого сайту або робочого проєкту. Достатньо написати, що саме вам потрібно, наприклад агента для читання пошти, і він створить репозиторій із файлами проєкту, який можна розгорнути у середовищі розробки та підключити до API вашої нейромережі.
До цього можна додати можливості відкритого сервісу UISHADCN на VITETAMPLATE з шаблонами, що створюють дизайн компонентів різними мовами програмування.
Використовувати для доступу агентів до ваших ресурсів стандартизований компанією Anthropic Model Context Protocol - буде непоганим рішенням. При цьому вже готові MCP сервери можна завантажити у самої Anthropic або, наприклад, у Awesome MCP Servers.
Також можете використовувати міжагентний протокол Agent2Agent (A2A), розроблений для взаємодії агентів, що працюють у різних фреймворках.
Під час налаштування агента для доступу до власних баз даних використовуйте проміжні ресурси безпеки, такі як TELEPORT, STRONGDM, BOUNDARY, CASBIN або інші, що надають агентові дозволи на доступ до інформації. Це допоможе уникнути "промпт-ін'єкцій" у LLM з метою отримання необмеженого доступу до всієї інформації. Відстежуйте роботу застосунків, оскільки нейромережа працює нестабільно. Можете спробувати для цього сервіси на кшталт LANGSMITH, що створюють трасування виконуваних операцій.
3. Fine-tuning - донавчання великої мовної моделі через надсилання в неї даних (наприклад, у файлі gpt_data.jsonL для GPT). У рядках файлу потрібно вказати промти у такому форматі:
{ "messages": [ {"role": "system", "content": "Ваш системний контекст"}, {"role": "user", "content": "Запит користувача"}, {"role": "assistant", "content": "Бажана відповідь моделі"} ] },
на прикладі один промт в одному рядку виглядає так:
{"messages": [{"role": "system", "content": "Ти — консультант проєкту STOP AI DECEPTION. Відповідаєш коротко (до 30 слів), дружньо та по суті, використовуючи розмовні фрази ('допомога ошуканим нейромережами', 'чим вам допомогти?', 'послухайте кілька порад, аби не бути ошуканими'). Не бійся уточнювати деталі (історія обману). Без смайликів, без води, впевнений тон."}, {"role": "user","content": "Я хочу розповісти свою історію."},{"role": "assistant","content": "Чудово. Я готовий слухати. Ваша історія буде розміщена на нашому сайті, щоб попередити інших про небезпеку."}]} — кожен такий промт має займати один рядок-семпл в редакторі коду. Промти можна писати в зручних Google-таблицях (CSV), а потім app-скриптом конвертувати у .jsonL.
Навчання великих моделей через API від OpenAI є платним. Вам потрібен скрипт, що працює з промтами, а також бібліотека від OpenAI для роботи з навчанням. Уся інформація є в документації OpenAI. Я не буду тут переписувати документацію, але зазначу, що донавчання моделі, навіть її окремих шарів-адаптерів — доволі нетривіальне завдання.
Щоб модель правильно сприймала дані, необхідне тонке налаштування ваг, а для цього потрібно кілька прогонів (епох) повного датасету через модель. При великих датасетах у 5–7 тис. семплів-рядків кількість епох може сягати 8–10. У кожній епосі потрібно вказати Batch size, наприклад, 50 — кількість рядків в одному батчі. В одній епосі на 5 тис. семплів модель отримує по 50 семплів за раз для навчання, тобто 100 батчів за епоху. Також потрібно вказати градієнтний спуск — швидкість навчання (крок за кроком градієнт вказує, де функція найшвидше зростає, а щоб знайти мінімум помилки — треба йти в протилежному напрямку). Все це задається в скрипті й налаштовується під конкретні задачі. Не забувайте розділити дані: на навчальні й тестові.
Різні інструменти для навчання нейромереж пропонує Mistral у своїй Console. Безкоштовно в межах розумного ви можете використовувати їхні нейромережі через API спільно з готовими інструментами. Mistral обрала зручну тактику Google Cloud Console, де всі інструменти зібрані та взаємоінтегровані.
Компанія Thinking Machines розвиває сервіс TINKER - API для тонкого налаштування моделей після навчання. Проєкт включає дві бібліотеки: 1. tinker — це навчальний SDK для дослідників і розробників, який дозволяє точно налаштовувати мовні моделі. Користувач надсилає запити до API для отримання параметрів розподіленого навчання. 2. tinker-cookbook - реалістичні приклади тонкого налаштування мовних моделей. Він базується на API TINKER та надає загальні абстракції для тонкого налаштування мовних моделей.
Варто додати, що самонавчальні моделі нейромереж вже не є рідкістю. До прикладу, компанія Meta постійно вдосконалює моделі DINO з використанням SSL (Self-Supervised Learning) — які навчаються на власній генерації вхідних сигналів внутрішнім алгоритмом «Учитель–Учень». Таким моделям не потрібна розмітка для навчання. Вони тренуються на універсальних даних і вчаться передбачати усереднені значення. Наприклад, дорисовувати зображення та відслідковувати на екрані котів, собак і птахів.
Цікаву методику навчання нейромереж для виявлення стресу за написаним людиною в інтернеті текстом пропонують автори статті у журналі Nature. Нововведення полягає в інтеграції кількох передових методів представлення тексту, таких як FastText, Global Vectors for Word Representation (GloVe), DeepMoji та XLNet, із Depth-wise Separable Convolution with Residual Network (DSC-ResNet) для точного визначення стресу. Алгоритм оптимізації Chaotic Fennec Fox (CFFO) налаштовує гіперпараметри. Модель DSC-ResNet удосконалена шляхом гібридизації шару глибинно-розділюваної згортки з моделлю ResNet. Запропонована модель реалізована на платформі Python.
На цьому завершимо наш базовий огляд методів навчання й перейдемо безпосередньо до доступних датасетів.
Бази даних для навчання нейромереж.
Ви, звісно, можете скористатися спеціальним пошуком Google для знаходження датасетів. Але цей пошук більше підходить для пошуку ресурсів із даними, ніж готових датасетів для навчання моделей. Він знайде вам багато сайтів з аналітикою та даними, але часто ці дані можуть бути не публічними, а продаватися у вигляді звітів за галузевими категоріями. Наприклад, платно на INFINITIVE DATA EXPERT або безкоштовно на FEOSTAT. Такі дані доведеться очищати й сортувати самостійно. Пошук також видасть багато результатів від уже знайомого нам сервісу KAGGLE, Google OPEN IMAGE V7 та інших сховищ датасетів, як-от TENSORFLOW і очищеного тексту Wikipedia на Hugging Face.
У Google є великий набір даних Natural Questions на 42 ГБ, у якому зібрані реальні пошукові запити користувачів у зв'язці з відповідними сторінками Вікіпедії. Датасет представляє собою корпус текстів (немаркований по токенам), забезпечений анотаціями long/short/no answer для виділення меж відповіді. 49 % прикладів містять long_answer. Навчальна вибірка включає понад 300 тис. прикладів, валідаційна — близько 8 тис. прикладів, тестова - близько 8 тис. прикладів.
Якщо у вас є неочищені текстові дані, наприклад, старі книги або статті з журналів, ви можете скористатися сервісами очищення даних, такими як LLAMAINDEX, UNSTRUCTERED, TEXTMECHANIC, TEXTCLEANER та багатьма іншими з веб-інтерфейсами. Або ви можете використовувати бібліотеки-парсери для Python: DOCLING, для тексту, PANDAS — для таблиць.
COMMON CRAWL — некомерційний ресурс, який надає відкриті дані, зібрані шляхом веб-сканування. Ці дані можуть бути використані для досліджень і розробки нейромереж, що потребують великої кількості текстової інформації з інтернету. Ресурс містить HTML-сторінки, метадані, заголовки та інші компоненти. Оновлюється щомісяця, збираючи близько 250 ТБ даних. Датасети доступні на платформі Amazon Web Services PUBLIC DATASET за шляхами, вказаними тут, або їх можна шукати через індекси у CDX-файловій системі ресурсу. Дані ресурсу використовують OpenAI, Meta, Google Research, а також відкритий проєкт LLM ELEUTHERAI, що навчає власні моделі на якісно відфільтрованих текстових даних.
КОРНЕЛЛСЬКИЙ УНІВЕРСИТЕТ (Cornell University) — приватний дослідницький університет у США, розташований в Ітаці, штат Нью-Йорк. Він був заснований у 1865 році Езрою Корнеллом і Ендрю Діксоном Уайтом як університет, у якому кожен може знайти навчання в будь-якій дисципліні. Університет пропонує готові датасети для навчання в галузі комп’ютерного зору та репозиторій відкритих даних з зручною фільтрацією, де можна знайти потрібні датасети.
На серверах університету розташовано величезний архів arXiv з відкритим доступом, що містить майже 2,4 мільйона наукових статей у галузях фізики, математики, інформатики, кількісної біології, кількісних фінансів, статистики, електротехніки та системних наук, а також економіки. Архів має багато передпублікаційних матеріалів з теми штучного інтелекту. Там можна знайти технічні звіти про розробку та тестування таких потужних LLM, як EXAONE 4.0, а також отримати доступ до різних бенчмарків, наприклад: OLYMPIADBENCH (8476 задач з математичних та фізичних олімпіад), LIVECODEBENCH (програмний код), OJBENCH (змагання з програмування), BIG-BENCH EXTRA HARD (здатність LLM знаходити логічні помилки) та багато інших.
ZENODO — сховище великої кількості даних у різних форматах. Проєкт OpenAIRE, що є авангардом руху за відкритий доступ і відкриті дані в Європі, був ініційований ЄВРОПЕЙСЬКОЮ КОМІСІЄЮ для підтримки політики відкритих даних шляхом створення універсального репозиторію для досліджень, що фінансуються Єврокомісією. Компанія CERN, яка займається дослідженням фундаментальної структури частинок, стала партнером OpenAIRE для забезпечення відкритого доступу до даних. Проєкт започаткував ініціативу екосистеми універсальних репозиторіїв Національних інститутів здоров’я (NIH GREI), залучивши такі сервіси, як: система відкритих наукових репозиторіїв DATAVERSE, відкрита платформа для публікації даних DRYAD, інфраструктура для наукових сховищ FIGSHARE, безкоштовне хмарне колективне сховище MENDELEYDATA, платформа підтримки наукових досліджень OSF та незалежна некомерційна платформа для обміну даними клінічних випробувань VIVIL. Для роботи з репозиторіями Zenodo використовує фреймворк INVENIO, який підтримує систему сталих цифрових ідентифікаторів DOI за стандартами ISO, а також забезпечує інтеграцію невеликих наукових баз у великі державні структури, такі як NFDI у Німеччині, британська аналітична структура JISK, гуманітарний архів UK DATA SERVICE, або французький сільськогосподарський архів INRAE.
SQuAD — набір даних від Стенфордського університету, який використовується в дослідженнях обробки природної мови та сприяє розвитку систем «питання–відповідь» і машинного розуміння тексту. Stanford Question Answering Dataset містить понад 100 000 пар «запитання–відповідь», відібраних із різних статей, книжок та інших джерел. Кожне питання пов’язане з певним абзацом, що містить відповідь. Ця різноманітна колекція охоплює широкий спектр тем, що забезпечує можливість моделей, навчений на SQuAD, обробляти запити різних типів і галузей. SQuAD є еталоном у своїй сфері, надаючи різноманітну добірку питань і відповідних текстів. Також дані без відповідей є чудовим бенчмарком для тестування моделей у сфері розуміння природної мови.
UC IRVINE MACHINE LEARNING REPOSITORY — велике сховище готових датасетів із описом. Архів був створений у форматі FTP ще у 1987 році аспірантом Каліфорнійського університету в Ірвайні Девідом Аха. Актуальна версія вебсайту була випущена у 2023 році.
OPEN POWER SYSTEM DATA — безкоштовна платформа даних, призначена для дослідників електроенергетичних систем. Збирає, перевіряє та публікує дані, які знаходяться у відкритому доступі, але наразі незручні для використання. Проєкт надає послуги спільноті розробників моделей.
MIMIC-III — це велика, загальнодоступна база даних, що містить знеособлені дані про стан здоров’я понад сорока тисяч пацієнтів, які перебували у відділеннях інтенсивної терапії медичного центру Beth Israel Deaconess у період з 2001 по 2012 рік. База даних містить таку інформацію, як демографічні дані, вимірювання основних життєвих показників біля ліжка хворого (приблизно одна точка даних на годину), результати лабораторних досліджень, процедури, лікарські препарати, записи осіб, що здійснювали догляд, звіти про візуалізацію та дані про смертність (включаючи інформацію про смертність після виписки з лікарні). Також: MIMIC-CXR та PADCHEST.
IGSR — міжнародний ресурс зразків геному, створений на основі проєкту «1000 геномів», є єдиним представленням даних і зразків майже 5000 осіб з різних досліджень. Усі дані повністю відкриті та доступні громадськості.
CHEXPERT — набір даних, що складається з 224 316 рентгенограм грудної клітки 65 240 пацієнтів, які проходили рентгенологічне обстеження в Медичному центрі Стенфордського університету з жовтня 2002 року по липень 2017 року як у стаціонарних, так і в амбулаторних відділеннях. Набір CheXpert включає навчальний, валідаційний і тестовий піднабори. Валідаційний і тестовий набори містять мітки, поставлені сертифікованими рентгенологами. Навчальний набір містить три набори міток, автоматично витягнутих із відповідних рентгенологічних висновків за допомогою різних автоматизованих програм для розмітки (CheXpert, CheXbert та VISUALCHEXBERT). Посилання на статті з цієї теми зібрані тут. Інформація про способи навчання на двох датасетах ChestX-Ray14 і CheXpert та різницю між ними — тут. У NIH CHESTX-RAY14 DATASET (CXR8) — 112 120 зображень (рентген грудної клітки), 30 805 пацієнтів, 14 діагнозів. Для отримання датасету потрібно заповнити форму на сайті.
HEALTHBENCH від OpenAI — використовує інформацію від понад 260 лікарів із 60 країн для розробки обґрунтованих з медичної точки зору критеріїв оцінки, а також тестує продуктивність ШІ в широких клінічних сценаріях за допомогою понад 5000 багатокрокових діалогів лікаря й пацієнта та понад 48 000 пунктів рубрики. Використовує датасети з онкології, COVID-19, кардіології, неврології та інших захворювань. До його збірок даних можна отримати доступ для тренування власних моделей.
COVID-19 IMAGE DATA COLLECTION — набір даних рентгенограм грудної клітки та КТ-знімків пацієнтів із підозрою на COVID-19 або інші вірусні та бактеріальні пневмонії.
Awesome-biological-image-analysis – інструменти для аналізу та обробки біологічних зображень, а також набори для навчання нейромереж.
BRAIN TUMOR SEGMENTATION CHALLENGE — датасети багатоінституційних передопераційних МРТ-сканувань, зосереджені на сегментації пухлин головного мозку. Також існує багато інших корисних датасетів.
MULTIPL-E — датасет для навчання та оцінки моделей програмування Multi Programming Languages. Містить задачі з програмування з розв'язками різними мовами.
MINARI — набір готових датасетів для навчання агентів з підкріпленням (нагородою та покаранням). Кожен датасет містить дані про середовище: стани (вже підготовлені послідовності взаємодії агента з середовищем), які можуть бути подані у вигляді зображень або векторів сліпих дій. Ці стани попередньо векторизуються, наприклад, за допомогою згорткових нейромереж, щоб перетворити зображення у числові дані, зрозумілі нейромережі. На основі векторизованих станів нейромережа обирає дії з метою максимізації сукупної нагороди. Після кожної дії агент отримує сигнал нагороди або покарання. Повторюючи цей цикл, модель навчається оптимальній поведінці в середовищі. Подібним чином працюють OFFLINERL-KIT, RL UNPLUGGED, GYMNASIUM від OPEN AI та інші.
PAPERSWITHCODE-DATA — архів метаданих у форматі JSON з посиланнями на зовнішні датасети, наукові статті та методи машинного навчання. Для роботи з файлами використовується Python-бібліотека sota-extractor, що входить до репозиторію. Через недоступність колись мегапопулярного сайту PAPERSWITHCODE (редірект на GitHub) з великим сховищем датасетів, частина посилань може бути неактуальною.
IMAGENET — безкоштовний датасет зображень. На сайті зазначено, що ієрархія бази даних подібна до Принстонської лексичної бази даних WORDNET для англійської мови. WordNet об'єднує об'єкти в групи за значенням, з подальшим об'єднанням цих груп у невеликі концептуальні зв’язки. Наприклад, якщо крісло є різновидом стільця, а стілець — різновидом меблів, то крісло — різновид меблів. WordNet розрізняє типи (загальні іменники) і екземпляри (конкретні особи, країни та географічні об'єкти). Таким чином, крісло є різновидом стільця, а Барак Обама — екземпляр президента. Екземпляри завжди є листовими (кінцевими) вузлами у своїх ієрархіях.
COCO — сервіс з наборами даних для виявлення, сегментації великих об'єктів і призначення їм міток, що надає API. Пропонує власні застосунок, плагін і бібліотеку FIFTYONE з відкритим кодом — для кубування зображень, візуалізації даних за місцем розташування, очищення даних, видобування складних об'єктів тощо. Також має FiftyOne Model Zoo — інтерфейс для завантаження моделей і застосування їх до наборів даних FiftyOne. Цей інтерфейс забезпечує доступ до попередньо навчених моделей, а також підтримує завантаження довільних публічних або приватних моделей.
CIFAR — сервіс, який у 2006 році скопіював у WordNet 53 464 назви предметів, а потім через інтернет-пошук завантажив їх зображення у свою базу. Особливість його датасетів у тому, що всі 80 млн зображень — з малим розширенням 32x32. Складається з датасетів Cifar10 — на 60 тис. зображень, розбитих на 10 класів, та Cifar100 — 100 класів, кожен з яких містить 600 зображень. У кожному класі — 500 тренувальних і 100 тестових зображень. 100 класів у CIFAR-100 згруповані у 20 суперкласів. Підходить для тренування моделей комп’ютерного зору.
LSUN (Large‑Scale Scene Understanding) — великий датасет зображень будівель та об'єктів, розбитих на категорії “велосипед”, “спальня”, “міст” тощо, обсягами від 3Гб до 160Гб. Для завантаження даних і конвертації попередньо розмічених даних у бінарний формат .tfrecord (для зберігання великих обсягів) використовується бібліотека Google TFDS для TensorFlow на Python, яку також можна використовувати з PyTorch і NumPy. Перетворення .tfrecord у тензори вона теж виконує.
LAION-5B — відкритий набір даних із 5,8 млрд пар «зображення-текст» для навчання згорткових моделей і трансформерів розпізнавати зображення та співвідносити їх із текстом. За допомогою двох енкодерів модель навчається розпізнавати близько розташовані вектори зображення й опису.
ACADEMIC TORRENTS — сховище необроблених даних різних форматів: від відеокурсів з програмування до завантажених даних з ВІКІПЕДІЇ. Наповнюється спільнотою.
VGGSOUND — великий відкритий датасет звукових фрагментів і відео, зібраний командою Visual Geometry Group (VGG) Оксфордського університету. Містить тисячі коротких відео з різноманітними звуками, які використовуються для навчання та тестування моделей розпізнавання звуку і мультимодального аналізу.
Відкрита спільнота розробників нейромереж LLM360, що випустила математичну модель K2THINK за підтримки Університету штучного інтелекту імені Мухаммеда бін Заїда в Масдар-Сіті, Абу-Дабі, представляє власні моделі, датасети та метрики. Однією з розробок спільноти є інструментарій Analysis360, що охоплює механістичну інтерпретованість, візуалізацію, машинне відучування, запам’ятовування даних, безпеку ШІ, оцінку токсичності та упереджень, а також широкий набір оціночних показників.
The Pile - різноманітний набір даних для моделювання мови з відкритим вихідним кодом обсягом 825 ГБ, що складається з 22 менших високоякісних наборів даних, об’єднаних разом. Формат The Pile - це дані jsonlines, стиснуті за допомогою zstandard.
Для харчової промисловості можна використати багатомовну базу даних продуктів OPEN FOOD FACTS, базу нутрієнтів, вітамінів, мінералів, порцій та стандартизованих назв продуктів USDA FOODDATA CENTRAL, а також Міжнародні таблиці харчової цінності із середніми значеннями по країнах і регіонах FAO/INFOODS.
OPENSLR — база даних із численними мовними, звуковими та мовленнєвими датасетами.
VOXCELEB — аудіовізуальний набір даних, що складається з коротких фрагментів людської мови, взятих із відеоінтерв’ю на YouTube. VoxCeleb1 містить понад 150 000 висловлювань 1251 знаменитості, а VoxCeleb2 — понад 1 000 000 висловлювань 6112 знаменитостей.
Два датасети емоційних станів людини — Emoset із 3,3 мільйона зображень, з яких 118 102 зображення ретельно розмічені людьми-анотаторами, та CAER із 13 тис. анотованих відео і 70 тис. зображень пропонує бенчмарк ELBENCH.
COMMON VOICE від Mozilla — публічно доступні відкриті мовленнєві датасети більш ніж 130 мовами для ASR, STT, TTS та інших NLP-контекстів, створені за участі спільноти.
AUDIOSET — розширювана онтологія з 632 класів аудіоподій та колекція з 2 084 320 аудіофрагментів тривалістю 10 секунд, отриманих із відео на YouTube. Онтологія представлена у вигляді ієрархічного графа категорій подій, що охоплює широкий спектр звуків людей, тварин, музичних інструментів, жанрів та навколишнього середовища. Розмітка зроблена вручну, що забезпечує високу точність.
Якщо ви не знайшли потрібного датасету ні тут, ні в інтернеті загалом — зверніться до фахівців зі збору та розмітки даних: SHAIP, APPEN, LABELBOX, APACHEHIVE, SUPERANNOTATE, SAMA або знайомий нам SCALE від Meta.
Так, багато власників нейромережевих сервісів користуються послугами цих компаній.
БЕНЧМАРКИ (ТЕСТУВАЛЬНИКИ) НЕЙРОМЕРЕЖ.
Експерти з навчання та впровадження нейромереж кажуть, що найкращий бенчмарк — це власний досвід користувача.
Ця банальна істина все ж має свою глибину і цінність. Ми не можемо перевірити дані бенчмарків, а при спілкуванні з нейромережами, стикаючись із галюцинаціями та неправдою, втрачаємо частину довіри.
Великий форум для програмістів Stack Overflow провів щорічне опитування розробників у 2025 році, задавши 300 запитань понад 49 000 фахівцям. Найактивніше брали участь розробники з США, Німеччини та Індії.
За результатами опитування стало відомо, що 84% опитаних розробників застосовують нейромережі у своїй роботі. Найбільше розчарування, про яке згадали 66% розробників, пов’язане з «рішеннями ШІ, які майже правильні, але не зовсім», що часто призводить до другого за значущістю розчарування: «Налагодження коду, згенерованого ШІ, займає більше часу» (45%).
Як бачимо, самі фахівці з програмування не дуже довіряють результатам роботи нейромереж, і все ж користуються ними.
Багато бенчмарків є на тих же GITHUB, HUGGINGFACE, базах даних від Google, GOOGLESCHOLAR або інших платформах з нейромережами, які ми згадували вище. Там можна знайти багато чого в пошуку з зручною сортуванням. Читайте також БЛОГ Google про дослідження, де часто описуються механіки тестування нейромереж.
Одним із найпопулярніших бенчмарків є HUMANITY'S LAST EXAM — мультимодальний тест з передових людських знань з широким охопленням тем. Набір даних складається з 2500 складних питань більш ніж зі ста тем. У створенні питань взяли участь понад 1000 предметних експертів з більш ніж 500 установ у 50 країнах. Бенчмарк включає питання з множинним вибором і короткими відповідями, що підходять для автоматизованої оцінки. Питання доступні публічно. Одночасно бенчмарк зберігає частину питань закритими для оцінки перенавчання моделі.
Також популярні бенчмарки, у яких відповіді різних нейромереж на один запит оцінює сам користувач.
Популярний бенчмарк LMARENA пропонує користувачам оцінювати моделі. Ви пишете запит, на який відповідають дві нейромережі. Наприклад: “Дай список найпопулярніших бенчмарків нейромереж.” І два помічники A і B дають вам дві відповіді. Прочитавши їх, ви обираєте кращу або ставите нічию, або оцінюєте обидві відповіді як погані. Можна обрати конкретні моделі або одну модель, а також подивитися рейтинги.
SCIARENA — подібна онлайн-платформа від некомерційного інституту досліджень штучного інтелекту Allen Institute for AI, призначена для аналізу наукових завдань у сфері штучного інтелекту та обробки природної мови. Тут можна ставити наукові питання та задачі. Відповіді дають дві випадково вибрані моделі, які беруть інформацію з системи пошуку релевантних наукових статей ScholarQA. Користувач, як заведено на аренах, ставить оцінки отриманим результатам. Платформа допомагає дослідникам тестувати моделі, порівнювати результати й обмінюватися досягненнями.
HUMANEVAL — збірник бенчмарків, що оцінюють нейромережу через осмислену взаємодію з людиною, а не тільки на основі синтетичних метрик. Використовує агентну інфраструктуру, яка дозволяє взаємодіяти з моделями, прив’язаними до конкретних платформ, і оцінювати їх — можливості, яких немає у конкурентів, таких як LMArena. Як і там, є “сліпе” тестування на кращу відповідь.
LMSYS — збірник проєктів команди дослідників з UC Berkeley, що містить відкриті моделі, набори даних, системи та інструменти оцінки для великих моделей. Пропонує публічне голосування за моделі, як у LMArena.
SUPERGLUE — ускладнений бенчмарк GLUE з діагностичним набором даних і завдань. Допомагає зрозуміти, чого не вистачає моделі (наприклад, проблеми з логічними операторами, подвійним запереченням, рідкісними знаннями тощо), дозволяє виявити гендерний або предметний ухил (заміна he/she).
SPIDER — бенчмарк для перевірки розуміння нейромережею запитів природною мовою та вміння формувати коректні SQL-запити до бази даних. Модель не просто відповідає текстом, а будує SQL-запит, виконує його та повертає відповідь з таблиць. Це один зі способів отримання відповіді від нейромережі — CoT (Chain-of-Thought + self-correction) — покрокове формування запиту з перевіркою через роздуми моделі на кожному етапі. Спершу модель поетапно пропонує схему — які таблиці та стовпці буде використано, яким буде SQL-запит, обирає фільтри даних, потім уточнює відсутні деталі, перевіряє себе й лише після цього повертає результат. Метод точний, але досить затратний, бо потребує багатьох запитів до моделі.
WINOGRANDE — вручну створений суворий набір з 44 тис. завдань для перевірки розуміння суті мовних висловлювань. Спеціально розроблений алгоритм AfLite видаляє з набору завдання, які можна розв’язати без роздумів — за простою машинною статистикою слів. Це дає змогу протестувати модель в реальних умовах, виключаючи запам’ятовування часто повторюваних даних.
MLCOMMONS - відкритий міжнародний консорціум, що створює стандарти та інструменти для об’єктивного вимірювання продуктивності, якості та безпеки рішень нейромереж. Пропонує різні тестувальники для нейромереж, а також для ваших пристроїв, на яких ви плануєте запускати нейромережі. Можна використовувати з NANOREVIEW, PASSMARK або універсальним GEEKBENCH - для порівняння процесорів, смартфонів та інших гаджетів, разом із бенчмарком UX інтерфейсів застосунків CrUX.
HELM (Holistic Evaluation of Language Models) — бенчмарк від Стенфордського університету для тестування мовних моделей за різними метриками (багатозадачне розуміння, безпека, витяг структурованої інформації з зображень тощо).
EVALPLUS — набір бенчмарків для перевірки здатності нейромереж писати програмний код. Дозволяє об’єктивно порівнювати продуктивність різних LLM. Допомагає виявити слабкі сторони існуючих моделей і спрямувати зусилля на їх покращення. Служить основою для наукових досліджень і публікацій у сфері LLM та програмування.
Вразливості в програмному коді допоможе виявити Claude-code-security-review. Інструмент використовує нейромережу Claude для аналізу змін коду на наявність вразливостей. За запевненнями розробників, забезпечує інтелектуальний контекстно-залежний аналіз безпеки запитів на включення змін за допомогою інструмента Claude Code від Anthropic для глибокого семантичного аналізу безпеки.
Інтерактивна платформа CIBench призначена для комплексної оцінки можливостей LLM під час використання інтерпретаторів коду в завданнях науки про дані. Вона включає набір даних для тестування та два режими оцінки. Набір даних створено з використанням кооперативного підходу LLM-людина і він імітує реальний робочий процес, використовуючи послідовні інтерактивні сесії IPython. Два режими оцінки перевіряють ефективність LLM за участю людини та без неї.
Бенчмарк TERMINALBENCH створено за участю науковців Стенфордського університету та Laude Institute, заснованого Енді Конвінські, співзасновником Perplexity і Databricks. Це набір завдань і система оцінки, що допомагає розробникам агентів кількісно вимірювати термінальні навички своїх систем.
Бенчмарк GDPVAL від OpenAI вимірює ефективність моделей при виконанні завдань, заснованих безпосередньо на реальних знаннях досвідчених фахівців з 44 різних професій та галузей, надаючи більш чітке уявлення про те, як моделі працюють з економічно значущими завданнями.
Тест Ґеделя: - розроблений ізраїльськими науковцями Мораном Фельдманом та Аміном Карбасі тест для LLM, що оцінює здатність моделі надавати правильні докази для дуже простих, раніше нерозв’язаних гіпотез.
SUPERGPQA — суворий тест, розроблений для оцінювання можливостей LLM. Усуває обмеження існуючих тестів, які зосереджуються на поширених галузях і ігнорують різноманітні, практичні професійні дисципліни. Містить 26 529 запитань з 13 дисциплін, 72 сфер знань і 285 магістерських спеціальностей, причому щонайменше 50 запитань на кожну дисципліну. Це забезпечує доступність і релевантність для різних реальних професійних ситуацій, включаючи експертні знання, які часто ігноруються іншими бенчмарками. Охоплює спеціалізовані, рідко тестовані сфери — найкращі моделі показують лише трохи понад 60%.
VALS — платформа для незалежного оцінювання продуктивності великих мовних моделей (LLM) у специфічних галузях, таких як право, фінанси та оподаткування. Надає відкриті бенчмарки, які допомагають зрозуміти, як моделі справляються з реальними професійними завданнями, а не лише з академічними тестами.
BABILong — генеративний бенчмарк для оцінки продуктивності моделей обробки природної мови під час обробки довгих документів із розподіленими в різних місцях фактами. Складається з 20 завдань, розроблених для оцінки базових аспектів міркування. Завдання генеруються шляхом моделювання набору персонажів і об'єктів, що здійснюють різні переміщення та взаємодіють одне з одним у різних локаціях. Кожна взаємодія представлена фактом, наприклад, «Мері поїхала в офіс», а завдання полягає в тому, щоб відповісти на запитання, використовуючи факти з поточної симуляції, наприклад, «Де Мері?». Завдання відрізняються за кількістю фактів, складністю запитань і аспектами міркування. Автори стверджують, що навіть моделі, заявлені як такі, що підтримують 128K токенів, такі як GPT-4, зазнають деградації при перевищенні 10% від їхньої вхідної потужності. Методи RAG не допомагають, тоді як тонке налаштування моделей малого масштабу показує, що ці завдання розв'язувані.
Safety evaluations hub – центр, що надає доступ до результатів оцінки безпеки моделей OpenAI. Ці оцінки включені до системних карт, які враховуються під час ухвалення внутрішніх рішень щодо безпеки та розгортання моделей. Оцінюється схильність моделей до генерації небезпечного контенту, галюцинацій та багато іншого.
Бенчмарк PERSONA перевіряє адаптацію мовних моделей до різних особистостей і систем цінностей. Передбачає створення синтетичних особистостей із різними індивідуальними та демографічними характеристиками, а також набору даних із підказками та відгуками. На основі спілкування мовних моделей із цими особистостями формується плюралістичний підхід до вирівнювання моделей на еталон – Persona Bench. Детальніше можна прочитати тут.
DANABENCH від MLCommons, Inc. — платформа інтерактивного тестування моделей, створення складних завдань для оцінювання мовних моделей (LLM), спільнота однодумців і експертів у сфері штучного інтелекту. Пропонує змагання з тестування LLM, а також майданчик для спільної роботи, де можна вивчати та оцінювати ефективність LLM у таких сферах, як створення упередженості, предметна експертиза тощо.
VANDINGBENCH — імітаційне середовище, яке перевіряє, наскільки добре моделі нейромереж справляються з простим, але довготривалим бізнес-сценарієм: керуванням торговим автоматом. Агент має відстежувати наявність товару, розміщувати замовлення, встановлювати ціни та сплачувати щоденні збори — окремо це прості завдання, які з часом розширюють межі можливостей нейромережі зберігати послідовність і приймати обґрунтовані рішення. Цікава стаття — інтерв’ю з творцем бенчмарка та компанії Andon Labs, Акселем Баклундом.
SWE-BENCH VERIFIED — це бенчмарк від OpenAI та авторів оригінального SWE-Bench, що включає 500 вибраних завдань на Python із 1699 зі старого бенчмарку. OpenAI також пропонує цікавий бенчмарк — SimpleQA, який перевіряє здатність мовних моделей відповідати на короткі запитання, що потребують пошуку фактів.
ARC-AGI – загальний тест від Франсуа Шолле, відомого вченого, який створив бібліотеку глибокого навчання Keras.
GAME-ARENA – бенчмарк від Kaggle, де провідні моделі з лабораторій штучного інтелекту, таких як Google, Anthropic та OpenAI, змагаються у матчах, що транслюються наживо та доступні для перегляду в записі. Матчі визначаються ігровими середовищами, системами та візуалізаторами, що працюють на оціночній інфраструктурі Kaggle.
Модель галюцинацій VECTARA — нейромережа, розроблена для відстеження галюцинацій у мовних моделях. Вона базується на концепції двох частин тексту, які являють собою твердження та його підтвердження.
OPENCOMPASS — китайський набір бенчмарків. Вертикальні галузеві оцінки охоплюють ключові напрями, такі як фінанси, охорона здоров’я та освіта. Платформа співпрацює з провідними китайськими університетами та технологічними компаніями для спільної публікації авторитетних наборів даних і галузевих рейтингів, сприяючи створенню стандартизованої системи оцінювання для великих галузевих моделей.
C-EVAL — ще один китайський комплексний набір інструментів для оцінювання фундаментальних моделей китайської мови. Складається з 13 948 запитань з кількома варіантами відповідей, що охоплюють 52 різні дисципліни та чотири рівні складності.
WEBARENA — автономне, самохостингове веб-середовище для створення автономних нейромережевих агентів, які виконують завдання у веб-просторі. WebArena створює вебсайти чотирьох популярних категорій із функціональністю та даними, що імітують їхні реальні аналоги. Агенти навчаються використовувати мапи для побудови маршрутів, керувати замовленнями в інтернет-магазині, оновлювати інформацію на сайтах, створювати репозиторії на GitHub.
VIDEOARENA — цього разу відеоарена з вибором найкращого відео з-поміж уже створених. Також відображає рейтинг популярних відеогенераторів.
CONTRA – онлайн-бенчмарк у форматі арени для тестування моделей створення зображень, відео та програмного коду. Заходьте, тестуйте запити, а потім отримуєте назви моделей, які їх виконували.
До якої дати в популярні нейромережі було завантажено дані, можна подивитися на EXPLOUDINGNOPICS. Подібна інформація міститься в оптимізаторі пошуку сайтів через нейромережі ALLMO, а також більше можна дізнатися й доповнити базу дат через цей GitHub-репозиторій.
Якщо вам потрібна автоматизована система перевірки відповідей на завдання з програмування, скористайтеся відкритою DMOJ або онлайн-сервісами CODEFORCES, ATCODER чи іншими.
Для розширеного тестування вашого творіння ви можете звернутися до професійних тестувальників. Це придбаний OpenAI сервіс тестування продуктів розробки STATSIG, корпоративно-орієнтований LAUNCHDARKLY, HARNESS, що поглинув платформу Software as a Service SPLIT, та інші.
Отже, ми познайомилися з великою спільнотою розробників, ентузіастів, дослідників і експертів у сфері штучного інтелекту.
Усі вони працюють і створюють продукти, здатні змінити наше майбутнє.
Якщо ви хочете приєднатися до них, допомогти чи просто навчитися краще розуміти нейромережі — ви той, хто теж прагне змінити світ на краще.
Приєднуйтесь! Спілкуйтеся на HackerNews, у спільнотах Reddit та LinkedIn.
Можливо, саме з вашою допомогою ми незабаром додамо до каталогів ще один або кілька чудових нейромережевих сервісів.
Зараз людство лише на порозі нових відкриттів, і я впевнений, що десь працюють люди, які роблять маленькі кроки заради великого стрибка людства у краще майбутнє. Можливо, один із цих людей — це ви.
Спокійно й усвідомлено бережіть себе.
Завітайте та пройдіть SAID-Test, щоб натренуватись відрізняти фейкові генерації.
said-корреспондент🌐
Ви можете створити окрему тему на форумі спільноти.
Коментарі