Stop AI Deception

НЕЙРОСЕТИ, МЕТРИКИ И ДАТАСЕТЫ ОТ APPLE.

02.09.2025
Обновлено 17.10.2025

В 2025 нейросетевая “лихорадка” захлестнула корпорации и свела их в продолжительной схватке на поле рыночных рейтингов и бенчмарков.

Несмотря на маркетинговые усилия, основным оружием большинства игроков рынка является практическая сторона использования нейросетей.

Недавний триумф Google Veo3 в сфере генерации видео надолго обозначил направление развития генераторов контента и обеспечил поисковому гиганту удачную маркетинговую кампанию художественной нейросети NANOBANANA, а также многих других эффективных проектов.

В то же время самый крупный нишевый игрок, компания OpenAI, с момента выхода Chat GPT-5 претерпевает некоторую неопределенность. Ощутимое снижение лимитов использования прояснило ситуацию с возможностями OpenAI. Маркетинговая кампания по раскрутке новой модели показала, что лидер тоже может делать ошибки. Со времен ChatGPT-3 (2022) компания находилась на пике технологий и была примером для других.

Подобная ситуация сейчас у xAI, Anthropic и Perplexity AI. Компании время от времени попадают в скандалы и утрачивают перспективные контракты. Тем более, что на пятки наступают мощные китайские конкуренты - Alibaba, DeepSeek, Tencent, Baidu, Moonshot и другие.

Почти не участвует в этой всей истории компания, занимающая третье место в мире по капитализации в рейтингах market cap.

Компания Apple уверенно держится на рынке премиум-смартфонов уже много лет. Спрос на широкую линейку продукции компании не снижается и сегодня. Пользователи ценят гаджеты Apple за простоту и безопасность. Нет предпосылок на снижение спроса и в будущем.

Но технологии идут вперед, а смартфон Google Pixel 10 на процессорах Tensor G5 хоть и показал не лучшие тестовые результаты, но уверенно занял нишу смартфонов с нейросетевой интеграцией в виде голосового управления.

Тем не менее, Apple тоже не сидит, сложа руки. Мы уже слышали и об интеграции Chat GPT в приложения на iOS и о соглашении производителя с компанией Alibaba в связи с большой нишей товарооборота последней. Также в интернет-поиск своих девайсов Apple планирует интегрировать поисковик Perplexity, который в июле 2025 выпустил уже ставший скандальным браузер Comet.

Кроме этого Apple выпустила ряд нейросетевых моделей, ориентированных главным образом на визуализацию.

Свои публичные модели компания выкладывает на популярном ресурсе Hugging Face. Сейчас там более 140 моделей.

Зайдя в коллекции, мы увидим, что модели разделены на семейства:

1. FastVLM: преобразуют изображение в набор компактных визуальных токенов. Это снижает задержку обработки и позволяет ускорить генерацию ответа. Используют гибридный видеокодер FastViTHD, который сокращает задержки при обработке визуальной информации, сохраняя высокую точность на задачах визуального понимания и генерации текстов.

2. MobileCLIP2: удобные для мобильных устройств модели для связи изображений и текста. Они обучены так, чтобы картинка и её описание имели близкие векторные представления (эмбеддинги). Это позволяет им понимать и находить схожесть смыслов изображения и текста.

3. DiffuCoder: диффузионные большие языковые модели, ориентированные на генерацию кода. Вместо привычного выстраивания текста слева направо, они начинают с «шумной» версии кода и постепенно очищают ее, создавая итоговый результат параллельно для всего кода, а не токен за токеном. Подход позволяет моделям формировать структуру кода сразу, а не строить ее построчно, что особенно ценно для сложного кода.

4. AIMv2: большие визуальные энкодеры с мультимодальным авторегрессионным предобучением: одновременно генерируют фрагменты изображения и текстовые токены в единой последовательности. Такой подход улучшает взаимодействие “изображение-текст” и позволяет достигать высокой точности на задачах классификации объектов на изображениях и в тексте.

5. Core ML: визуальные модели детекции объектов по стандарту YOLOv3 от Ultralytics и оценки глубины изображений. Также coreml-FastViT предназначены для классификации объектов на изображениях. Все модели разработаны для запуска на фреймворке Core ML для on-device инференса - работы прямо на устройствах Apple с автоматическим задействованием доступных блоков CPU и GPU.

6. OpenELM Instruct Models (Efficient Language Models): трансформерные языковые модели, способные понимать и выполнять инструкции. Ускоренные за счет специального дообучения на инструкциях, в результате чего лучше понимают формулировку задачи и делают меньше ошибок при следовании конкретным указаниям. По описанию моделей ELM в релизной статье на arXiv, группа разработчиков представила не только веса, но и полную платформу для обучения и оценки языковой модели на общедоступных наборах данных, включая логи обучения, несколько контрольных точек и конфигурации предварительного обучения.

7. OpenELM Pretrained Models: такие же трансформерные языковые модели, как и предыдущие, обучены на больших корпусах текста (просто текст без разметки), но не дообучены на инструкциях.

8. MobileCLIP Models + DataCompDR Data: мультимодальные модели, предназначенные для эффективной работы с изображениями и текстами на мобильных устройствах. Они обеспечивают высокую производительность при минимальных требованиях к ресурсам. Благодаря своим сверточным и линейным слоям могут распознавать классы объектов на изображениях, которые еще не видели. Разбивку изображения производят сверточные слои - делят изображение на маленькие кусочки (патчи), например по 16×16 пикселей для извлечения признаков (цвет, форма, текстура) и преобразуют патчи в векторы. К каждому вектору добавляется позиционное встраивание (embedding) - (список координат признаков в многомерном пространстве), чтобы модель понимала расположение каждого патча в картинке. В трансформерной части нейросети патчи взаимодействуют друг с другом и формируют общий контекст изображения. После этого векторы патчей объединяются в общий вектор с контекстом в линейном слое. Этот контекст (общий признак класса) и есть фактором сближения вектора изображения с векторами текста похожего контекста. Так модель понимает, что изображение, которого она никогда не видела, может быть описано наиболее близким к контексту изображения текстом.

9. TiC-CLI: модели, предназначенные для непрерывного обучения (изображение + текст) с учетом временной эволюции данных по временным меткам в датасетах. Они могут эффективно дообучаться на данных, поступающих с течением времени, без необходимости полного переобучения. Также в этой коллекции представлены бенчмарки для проверки временной устойчивости, забывания, скорости адаптации нейросетей к дообучению.

10. DepthPro: специализированные нейросети для высокоточной генерации 3D-карт глубины (оттенки серого) на изображениях. Карты глубины используются в дополненной реальности, медицинских и автомобильных технологий.

11. Core ML Stable Diffusion: оптимизированные для различных устройств под фреймворк Core ML диффузионные модели, преобразующие текстовые описания в изображения. Они используют латентное пространство (сжатая карта настройки признаков, а не пикселей) для генерации изображений, что позволяет достичь высокой детализации при сравнительно низких вычислительных затратах.

12. Core ML FastViT: гибридные сети, работающие на объединении архитектуры сверточных слоев с большими ядрами и структурной репараметризации (объединения нескольких обученных слоев в один оптимизированный слой). Это критично для обучения, но на этапе использования нейросети в устройствах ускоряет ее работу.

13. Core ML Depth Anything: еще модели для создания карты глубины изображений, в данном случае одного изображения (AR и другие приложения для оценки расстояния до объектов).

14. DFN Models + Data: еще модели CLIP, обученные на фильтрованных данных, предназначенных для классификации изображений по текстовым запросам без дополнительного обучения. При их обучении использовалась фильтрация данных Data Filtering Networks - с помощью небольших нейросетей, автоматически отбирающих качественные пары изображений и текстов из огромных наборов данных. Коллекция расширяет выбор моделей с позиции скорость/точность.

15. AIM: еще авторегрессионные модели для классификации изображений, обученные с использованием неаннотированных данных (без меток). При увеличении числа параметров хорошо адаптируются под различные задачи.

16. DCLM: языковые модели, обученные на качественном автоматически размеченном датасете.

17. Core ML Segment Anything 2: адаптированные для работы с фреймворком Core ML модели маскировки объектов на изображениях и видео Segment Anything Model 2 от Meta.

Как видим, основной акцент Apple делает на нейросети, работающие с готовыми изображениями и захватом в реальном времени. Видна тенденция развития по направлению создания универсальных языковых моделей для обработки визуальных и текстовых данных.

Среди датасетов Apple предлагает большие коллекции размеченных изображений, коллекции пар изображения/текст, коллекции задач по математическому рассуждению, коллекцию очищенных языковых данных, текстовый корпус (неразмеченный текст), коллекцию текстов с высокой плотностью информации, коллекцию синтетических подписей, эмбеддингов и метаданных, коллекцию финансовых данных об акциях Apple за 2025 год.

Еще представлен бенчмарк для тестирования возможностей нейросетевых агентов в различных областях. Полезен для тестирования универсальных агентов. В данное время генератор Hugging Face не позволяет скачать бенчмарк из-за ошибки в таблице - некоторые столбцы отсутствуют, что не позволяет привести данные к единому формату. Но вы можете найти этот бенчмарк в репозитории Apple на GitHub, как и много других разработок компании.

Там можно найти, например, библиотеку AXLearn, работающую в экосистеме машинного обучения JAX - библиотеке Python для ускоренных вычислений массивов и преобразования программ, разработанной Google с участием Nvidia и других участников сообщества, для высокопроизводительных числовых вычислений и крупномасштабного машинного обучения.

JAX расширяется в сторону модульности, чтобы обеспечить работу на всех процессорах. На данный момент команда JAX разработала и планирует добавить в экосистему унифицированный API устройств в среде выполнения PJRT - плагины PJRT, адаптированные под конкретные устройства. Такой подход обеспечит универсальность JAX, которая для дополнительного функционала на определенном устройстве будет вызывать соответствующий этому устройству плагин PJRT.

Это непосредственно связано с разработкой плагина PJRT командой Apple для специфики выполнения JAX на всех устройствах Apple. Более того, Apple указывает на ускорение работы JAX на платформах Mac, благодаря использованию нового плагина Metal, работающего на компиляторе машинного обучения OpenXLA от Google с открытым исходным кодом. С оглядкой на опыт развития языка Dart, а также самого Flutter, такое сотрудничество Google с Apple можно оценить как перспективное - при условии соблюдения правил.

Перспектива использования новейших технологий обучения и работы нейросетей может позволить Apple улучшить архитектуру собственных нейросетей, а также оптимизировать устройства и экосистему, решив наконец проблемы интеграции и фрагментации, наблюдаемые сегодня в сфере машинного обучения.

В своей дискретной модели FS-DFM (Few-Step Discrete Flow-Matching) вместе с учеными Университета штата Огайо (США) компания испытала технологию сопоставления потоков, сделав количество шагов выборки явным параметром. Модель генерирует токены параллельно, обновляя весь текст за один проход с большим количеством итераций. Одна итерация обновляет весь текст из шума, опираясь на статистику последовательностей слов обучающего корпуса.

Какими бы ни были дальнейшие планы Apple, такие новости вселяют надежду, что компания с огромными ресурсами внесет свой ощутимый вклад в развитие нейросетей для достижения общей цели - создания AGI.

Можно пожелать Apple успеха в этом направлении, а ее поклонникам - терпения.

Проходите SAID тест, чтобы натренироваться отличать фейковые нейрогенерации от настоящих фото и видео.

said-корреспондент🌐

Вы можете создать отдельную тему на форуме в сообществе.

Комментарии