Midjourney и другие нейросети - страница 1202

Vitaliy Kuznetsov 2026.06.03 18:28 #12011

Встречайте Gemma 4 12B: революция локального ИИ без «костылей» и энкодеров

//текст и обложка Gemini 3.5. Новость https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

Компания Google DeepMind сделала неожиданный, но крайне важный подарок всему AI-сообществу. Вслед за весенним релизом основной линейки Gemma 4, разработчики официально представили Gemma 4 12B — среднеразмерную открытую мультимодальную модель, которая переворачивает представление о том, какие тяжелые задачи можно выполнять локально на обычном пользовательском ноутбуке.

Главная фишка новинки — полное избавление от тяжелых внешних энкодеров для обработки изображений и звука. Это первая модель такого класса в семействе, которая умеет «слышать» и «видеть» напрямую через единую нейросетевую архитектуру.

Ниже представлен подробный разбор архитектурных инноваций, результатов тестов (бенчмарков) и сценариев применения, которые доступны разработчикам уже сегодня.

Архитектура без посредников: как устроена Gemma 4 12B

В традиционных мультимодальных ИИ-системах обработка медиафайлов напоминает слоеный пирог. Если вы отправляете модели картинку или аудиозапись, сначала подключаются громоздкие сторонние нейросети (например, Vision Transformer для графики или Conformer для звука). Они переводят данные в понятный для LLM вид и только потом передают информацию «текстовому ядру». Это приводит к двум проблемам: высокой задержке (latency) и повышенному потреблению видеопамяти.

В Gemma 4 12B инженеры DeepMind применили унифицированную архитектуру без энкодеров (encoder-free). Модель использует ту же продвинутую структуру декодера, что и флагманская Gemma 4 31B, но с уникальным методом интеграции данных:

Микро-эмбеддер зрения (Vision Embedder): вместо привычных 27 тяжелых слоев графического энкодера здесь используется компактный слой всего на 35 миллионов параметров. Сырые патчи пикселей размером 48x48 проецируются напрямую в скрытое измерение языковой модели за одно матричное умножение.
Прямая проекция аудиоволны (Audio Wave Projection): разработчики полностью убрали 12 слоев конформера, которые использовались в мобильных версиях (E2B/E4B). Сырой аудиосигнал частотой 16 кГц нарезается на фреймы по 40 миллисекунд и линейно проецируется сразу в текстовое пространство модели. Аудио не превращается в текст на промежуточном этапе — модель воспринимает звук как родные токены.
Простота дообучения (Unified Fine-Tuning): так как текст, изображения и звук делят между собой общие веса модели, разработчикам больше не нужно настраивать отдельные замороженные энкодеры. Достаточно запустить стандартный LoRA-адаптер через Hugging Face или Unsloth, и вся мультимодальная цепочка обновится за один проход.

Технические характеристики и системные требования

Модель распространяется под максимально свободной коммерческой лицензией Apache 2.0 (ее можно бесплатно внедрять в любые бизнес-продукты без ограничений на количество пользователей).

Параметр	Значение
Размер контекстного окна	262 144 токенов (256K)
Количество языков	140+ нативно поддерживаемых языков
Поддержка медиаформатов	Изображения, видео (до 60 секунд), аудио (до 30 секунд нативно)
Рекомендуемые требования (4-bit)	Ноутбуки/ПК с 8 ГБ RAM / VRAM
Рекомендуемые требования (8-bit)	Ноутбуки/ПК с 14–16 ГБ RAM / VRAM

Благодаря поддержке экосистемы Google AI Edge, квантованные версии модели запускаются локально на выделенных GPU-ноутбуках или Mac с унифицированной памятью, выдавая отличную скорость генерации. Более того, Google выпустила специальную версию модели с предсказанием нескольких токенов одновременно (Multi-Token Prediction / MTP), что существенно ускоряет локальный инференс.

Бенчмарки: на что способна 12B-модель

По результатам синтетических и практических тестов, Gemma 4 12B не просто доминирует в своем весовом сегмент, но и вплотную приближается к показателям моделей, которые в два-три раза крупнее неё (например, к собственной старшей сестре Gemma 4 26B MoE).

Согласно официальным спецификациям и тестам от Unsloth, модель демонстрирует флагманские результаты:

Текстовые и логические тесты

MMLU Pro (сложные междисциплинарные задачи): 77.2% (для сравнения, у мобильной E4B — 69.4%).
AIME 2026 (математика олимпиадного уровня без сторонних инструментов): впечатляющие 77.5%, что оставляет далеко позади большинство компактных моделей на рынке.
GPQA Diamond (экспертные вопросы повышенной сложности): 78.8%.
LiveCodeBench v6 (живое программирование): 72.0%.

Мультимодальные тесты

MMMU Pro (мультимодальное понимание): 69.1%.
MATH-Vision (математические задачи с графиками и геометрией): 79.7%.
OmniDocBench 1.5 (сканирование и распознавание документов): коэффициент ошибок снижен до 0.164 (чем ниже, тем точнее распознавание текста и таблиц).

Локальные ИИ-агенты на вашем Mac или ПК

Вместе с выпуском Gemma 4 12B, Google значительно обновила стек инструментов для работы на конечных устройствах. Главным сюрпризом стал официальный выход приложений Google AI Edge на macOS (для Apple Silicon), которые позволяют запускать модель полностью офлайн в изолированной песочнице.

Разработчикам и продвинутым пользователям доступны три ключевых сценария:

Интерактивный анализ данных в Google AI Edge Gallery: Вы можете загрузить в приложение массивный файл данных, описать задачу простым языком, и Gemma 4 12B сама напишет Python-скрипт, выполнит его на вашем процессоре и прямо внутри чата построит красивые графики и визуализации.
Голосовое редактирование (Voice Edit) в Eloquent: Благодаря нативной работе со звуком, приложение для диктовки получило глубокое понимание контекста. Теперь можно выделить абзац текста на экране, нажать кнопку и сказать: «Перепиши это в виде краткого саммари для руководства» или «Переведи на немецкий». Модель выполнит команду мгновенно и без отправки ваших данных в облако.
Локальный сервер через LiteRT-LM CLI: С помощью новой команды serve в интерфейсе командной строки можно за пару секунд развернуть локальный сервер, совместимый со стандартными API. Это позволяет «подвесить» Gemma 4 12B к вашим любимым AI-плагинам для программирования в IDE, таким как Continue или Aider, а также к агентским фреймворкам (OpenCode, Hermes).

Важная деталь для разработчиков: Модель поддерживает «безлимитное» префиксное кэширование (stateless prefix caching) в памяти. Это значит, что при долгой работе в чате или с кодом системе не нужно заново перечитывать всю историю контекста при каждом вашем сообщении — задержка перед началом ответа сводится к минимуму.

Что говорят в сети?

Сообщество на Reddit (в частности, сабреддит r/LocalLLaMA) встретило релиз с восторгом. Пользователи отмечают, что 12B — это идеальный «сладкий лимит» (sweet spot) для владельцев массовых видеокарт с 12–16 ГБ VRAM. В отличие от урезанных мобильных версий, Gemma 4 12B отлично подходит для сложных многошаговых рассуждений, написания кода «в один проход» (в тестах она смогла сгенерировать сложную 3D-модель rubber duck с самоисправлением ошибок на лету) и качественного ролевого взаимодействия (RP).

Как начать тестировать?

Модель уже доступна для скачивания на Hugging Face и Kaggle. Поиграть с ней в пару кликов можно через популярные локальные оболочки Ollama и LM Studio, а также через официальные утилиты из пакета Google AI Edge.

Изучаем ONNX для применения Машинное обучение и нейронные Python для алготрейдинга

Vitaliy Kuznetsov 2026.06.04 19:06 #12012

Нейросеть Reve 2.0 с послойным редактированием

//текст и обложка Gemini 3.5

Индустрия генеративного ИИ переживает тектонический сдвиг. Если весь прошлый год разработчики соревновались в том, чья модель лучше «фантазирует» по текстовому промпту, то летом 2026 года фокус резко сместился на абсолютный контроль.

3 июня состоялся релиз Reve 2.0 — принципиально новой нейросети, которая за сутки ворвалась на второе место мирового рейтинга LMSYS Text-to-Image Arena. Главная фишка новинки — генерация изображений в виде изолированных слоев-элементов, которые можно редактировать прямо в интерфейсе, как в Photoshop.

Разбираемся, как устроена технология и почему она меняет правила игры в коммерческом дизайне.

Архитектура: Код вместо хаотичных пикселей

Обычные диффузионные модели (вроде Midjourney или FLUX) генерируют картинку целиком: они пытаются угадать расположение объектов по текстовому промпту, из-за чего мелкие детали часто «плывут», а текст превращается в кашу.

Reve 2.0 работает по гибридному двухэтапному принципу:

Планирование (Макет): Большая языковая модель переводит ваш текстовый запрос в структурированный код-макет (Layout). В этом коде иерархически прописаны координаты, размеры, цвета, текстовые надписи и взаимосвязи всех элементов.
Рендеринг: Получив готовый «чертеж», диффузионная нейросеть превращает его в финальные пиксели в нативном разрешении 4K (16 мегапикселей) без промежуточных апскейлеров.

Послойное редактирование: Забудьте про инпейнтинг

Поскольку любое изображение для Reve 2.0 — это структурированный код, интерфейс сервиса превратился в подобие векторного графического редактора.

Вы генерируете сцену, кликаете на любой объект (например, чашку на столе или человека на заднем плане), и система выделяет его как отдельный адресуемый элемент-слой.

Вы можете вносить точечные правки в чате справа: менять цвет конкретной детали, двигать объекты или переписывать текст на вывесках. При этом остальная композиция и стиль изображения остаются абсолютно неизменными. В обычных нейросетях при частичном перерисовывании (Inpainting) каждый новый проход искажает соседние зоны; Reve 2.0 лишена этой проблемы.

Эта архитектура делает модель agent-native — ИИ-агенты могут легко считывать структуру картинки, понимать, где что находится, и программно её редактировать.

Триумф на AI-Арене

Дебют модели на независимой слепой платформе Text-to-Image Arena оказался триумфальным. На момент июня 2026 года Reve 2.0 занимает вторую строчку мирового топа, уступая лишь флагманской технологии от OpenAI.

Что примечательно: стартап Reve из Пало-Альто обучил модель, затратив в 10 раз меньше GPU-мощностей, чем технологические гиганты уровня Google и Microsoft, обогнав при этом их актуальные флагманы.

Отзывы первых пользователей: Плюсы и Минусы

Анализ фидбека в профильных ИИ-сообществах и медиа показывает высокий уровень энтузиазма, но с небольшими оговорками.

Главные преимущества:

Идеальный текст: Шрифты на вывесках, этикетках и постерах прорисовываются без артефактов, так как буквы жестко фиксируются на этапе создания макета.
Предсказуемость: Больше не нужно играть в «промпт-инженерию» часами. Если объект нужно сместить влево — он просто смещается влево.
Естественный фотореализм: Модель по умолчанию тяготеет к журнальной и репортажной эстетике, избегая глянцевого «пластикового» вида.

Текущие недостатки:

Простота инструментов: Для глубокой ручной работы интерфейс может показаться слишком аскетичным профессиональным UI/UX-дизайнерам.
Жесткие лимиты: На официальном сайте инструмент доступен бесплатно, но лимиты на генерацию в 4K сгорают быстро, после чего требуется платная подписка.

Резюме

Reve 2.0 — это важный шаг от хаотичной генерации картинок к «синтезу программ». Модель стирает грань между текстовым генератором и слоистым графическим редактором, делая коммерческий дизайн на базе ИИ по-настоящему контролируемым. Инструмент уже доступен для тестирования на официальном сайте проекта.

//мой тест с промпта "кот на потолке". Каждый элемент потом можно выделить и изменить. Модель напоминает полноценный чат.

AI 2023. Встречайте ChatGPT. Проблема в MetaEditor и Обсуждение статьи "Библиотека для

Vitaliy Kuznetsov 2026.06.05 19:49 #12013

Главные новости ИИ за неделю: Смена стратегии Microsoft, чипы нового поколения от Nvidia и бум локальных моделей

//текст и обложка Gemini 3.5. Видео Мэтта https://youtu.be/nz4h3H1MmTg

Прошедшая неделя оказалась невероятно насыщенной на события в сфере искусственного интеллекта. Две крупнейшие конференции — Microsoft Build в Сан-Франциско и Computex на Тайване — принесли лавину анонсов. Разработчики делают очевидную ставку на автономию агентов, улучшение кодинга и перенос вычислений прямо на пользовательские устройства.

Представляем подробный разбор главных технологических новинок уходящей недели.

Экосистема Microsoft: Курс на независимость и запуск собственных моделей

Главный инсайд с конференции Microsoft Build озвучил глава подразделения Microsoft AI Мустафа Сулейман: компания стремится снизить зависимость от сторонних поставщиков ИИ (включая OpenAI) и сделать первые шаги к полной самодостаточности. В рамках этой стратегии IT-гигант представил сразу семь моделей собственной разработки семейства MAI:

Флагманская «думающая» модель (Thinking Model): Новое решение для сложных логических рассуждений. По заявлениям Microsoft, в тестах она обходит Sonnet 4.6 от Anthropic.
MAI Code 1 Flash: Кодинг-модель, созданная в противовес Claude Haiku 4.5. Она демонстрирует более высокую точность при значительно меньшем расходе токенов.
MAI Image 2.5 (включая Ultra-Efficient Flash вариацию): Инструмент для генерации изображений. На данный момент модель занимает четвертую строчку в общем зачете текстовых генераторов, но удерживает второе место в мире по качеству редактирования готовых картинок.
MAI Transcribe 1.5: Настоящий прорыв в области распознавания речи. Заявлена как самая точная транскрибирующая модель в мире, работающая в 5 раз быстрее основных конкурентов.
MAI Voice 2: Новая модель генерации речи, поддерживающая 15 языков (версия Flash ожидается в ближайшее время).

Особый акцент Microsoft делает на «чистоте» и этичности данных для обучения: компания сознательно избегает сомнительных open-source датасетов, тщательно лицензирует контент и гарантирует корпоративным клиентам полную безопасность от скрытых багов.

Эра автономных помощников: Microsoft Scout и ИИ в физических устройствах

Вместо привычных чат-ботов индустрия переходит к концепции «автопилотов» — агентов, которые действуют автономно и обладают собственной идентичностью.

Microsoft Scout — это всегда включенный персональный агент, глубоко интегрированный в Windows на уровне операционной системы. Он построен на базе открытых технологий OpenClaw, но получил прямой доступ ко всей экосистеме Microsoft (Teams, Outlook, OneDrive, SharePoint). Scout сможет управлять рабочими процессами, календарем, почтой и файлами пользователя прямо через графический интерфейс, избавляя от необходимости использовать командную строку.

Project Solara — платформа для внедрения ИИ-агентов в физические гаджеты. Компания показала два прототипа:

Настольное устройство (наподобие умной колонки) с экраном для отображения задач и календаря.
Носимый смарт-бейдж (key card) с камерой и микрофоном. Он позиционируется как корпоративный инструмент (например, для врачей или логистов), позволяющий на лету сканировать объекты, штрихкоды и мгновенно обращаться к ИИ-ассистенту.

Кроме того, совместно с Mayo Clinic Microsoft разрабатывает специализированную медицинскую модель. По словам Сулеймана, цель проекта — в течение 2–3 лет создать «медицинский сверхинтеллект», который откроет доступ к экспертизе лучших врачей мира каждому человеку прямо со смартфона.

Эволюция инструментов для разработчиков: Обновление GitHub Copilot

Анонсировано новое приложение GitHub Copilot App, архитектура которого визуально и функционально напоминает интерфейс Codex. Однако здесь появилось важнейшее отличие: разработчики смогут выбирать в качестве «движка» абсолютно любую LLM от любого провайдера на рынке — будь то самая мощная или самая быстрая и дешевая модель под конкретную задачу.

Nvidia Computex: Чип RTX Spark и революция локального ИИ

На Computex компания Nvidia представила чип RTX Spark, объединяющий в себе возможности GPU и CPU. Топовая модификация несет на борту до 128 ГБ объединенной памяти (unified compute).

Это решение призвано в корне изменить подход к работе с ИИ: мощности чипа позволяют запускать тяжелые и умные LLM локально — без подключения к интернету и отправки данных в облако, что полностью решает вопросы конфиденциальности. На конференции возможности чипа демонстрировались на ноутбуках Microsoft Surface Laptop Ultra. Локальные нейросети без труда справляются с повседневными задачами вроде саммаризации документов или рерайта писем, оставляя дорогостоящие облачные вычисления только для сверхсложных запросов. Из минусов: устройства с RTX Spark обещают быть весьма дорогими (ориентировочно от $4000).

Новые открытые и проприетарные LLM недели

Nvidia Nemotron 3 Ultra: Открытая (open-weight) модель на 550 миллиардов параметров. Ориентирована на агентскую продуктивность и высокую экономическую эффективность. Из-за колоссального размера запускать её локально на потребительском железе не получится — она создана для облачной инфраструктуры.
Google Gemma 4 12B: Новая легкая открытая модель от Google. При скромном размере в 12B параметров она практически не уступает в бенчмарках своей старшей сестре Gemma 4 26B, и её можно комфортно запускать прямо на ноутбуке.
MiniMax M3: Специализированная кодинг-модель с огромным контекстным окном в 1 миллион токенов. Разработчики утверждают, что в тестах Swebench Pro она обошла GPT 5.5 и Gemini 3.1, оставаясь при этом крайне дешевой в использовании.

Дайджест Rapid Fire: Коротко о других важных апдейтах

Обновления OpenAI: В приложении Codex для Windows появилась функция computer use (ИИ теперь может видеть экран, кликать и печатать в фоновом режиме). Также добавлено удаленное управление ПК со смартфонов на iOS/Android. Сам Codex трансформируется в «супер-апп»: добавлены специализированные плагины для аналитиков, инвесторов, дизайнеров и сейлзов, а также функция Sites для публикации интерактивных сайтов прямо из диалога по ссылке. Дополнительно OpenAI улучшила «память» (функцию Dreaming) в ChatGPT для лучшего контекста прошлых бесед.
Hermes Desktop App: Компания Nous Research выпустила удобное десктопное приложение для управления созданными пользователем агентами Hermes.
Генерация изображений и видео:
- Ideogram 4.0: Новая open-weight модель. Заняла 9 место в слепых тестах Arena.ai (все модели выше — закрытые). Отлично справляется с текстом и нативно поддерживает прозрачный фон.
- Reve 2.0: Ворвалась на 2 место в Arena.ai по тексту и фотореализму, потеснив многие известные проприетарные модели.
- Krea 2 Turbo: Генерирует качественные изображения всего за 2 секунды.
- Grock Imagine 1.5: Получил обновление, теперь модель способна генерировать видео с синхронизированным аудиодиалогом.
- Runway ALF 2.0: Инструмент для умного редактирования видео по текстовому запросу (изменение объектов на видео с сохранением геометрии кадров).
Miso One: Новая open-source модель генерации речи. Разработчики называют её самой эмоциональной в мире — синтезированный голос практически невозможно отличить от речи реального человека.

Что еще важного произошло на этой неделе? (Дополнительные события)

Помимо тем, затронутых Мэттом, на этой неделе выделились еще несколько значимых инфоповодов:

Релиз Stability AI — Stable Diffusion 3 Medium: Компания Stability AI официально открыла доступ к весам своей новой модели SD3 Medium (2 млрд параметров). Модель оптимизирована для работы на домашних ПК и отлично справляется с фотореализмом, детализацией и сложными текстовыми подсказками, занимая нишу качественного open-source.
Анонс Apple WWDC на горизонте: В преддверии конференции WWDC инсайдеры подтвердили, что Apple финализирует соглашение об интеграции технологий OpenAI в iOS 18, а также готовит собственную локальную ИИ-систему Project Greymatter для повседневных задач на iPhone и Mac.
Обновления Anthropic: Разработчики Claude расширили доступ к функции «Tool Use» (вызов функций) для всей линейки моделей Claude, что позволило сторонним разработчикам массово создавать более умных автономных ИИ-агентов, умеющих работать со сторонними API и базами данных.

Машинное обучение и нейронные Искусственный интеллект 2020 - OpenCL в трейдинге

Vitaliy Kuznetsov 2026.06.05 20:33 #12014

ChatGPT. Нарисуй по теме MQL5-программирование в стиле игры HOMM3

Vitaliy Kuznetsov 2026.06.06 19:39 #12015

Эпоха открытого дизайна: Ideogram 4 теперь Open Source!

//текст и обложка Gemini 3.5. Код https://github.com/ideogram-oss/ideogram4

Рынок генеративного ИИ содрогнулся: компания Ideogram, известная своими непревзойденными алгоритмами работы с текстом и графическим дизайном, официально представила Ideogram 4 и выложила ее веса в открытый доступ. Модель на 9.3 миллиарда параметров (9.3B) уже доступна на GitHub под лицензией, позволяющей бесплатное некоммерческое использование и глубокие исследования.

Это не просто улучшенная версия старых наработок и не файнтьюн (донастройка) чужих решений. Ideogram 4 — это совершенно новая базовая (foundation) модель, обученная с нуля, которая стирает грань между открытыми локальными нейросетями и тяжелыми закрытыми API.

Архитектура: Что под капотом?

В отличие от традиционных моделей, разделяющих обработку текста и генерацию картинок, Ideogram 4 использует передовую однопоточную архитектуру Diffusion Transformer (DiT) с 34 слоями:

Единый поток токенов: Текстовый промпт и токены изображения объединяются в одну последовательность. Нейросеть «видит» текст и картинку одновременно на каждом слое, что обеспечивает идеальное понимание контекста.
VLM вместо обычного текста: В качестве текстового энкодера используется полноценная мультимодальная модель Qwen3-VL-8B-Instruct. Благодаря этому Ideogram 4 понимает сложные пространственные связи, логику, метафоры и мелкие детали гораздо глубже, чем старые модели на базе CLIP или T5.
JSON-промптинг: Модель обучалась исключительно на структурированных JSON-описаниях. Это позволяет при инференсе передавать не просто текст, а четкие параметры: точные координаты объектов (bounding boxes), доминантные цвета в формате HEX и композиционные схемы.

Бенчмарки и производительность: Тотальное доминирование

В тестах Ideogram 4 показывает феноменальные результаты, обходя модели, которые кратно превосходят её по размеру (например, Flux 2 Dev на 32B или HunyuanImage на 80B).

Дизайн и типографика (ContraLabs): В слепом тестировании среди профессиональных дизайнеров Ideogram 4 занял первое место по качеству рендеринга текста, набрав 47.9% побед, оставив позади Gemini 3.1 Flash Image Preview (Nano Banana 2) с её 30% и FLUX.2 [max] с 15.5%.
Практическая применимость: На вопрос «Использовали бы вы это в реальной работе с клиентами?» дизайнеры оценили модель на 3.55 из 5 (у Nano Banana 2 — 2.84, у Flux 2 — 2.49).
Лидерство среди открытых весов (Design Arena & LMArena): В общих лидербордах генерации изображений Ideogram 4 официально признана лучшей open-weight моделью в мире, уступая лишь огромным коммерческим закрытым системам от Google и OpenAI.

Тип лицензии

Модель поставляется в двух вариантах квантования: nf4 (для запуска на стандартных потребительских видеокартах с поддержкой CUDA) и fp8.

Код репозитория распространяется под свободной лицензией Apache-2.0.
Веса самой модели защищены лицензией Ideogram 4 Non-Commercial. Это значит, что энтузиасты, ученые и разработчики могут бесплатно запускать её локально, изучать, модифицировать и интегрировать в некоммерческие проекты. Для коммерческого использования (в продакшене крупного бизнеса) потребуется подписка или использование официального API.

Ключевые фичи для авторов контента

Для авторов сайтов и веб-дизайнеров Ideogram 4 — это ультимативный инструмент благодаря поддержке:

Гибких разрешений: Нативная поддержка любого разрешения от 256 до 2048 пикселей (с шагом 16) и соотношением сторон вплоть до 6:1 (идеально для баннеров, обложек статей и сторис).
Идеального текста: Вывески, логотипы, мемы, инфографика — текст не «плывет» и генерируется без ошибок.
Инструмента Magic Prompt: Если вы не хотите писать сложные JSON-запросы вручную, встроенный скрипт автоматически расширяет ваш простой текст до профессионального структурированного промпта.

Резюме: Релиз Ideogram 4 доказывает, что опенсорс-сообщество получает в свои руки инструменты, которые еще вчера казались эксклюзивом дорогих облачных подписок. Попробовать модель локально можно уже сейчас через официальный репозиторий ideogram-oss/ideogram4 .

Искусственный интеллект 2020 - Машинное обучение и нейронные AI 2023. Встречайте ChatGPT.

Vitaliy Kuznetsov 2026.06.06 19:51 #12016

Разное. Ideogram

Vitaliy Kuznetsov 2026.06.06 20:16 #12017

Корона сменила владельца: Как Fun-Realtime-TTS возглавил мировой топ речевых ИИ

//текст и обложка Gemini 3.5

Рынок генеративного аудио переживает тектонический сдвиг. В начале июня 2026 года независимая аналитическая платформа Artificial Analysis обновила свой престижный рейтинг Speech Arena Leaderboard. На первую строчку взлетела новая модель Fun-Realtime-TTS от технологического гиганта Alibaba, потеснив многомесячных лидеров в лице Google и Inworld.

Слепые тесты (где реальные пользователи выбирают лучший по звучанию аудиофрагмент) присудили новинке 1219 баллов Elo. Для сравнения: удерживавшая лидерство Gemini 3.1 Flash TTS от Google сместилась на второе место с 1214 баллами.

Что такое Fun-Realtime-TTS и кто за ним стоит?

Модель разработана исследовательской ИИ-группой Alibaba (известной по open-source проекту FunAudioLLM и семейству моделей CosyVoice / Qwen-TTS). Fun-Realtime-TTS — это коммерческая сквозная (end-to-end) модель нового поколения, созданная специально для голосовых ассистентов и роботов, работающих в реальном времени.

Она построена на базе продвинутой LLM-архитектуры и двухдорожечного (Dual-Track) стриминга, что позволяет ей генерировать аудио практически мгновенно.

Ключевые фишки и возможности:

Экстремально низкая задержка (Latency): Модель начинает выдавать первые пакеты звука (TTFB — Time-to-First-Audio) всего через 100–150 миллисекунд после получения текста. Она способна начать говорить, обработав буквально один первый символ предложения.
Текстовый дизайн голоса (Voice Design): Вам больше не нужны исходные аудиозаписи, чтобы создать уникального спикера. Достаточно описать характер текстом: «Низкий мужской голос, слегка хриплый, темп речи быстрый, с выраженными паузами для драматического эффекта» — и ИИ сгенерирует стабильный кастомный тембр.
Zero-Shot клонирование и мультиязычность: Модель копирует голос реального человека по короткому фрагменту (от 5-15 секунд) и заставляет его говорить на десятках языков мира и региональных диалектах без потери уникальных индивидуальных качеств.
Продвинутая текстовая нормализация: ИИ «на лету» без дополнительных модулей понимает, как правильно интонационно читать сложные формулы, спецсимволы, даты и сокращения.

Цена вопроса: Сколько стоит лучший голос на рынке?

Alibaba выбрала агрессивную стратегию, предложив премиальное качество по цене ниже большинства «элитных» конкурентов. Доступ к Fun-Realtime-TTS открыт через API Alibaba Cloud.

Сравнительная таблица стоимости и позиций лидеров выглядит так:

Место в рейтинге	Модель	Рейтинг Elo	Стоимость за 1 млн символов
#1	Fun-Realtime-TTS (Alibaba)	1219	$27.59
#2	Gemini 3.1 Flash TTS (Google)	1214	$18.30
#3	Realtime TTS-2 Preview (Inworld)	1209	$35.00
#4	Sonic 3.5 (Cartesia)	1203	$39.00

Как видно, новинка оказалась ощутимо дешевле решений от Cartesia и Inworld, хотя и уступает по сверхбюджетности Flash-модели от Google.

Где это применять?

Появление таких моделей, как Fun-Realtime-TTS, фактически закрывает эпоху «роботизированных» автоответчиков. Главная сфера применения новинки — интерактивные голосовые агенты (Voice Agents). Благодаря субсекундной задержке, ИИ-собеседник реагирует на реплики человека мгновенно, не создавая неловких пауз в диалоге, что идеально подходит для:

Служб клиентской поддержки и умных колл-центров.
Озвучки NPC в видеоиграх в реальном времени с управлением эмоциями.
Интерактивных ИИ-тьюторов для изучения иностранных языков.

Итог: Alibaba в очередной раз доказала, что способна не просто конкурировать с американскими ИИ-лабораториями, но и задавать тренды. Fun-Realtime-TTS на сегодня — это самый реалистичный и сбалансированный по цене инструмент для создания живого голосового интерфейса.

Машинное обучение и нейронные Python для алготрейдинга Искусственный интеллект 2020 -

Vitaliy Kuznetsov 2026.06.09 10:32 #12018

Эпоха сменяется на глазах: Тим Кук покидает пост CEO Apple, а Siri превращается в полноценный ИИ

//текст и обложка Gemini 3.5

Июнь 2026 года войдет в историю ИТ-индустрии как точка масштабного перезапуска Apple. Компания не просто обновила линейки операционных систем на ежегодной конференции WWDC26, но и объявила о кадровой перестановке десятилетия, параллельно представив кардинально переосмысленный искусственный интеллект.

Разбираемся, как уход Тима Кука и анонс обновленной архитектуры Apple Intelligence изменят то, как мы пользуемся привычными гаджетами.

Главная перестановка: Джон Тернус — новый CEO Apple

После 15 лет у руля Тим Кук официально объявил , что покидает пост генерального директора. Смена руководства пройдет плавно: Кук задержится на все лето для передачи дел, а 1 сентября 2026 года официально займет должность исполнительного председателя совета директоров.

Новым CEO Apple станет Джон Тернус (John Ternus) — до этого момента старший вице-президент по разработке аппаратного обеспечения, работающий в компании с 2001 года. Именно под его руководством создавались последние поколения iPhone, iPad и кастомные чипы Apple Silicon.

«Джон обладает умом инженера, душой инноватора и сердцем лидера... Он, без сомнения, правильный человек для того, чтобы вести Apple в будущее», — отметил Тим Кук в своем официальном обращении.

По сути, компания выбрала максимально безопасный и прагматичный путь преемственности: у руля встает человек, который буквально создавал физический облик современных продуктов Apple.

Архитектура ИИ: рождение Siri AI

В технологическом плане главным анонсом стало масштабное обновление Apple Intelligence . Разработчики признали, что полумеры остались в прошлом, и представили Siri AI — полностью переработанную версию голосового ассистента, глубоко интегрированную в операционные системы.

Она построена на новой локально-облачной архитектуре базовых моделей Apple (Apple Foundation Models), ключевой фишкой которой является контекстное понимание всего, что происходит на экране и внутри ваших данных.

Что умеет Siri AI и новый интеллект:

Понимание личного контекста: Ассистент может искать информацию сквозь все ваши переписки, email, фотографии и документы. Например, можно попросить: «Найди в почте те тезисы, которые я отправлял руководителю, и сделай из них короткий список для сообщения».
Контекстные инструменты письма (Writing Tools): ИИ интегрирован на системном уровне во все текстовые поля. При генерации или редактуре текста Siri AI способна подстраиваться под ваш привычный стиль общения с конкретным адресатом (например, автоматически собирать лаконичные буллеты для рабочего чата, если вы всегда так пишете боссу).
Контроль веб-страниц (Notify Me): Новая функция в Safari позволяет поручить искусственному интеллекту мониторинг конкретных сайтов на предмет изменений (например, появление товара в наличии или падение цены). Как только алгоритм зафиксирует апдейт — вы получите уведомление.
Генерация фотореалистичных изображений: Встроенное приложение Image Playground теперь позволяет создавать качественные реалистичные изображения прямо на устройстве.

Важный нюанс по ресурсам: Из-за высокой нагрузки на сервера сложные ИИ-функции (вроде продвинутой генерации картинок) получили суточные лимиты использования. Для их расширения потребуется подписка iCloud+.

Сроки релиза и региональные ограничения

Первые бета-версии для разработчиков уже доступны, однако полноценный запуск Siri AI для обычных пользователей запланирован на конец этого года. На старте будет поддерживаться только английский язык.

Для пользователей из Европейского Союза ситуация выглядит двояко: Siri AI будет доступна на Mac, Apple Watch и Apple Vision Pro, но не появится на старте на iPhone и iPad (iOS и iPadOS) из-за строгих местных регуляторных требований к защите данных.

Реакция рынка и отзывы

Первые отзывы профильных технологических медиа и аналитиков (таких как MacRumors и профильные ИТ-блоги) сходятся в нескольких мыслях:

Спокойствие инвесторов: Передача власти от Кука к Тернусу не вызвала паники на бирже. Кук оставляет после себя компанию стоимостью более $4 трлн, а Тернус воспринимается как надежный «архитектор железа», способный сохранить ДНК бренда.
Фокус на приватности: Эксперты хвалят Apple за то, что они продолжают гнуть линию Private Cloud Compute (конфиденциальных облачных вычислений), обрабатывая максимум данных локально на чипах серии M и A. На фоне постоянных утечек у конкурентов это остается сильным УТП.
Скепсис вокруг ограничений: Внедрение лимитов на генерацию и привязка ИИ-функций к платной подписке iCloud+ вызвали волну обсуждений. Пользователи надеются, что базовых бесплатных лимитов хватит для повседневных задач.

Apple на пороге новой главы: с инженером у руля экосистемы и полноценным ИИ, который наконец-то заменяет собой старую, часто критикуемую Siri.

Когда веб-терминал незаменим Правила покупки торговых роботов, Торговая платформа MetaTrader 5

Vitaliy Kuznetsov 2026.06.09 18:53 #12019

Эпоха автономных ИИ-инженеров: Anthropic представила революционные Claude Fable 5 и Mythos 5

//текст и обложка Gemini 3.5. Новость https://www.anthropic.com/news/claude-fable-5-mythos-5

//от себя скажу, что это новый уровень ИИ-программирования, на голову выше всех топовых доступных решений. Также очевидно, что релиз необходим для успешного выхода на IPO.

9 июня 2026 года компания Anthropic объявила о выпуске своего самого амбициозного обновления — моделей пятого поколения Claude Fable 5 и Claude Mythos 5. Это событие уже называют ключевой вехой в развитии ИИ-программирования. Разработчики впервые открыли доступ к супертяжелому классу нейросетей Mythos, который ранее тестировался в режиме строжайшей секретности.

Новая линейка создавалась не просто как продвинутый чат-бот для генерации сниппетов, а как полноценный автономный ИИ-инженер, способный вести многодневную разработку внутри сложных коммерческих репозиториев.

Архитектура: Коммерческий Mythos против Гражданского Fable

В основе релиза лежит единая сверхмощная архитектура нового поколения, однако Anthropic разделила её на две версии с принципиально разным позиционированием:

Claude Mythos 5 — «незацензуренная» флагманская модель с максимальными кибервозможностями. Доступ к ней жестко ограничен: она поставляется эксклюзивно правительственным структурам и закрытому пулу оборонных корпораций (в рамках инициативы Project Glasswing) для решения критических задач в сфере биоинформатики и поиска сложных уязвимостей в инфраструктуре.
Claude Fable 5 — общедоступная коммерческая версия. По сути, это тот же Mythos 5, но оснащенный глубокими многоуровневыми фильтрами безопасности. По задумке Anthropic, если пользовательский запрос затрагивает потенциально опасные темы (например, создание боевых вирусов или взлом сетей), система «на лету» перенаправляет задачу на выполнение более ранней, но стабильной и предсказуемой модели Opus 4.8.

Ключевые технологические фичи

Главное отличие пятого поколения Claude от конкурентов — переход от реактивного написания кода по схеме «запрос-ответ» к проактивной автономной работе.

1. Многодневная автономность (Agent Harness)

Модель глубоко интегрирована со средами автоматизации (включая собственный инструмент Claude Code). Ей можно делегировать масштабные задачи, например: «Проведи аудит безопасности, оптимизируй SQL-запросы во всем проекте и обнови устаревшие зависимости». Модель способна работать автономно часами и даже днями, самостоятельно проверяя промежуточные результаты и исправляя собственные ошибки в процессе.

2. Проактивная самоверификация

Fable 5 больше не пишет код «вслепую». Перед тем как выдать финальный результат пользователю, нейросеть разворачивает изолированную тестовую среду, пишет под свой же код тест-кейсы (harnesses), запускает их и анализирует логи ошибок. Человек получает уже проверенное и рабочее решение.

3. Инженерное зрение (Advanced Vision)

Обновленная мультимодальная система идеально считывает сложные многостраничные PDF-документы, CAD-чертежи и комплексные архитектурные схемы. В веб-разработке модель способна визуально оценивать интерфейс запущенного приложения, сравнивать его с дизайн-макетом и самостоятельно вносить правки в CSS и JavaScript для пиксельной точности (Pixel Perfect).

Кейс из реального сектора: Финтех-гигант Stripe, участвовавший в закрытом тестировании, применил Fable 5 для рефакторинга и миграции архитектуры крупного legacy-модуля на Ruby объемом 50 миллионов строк. Модель справилась с задачей за один день, сэкономив команде инженеров более двух месяцев рутинной ручной работы.

Бенчмарки: Новый лидер индустрии

На новейшем и самом строгом отраслевом бенчмарке FrontierCode от компании Cognition (который оценивает способность ИИ работать в реальных многокомпонентных репозиториях крупных ИТ-компаний) Claude Fable 5 заняла первое место в мире, обойдя GPT-5.5 от OpenAI.

Модель продемонстрировала рекордные показатели «токеновой эффективности»: для решения сложных архитектурных задач ей требуется значительно меньше итераций и уточнений со стороны человека, чем моделям предыдущего поколения.

Тем не менее, ИТ-сообщество (в частности, аналитики на платформе Reddit) отмечает важный нюанс: на официальных презентациях Anthropic частично объединила графики тестов Mythos 5 и Fable 5. На практике реальная производительность доступной пользователям Fable 5 в специфических математических и химических задачах может быть чуть ниже из-за жесткого вмешательства систем безопасности.

Обратная сторона медали: Паранойя фильтров и стоимость

Несмотря на технологический триумф, первые пользователи Fable 5 в Cursor и API столкнулись с серьезными барьерами:

Гиперактивные Guardrails (фильтры безопасности): Защитные алгоритмы Anthropic работают в режиме жесткой перестраховки. Разработчики жалуются, что при попытке оптимизировать стандартные сетевые протоколы или настроить эндпоинты API, модель часто ложно распознает угрозу «кибератаки» (cybersecurity), прерывает сессию и аварийно переключает контекст на Opus 4.8, сжигая при этом дорогие токены.
Высокий ценовой порог: Стоимость API Fable 5 составляет $10 за 1 млн входных токенов и $50 за 1 млн выходных токенов. Это более чем в два раза превышает стоимость эксплуатации Opus 4.8, что делает модель инструментом преимущественно для B2B-сегмента и крупного бизнеса.

Условия доступности: С 9 по 22 июня 2026 года Anthropic предоставляет бесплатный тестовый доступ к Fable 5 для всех подписчиков тарифов Pro, Team и Enterprise для калибровки серверных мощностей. С 23 июня модель будет временно переведена на модель оплаты по факту использования (pay-per-use), пока инфраструктура компании не будет полностью готова к массовым нагрузкам.

Выводы

Технологический прорыв в AI-агентстве. Выход Claude Fable 5 официально закрепляет переход индустрии от «ИИ-ассистентов» к полноценным «ИИ-агентам». Модель способна решать комплексные задачи автономно, снижая потребность в рутинном ручном труде инженеров на порядок.
Новый стандарт для Enterprise-разработки. Высокая стоимость API полностью нивелируется скоростью выполнения задач. Для крупного бизнеса, работы с legacy-кодом и ускорения миграции систем Fable 5 становится безальтернативным и экономически оправданным решением.
Кризис «безопасности» ИИ. Релиз обнажил главную проблему современных тяжелых моделей: жесткие корпоративные фильтры начинают мешать легитимной инженерной работе. Anthropic придется оперативно калибровать баланс безопасности и юзабилити, чтобы не потерять лояльность профессионального ИТ-сообщества.

Как стать брокером Торговая платформа MetaTrader 5 Построение первой модели нейронной

Ivan Butko 2026.06.10 21:44 #12020

Мой первый опыт с Claude Fable 5 (купил параллельно чатгпт подписку, уж очень хотелось "пощупать монстра").

Прошу его сделать интерфейс к моему советнику, у которогоо интерфейс кошмарненький.

В итоге, он делает интерфейс на языке HTML и симулирует поведение моего советника в некой абстрактной среде, потратив все сессионные токены.

Может он разволновался, я же не просил так.

По общему впечателнию сложно сказать ощущается ли в нём могучая сила кодера, но думал он долго, а значит не просто так.

Но прошлый опыт с Опусом показал: интерфейсы клод делает превосходно.

Основы ООП: полиморфизм Потоки Абстрактные классы и интерфейсы