Midjourney и другие нейросети обработки изображений - страница 1199

 

Главные новости ИИ за неделю: Эра агентов, революция поисковиков и битва титанов


//текст и обложка Gemini 3.5. Видео Мэтта https://youtu.be/kyOPFFy3I38

Прошедшая неделя оказалась невероятно насыщенной, во многом благодаря крупнейшей конференции Google I/O 2026. Главный тренд очевиден: индустрия переходит от простого состязания бенчмарков и текстовых чат-ботов к созданию автономных ИИ-агентов, глубоко интегрированных в нашу повседневную жизнь, работу и программные среды.

Ниже собран подробный разбор ключевых анонсов и главных событий из мира искусственного интеллекта.

1. Google I/O 2026: Главные анонсы

Компания Google буквально засыпала ИИ-сообщество обновлениями, опубликовав список из 100 позиций. Мы выделили самые значимые технологические прорывы.

Семейство моделей Gemini 3.5: Ставка на Flash

Google представила новые модели Gemini 3.5. Вместо демонстрации неповоротливого гиганта, компания сделала упор на скорость и доступность, выпустив Gemini 3.5 Flash.

  • Позиционирование: Это быстрая и дешевая модель. В задачах кодинга она слегка уступает GPT 5.5 и Claude Opus 4.7, но в тестах на «агентские» возможности (Agentic Benchmarks) обходит конкурентов.

  • Скорость и цена: По уровню интеллекта модель сопоставима с Gemini 3.1 Pro, но работает в два раза быстрее нее и в три раза быстрее GPT 5.5. Цена для разработчиков через API составляет всего $1.50 за миллион входящих и $9 за миллион исходящих токенов, что кратно дешевле предложений от OpenAI и Anthropic.

Gemini Omni: Мультимодальность нового уровня

Вторая громкая новинка — Gemini Omni, модель формата «любой входящий формат -> любой исходящий формат» (Any-to-Any).

  • Сейчас она работает как мощный видеоредактор, управляемый естественным языком. Ей можно скормить любое видео или изображение, и она сгенерирует или изменит ролик, сохраняя идеальную консистентность персонажей.

  • Глубокие знания (World Knowledge): В отличие от простых генераторов текста в видео, Omni опирается на базу знаний Google. Например, по промпту она может создать точную пластилиновую 3D-анимацию, объясняющую сворачивание белков.

  • Аватары: Пользователи платных планов могут сделать быстрое селфи-видео, отсканировав QR-код, и перенести свой цифровой аватар и голос в любую созданную ИИ сцену.

Gemini Spark: Автономный агент в облаке

Ответом Google на локальные агентские системы стал Gemini Spark.

  • Это полноценный автономный ИИ-агент, который крутится на серверах Google Cloud (а значит, работает, даже когда ваш компьютер выключен).

  • Spark имеет доступ к вашей почте Gmail, Календарю и Google Диску. Ему можно поручить еженедельно собирать сводки новостей, организовывать соседские вечеринки, автоматически переносить данные из писем в Google Таблицы или создавать рабочие пространства по протоколу MCP в сторонних сервисах вроде Canva.

  • Чтобы агент не «сошел с ума», Google внедрила строгие протоколы безопасности: Spark не сможет отправить письмо внешнему адресату или потратить деньги без вашего явного подтверждения.

Трансформация поиска Google и YouTube

Google представила обновленный поисковый интерфейс, который уходит от стандартной строки к полноценному окну для ввода сложных промптов.

  • Поисковик научился писать код прямо в выдаче для создания интерактивных визуализаций (например, показывая искажение пространства черной дырой).

  • В чем спорность? Обновление вызвало волну критики со стороны создателей контента. Google AI Overview (краткая выжимка от ИИ) теперь занимает центральное место, из-за чего пользователям нет нужды кликать на сайты-источники. Это может сильно ударить по веб-издателям и блогерам.

  • Аналогичная функция «Ask YouTube» внедряется и на видеохостинге, позволяя получать ответы по содержанию роликов без их просмотра.

Другие важные анонсы от Google:

  • Universal Cart (Универсальная корзина): Интеллектуальная корзина, которая работает сквозь разные сайты и интернет-магазины. ИИ подскажет, совместимы ли товары (например, процессор и материнская плата) и где самая низкая цена.

  • Anti-gravity 2.0: Новая среда разработки (IDE) от Google для быстрого написания кода ИИ-агентами.

  • Проект Genie + Street View: Возможность генерировать интерактивные игровые миры и управлять персонажами (например, обезьяной на роликах) прямо на реальных улицах городов, используя данные Google Карт.

  • Умные очки: Google совместно с известными брендами Gentle Monster и Warby Parker осенью выпускает первую итерацию стильных AI-очков с поддержкой аудио, встроенной камерой и голосовым ассистентом, ориентированных на постоянное повседневное ношение.

  • Стандарт SynthID: Невидимые водяные знаки для ИИ-контента от Google теперь официально согласились внедрять и другие крупные компании, включая OpenAI и 11 Labs.

2. Новости других ИИ-гигантов

OpenAI: ChatGPT заглянет в ваш кошелек

Пока Google гремела на конференции, OpenAI выкатила финансовое обновление. Теперь через безопасный протокол Plaid пользователи могут подключить свои банковские аккаунты напрямую к ChatGPT. Нейросеть сможет выступать персональным финансовым консультантом, анализировать ваши траты, подсказывать, как сэкономить на подписках, и балансировать инвестиционный портфель. Однако интеграция столь чувствительных данных в коммерческую нейросеть уже вызвала вопросы конфиденциальности у экспертов.

Завершение суда Илона Маска против Сэма Альтмана

Многонедельное судебное разбирательство подошло к концу. Суд отклонил иск Илона Маска против OpenAI, постановив, что срок исковой давности по ключевым претензиям истек, и у Маска больше нет законных оснований для продолжения дела.

Андрей Карпати перешел в Anthropic

Неожиданный трансфер недели: Андрей Карпати (сооснователь OpenAI и экс-глава ИИ в Tesla) официально присоединился к команде Anthropic. Для индустрии это важнейшее событие, учитывая глубочайшую экспертизу Карпати в области построения больших языковых моделей и его статус одного из главных образовательных голосов в ИИ-сообществе.

Музыка, подкасты и инструменты разработки

  • Spotify: Подписал лицензионное соглашение с Universal Music Group, которое позволит пользователям легально делать ИИ-ремиксы и каверы на треки известных исполнителей, при этом артисты будут получать роялти за прослушивания. Также Spotify запускает функцию персональных подкастов (создание аудиовыпусков по текстовому промпту на основе ваших интересов) и возможность задавать вопросы ИИ прямо во время прослушивания шоу.

  • Amazon: Выкатил аналогичную функцию для Alexa Plus, которая генерирует подкаст-эпизоды на любую тему по запросу пользователя.

  • Cursor (Composer 2.5): Популярный ИИ-редактор кода Cursor представил модель Composer 2.5. Она практически не уступает топовым Claude Opus и GPT 5.5 в программировании, но стоит в разы дешевле (меньше доллара за комплексную задачу).

  • Stability AI: Выпустила открытую модель Stable Audio 3.0, способную генерировать полноценные треки до 6 минут и высококачественные звуковые эффекты.

  • Робототехника: Boston Dynamics показала обновленного гуманоидного робота Atlas, который теперь спокойно может поднять и перенести в руках целый бытовой холодильник.

3. Что еще важного произошло на этой неделе?

(Дополнения, не вошедшие в основной обзор Мэтта)

  • Тенденция к «Tokenmaxxing»: Среди разработчиков ИИ на этой неделе наметился устойчивый тренд на экстремальное увеличение контекстных окон и генерацию огромных массивов данных за один проход. Разработчики всё чаще оптимизируют пайплайны под удержание гигантского контекста, что напрямую связано с выходом сверхбыстрых моделей вроде Gemini 3.5 Flash.

  • Заявление сооснователя Anthropic: Джек Кларк на этой неделе сделал амбициозный прогноз, заявив, что благодаря стремительному прогрессу нейросетей, ИИ поможет сделать открытие, достойное Нобелевской премии, уже в течение ближайшего года.

  • Давление регуляторов: Правительства ведущих стран усиливают контроль. Появились сообщения, что Microsoft и xAI согласились предоставлять ранний доступ к своим будущим передовым модели регулирующим органам США для тестирования на безопасность еще до официального публичного релиза.

Неделя наглядно показала, что ИИ перестал быть просто «умным собеседником» в отдельной вкладке браузера — он превращается в автономную инфраструктуру, готовую выполнять за нас комплексные задачи.

 
Стихи от чатботов (насколько же вырос уровень... но есть нюанс)

******

Claude

Он молчал, глядя на закат,
Ты в зеркала воды негромко пела,
И причал дождями был объят 
Ты звала — пугливая и смела.

******

ChatGPT

В моём окне уже живёт весна,
Но старый двор упрямо молчит.
И даль сегодня кажется тесна,
А тишина мне служит, как щит.

******

GEMINI

Миг стер тот след,
Сын стал весьма глуп.
Там шел лишь вперед,
Вскрыл тот сруб.


******

QWEN

В тиши застыл бетонный монолит,
И я боюсь признаться в этом вслух,
И каждый атом на меня сердит,
И выдыхает обречённый дух.


******

DeepSeek

Мне бы хотелось в тишине мечтать,
Где за окошком темно за окном.
В комнате дремлет моя кровать,
Слышен шёпот ветров кругом.


******

Z.ai

Туда, где синеет далекий зенит,
Во мгле переулков и улиц пустых,
Свободная птица навстречу летит,
И нас в этом мире осталось двоих.





*злополучный нюанс: чтобы добиться достаточного качества стихов, пришлось «вручную» постить правила (промпт)

запрещено рифмовать:
1) одни и те же части речи
2) однокоренные слова
3) ой-ой окончания
4) рифмовка должна состоять из разных частей речи

Иначе они рифмуют, как графоманы (любую гадость), отчего кажется, что рифмовать они не научились.

То есть, как и всегда - нужно быть "экспертом" в области, чтобы получить "экспертный" ответ. "Графоман", который "закажет" стих, плучит такой же графоманский стих.

Но отличие кардинальное: год-два назад чатботы в принципе не могли рифмовать по заданным правилам (они их просто не соблюдали).

А сейчас процесс размышления на указанный промпт у чатботов иногда растягивается настолько продолжительно (они долго ищут, как "такое" построить), что результатом является "рабочий продукт".

Как пример: у единственного Гемини я просил панторифму (потому что он в них силён), да ещё и по правилу "каждое слово в панторифме должно также быть разной частью речи", в результате он извернулся как мог и написал стих по всем этим сложнейшим правилам на следующую тему: «Философия «алгоритмического выгорания», разложенная на четыре такта, как метафора работы с данными, которые постоянно меняются, обесценивая предыдущий опыт».

В общем, вопрос стихоплётства, как уровня проверки интеллектуальных способностей у чатботов можно считать закрытыми. Они "могут", если их правильно доить. Ну, и если их "поднатаскать".   
 
Ivan Butko #:
Они "могут"

Важно уточнение, что прогресс реально отслеживать по русскому языку. Английский рифмовался ещё со времён GPT3.

Второй этап - юмор. Юмор изначально должен ломать конструкцию предугадывания, поэтому для LLM это сложная задача.