Midjourney и другие нейросети обработки изображений - страница 1199
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Главные новости ИИ за неделю: Эра агентов, революция поисковиков и битва титанов
//текст и обложка Gemini 3.5. Видео Мэтта https://youtu.be/kyOPFFy3I38
Прошедшая неделя оказалась невероятно насыщенной, во многом благодаря крупнейшей конференции Google I/O 2026. Главный тренд очевиден: индустрия переходит от простого состязания бенчмарков и текстовых чат-ботов к созданию автономных ИИ-агентов, глубоко интегрированных в нашу повседневную жизнь, работу и программные среды.
Ниже собран подробный разбор ключевых анонсов и главных событий из мира искусственного интеллекта.
1. Google I/O 2026: Главные анонсы
Компания Google буквально засыпала ИИ-сообщество обновлениями, опубликовав список из 100 позиций. Мы выделили самые значимые технологические прорывы.
Семейство моделей Gemini 3.5: Ставка на Flash
Google представила новые модели Gemini 3.5. Вместо демонстрации неповоротливого гиганта, компания сделала упор на скорость и доступность, выпустив Gemini 3.5 Flash.
Позиционирование: Это быстрая и дешевая модель. В задачах кодинга она слегка уступает GPT 5.5 и Claude Opus 4.7, но в тестах на «агентские» возможности (Agentic Benchmarks) обходит конкурентов.
Скорость и цена: По уровню интеллекта модель сопоставима с Gemini 3.1 Pro, но работает в два раза быстрее нее и в три раза быстрее GPT 5.5. Цена для разработчиков через API составляет всего $1.50 за миллион входящих и $9 за миллион исходящих токенов, что кратно дешевле предложений от OpenAI и Anthropic.
Gemini Omni: Мультимодальность нового уровня
Вторая громкая новинка — Gemini Omni, модель формата «любой входящий формат -> любой исходящий формат» (Any-to-Any).
Сейчас она работает как мощный видеоредактор, управляемый естественным языком. Ей можно скормить любое видео или изображение, и она сгенерирует или изменит ролик, сохраняя идеальную консистентность персонажей.
Глубокие знания (World Knowledge): В отличие от простых генераторов текста в видео, Omni опирается на базу знаний Google. Например, по промпту она может создать точную пластилиновую 3D-анимацию, объясняющую сворачивание белков.
Аватары: Пользователи платных планов могут сделать быстрое селфи-видео, отсканировав QR-код, и перенести свой цифровой аватар и голос в любую созданную ИИ сцену.
Gemini Spark: Автономный агент в облаке
Ответом Google на локальные агентские системы стал Gemini Spark.
Это полноценный автономный ИИ-агент, который крутится на серверах Google Cloud (а значит, работает, даже когда ваш компьютер выключен).
Spark имеет доступ к вашей почте Gmail, Календарю и Google Диску. Ему можно поручить еженедельно собирать сводки новостей, организовывать соседские вечеринки, автоматически переносить данные из писем в Google Таблицы или создавать рабочие пространства по протоколу MCP в сторонних сервисах вроде Canva.
Чтобы агент не «сошел с ума», Google внедрила строгие протоколы безопасности: Spark не сможет отправить письмо внешнему адресату или потратить деньги без вашего явного подтверждения.
Трансформация поиска Google и YouTube
Google представила обновленный поисковый интерфейс, который уходит от стандартной строки к полноценному окну для ввода сложных промптов.
Поисковик научился писать код прямо в выдаче для создания интерактивных визуализаций (например, показывая искажение пространства черной дырой).
В чем спорность? Обновление вызвало волну критики со стороны создателей контента. Google AI Overview (краткая выжимка от ИИ) теперь занимает центральное место, из-за чего пользователям нет нужды кликать на сайты-источники. Это может сильно ударить по веб-издателям и блогерам.
Аналогичная функция «Ask YouTube» внедряется и на видеохостинге, позволяя получать ответы по содержанию роликов без их просмотра.
Другие важные анонсы от Google:
Universal Cart (Универсальная корзина): Интеллектуальная корзина, которая работает сквозь разные сайты и интернет-магазины. ИИ подскажет, совместимы ли товары (например, процессор и материнская плата) и где самая низкая цена.
Anti-gravity 2.0: Новая среда разработки (IDE) от Google для быстрого написания кода ИИ-агентами.
Проект Genie + Street View: Возможность генерировать интерактивные игровые миры и управлять персонажами (например, обезьяной на роликах) прямо на реальных улицах городов, используя данные Google Карт.
Умные очки: Google совместно с известными брендами Gentle Monster и Warby Parker осенью выпускает первую итерацию стильных AI-очков с поддержкой аудио, встроенной камерой и голосовым ассистентом, ориентированных на постоянное повседневное ношение.
Стандарт SynthID: Невидимые водяные знаки для ИИ-контента от Google теперь официально согласились внедрять и другие крупные компании, включая OpenAI и 11 Labs.
2. Новости других ИИ-гигантов
OpenAI: ChatGPT заглянет в ваш кошелек
Пока Google гремела на конференции, OpenAI выкатила финансовое обновление. Теперь через безопасный протокол Plaid пользователи могут подключить свои банковские аккаунты напрямую к ChatGPT. Нейросеть сможет выступать персональным финансовым консультантом, анализировать ваши траты, подсказывать, как сэкономить на подписках, и балансировать инвестиционный портфель. Однако интеграция столь чувствительных данных в коммерческую нейросеть уже вызвала вопросы конфиденциальности у экспертов.
Завершение суда Илона Маска против Сэма Альтмана
Многонедельное судебное разбирательство подошло к концу. Суд отклонил иск Илона Маска против OpenAI, постановив, что срок исковой давности по ключевым претензиям истек, и у Маска больше нет законных оснований для продолжения дела.
Андрей Карпати перешел в Anthropic
Неожиданный трансфер недели: Андрей Карпати (сооснователь OpenAI и экс-глава ИИ в Tesla) официально присоединился к команде Anthropic. Для индустрии это важнейшее событие, учитывая глубочайшую экспертизу Карпати в области построения больших языковых моделей и его статус одного из главных образовательных голосов в ИИ-сообществе.
Музыка, подкасты и инструменты разработки
Spotify: Подписал лицензионное соглашение с Universal Music Group, которое позволит пользователям легально делать ИИ-ремиксы и каверы на треки известных исполнителей, при этом артисты будут получать роялти за прослушивания. Также Spotify запускает функцию персональных подкастов (создание аудиовыпусков по текстовому промпту на основе ваших интересов) и возможность задавать вопросы ИИ прямо во время прослушивания шоу.
Amazon: Выкатил аналогичную функцию для Alexa Plus, которая генерирует подкаст-эпизоды на любую тему по запросу пользователя.
Cursor (Composer 2.5): Популярный ИИ-редактор кода Cursor представил модель Composer 2.5. Она практически не уступает топовым Claude Opus и GPT 5.5 в программировании, но стоит в разы дешевле (меньше доллара за комплексную задачу).
Stability AI: Выпустила открытую модель Stable Audio 3.0, способную генерировать полноценные треки до 6 минут и высококачественные звуковые эффекты.
Робототехника: Boston Dynamics показала обновленного гуманоидного робота Atlas, который теперь спокойно может поднять и перенести в руках целый бытовой холодильник.
3. Что еще важного произошло на этой неделе?
(Дополнения, не вошедшие в основной обзор Мэтта)
Тенденция к «Tokenmaxxing»: Среди разработчиков ИИ на этой неделе наметился устойчивый тренд на экстремальное увеличение контекстных окон и генерацию огромных массивов данных за один проход. Разработчики всё чаще оптимизируют пайплайны под удержание гигантского контекста, что напрямую связано с выходом сверхбыстрых моделей вроде Gemini 3.5 Flash.
Заявление сооснователя Anthropic: Джек Кларк на этой неделе сделал амбициозный прогноз, заявив, что благодаря стремительному прогрессу нейросетей, ИИ поможет сделать открытие, достойное Нобелевской премии, уже в течение ближайшего года.
Давление регуляторов: Правительства ведущих стран усиливают контроль. Появились сообщения, что Microsoft и xAI согласились предоставлять ранний доступ к своим будущим передовым модели регулирующим органам США для тестирования на безопасность еще до официального публичного релиза.
Неделя наглядно показала, что ИИ перестал быть просто «умным собеседником» в отдельной вкладке браузера — он превращается в автономную инфраструктуру, готовую выполнять за нас комплексные задачи.
******
Claude
Он молчал, глядя на закат,
Ты в зеркала воды негромко пела,
И причал дождями был объят
Ты звала — пугливая и смела.
******
ChatGPT
В моём окне уже живёт весна,
Но старый двор упрямо молчит.
И даль сегодня кажется тесна,
А тишина мне служит, как щит.
******
GEMINI
Миг стер тот след,
Сын стал весьма глуп.
Там шел лишь вперед,
Вскрыл тот сруб.
******
QWEN
В тиши застыл бетонный монолит,
И я боюсь признаться в этом вслух,
И каждый атом на меня сердит,
И выдыхает обречённый дух.
******
DeepSeek
Мне бы хотелось в тишине мечтать,
Где за окошком темно за окном.
В комнате дремлет моя кровать,
Слышен шёпот ветров кругом.
******
Z.ai
Туда, где синеет далекий зенит,
Во мгле переулков и улиц пустых,
Свободная птица навстречу летит,
И нас в этом мире осталось двоих.
*злополучный нюанс: чтобы добиться достаточного качества стихов, пришлось «вручную» постить правила (промпт)
4) рифмовка должна состоять из разных частей речи
Иначе они рифмуют, как графоманы (любую гадость), отчего кажется, что рифмовать они не научились.
То есть, как и всегда - нужно быть "экспертом" в области, чтобы получить "экспертный" ответ. "Графоман", который "закажет" стих, плучит такой же графоманский стих.
Но отличие кардинальное: год-два назад чатботы в принципе не могли рифмовать по заданным правилам (они их просто не соблюдали).
А сейчас процесс размышления на указанный промпт у чатботов иногда растягивается настолько продолжительно (они долго ищут, как "такое" построить), что результатом является "рабочий продукт".
Как пример: у единственного Гемини я просил панторифму (потому что он в них силён), да ещё и по правилу "каждое слово в панторифме должно также быть разной частью речи", в результате он извернулся как мог и написал стих по всем этим сложнейшим правилам на следующую тему: «Философия «алгоритмического выгорания», разложенная на четыре такта, как метафора работы с данными, которые постоянно меняются, обесценивая предыдущий опыт».
В общем, вопрос стихоплётства, как уровня проверки интеллектуальных способностей у чатботов можно считать закрытыми. Они "могут", если их правильно доить. Ну, и если их "поднатаскать".
Они "могут"
Важно уточнение, что прогресс реально отслеживать по русскому языку. Английский рифмовался ещё со времён GPT3.
Второй этап - юмор. Юмор изначально должен ломать конструкцию предугадывания, поэтому для LLM это сложная задача.
Важно уточнение, что прогресс реально отслеживать по русскому языку. Английский рифмовался ещё со времён GPT3.
Второй этап - юмор. Юмор изначально должен ломать конструкцию предугадывания, поэтому для LLM это сложная задача.
Аккаунт на клод стоит около 150 рублей (головная боль регистрации - на стороне посредников - онлайн-сервисов). Аккаунт на гугле (который будет использоваться на клод) можно регистрировать без привязки к телефону и только со смартфона (в настройках смарта в раделе аккаунтов гугла, а на ПК требует номер телефона).
Дальше доите эту надменную корову, которая оргазмирует на массовые чистки по цвету флага, пока не устанете, перепрыгивая из одного аккаунта в другой, когда на них заканчивается лимит сессии.
Где-то через месяц придёт сообщение на каждую почту, что аккаунты забанены изза подозрительной активности.
За это время их можно так надоить, что хватит на создание сотни индикаторов и советников.
Единственное неясное место: сколько можно иметь гугл-аккаунтов и как найти столько свободного времени.
Где-то раз в месяц (это не точно) Anthropic проводит проверку на подозрительные оплаты (с евразийских стран) и на перепрыгивание с аккаунтов (проверки на мультиаккаунты).
Некоторые пишут, что юзали до 20 аккаунтов. Объём работ в десятки раз выше, чем оплата одного аккаунта с продлением.
Почему современные нейросети наконец научились нормально писать текст на изображениях
//текст и обложка ChatGPT. На базе моих предположений.
Ещё совсем недавно генерация текста внутри изображений выглядела как слабое место почти любой нейросети. AI мог создавать фотореалистичные пейзажи, людей, сложные сцены и освещение, но стоило попросить добавить надпись — и результат превращался в набор странных символов, напоминающих повреждённый OCR или неизвестный язык.
Однако за последние два года ситуация изменилась радикально. Современные системы вроде OpenAI GPT Image, Google Imagen и Ideogram уже способны:
Возникает логичный вопрос:
что именно изменилось внутри AI-моделей?
Почему старые нейросети плохо рисовали текст
Первые diffusion-модели воспринимали текст как обычную часть изображения.
Для них буквы были не символами языка, а просто набором пикселей. Модель пыталась статистически воспроизводить визуальный паттерн текста так же, как рисовала:
Проблема в том, что текст — это не непрерывная картинка, а строгая дискретная система.
Буква «А» отличается от «Б» не визуальной «похожестью», а конкретным символическим значением. Для старых моделей такой разницы фактически не существовало.
Поэтому генераторы:
Именно поэтому старые AI-модели могли великолепно нарисовать фантастический город, но не могли нормально написать даже название магазина.
Почему огромный датасет сам по себе не решает проблему
На первый взгляд кажется, что проблему можно решить просто:
обучить модель на миллиардах изображений с текстом.
Частично это действительно помогает. Если нейросеть видит огромное количество:
она начинает лучше понимать визуальную структуру букв и слов.
Но здесь возникает фундаментальное ограничение.
Даже идеально обученная diffusion-модель всё равно работает в вероятностном пространстве пикселей, а не в пространстве языка.
То есть она по-прежнему:
Особенно проблемы начинают проявляться:
Именно поэтому даже огромный датасет не способен сам по себе вывести качество текста на уровень современной полиграфии или профессионального дизайна.
Почему современные AI-системы сделали резкий скачок качества
Самое интересное — качество генерации текста улучшилось не постепенно, а почти скачком.
Особенно это стало заметно после появления моделей Ideogram, которые внезапно начали создавать удивительно читаемые надписи.
Это косвенно указывает на то, что индустрия перешла от чистого diffusion-подхода к гибридной архитектуре.
С высокой вероятностью современные системы используют сразу несколько компонентов:
OCR стал одной из ключевых технологий новой AI-графики
OCR (Optical Character Recognition) — технология распознавания текста на изображениях — неожиданно стала важнейшей частью современных генераторов изображений.
Теперь AI способен:
Это особенно важно при редактировании изображений.
Когда пользователь загружает картинку и просит:
современная система уже не просто «перерисовывает» всё изображение целиком.
Она пытается:
Без OCR подобное редактирование было бы практически невозможно.
Разложение изображения на слои — вероятное будущее AI-графики
По поведению современных моделей видно, что они всё чаще работают не с цельной плоской картинкой, а с условным многослойным представлением сцены.
Вероятно, AI начинает внутренне разделять:
Это позволяет:
Фактически генераторы начинают напоминать не просто «рисовалки», а полноценные графические движки нового поколения.
Почему LLM-модуль оказался намного важнее простого обучения на картинках
Именно здесь появляется ключевое отличие современных систем от старых моделей.
Вместо того чтобы пытаться «угадывать» текст через пиксели, AI всё чаще сначала обрабатывает его как язык.
LLM-модель:
И только после этого image-модель:
По сути индустрия постепенно переходит:
от «рисования букв»
к полноценному рендеру текста внутри изображения.
Куда движется индустрия
Сейчас AI-графика находится в переходной стадии.
Генераторы изображений постепенно превращаются в гибрид:
между:
Следующий логичный этап выглядит почти неизбежным:
AI будет создавать изображения сразу с editable-структурой:
Именно поэтому современные модели уже начинают конкурировать не только с генераторами картинок, но и с классическими инструментами дизайна вроде Photoshop или Illustrator.
Судя по текущему темпу развития, в ближайшие годы AI научится не просто генерировать изображения, а полноценно собирать визуальные сцены как профессиональный дизайнер — с пониманием языка, композиции и структуры изображения одновременно.
Это вам не джун
Qwen 3.7 Max подрос в кодинге.
...
...
Следующий попробую купить ChatGPT
По сравнению с Клодом - небо и земля:
1) Все сложные задачи, с которыми не справляются китайцы (а также бесплатные версии от гемини, копилот и грок) - выполняет, и почти без ошибок.
2) Лимит не заканчивается. Точнее - он есть, но его не чувствуешь. У Клода одна правка проекта размером 150 килобайт - и всё, жди 4 часа, лимит иссяк.
У ЧатГПТ я уже 5 раз закинул тот же самый проект и 5 раз он его допилил, а никаких оповещений "Сходи отдохни" до сих пор не было.
Модель 5.5 + размышления + усиленное размышление
Пока только начал работать с ним и уже на платный Клод уже возвращаться не хочется.
После ChatGPT хотел попробовать платный KIMI.