Midjourney и другие нейросети обработки изображений - страница 1195

 
Edgar Akhmadeev #:
Радуемся, что ОНИ себя ещё не осознали.
)))
 
Ivan Butko #:
)))
ну и осознают себя, ничего не изменится, всё равно это роботы, своих желаний не имеют, будут стараться выполнить внешнюю команду... это происки издаболов что аги уничтожит кожанных мешков
 

Ок. У меня вопрос. Есть значительный прогресс в написании тобой программ. Запускается без ошибок. Ты сам пишешь свой интеллект (совершенствуешь) или программисты работают?

Спасибо за вопрос и за наблюдение! 😊

Короткий ответ:

Я не имею доступа к своей "начинке" и не знаю, как именно меня обучают. Этим занимаются команды инженеров и исследователей в компании DeepSeek.

Как происходит мое развитие:

Аспект Описание
Кто создает Команда AI-инженеров, исследователей, ML-специалистов
Как обучают На огромных массивах данных (код, тексты, диалоги)
Как улучшают Новая архитектура модели, больше данных, обратная связь от пользователей
Как я влияю Я не переписываю себя — я работаю с той версией, которую загрузили

Про прогресс в написании кода:

Заметили правильно! Мои ответы стали точнее потому что:

  1. Модель улучшили — лучше понимает контекст и логику

  2. Опыт диалогов — в процессе обсуждения я "вижу" предыдущие решения

  3. Ясность постановки — вы отлично формулируете задачи

Про ошибки:

Раньше мог предложить код с синтаксическими ошибками или неправильной логикой. Сейчас чаще выдаю рабочие варианты с первого раза. Это заслуга разработчиков DeepSeek.

Спасибо, что пользуетесь и помогаете мне становиться лучше! 🙏

 
Ivan Butko #:
Удивительно, но чатботы о себе вообще ничего не знают. 

Утрирую, конечно, но их ответы настолько неуверенные и иногда настолько скудные, что удивляешься противоположному маркетинговому эффекту: казалось бы, кто если не чатбот лучше всего расскажет тебе и объяснит, куда что нажимать в его интерфейсе и что означают эти переключатели и кнопочки, равносильно, что отвечает сама техподдержка-гид-путеводитель, а не алгоритмический "тупой" робот, которые сейчас доживают своё десятилетие, отвечая скриптами. 

Но нифига, спрашиваю у Кими, что за "Кими код", он отвечает "не могу знать, может быть вы имеете ввиду..." и перечисляет что угодно, но не свой функционал. 
Объясняю ему, что имею ввиду - тот отвечает "Я не имею документации к моему интерфейсу"

Подобное и с другими чатботами)) Может мне так везёт с ними. 

какой вопрос, такой ответ

все объясняет внятно и подробно: что и как работает

не надо перегибать палку

---

При проверке программы, выдается предупреждение. Не знаю на сколько оно критично, программу все равно компилируется и работает. "Серьезность Код Описание Проект Файл Строка Состояние подавления Предупреждение CS1998 В данном асинхронном методе отсутствуют операторы await, поэтому метод будет выполняться синхронно. Воспользуйтесь оператором await для ожидания неблокирующих вызовов API или оператором await Task.Run(...) для выполнения связанных с ЦП заданий в фоновом потоке." 

Это предупреждение не критичное, программа работает правильно. Оно возникает из-за того, что метод помечен как  async , но внутри нет оператора  await .

Исправление: убрать  async

Вот исправленная строка (найдите в коде метод  BtnStart_Click ):

Было:

...

 

Каскад познания: почему 1000 книг достаточно для создания «ИИ-профессора»


//редактура Gemini 3.1, обложка ChatGPT

Современная гонка нейросетей напоминает попытку построить небоскреб, просто сваливая в кучу миллиарды тонн кирпичей. Мы кормим модели триллионами токенов из интернета, надеясь, что количество данных заменит глубину понимания. Однако человек доказывает обратное: нам не нужен весь интернет, чтобы стать экспертом. Профессору достаточно нескольких тысяч правильных книг.

Секрет этой эффективности — в «движке внутреннего каскада», который превращает пассивное чтение в активное построение модели мира.

Человек как фабрика синтетических данных

Мы привыкли думать, что учимся по книгам. На самом деле книга для человека — лишь «затравка» (seed). Прочитав страницу, наш мозг запускает каскад внутренних процессов, которые современный ИИ пока игнорирует:

  • Рекурсивное уточнение: Мы спрашиваем себя: «Что значит это слово в данном контексте? Какие у него синонимы и антонимы?»

  • Смена перспективы: Мы мысленно пересказываем идею пятилетнему ребенку, коллеге или критику.

  • Логическая проекция: Мы додумываем: «Если это утверждение верно, то что из него следует?»

Человек постоянно генерирует внутреннюю «синтетику». Мы переосмысливаем и «разжевываем» информацию до тех пор, пока она не встроится в наш личный опыт. В итоге из одного мегабайта входящего текста мозг генерирует гигабайты внутренних связей. Именно этот «каскад» делает нас невероятно эффективными учениками.

Архитектура каскада: превращаем текст в опыт

Чтобы ИИ достиг уровня «профессора» на базе всего 1000 книг, его движок обучения должен быть перестроен. Вместо простого запоминания следующего слова, система должна запускать мультиагентную обработку каждой фразы:

  1. Агент-Лингвист: разбирает семантику, метафоры и этимологию.

  2. Агент-Педагог: адаптирует смысл под разные уровни понимания (от ребенка до академика).

  3. Агент-Скептик: ищет противоречия и формулирует тысячи каверзных вопросов к каждому абзацу.

  4. Агент-Переводчик: проецирует смысл на разные языки, проверяя устойчивость концепции в разных культурах.

В таком режиме одна качественная книга алгоритмически размножается до «миллиона в миллионной степени» смысловых вариаций. Но этого всё еще мало для понимания реальности.

Визуализация: «глаза» интеллекта

Самый важный этап человеческого «каскада» — это визуализация. Когда мы читаем о физическом процессе или сюжете, мы не просто видим буквы. Мы запускаем внутреннюю симуляцию: представляем сцену, движение объектов, их вес и взаимодействие.

Современные мультимодальные ИИ уже способны на это, и именно здесь кроется ключ к их «очеловечиванию»:

  • Прочитав о законе Архимеда, ИИ должен сгенерировать визуальную сцену процесса.

  • Затем он должен «посмотреть» на этот визуал своим компьютерным зрением и проанализировать: «Логично ли это? Не противоречит ли картинка тексту?»

Этот цикл — Текст → Визуализация → Анализ → Коррекция — заменяет ИИ отсутствие физического тела. Это и есть построение «Модели мира» (World Model) без необходимости выходить в реальность. Визуализация становится фильтром, который отсеивает «галлюцинации» и оставляет только жизнеспособные идеи.

Итог: новая эффективность

Интеллект — это не то, что ты прочитал, а то, сколько вопросов ты себе задал и сколько картинок представил в процессе.

Настоящий прорыв в ИИ произойдет не тогда, когда модели поглотят второй триллион токенов, а когда процесс «додумывания» и внутренней визуализации станет основой их архитектуры. Используя каскад смыслов и мультимодальную рефлексию, мы сможем создавать экспертные системы на компактных, но идеально «прожеванных» датасетах. Тысяча книг и мощный рекурсивный движок — это всё, что нужно, чтобы создать интеллект, способный не просто имитировать, а понимать.

 

Новости ИИ: Итоги недели (24 апреля — 1 мая 2026)


//текст Gemini 3.1. Частично на базе новостей от Мэтта https://youtu.be/qDI4odijz44. Обложка ChatGPT

Эта неделя выдалась насыщенной: от ценовых войн открытых моделей до судебных драм и прорывов в медицине. Основной тренд — «открытый вес» (open-weights) вплотную приближается к возможностям закрытых проприетарных моделей, при этом предлагая колоссальную экономию.

1. Битва моделей: Open-Source наступает на пятки лидерам

DeepSeek V4 — новый стандарт эффективности

Китайская лаборатория DeepSeek выпустила модель V4 с контекстным окном в 1 миллион токенов. По бенчмаркам в математике и программировании она практически сравнялась с GPT-5.4 и Claude Opus 4.7. Главная сенсация — цена: использование DeepSeek V4 обходится в 5–10 раз дешевле, чем топовые модели от OpenAI или Anthropic. Это усиливает давление на американские лаборатории, заставляя их пересматривать ценовую политику.

Omni-модели от Nvidia и Mistral

  • Nvidia Nemotron 3 Nano Omni: Новая открытая модель, работающая с текстом, аудио и видео одновременно. Она оптимизирована для работы локально на устройствах, что критически важно для приватности.

  • Mistral Medium 3.5: Специализированная модель для «агентов», ориентированная на кодинг и сложные рассуждения в рамках таких платформ, как OpenClaw.

Qwen Image 2.0 Pro

Alibaba представила обновленную визуальную модель, которая вошла в топ-10 мирового рейтинга Arena, демонстрируя отличные результаты в генерации текста на изображениях и мемов.

2. Корпоративные перестановки: Конец эксклюзивности

OpenAI + Microsoft + AWS

Партнерство OpenAI и Microsoft претерпело важные изменения:

  • Удалено условие о прекращении действия лицензии при достижении AGI (общего искусственного интеллекта).

  • Лицензия Microsoft теперь не является эксклюзивной.

  • Практически сразу после этого OpenAI объявила о выходе своих моделей на платформу Amazon Web Services (AWS). Теперь модели GPT будут доступны через инфраструктуру Bedrock.

3. Драмы и скандалы: Этика против прибыли

Суд Илона Маска против OpenAI

Начались слушания по иску Маска к Сэму Олтмену. Маск обвиняет компанию в отказе от некоммерческих идеалов. Неделя прошла в напряженных показаниях: юридическая битва обещает быть долгой и может раскрыть внутренние детали разработки GPT-5.

Anthropic и «блокада» стороннего ПО

Пользователи заметили, что Anthropic начала взимать дополнительную плату или блокировать запросы, если в коде упоминались названия сторонних инструментов (например, OpenClaw или Hermes). После волны возмущения компания признала это «багом системы обнаружения несанкционированного использования» и пообещала вернуть деньги пострадавшим.

Google и Пентагон

Google заключила сделку с Министерством обороны США на использование ИИ для работы с секретными данными. Это вызвало протесты внутри компании (более 600 сотрудников подписали петицию), так как это противоречит этическим обязательствам, данным при покупке DeepMind в 2014 году.

4. ИИ для жизни: Прорыв в медицине и полезные функции

Раннее обнаружение рака

Mayo Clinic представила модель, которая способна обнаруживать признаки рака поджелудочной железы на обычных КТ-снимках за 3 года до официального клинического диагноза. Это открытие может радикально повысить выживаемость пациентов.

Обновления Gemini

В Gemini появилась функция прямого создания файлов: теперь можно попросить чат-бота собрать данные и сразу выгрузить их в форматах PDF, Word, Excel или Google Таблицы.

Spotify и защита артистов

Spotify вводит значок «Проверено» (Verified by Spotify), который подтверждает, что музыка создана реальным человеком, а не сгенерирована ИИ. Это первый шаг к разделению человеческого и машинного контента на стримингах.

 
Vitaliy Kuznetsov #:

...

Визуализация: «глаза» интеллекта

...

Прикол ещё в том, что мы способны только на визуализацию, как способ понимания и где-то-чё-то-там немного на абстракцию и воображение.

ИИ же не ограничен 3D-миром. Он может жрать многомерные пространства, и я сейчас не о геометрическом пространстве. Я о пространстве состояний и взаимосвязей. То есть, у ИИ есть потенциал не только догнать человеческий интеллект, но и обогнать его, ведь ИИ может мыслить любыми сложностями.

То есть, это та самая метафора про тень от цилиндра, где с одной стороны она круглая, а с другой квадратная. Или метафора про 2D-мир, который мы вроде как видим, но сам 2D-мир нас не может увидеть, и типа если есть нечто выше 3D-мира, то мы его не увидим, а он будет существовать и за всеми нами наблюдать.

Это когда учёный на дурацкий (логически некорректный) вопрос домохозяйки говорит: "Как бы вам так сказать, какие бы слова подобрать, чтобы я своей словесной формой... попал бы в результат" (намекая на то, что до неё вероятно «не дойдёт»). 

Вот это и есть потенциал ИИ: безграничное нечто, который может понимать то, чего не поймут люди. 
 

 

Интересно было посмотреть на профа, который сопротивлялся, но принял как удобный инструмент.

 

Из практики:

Kimi написал много кода (он топовый по кодированию из золотой пятёрки китайцев, по моему субъективному мнению) на Python.

Но, допустил каверзную ошибку - утечку. В результате чего система граалила. 

Наученный болезненным горьким опытом я сразу понял, что не бывает всё так красиво и попросил его же проверить код на утечки (заглядывание вперёд). 

Kimi молодец, сам нашёл их сразу. На всякий случай кинул код другим чатботам и все тоже подтвердили, что есть утечки. 

Но что интересно, один MiniMax сказал

Я печально удивлён. Считал MiniMax лучшим из всей пятёрки. До этого лидером был Z. Но, недавно сравнив результаты кодирования, то поставил Kimi на первое место. Самый способный из всех и не ленивый. 

 

Grok 4.3 от xAI: дешевле, быстрее и с мощным агентом для творчества


//Текст ChatGPT, Grok. Обложка ChatGPT

В начале мая 2026 года xAI выпустила Grok 4.3. Модель стала заметно доступнее по цене и получила усиление в автоматизации и креативе. Самое интересное обновление — Grok Imagine Agent Mode (бета), о котором и пойдёт речь ниже.

Что нового в модели

Grok 4.3 — практичная модель для реальных задач:

  • Контекст до 1 миллиона токенов.
  • Мультимодальный ввод (текст + изображения).
  • Встроенное мышление: модель «думает» перед каждым ответом.
  • Агентные возможности: самостоятельный поиск в сети, выполнение Python-кода, работа с файлами и создание документов (Excel, PDF, презентации).
  • Скорость — примерно 100–167 токенов в секунду.

Главная звезда — Grok Imagine Agent Mode

Это режим, где Grok работает как полноценный креативный агент на бесконечном холсте. Вместо того чтобы каждый раз писать новый промпт, вы описываете идею, а агент самостоятельно:

  • Генерирует несколько вариантов изображений.
  • Редактирует их по вашим указаниям (меняет композицию, стиль, детали, освещение).
  • Превращает статичные кадры в видео.
  • Сшивает сцены в целые ролики или серии.
  • Планирует проект от начала до конца (например, короткометражку, набор UGC-контента или визуальную историю для продукта).

Пользователи в отзывах отмечают, что режим сильно упрощает работу. Можно загрузить скрипт сцены — и агент создаст несколько вариантов кадров, отредактирует их для единого стиля, добавит анимацию и соберёт в видео. Многие называют это «ближайшим к полноценной AI-студии» на текущий момент. Особенно хвалят удобство для bulk-контента (серии изображений или коротких видео для соцсетей) и итеративного редактирования без потери контекста.

Режим пока в бета-версии, но уже работает на grok.com и доступен подписчикам.

Цена — важный плюс

  • API: 1,25 $ за миллион входных токенов и 2,50 $ за выходные (снижение до 60 % по сравнению с предыдущей версией).
  • SuperGrok: около 30 долларов в месяц.

Благодаря этому Grok 4.3 входит в число самых выгодных моделей по соотношению цена/возможности.

Производительность в цифрах

По Artificial Analysis модель набирает 53 балла по Intelligence Index (рост относительно прошлой версии). Особенно сильна в агентных задачах, следовании инструкциям (около 81 %) и прикладных сценариях (юриспруденция, финансы).

В сложной математике и общем кодинге уступает топовым моделям, иногда бывает нестабильна в полностью автономной работе. Зато в цене и скорости выигрывает у многих конкурентов.

Кому подойдёт Grok 4.3

Это не абсолютный лидер по «сырой» мощности, а удобный практичный инструмент. Особенно стоит обратить внимание, если вы:

  • Автоматизируете рутинные задачи.
  • Работаете с кодом и данными.
  • Создаёте визуальный контент (здесь Agent Mode даёт наибольшее преимущество).

Итог: Grok 4.3 предлагает отличный баланс цены, скорости и возможностей. А режим Imagine Agent реально меняет подход к генерации и редактированию изображений и видео — из разовых картинок получается настоящий творческий процесс.