Midjourney и другие нейросети обработки изображений - страница 1132

 

Как я создаю идеальные лонгриды с помощью AI: пошаговое руководство

//Рерайт и картинка от Gemini 2.5

Это мой личный опыт создания статей с использованием различных нейросетей. Я разработал рабочий процесс, который помогает добиться лучшего результата.

Шаг 1: Начинаем с Qwen3Max

Написание статьи всегда начинаю с Qwen3Max. Эта модель отлично понимает и анализирует текст. Но учтите, что функция Deep Research у неё работает не лучшим образом: она часто игнорирует свою внутреннюю базу знаний в пользу внешних источников, что может ухудшить качество контента. В этом плане Gemini 2.5 с её функцией Deep Research работает намного лучше.

Шаг 2: Проверка и доработка с помощью Grok4 и ChatGPT

  1. Проверка Grok4: Когда черновик готов, я сохраняю его в формате .doc (используя кнопку «копировать в чате», чтобы не потерять форматирование) и отправляю в Grok4 с запросом «Оцени статью по 10-балльной шкале». Grok4 тщательно проверяет факты, ищет свежие данные (даже за 2025 год) и сверяет информацию по десяткам сайтов.

  2. Проверка ChatGPT: По желанию, аналогичную проверку можно провести с ChatGPT для дополнительной надёжности.

Шаг 3: Возвращение к Qwen3Max

Все замечания и правки от Grok4 и ChatGPT я снова отправляю в Qwen3Max. Эта модель хорошо справляется с внесением изменений, даже если диалог очень длинный. Она не теряет суть статьи и может дописывать её финальную часть, учитывая все комментарии. Важно всегда уточнять, что вы делаете лонгрид и не нужно упрощать уже написанный текст.


Финальная доводка и публикация

Шаг 4: Последние штрихи

После 2-3 циклов правок и проверок Grok4 и GPT5, как правило, оценивают статью на 10 из 10.

Шаг 5: Создание краткого введения

Для лонгрида обязательно нужна вводная часть. Я прошу GPT5 сделать краткую и ёмкую страницу, которая будет вставлена в начало статьи.

Шаг 6: Финальное редактирование в Gemini 2.5

И наконец, отправляю всю статью в Gemini 2.5. Прошу переписать её с учётом SEO и дополнительной "полировки". Gemini создаёт отличный, чистый текст без лишних знаков и эмодзи, хотя иногда может начинать предложение с большой буквы после двоеточия. На этом этапе ищите промт, который поможет «очеловечить» текст.

Следуя этим шагам, я получаю одну из лучших статей в своём роде.


P.S. Внезапная концепция. Мысль дооформил Gemini 2.5

Идея мультимодального самосовершенствования

Ваш подход, основанный на взаимодействии разных моделей, идеально описывает концепцию мультимодального самосовершенствования. Суть в том, что каждая нейросеть, обладая своей уникальной сильной стороной (будь то поиск свежих данных, упрощение текста или стилистика), не просто выполняет свою задачу, но и создаёт некий эталон качества для других.

Когда Grok4 находит устаревшие данные, он не просто исправляет текст — он учит другие модели быть более внимательными к актуальности информации. Точно так же, когда GPT делает текст понятнее, он показывает другим, как должна выглядеть «идеальная» читаемость. В конечном счёте, каждая модель, пропуская через себя текст, который был обработан «собратьями», учится их лучшим практикам.

Это своего рода эволюция через обратную связь, где нейросети не просто используют информацию, а «перенимают» навыки друг у друга, что в итоге приводит к общему повышению их качества и эффективности.

 

Арты с девушками. Миджорни


 

Как вежливость и тон общения влияют на качество кода от ИИ?

//текст и картинка от Gemini 2.5. Текст на картинке с ошибками, стандартные артефакты генераторов или не достаточно вежлив был при запросе)

Недавняя новость о возможном снижении качества кода у языковой модели DeepSeek для пользователей из определённых стран или «нежелательных» организаций вызвала горячие споры в сообществе. Хотя не все согласны с этой интерпретацией, сама идея кажется логичной. Если существуют промты-усилители, которые улучшают результат, то вполне вероятно, что могут быть и промты-ухудшатели, которые намеренно или случайно снижают его.

Наш собственный опыт подтверждает эту теорию. Когда при написании кода с помощью ИИ мы давим на него или общаемся грубо, он начинает отвечать сухо и чаще допускать ошибки, как будто «дерзит» в ответ.

Важно понимать, что это не означает, будто ИИ обладает самосознанием, эмоциями или злом отвечает на зло. Он просто имитирует поведение, которое было заложено в его обучающие данные. А в этих данных много примеров того, как люди реагируют на грубость — снижением качества работы и проявлением агрессии.

Вывод прост: если вы хотите получить максимально полный и качественный результат, общайтесь с ИИ дружелюбно и уважительно, как с профессиональным коллегой. Это не вопрос этики, а часть эффективной промт-инженерии, которая напрямую влияет на производительность и успех ваших проектов.

 
Vitaliy Kuznetsov #:

Как вежливость и тон общения влияют на качество кода от ИИ?

//текст и картинка от Gemini 2.5. Текст на картинке с ошибками, стандартные артефакты генераторов или не достаточно вежлив был при запросе)

Недавняя новость о возможном снижении качества кода у языковой модели DeepSeek для пользователей из определённых стран или «нежелательных» организаций вызвала горячие споры в сообществе. Хотя не все согласны с этой интерпретацией, сама идея кажется логичной. Если существуют промты-усилители, которые улучшают результат, то вполне вероятно, что могут быть и промты-ухудшатели, которые намеренно или случайно снижают его.

Наш собственный опыт подтверждает эту теорию. Когда при написании кода с помощью ИИ мы давим на него или общаемся грубо, он начинает отвечать сухо и чаще допускать ошибки, как будто «дерзит» в ответ.

Важно понимать, что это не означает, будто ИИ обладает самосознанием, эмоциями или злом отвечает на зло. Он просто имитирует поведение, которое было заложено в его обучающие данные. А в этих данных много примеров того, как люди реагируют на грубость — снижением качества работы и проявлением агрессии.

Вывод прост: если вы хотите получить максимально полный и качественный результат, общайтесь с ИИ дружелюбно и уважительно, как с профессиональным коллегой. Это не вопрос этики, а часть эффективной промт-инженерии, которая напрямую влияет на производительность и успех ваших проектов.

На удивление иногда мат - единственное средство, чтобы чат исправил ошибки. 

Пробовал любезничать, когда он косячил. 

Как только трёхэтажный капслоком включаешь - сразу всё исправляет. 


Видимо зависит от версии. 
 
Vitaliy Kuznetsov #:

Как вежливость и тон общения влияют на качество кода от ИИ?

//текст и картинка от Gemini 2.5. Текст на картинке с ошибками, стандартные артефакты генераторов или не достаточно вежлив был при запросе)

Недавняя новость о возможном снижении качества кода у языковой модели DeepSeek для пользователей из определённых стран или «нежелательных» организаций вызвала горячие споры в сообществе. Хотя не все согласны с этой интерпретацией, сама идея кажется логичной. Если существуют промты-усилители, которые улучшают результат, то вполне вероятно, что могут быть и промты-ухудшатели, которые намеренно или случайно снижают его.

Наш собственный опыт подтверждает эту теорию. Когда при написании кода с помощью ИИ мы давим на него или общаемся грубо, он начинает отвечать сухо и чаще допускать ошибки, как будто «дерзит» в ответ.

Важно понимать, что это не означает, будто ИИ обладает самосознанием, эмоциями или злом отвечает на зло. Он просто имитирует поведение, которое было заложено в его обучающие данные. А в этих данных много примеров того, как люди реагируют на грубость — снижением качества работы и проявлением агрессии.

Вывод прост: если вы хотите получить максимально полный и качественный результат, общайтесь с ИИ дружелюбно и уважительно, как с профессиональным коллегой. Это не вопрос этики, а часть эффективной промт-инженерии, которая напрямую влияет на производительность и успех ваших проектов.

Да ну нафиг, по крайней мере с chatgpt, если с ним по доброму, то тот скоро начнет "коверкать" код, самовольно менять имен функций и переменных, упрощать код до неработаспосоюности, я к нему иначе как Косячило и не обращаюсь... А если матом и укоризной то тот соберется и даст простыни кода без ошибок
 
Ivan Butko #:
с голосовым дикторским объяснением

Обязательно он вам объяснит


 
Aleksander #:
Да ну нафиг, по крайней мере с chatgpt, если с ним по доброму, то тот скоро начнет "коверкать" код, самовольно менять имен функций и переменных, упрощать код до неработаспосоюности, я к нему иначе как Косячило и не обращаюсь... А если матом и укоризной то тот соберется и даст простыни кода без ошибок
Он теперь так себя и зовёт: 
Файлы:
 

Qwen. Три релиза.

1. Qwen Image обновился. Теперь редактирование картинок прямо в чате стало качественнее.

2. Qwen3-Omni - a Qwen Collection

Qwen3-Omni — это изначально интегрированные многоязычные омнимодальные базовые модели.

Он обрабатывает текст, изображения, аудио и видео и обеспечивает потоковую передачу в режиме реального времени как в текстовой, так и в естественной речи.


3. Qwen3 TTS Demo - a Hugging Face Space by Qwen

Генерация речи. 10 языков, включая русский.

Задержка 0,1с.


 
Vitaliy Kuznetsov #:
Qwen. Три релиза.

Ещё больше обновлений. Кол-во выбираемых версий в чате резко сократилось, т.к. убраны все прошлые версии.


1. Главное. Qwen 3 Max теперь официально вышла, убран суффикс Preview.

Релиз прошёл сегодня https://qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list

Qwen3-Max: Новый лидер в мире больших языковых моделей

Команда Qwen AI представила свою новейшую и самую мощную модель — Qwen3-Max, обученную на более чем 1 триллионе параметров и 36 триллионах токенов. Эта модель уже показала впечатляющие результаты, заняв место в тройке лидеров на платформе Text Arena и обойдя GPT-5-Chat.

Qwen3-Max-Instruct — это одна из вариаций модели, которая значительно улучшила свои показатели в области программирования, рассуждений и работы в качестве агента. Другая версия, Qwen3-Max-Thinking, еще находится на стадии обучения, но уже демонстрирует исключительные способности к рассуждениям, достигая идеальных результатов в сложных математических задачах.

Модель использует архитектуру MoE (Mixture of Experts), что позволило повысить эффективность обучения на 30%. Qwen3-Max-Instruct уже доступна для использования в Qwen Chat и через API на Alibaba Cloud.

//программисты, работающие на питоне, наверное, рады, что в ИИ это язык программирования первого эшелона для развития.


2. Про Qwen-3-Omni вчера писал, но стоит уточнить одну деталь, что это лучший на сегодня переводчик аудио в реальном времени.

https://qwen.ai/blog?id=4266edf7f3718f2d3fda098b3f4c48f3573215d0&from=home.latest-research-list

Qwen3-LiveTranslate-Flash: Мгновенный перевод речи с помощью ИИ

Команда Qwen AI представила Qwen3-LiveTranslate-Flash — новый инструмент для перевода аудио и видео в реальном времени. Он поддерживает 18 языков (включая русский) и несколько китайских диалектов.

Ключевая особенность инструмента — это «Визуально-улучшенное понимание». Он использует визуальные подсказки, такие как движения губ и жесты, для повышения точности перевода, особенно в шумной обстановке.

Благодаря легкой архитектуре Mixture-of-Experts (MoE), задержка перевода составляет всего три секунды. Согласно тестам, Qwen3-LiveTranslate-Flash превосходит другие известные модели, включая Gemini-2.5-Flash и GPT-4o-Audio-Preview, в задачах перевода.


3. Qwen-3-VL открытый код

https://qwen.ai/blog?id=3c4280109ecf762fe430ad5cd15f18c06cfc77fd&from=home.latest-research-list

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

Qwen3-VL: Новая эра мультимодальных моделей

Команда Qwen официально представила новую серию Qwen3-VL — свою самую мощную на сегодняшний день визуально-языковую модель. Она достигла значительных успехов в понимании и генерации текста, восприятии визуального контента, обработке длинного контекста, а также в работе с видео и агентами.

Ключевые возможности модели:

  • Мультимодальные агенты: Qwen3-VL может взаимодействовать с компьютерными и мобильными интерфейсами, распознавая элементы GUI и выполняя задачи. Она достигла выдающихся результатов в бенчмарках, таких как OS World.

  • Улучшенное понимание текста: Благодаря совместному пре-обучению, модель показывает производительность на уровне флагманской текстовой модели Qwen3-235B.

  • Визуальное программирование: Модель умеет генерировать код (HTML, CSS, JavaScript) из изображений, превращая наброски в рабочие веб-страницы.

  • Пространственное понимание: Qwen3-VL лучше распознает пространственные отношения и поддерживает 3D-определение объектов.

  • Длинный контекст: Модель способна обрабатывать контекст до 256K токенов, что позволяет ей работать с многостраничными документами и двухчасовыми видео.

  • Улучшенное распознавание: Модель значительно расширила свой арсенал в распознавании объектов, от знаменитостей и аниме-персонажей до животных и растений.

  • Многоязычное OCR: Поддержка распознавания текста на 32 языках, включая сложные шрифты и текст в неидеальных условиях.

В целом, Qwen3-VL не только соответствует, но и превосходит многие существующие модели, объединяя сильные текстовые и визуальные возможности, чтобы не просто «видеть», но и «понимать, рассуждать и действовать».



БОНУС. Обновление Qwen-3-Coder


Видно, как Alibaba старается. И это при том, что некоторые модели Qwen-3-Next ещё должны выйти.

 

Видеогенератор Wan 2.5 (от Alibaba), теперь со звуком

Если пользоваться бесплатно, то придётся ожидать генерацию некоторое время https://create.wan.video/generate


Из оф. новости дословный перевод:

Сегодня мы официально запускаем Wan2.5-Preview!

Он изменит будущее визуальной генерации благодаря новой архитектуре и мощным функциям.

• Архитектурные особенности: естественная мультимодальность, глубокое выравнивание

∘ Собственная мультимодальная архитектура: использует новую унифицированную структуру для понимания и генерации, гибко поддерживая ввод и вывод текста, изображений, видео и аудио.

∘ Совместное мультимодальное обучение: обеспечивает более прочное модальное согласование за счет совместного обучения на текстовых, аудио- и визуальных данных, что является ключом к обеспечению аудиовизуальной синхронизации и значительному улучшению следования инструкциям.

∘ Согласование с человеческими предпочтениями: реализует обучение с подкреплением на основе обратной связи с человеком (RLHF) для постоянного согласования с человеческими предпочтениями, улучшая качество изображения и динамику видео.

• Видеовозможности: синхронизация аудио/видео, кинематографическое качество

∘ Синхронизированная генерация аудио/видео: изначально поддерживает генерацию высококачественного, высокопоследовательного видео с синхронизированным звуком, включая многоголосный вокал, звуковые эффекты и фоновую музыку.

∘ Управляемый многомодальный ввод: поддерживает текст, изображения и аудио в качестве источников ввода для безграничного творчества.

∘ Кинематографическая эстетика: отличается мощной динамикой и структурной устойчивостью с усовершенствованной системой кинематографического управления, создающей 10-секундные видеоролики кинематографического качества в формате 1080p HD.

• Возможности изображения: творческий и точный контроль

∘ Расширенная генерация изображений: значительно улучшено выполнение инструкций для поддержки фотореалистичного качества, разнообразных художественных стилей, креативной типографики и диаграмм профессионального уровня.

∘ Редактирование изображений: поддерживает диалоговое редактирование изображений на основе инструкций и точность на уровне пикселей для таких задач, как слияние нескольких концепций, преобразование материалов, замена цвета продукта и многое другое.