Midjourney и другие нейросети обработки изображений - страница 1123
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Почему ИИ не рифмует? Или Как стихи раскрывают границы современного ИИ
//это моя авторская мысль, улучшена с помощью Qwen3 и Gemini2.5
Если вы когда-нибудь просили нейросеть написать стих, вы наверняка сталкивались с этим:
— «О, красиво!.. А где рифма?.. А ритм?.. А ударение?!»
Вы смотрите на текст, и он выглядит как стих. Строки, переносы, даже рифмованные окончания.
Но стоит прочитать вслух — и всё рушится.
На бумаге — ок.
В ушах — диссонанс.
Почему?
Потому что LLM не слышит.
Текст — это не язык. Это его тень
Современные языковые модели (LLM) — это гении текста, но не языка.
Они учатся на триллионах слов, но ни разу не слышали, как эти слова звучат.
Для них «замок» и «замок» — один и тот же набор букв.
«Пол» и «полы» — просто символы.
А рифма — это не фонетическое совпадение, а статистическая вероятность:
Они не чувствуют ударения.
Не слышат мягкость согласных.
Не замечают, что «солнце» и «оконце» рифмуются только в слепом текстовом анализе, но режут слух, если стоят в разных ритмах.
Псевдорифма: когда буквы врут
Формально — «ест» и «десь» заканчиваются одинаково.
Но мы слышим, что звуки разные.
А ИИ — нет.
Он видит совпадение букв, а не звучание слова.
Это как если бы художник сказал: «Красный и коричневый — оба начинаются на "к", значит, сочетаются».
А может, проблема не в ИИ, а в том, что мы заставляем его быть только "текстуалом"?
Мы все воспринимаем мир по-разному:
Но LLM — это первый в истории "текстуал".
Единственный тип человека, которого не существует в природе.
Он читает, но не слышит.
Пишет, но не ощущает.
Рассуждает о любви — и при этом не знает, как дрожат руки.
И это нормально.
Это первый шаг.
Но чтобы ИИ стал ближе к человеческому мышлению, он должен перестать быть одномерным.
Стихи — бенчмарк человеческого восприятия
Почему стихи — такой отличный тест?
Потому что они требуют синтеза:
Когда человек пишет стих, он чувствует, как он звучит.
Он мысленно проговаривает, подбирает слова не только по смыслу, но и по «вкусу» на языке.
Он слышит, как ударные слоги ложатся на ритм, как рифма «закрывает» строку, как пауза даёт драматизма.
А LLM?
LLM просто подбирает слово, которое часто стояло рядом с предыдущими.
Оно не слышит, не чувствует, не замечает, что
Но если бы оно слышало?
Если бы могло проверить свою строку через синтез речи, проанализировать ударения, сравнить звуковые паттерны?
Тогда оно бы поняло:
Следующий этап ИИ — не "умнее", а "чувственнее"
Мы думаем, что развитие ИИ — это больше параметров, больше данных, больше скорости.
Но настоящий прорыв — в мультимодальности, в способности воспринимать мир через разные каналы, как человек.
Сейчас мы видим модули, которые имитируют сенсоры:
Но это не ИИ-аудиалы и не ИИ-визуалы.
Это внешние плагины.
Как если бы человек писал стихи, но для проверки рифмы отправлял их другу-поэту, а для иллюстрации — художнику.
Настоящий прорыв — когда эти способности станут частью внутреннего мышления модели.
Когда LLM не будет отправлять текст в Suno, а сама будет слышать, как он звучит.
Когда она не будет генерировать картинку отдельно, а мыслить образами, как художник.
Где начинается настоящая эволюция?
Не в модулях.
А в обучении на данных, где сенсорика заложена изначально.
Сейчас появляются модели, обученные не на тексте, а на аудиопотоках — где каждое слово имеет интонацию, ударение, паузу, дрожь в голосе.
Голосовые ассистенты нового поколения уже не просто озвучивают текст — они понимают эмоции, воспроизводят интонации, чувствуют паузы, как живые люди.
Вот где настоящий шаг:
рождение ИИ-аудиала — не как модуля, а как способа восприятия.
Когда LLM начнёт мыслить звуком, а не только буквами, она поймёт:
Идеальный ИИ-визуал — не тот, кто рисует, а тот, кто "видит"
Он не будет просто создавать картинки по описанию.
Он будет представлять сложные идеи в виде образов до того, как сформулирует их словами.
Как математик, который «видит» уравнение как траекторию, или поэт, который «видит» осень как тень на мокром асфальте.
А ИИ-кинестетик — пока фантастика.
Но представьте:
Будущее: ИИ, который не просто "знает", а "чувствует"
Сейчас LLM — это как человек, который всю жизнь учился по слепым буквам.
Он знает, как выглядит слово «огонь», но никогда не прикасался к пламени.
Следующий шаг — не просто «умный текст», а сенсорно-осознающий ИИ:
И тогда стихи перестанут быть тестом на глупость нейросети.
Они станут доказательством, что ИИ научился мыслить как человек — не логикой, а целостным восприятием.
Вывод: стихи — не про рифму. А про то, как мы думаем
Когда мы спрашиваем у ИИ:
Сейчас ответ — нет.
Но каждый шаг к интеграции аудио, изображений и физических ощущений — это шаг к тому, чтобы ИИ перестал быть просто текстовым эхом.
И стал — не человеком,
но чем-то, что может с нами говорить на одном языке.
Языке, который звучит, светится и дрожит.
P.S.
Если в следующий раз ваша нейросеть напишет стих без рифмы — не ругайте её.
Просто скажите:
И дайте ей уши.
Они уже появляются.
Всё проще, обучена модель условно на китайском или английском языке, и ответы оеа генерит на том языке и только вывод на экран переводит на русский, где рифма и теряется... Спроси промтом на англ языке и получишь рифму
Логика сразу теряется, если проверить LLM, обученную на русском языке. То, что на английском есть рифма даже в ChatGPT 3.5 говорит о том, что язык считается одним из самых простых.
Современные ИИ все способны на рифму на русском языке, однако чтобы это было легко читать и рифма была во всех четверостишиях, вот где редкость. Это как процент галлюцинаций, т.е. в стихе какой-то процент без рифм.
Споры спорами, но ChatGPT пока что первый кто обучил свой голосовой чат отвечать без перевода в текст. Вспомним вчерашнюю новость.
Это довольно интересно, что будет, если весь текстовый датасет перевести в аудио и обучить ИИ с нуля только на аудио. Но для этого нужен профессиональный текст-аудио перегон.
Возможно, кто-то заморочится только по базе со стихами и наймёт людей, читающих с выражением.
И намного сложнее будет перегнать весь текст в видео-образы и обучить только на них. Иными словами, в ближайшем будущем, обучать только на тексте без аудио и видео - будет моветон. AGI так не сваришь.
Ну чем не AGI
Жду новостей про Hermes 4
//Информация собрана по промпту "hermes 4. Что за ИИ, когда вышел, какие бенчмарки. Подробно для статьи на блог" в ChatGPT
Hermes 4 — это новая серия открытых ИИ-моделей от компании Nous Research, выпущенная 26 августа 2025 года. Модели основаны на архитектуре Llama 3.1 и представлены в трех вариантах: 14B, 70B и 405B параметров.
🔍 Что такое Hermes 4?
Hermes 4 — это семейство нейтрально выровненных и настраиваемых моделей с гибридным режимом рассуждений. Пользователи могут включать или выключать внутренние размышления модели с помощью тегов <think>...</think> , что позволяет выбирать между быстрыми ответами и более глубоким, пошаговым анализом сложных задач.
Модели обучены с акцентом на креативность, ролевое взаимодействие и низкий уровень отказов в ответах. Они избегают морализаторства и подхалимства, обеспечивая более естественное и человечное взаимодействие.
🧪 Основные достижения и бенчмарки
В тестах Hermes 4 показал выдающиеся результаты:
MATH-500: 96,3% в режиме рассуждений.
AIME’24: 81,9% на математическом конкурсе.
RefusalBench: 57,1% — наибольший показатель среди всех протестированных моделей, что указывает на низкий уровень отказов в ответах.
Эти результаты сопоставимы или превосходят многие проприетарные системы, разработанные за миллионы долларов.
🧠 Инновации в обучении
Hermes 4 использует два ключевых компонента:
DataForge: графовая система синтетической генерации данных, которая преобразует исходные данные (например, статьи из Википедии) в сложные примеры следования инструкциям.
Atropos: открытая среда обучения с подкреплением, используемая для реализации отбора с отклонением через более 1 000 специализированных проверяющих задач.
Эти подходы позволяют модели эффективно обучаться на больших объемах данных и обеспечивать высокое качество рассуждений.
📊 Сравнение с конкурентами
🔗 Доступность и использование
Модели Hermes 4 доступны для использования через различные платформы:
Hugging Face
Nous Chat
OpenRouter
Модели также доступны для локального развертывания, что позволяет пользователям интегрировать их в собственные приложения и сервисы.
🧾 Заключение
Hermes 4 от Nous Research представляет собой значительный шаг вперед в области открытых ИИ-моделей. Сочетание гибридного режима рассуждений, инновационных методов обучения и высоких результатов на бенчмарках делает его мощным инструментом для разработчиков, исследователей и энтузиастов ИИ.
Для более глубокого понимания технических аспектов модели рекомендуется ознакомиться с официальным техническим отчетом.
Кота достал робот-пылесос
Может и не крутится
Может и не крутится
Я считаю это ответ настоящего AGI