Midjourney и другие нейросети обработки изображений - страница 952

 
Evgenii Shugurov #:
Да, но с этим чатом быстрее, имхо, так как в новой для себя теме ты не знаешь почти ничего, а этот чат знает и направляет тебя) Конечно, все обобщения и выводы лучше самому делать, так как чат льет воду и не всегда в нужном тебе разрезе. 

В итоге, если человек слабо разбирается в теме, то что чат будет лить воду ему, что он сам будет её черпать пробегая по ссылкам в поисковике.

Только понимание в теме вопроса помогает трезво фильтровать наливаемое.

[Удален]  
Evgeniy Chumakov #:

В итоге, если человек слабо разбирается в теме, то что чат будет лить воду ему, что он сам будет её черпать пробегая по ссылкам в поисковике.

Только понимание в теме вопроса помогает трезво фильтровать наливаемое.

Да) И там было-то по сути исследование статистики и фактов, такое лучше брать из офиц.источников. В том числе и на англ.языке. Чат находил источники не на первых страницах выдачи) Ну и англ. не мой родной язык) Короче мне чат сильно помог, однозначно 😊

[Удален]  

уже проходили. Пришлось несколько страниц объяснять, как говорится, до победного, что там негенерил чат и чего юзер-промптус в упор не понимает 

от этого вдвойне тоскливо на форуме и в этой теме в частности

Разговор с искусственным интеллектом (ИИ) о форексе. - Попробуйте сдвинуть график на 1 бар назад и использовать предыдущую цену закрытия в качестве прогноза.
Разговор с искусственным интеллектом (ИИ) о форексе. - Попробуйте сдвинуть график на 1 бар назад и использовать предыдущую цену закрытия в качестве прогноза.
  • 2023.04.12
  • Maxim Dmitrievsky
  • www.mql5.com
В данной модели машинного обучения предсказывается одно число - следующее значение в последовательности , которое прогнозируется на основе исторических данных также содержащихся в последовательности sequence. чтобы предсказать следующее значение в последовательности
[Удален]  
Maxim Dmitrievsky #:
уже проходили. Пришлось несколько страниц объяснять, как говорится, до победного, что там негенерил чат и чего юзер в упор не понимает 
Мне, значит, повезло, с моим-то высоким IQ 🤓 я нашел, как использовать чат с пользой) Работу мою принимал человек в теме и остался доволен 😉 А я остался доволен чатом и новыми знаниями, ну и деньгам тоже был рад) 
[Удален]  
Evgenii Shugurov #:
Мне, значит, повезло, с моим-то высоким IQ 🤓 я нашел, как использовать чат с пользой) Работу мою принимал человек в теме и остался доволен 😉 А я остался доволен чатом и новыми знаниями, ну и деньгам тоже был рад) 

Без реальных примеров нельзя подтвердить/опровергнуть. Показал реальный кейс, где промптинг только привел к заблуждениям. Все в контексте данного ресурса (трейдинга).

Был еще подобный случай с Бутко, лень искать. Он так и не понял где подвох :)
 

Тестирую различные нейронки. У меня подход простой. Рифмы и юмор на русском языке. И в этом ключе, результат по некоторым LLM отличается от общих бенчмарков.

Понятно, что LLM в целом все выглядят, как умеющие связывать текст, но вот тонкости взаимодействия.

Если может в юмор и стихи, значит может в разные стили и СЕО. Одно, конечно не следует из другого, но закономерность выглядит именно такой. Приёмы СЕО не буду демонстрировать, но они подтверждают мою теорию. Чем выше качество стихов и юмора, тем точнее нейронка способна следовать условиям сео, стилю, тошноты ключевиков, кол-ву слов, воды и другим заданным параметрам. Это я уже проверял через отдельный сервис проверки качества текста.


Так вот. В своё время, когда появился ChatGPT 3.5 и наделал шуму, он не мог писать стихи на русском, а юмор встречался очень редко: 1 шутка из 100 недошуток.


Забегая вперёд. Быстро работающая локальная версия Gemma3-4b-Q4 выдаёт примерно 30 токенов в секунду на средненьком пятилетнем компе. И качество выше, чем у ChatGPT3.5. Юмор чаще, рифмы периодически присутствуют.


Приходится в третий раз сказать. Каким-то чудом появилась локальная быстроработающая нейронка уровня топов двух-летней давности (да даже текущей даты). Среди конкурентов не нашёл ни одной! способной писать стих на русском.

Понимаете? Ни одной локальной нейронки, работающей на среднем железе нет, которая могла бы быть конкурентом.




Модель Gemma3-27b-Q4 работает в 10 раз медленнее 12b-Q4. Не зря она в Арене (предпочтения пользователей) забралась довольно высоко.


Сравнил.

Gemma-3-4b-Q4

Gemma-3-12b-Q4

Gemma-3-27b-Q4


4b на уровне ChatGPT3.5

12b на уровне ChatGPT4

27b не сильно отличалась от 12b в моих тестах, разве что приходилось наблюдать медлительность работы.


Юмор у всех трёх примерно одинаковый. Стихи лучше у 12b, чем у 4b, это заметно. У 27b перед 12b явных преимуществ не найдено.

Это хорошо, 27b уходит в корзину. Не потому что плоха, а потому что тормозит) 12b работает достаточно быстро, 4b быстро. Работаю с 4b, как с ChatGPT3.5, разницы не вижу, но 4b реально лучше.


На тестах ещё были YandexGPT5PRO, GigaChatMax2, phi4 от Микрософт, Mistral Small 3 (которая по бенчмаркам выше, чем Gemma...)


Так вот. По юмору, стихам и отзывчивости хуже всех Mistral Small 3 (хотя ещё хуже был Qwen2.5-7b-Q4, но он намного старее всех тестируемых новинок). Почему то не в юмор ни в стихи, зато какие бенчмарки.

Все остальные не вызвали восторга тоже, редкие рифмы, редкий юмор. Phi4 вообще никак по стихам, но юмор был смешной.


Хочется конечно отметить прогресс YandexGPT5PRO, GigaChatMax2 по сравнению с прошлыми версиями, но и всё на этом, жду дальнейшего развития от них.

 

О том, как запустить Gemma3 локально писал тут - https://www.mql5.com/ru/forum/443190/page940#comment_56271041


Теперь просто для справки дам информацию по моделям GGUF, которые мы находим и запускаем локально в софте Jan и аналогичных:

DeepSeek-R1


1. Что такое GGUF?

GGUF (GPT-Generated Unified Format) — это формат файлов, разработанный для хранения и использования больших языковых моделей (LLM), таких как LLaMA, Mistral и других. Он пришел на смену формату GGML, созданному сообществом вокруг проекта  llama.cpp .

Основные особенности GGUF:

  • Эффективность: Оптимизирован для работы на CPU (особенно на слабых устройствах) и GPU.

  • Гибкость: Поддерживает метаданные (например, размер контекста, архитектуру модели), что упрощает совместимость между разными версиями.

  • Квантование: Позволяет сжимать модели за счет снижения точности весов (например, 4 бита вместо 32 бит).

  • Кроссплатформенность: Работает на Windows, Linux, macOS, iOS, Android.


2. Что означают приписки Q2, Q4, Q5 и т.д.?

Буква Q обозначает квантование (quantization) — процесс уменьшения точности числовых значений весов модели для сокращения её размера и ускорения работы. Число после Q указывает на количество бит, используемых для хранения одного веса.

Классификация квантованных версий:

Тип квантования Бит на вес Размер модели Качество вывода
Q2 2 бита Минимальный Низкое
Q3 3 бита Очень малый Средне-низкое
Q4 4 бита Малый Среднее
Q5 5 бит Средний Хорошее
Q6 6 бит Большой Очень хорошее
Q8 8 бит Почти исходный Почти без потерь
F16/FP16 16 бит Исходный Максимальное

Пример:

  • Модель  llama-2-7b.Q4_K_M.gguf  использует 4-битное квантование с дополнительными оптимизациями (об этом ниже).


3. Суффиксы K, L, M: что они означают?

Эти буквы указывают на тип квантования и применяемые оптимизации. Их значение зависит от реализации в  llama.cpp , но общие принципы таковы:

Основные типы квантования:

  • K: Использует k-means кластеризацию для группировки весов, что улучшает точность при низкой битности.

  • L: "Large layer" — некоторые слои (например, эмбеддинги) сохраняются в более высокой точности (например, 16 бит).

  • M: "Medium" — смешанное квантование (например, часть весов в 4 бита, часть — в 6 бит).

  • S: "Small" — минимальное квантование для экстремального сжатия.

Примеры комбинаций:

  • Q4_K: 4-битное квантование с кластеризацией (k-means) для повышения точности.

  • Q4_К_M: 4-битное квантование с кластеризацией и смешанной точностью.

  • Q5_L: 5-битное квантование с сохранением ключевых слоев в 16 бит.


4. Полная классификация форматов

Вот как обычно выглядят названия моделей в GGUF:

Copy

<модель>.<тип_квантования>.<версия>.gguf

Пример:

  • mistral-7b-v0.1.Q4_K_M.gguf

  • llama-2-13b.Q6_K.gguf

Популярные варианты (отсортированы по качеству и размеру):

  1. Q2_K — экстремальное сжатие, низкая точность.

  2. Q3_K_L — баланс для слабых устройств.

  3. Q4_K_M — оптимальный выбор для большинства задач.

  4. Q5_K_M — улучшенное качество при умеренном размере.

  5. Q6_K — почти без потерь, но большой размер.

  6. Q8/F16 — максимальное качество, минимальное сжатие.


5. Как выбрать подходящую версию?

  • Для слабых устройств (CPU, 4–8 ГБ ОЗУ): Q4_K_M или Q5_K_M.

  • Для баланса скорости и качества: Q5_K_S.

  • Для максимальной точности: Q6_K или Q8.

  • Для экспериментов: начните с Q4_K_M — это "золотая середина".

 
В Тибете провели интернет. KLING

 
Лодки карандашом. ideogram.ai

 
Vitaliy Kuznetsov #:

Несколько комментов по ходу, для тех, кто будет пробовать:

llama.cpp - по-моему, единственный проект не на питоне, а на чистом c++. Заявляют, что благодаря этому имеют более высокую скорость и стабильность за счёт отсутствия зависимости от других библиотек .py. Я лично сталкивался с несколькими проблемами с неразрешёнными зависимостями на питоне.

В llama.cpp формат GGUF уже поддерживается искаропки. Возможно, даже стал основным.

Локальных моделей (в т.ч. GGUF) множество на huggingface.co и civitai.com. Бесплатно. В т.ч. дообученных, переобученных, в виде маленьких дополнений к основной модели (LoRA). Уменьшенных "выжимок" из моделей (напр., 24b >> 12b), с разными квантизациями (3-32? bit). LLM, image, video.

По экспериментам один эксперт сделал вывод, что, имея определённый размер памяти GPU, куда должна целиком вмещаться модель, лучше выбрать с бОльшим числом параметров (напр. 24b), но с 4-бит. квантизацией, чем 12b, но с 8-бит.

По моему опыту, запускать модели на CPU слишком медленно, быстро надоедает. Нужна GPU с памятью от 8 Гб. Карта не старая NVidia либо очень новая AMD (и то не рекомендую). Лично я не балуюсь локальными голосовыми моделями, хватает онлайн для поиска и анализа информации. Использую локальные модели для обработки и улучшения фото и видео. В этих проприетарных программах работала даже старая AMD с 8 Гб. Наверняка работало бы и с меньшей памятью. Одна использует формат safetensors, 3 программы другого разработчика - не знаю, они перепаковали в свой проприетарный, с шифрованием.