Midjourney и другие нейросети обработки изображений - страница 998

 
Kimi-VL-A3B-Thinking — это эффективная мультимодальная модель обработки визуальной информации и языка (VLM) с открытым исходным кодом, разработанная компанией Moonshot AI. Она обладает развитыми возможностями многомодального рассуждения, понимания длинного контекста и сильными агентными способностями, при этом активирует только 2,8 миллиарда параметров в своем языковом декодере.

Ключевые особенности Kimi-VL-A3B-Thinking:

*   Производительность: Конкурирует с передовыми VLM, такими как GPT-4o-mini, Qwen2.5-VL-7B и Gemma-3-12B, и превосходит GPT-4o в специализированных областях.
*   Длинный контекст: Обрабатывает длинные и разнообразные входные данные благодаря расширенному окну контекста 128K.
*   Высокое разрешение: Понимает визуальные входные данные со сверхвысоким разрешением благодаря визуальному кодировщику MoonViT.
*   Рассуждение: Проявляет сильные возможности рассуждения на больших промежутках времени, благодаря тонкой настройке (SFT) и обучению с подкреплением (RL).

Модель имеет два варианта:

*   Kimi-VL-A3B-Instruct: рекомендуется для эффективного логического вывода при общем многомодальном восприятии и понимании, OCR, длинных видео и длинных документах, восприятии видео и использовании агентов.

https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

*   Kimi-VL-A3B-Thinking: рекомендуется для расширенного текста и многомодальных рассуждений (например, математических).

https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking



//Пока что ждём Q4 версию, далее тестим в LM Studio. Идея того, что данная модель в 16B использует в процессе лишь 3B, говорит о том, что она очень быстрая при локальном использовании.

[Удален]  
Предлагаю заснять видео, как ты тестируешь все эти модели и для чего 😁
 

Очень не хватает простого портабельного софта, способного использовать квантованные версии генераторов изображений.

Заметил, что есть gguf версии FLUX и других. Т.е. могут работать локально с приемлемой скоростью

Безусловно, способы запуска есть. Сиди читай мануалы, качай и пробуй.

Однако, чтобы был универсальный софт по типу LM Studio,способный качать и юзать различные фото/видео генераторы, его ещё нет. Pinokio - да, пробовал, выкачал гигов 30 для FLUX, но это не совсем то, что хочется.

И вот тот, кто это сделает первым оставит своё след в индустрии. И желательно, чтобы там были и LLM, поскольку мультимодальность позволяет в дальнейшем использовать генерацию изображений.

[Удален]  
Где конечный продукт использования Моделей?
 
Maxim Dmitrievsky #:
Где конечный продукт использования Моделей?

у тебя на аватарке

[Удален]  
moskitman #:

у тебя на аватарке

Это не продукт, могу сфотать туда свою ногу 
[Удален]  
Напиши, как ты создаёшь ТС с помощью чатов и генераторов картинок, посмеемся хоть. 
 
Vitaliy Kuznetsov #:
Очень не хватает простого портабельного софта, способного использовать квантованные версии генераторов изображений.

Питон-платформа ComfyUI и программы, на ней основанные.

[Удален]  
В статьях используются сгенерированные картинки. Они красочные и быстро генерируются. Но слабо передают суть статьи. Например, читал какую-то статью и забыл название. По картинке точно не вспомню, очень похожие.
[Удален]  
Edgar Akhmadeev #:

Питон-платформа ComfyUI и программы, на ней основанные.

У вас есть какие-то реальные кейсы применения генераторов картинок? Не ради стеба, а информации для. Афтар ничего не знает по этому поводу.