Kimi-VL-A3B-Thinking — эффективная мультимодальная модель с открытым исходным кодом, обладающая высокой производительностью и способностью к рассуждению - Общее обсуждение

Vitaliy Kuznetsov 2025.04.10 10:42 #9971

Kimi-VL-A3B-Thinking — это эффективная мультимодальная модель обработки визуальной информации и языка (VLM) с открытым исходным кодом, разработанная компанией Moonshot AI. Она обладает развитыми возможностями многомодального рассуждения, понимания длинного контекста и сильными агентными способностями, при этом активирует только 2,8 миллиарда параметров в своем языковом декодере.

Ключевые особенности Kimi-VL-A3B-Thinking:

* Производительность: Конкурирует с передовыми VLM, такими как GPT-4o-mini, Qwen2.5-VL-7B и Gemma-3-12B, и превосходит GPT-4o в специализированных областях.

* Длинный контекст: Обрабатывает длинные и разнообразные входные данные благодаря расширенному окну контекста 128K.

* Высокое разрешение: Понимает визуальные входные данные со сверхвысоким разрешением благодаря визуальному кодировщику MoonViT.

* Рассуждение: Проявляет сильные возможности рассуждения на больших промежутках времени, благодаря тонкой настройке (SFT) и обучению с подкреплением (RL).

Модель имеет два варианта:

* Kimi-VL-A3B-Instruct: рекомендуется для эффективного логического вывода при общем многомодальном восприятии и понимании, OCR, длинных видео и длинных документах, восприятии видео и использовании агентов.

https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

* Kimi-VL-A3B-Thinking: рекомендуется для расширенного текста и многомодальных рассуждений (например, математических).

https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking

//Пока что ждём Q4 версию, далее тестим в LM Studio. Идея того, что данная модель в 16B использует в процессе лишь 3B, говорит о том, что она очень быстрая при локальном использовании.

AI 2023. Встречайте ChatGPT. Машинное обучение и нейронные Разговор с искусственным интеллектом

[Удален] 2025.04.10 10:46 #9972

Предлагаю заснять видео, как ты тестируешь все эти модели и для чего 😁

Vitaliy Kuznetsov 2025.04.10 10:47 #9973

Очень не хватает простого портабельного софта, способного использовать квантованные версии генераторов изображений.

Заметил, что есть gguf версии FLUX и других. Т.е. могут работать локально с приемлемой скоростью

Безусловно, способы запуска есть. Сиди читай мануалы, качай и пробуй.

Однако, чтобы был универсальный софт по типу LM Studio,способный качать и юзать различные фото/видео генераторы, его ещё нет. Pinokio - да, пробовал, выкачал гигов 30 для FLUX, но это не совсем то, что хочется.

И вот тот, кто это сделает первым оставит своё след в индустрии. И желательно, чтобы там были и LLM, поскольку мультимодальность позволяет в дальнейшем использовать генерацию изображений.

Советник Profit Generator Машинное обучение в трейдинге: Ресурс не создается в

[Удален] 2025.04.10 10:48 #9974

Где конечный продукт использования Моделей?

moskitman 2025.04.10 10:50 #9975

Maxim Dmitrievsky #:
Где конечный продукт использования Моделей?

у тебя на аватарке

[Удален] 2025.04.10 10:51 #9976

moskitman #:

у тебя на аватарке

Это не продукт, могу сфотать туда свою ногу

[Удален] 2025.04.10 10:59 #9977

Напиши, как ты создаёшь ТС с помощью чатов и генераторов картинок, посмеемся хоть.

Edgar Akhmadeev 2025.04.10 11:20 #9978

Vitaliy Kuznetsov #:
Очень не хватает простого портабельного софта, способного использовать квантованные версии генераторов изображений.

Питон-платформа ComfyUI и программы, на ней основанные.

[Удален] 2025.04.10 11:28 #9979

В статьях используются сгенерированные картинки. Они красочные и быстро генерируются. Но слабо передают суть статьи. Например, читал какую-то статью и забыл название. По картинке точно не вспомню, очень похожие.

[Удален] 2025.04.10 12:12 #9980

Edgar Akhmadeev #:

Питон-платформа ComfyUI и программы, на ней основанные.

У вас есть какие-то реальные кейсы применения генераторов картинок? Не ради стеба, а информации для. Афтар ничего не знает по этому поводу.

Midjourney и другие нейросети - страница 998