В обучении трансформеров нужно разбираться в принципе работы скалярных произведений самовнимания - Общее обсуждение

Mihail Marchukajtes 2020.08.26 06:34 #19791

Mihail Marchukajtes:

Всем привет, не стал выкладывать видео напрямую в ветку форума, а разместил его в своём блоге. ВНИМАНИЕ не нормативная лексика для тех кому действительно интересен рынок...

https://www.mql5.com/ru/blogs/post/739164

Там есть и прямое обращение к тебе Максим!!!!!

mytarmailS 2020.08.26 07:31 #19792

Maxim Dmitrievsky:

я до этого только в лесу бродил, не юзал НН-ки.....

Да я как раз тоже... Потому и говорю за блок схему, чтобы хоть хоть на уровне образов понять что как работает

Maxim Dmitrievsky 2020.08.26 08:21 #19793

mytarmailS:

Да я как раз тоже... Потому и говорю за блок схему, чтобы хоть хоть на уровне образов понять что как работает

я 2 дня втыкал что такое слой кохонена (VQ)

а оказалось что это просто примитивный автоэнкодер

Владимир про них писал в статьях

Valeriy Yastremskiy 2020.08.26 08:25 #19794

Maxim Dmitrievsky:

смотря где

если поймете сходу, то жду пояснений :)

http://peterbloem.nl/blog/transformers

То, что я не могу создать, я не понимаю, так сказал Фейнман.

Умножать лучше чем складывать, знак учитывается. Вообще произведения скажем так аргумента и результата в этом что то есть) единая функция учета.

Запросы, ключи и значения не совсем понял как организованно.

Основное отличие типа псевдопараллельная обработка и доступ к обученным данным и скалярное произведение входных и выходных результирующих векторов которое назвали самовниманием. в этом что то есть. И потом матрица этих скалярных произведений используется в обучении. И это не веса.

Про память короткую длинную в статье не нашел.

В общем еще дополнительные корректирующие результат матрицы создаются.

на правильность понимания не претендую))))

OpenCL в трейдинге Машинное обучение и нейронные Матрицы и векторы в

Maxim Dmitrievsky 2020.08.26 08:33 #19795

Valeriy Yastremskiy:

То, что я не могу создать, я не понимаю, так сказал Фейнман.

Умножать лучше чем складывать, знак учитывается. Вообще произведения скажем так аргумента и результата в этом что то есть) единая функция учета.

Запросы, ключи и значения не совсем понял как организованно.

Основное отличие типа псевдопараллельная обработка и доступ к обученным данным и скалярное произведение входных и выходных результирующих векторов которое назвали самовниманием. в этом что то есть. И потом матрица этих скалярных произведений используется в обучении. И это не веса.

Про память короткую длинную в статье не нашел.

В общем еще дополнительные корректирующие результат матрицы создаются.

на правильность понимания не претендую))))

это другой алгоритм (типа самый крутой сейчас), там нет определений длинной и короткой памяти как в lstm, вроде

про длинную и короткую это просто посмотреть как работает ячейка lstm

mytarmailS 2020.08.26 08:34 #19796

Maxim Dmitrievsky:

я 2 дня втыкал что такое слой кохонена (VQ)

а оказалось что это просто примитивный автоэнкодер

Владимир про них писал в статьях

Владимир писал именно про VQ ? или просто ?

А как же память? как она там работает? , она постоянна или работает в окне (как индикатор) , она статическая или переобучаеться ?

можно ли сделать что то аналогичное лесами?

мля у меня миллион вопросов )))

Примеры: Секреты клиентского терминала Любые вопросы новичков по Ошибки, баги, вопросы

Valeriy Yastremskiy 2020.08.26 08:43 #19797

Maxim Dmitrievsky:

это другой алгоритм (типа самый крутой сейчас), там нет определений длинной и короткой памяти как в lstm, вроде

про длинную и короткую это просто посмотреть как работает ячейка lstm

Ааа. Ну тогда там самовнимание и ресурна в раза как понял. Вообще масшабирование архитектуры сети простой улучшает ее работы до какогото предела. Здесь как понял усложнение сети путем комбинаций разных логик сетей и потом ее масштабирование)) И соответственно

Самым узким местом в обучении трансформеров является матрица скалярных произведений самовнимания. Для длины последовательности т , это плотная матрица, содержащая т в квадрате элементов. При стандартной 32-битной точности и с t = 1000 партия из 16 таких матриц занимает около 250Мб памяти. Поскольку для одной операции самовнимания нам нужно как минимум четыре из них (до и после softmax, плюс их градиенты), это ограничивает нас максимум двенадцатью слоями в стандартном графическом процессоре и ЗАНИМАЕТ 12 Гб.

Машинное обучение и нейронные Организация параллельных вычислений средствами Механизм описания структуры создаваемой

mytarmailS 2020.08.26 08:46 #19798

Maxim Dmitrievsky:

тебе придется докуя изучать и думать, прежде чем поймешь..

возможно, придется купить витамины для мозга, меньше бухать )

я пока не понял ) Но это не так сложно всё, как кажется

Ну так вот мы опять вернулись к обычной блок схеме , ее сначала надо составить чтобы было понимание на уровне образов...

типа -

вначале классификатор( он делает то-то, то-то)

потом к выходу подключаем кастеризатор )) ( он делает то-то, то-то)

потом что то там считаем ( он делает то-то, то-то)

выход опять на кастеризатор

итп...

А если сразу читать какую то сложнейшую лабуду где ты даже терминов не знаешь, то что получиться?, не факт что оно вообще для рынка подходит...

Так что нужно разбираться в принципе работы именно того алгоритма, при чем разбираться именно на уровне блок схемы как я указал . Тогда будет понимание что к чему и что есть что, а когда будет понимание то будет и понимание что и как можно улучшить

Простой эксперт ООП для школьников. Интересное мнение про ООП

Mihail Marchukajtes 2020.08.26 08:53 #19799

Так и хочется сказать

Смысл наверное не в инструменте, а в том как им пользоваться. Я вполне доволен оптимизатором Решетова и работаю потихоньку. Вам нужно срочно переходить от поисков и иследований к реальной торговле иначе этот не закончится никогда. Так и будете всё искать да иследовать, но денег то это не приносит увы :-(

MetaTrader не отражает реальности Эксперимент Копирование сделок из одного

Maxim Dmitrievsky 2020.08.26 08:59 #19800

mytarmailS:

Ну так вот мы опять вернулись к обычной блок схеме , ее сначала надо составить чтобы было понимание на уровне образов...

типа -

вначале классификатор( он делает то-то, то-то)

потом к выходу подключаем кастеризатор )) ( он делает то-то, то-то)

потом что то там считаем ( он делает то-то, то-то)

выход опять на кастеризатор

итп...

А если сразу читать какую то сложнейшую лабуду где ты даже терминов не знаешь, то что получиться?, не факт что оно вообще для рынка подходит...

Так что нужно разбираться в принципе работы именно того алгоритма, при чем разбираться именно на уровне блок схемы как я указал . Тогда будет понимание что к чему и что есть что, а когда будет понимание то будет и понимание что и как можно улучшить

ты изучать начни, а не философствовать ))

типа о чем общаться, если даже никто правильных определений не знает

почитай как работают примитивные рекуррентные сети, откуда там память. Что такое автоэнкодер, нафига он нужен. Что такое разреженные нейронные связи, нафига они нужны. Что такое автоэнкодер с разреженными связями и т.п. И начнешь понимать.

мониторинг, кста, у меня в профиле. Все что после вертикальной линии на графике баланса (до этого отлаживал). Ну или график ср-ва

Автозапуск терминала. уведомить меня о перегрузке Тестер стратегий выдает только

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1980

Запросы, ключи и значения не совсем понял как организованно.

Запросы, ключи и значения не совсем понял как организованно.