Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 584

 
Maxim Dmitrievsky:

, вы даже не знали ка определяется важность предикторов в РФ, подсунув какую-то ерунду про отжиг и проч без объяснений (это здесь вообще причем?)

Кто сказал, где бенчи именно для применения на форексе? почему Ada а не GBM? в ваших ответах слишком много размытых абстракций.  В реальности прирост будет не более 5% при большей переобученности.

На том уровне, на котором ведется обсуждение

Уточняю уровень ALGLIB - уровень колхозный,  деревни под Новгородом. Вы неоднократно писали, что этот уровень вас устраивает. Вполне возможно, что для Ваших задач этого достаточно, но обижаться зачем?


подсунув какую-то ерунду про отжиг и

Зря Вы так.. 

Если про отбор предикторов, то я попробовал почти все из R и этот отжиг самый эффективный. 


почему Ada а не GBM? в ваших ответах слишком много размытых абстракций.  В реальности прирост будет не более 5% при большей переобученности.

Потому как пробовал и не только их. Протоколы до сих пор храню.

Да, лучше всего ada? Да, на 5%, максимум 7% по отношению к лесу. И лучше этого мне ничего не известно.

А что такое "большая переобученность"? Это Вы о чем? Про переобученность не могу вспомнить ни одного поста от Вас, в которых Вы бы показывали, что Ваши модели не переобучены!

Я же могу только повторить, что переобученность ВООБЩЕ от модели не зависит, а зависит от:

  • набора предикторов
  • умения огрублять модели

 
СанСаныч Фоменко:

На том уровне, на котором ведется обсуждение

Уточняю уровень ALGLIB - уровень колхозный,  деревни под Новгородом. Вы неоднократно писали, что этот уровень вас устраивает. Вполне возможно, что для Ваших задач этого достаточно, но обижаться зачем?


подсунув какую-то ерунду про отжиг и

Зря Вы так.. 

Если про отбор предикторов, то я попробовал почти все из R и этот отжиг самый эффективный. 


почему Ada а не GBM? в ваших ответах слишком много размытых абстракций.  В реальности прирост будет не более 5% при большей переобученности.

Потому как пробовал и не только их. Протоколы до сих пор храню.

Да, лучше всего ada? Да, на 5%, максимум 7% по отношению к лесу. И лучше этого мне ничего не известно.

А что такое "большая переобученность"? Это Вы о чем? Про переобученность не могу вспомнить ни одного поста от Вас, в которых Вы бы показывали, что Ваши модели не переобучены!

Я же могу только повторить, что переобученность ВООБЩЕ от модели не зависит, а зависит от:

  • набора предикторов
  • умения огрублять модели


Ну чем отличается багинг от бустинга? в багинге меньше подгонки изначально и больше элемент случайности, а в бустинге одно подгоняется на остатках второго, потом на 3-м и так далее. И получается в итоге сплошной оверфит. Т.е. РФ уже изначально можно сделать достаточно "огрубленным" Но надо будет еще перепроверить это, я пока не успел

Все мои модели переобучены :) т.к. я пока не нашел какие-то постоянные закономерности под них

В алглибе есть почти все- свертка, PCA, кластеризация, ансамбль нейросетей, форест.. т.е. по классике все имеется,  что еще нужно - не понимаю :) более современных вещей конечно же нет

считается хорошей опен сорс библиотекой, Причем автор пишет, что не относится к нейросетям и проч. с огромным почтением, а относит их к обычным инструментам кассификации/регрессии и не выделяет на фоне других методов. Мне нравится такой реалистичный подход.

По поводу отжига и проч, тоже не понятно - это какой-то универсальный способ для всех моделей что-ли? у каждой модели должен быть вой способ оценки, через который именно эту конкретную вещь можно обучить наилучшим образом

 
Maxim Dmitrievsky:

Ну чем отличается багинг от бустинга? в багинге меньше подгонки изначально и больше элемент случайности, а в бустинге одно подгоняется на остатках второго, потом на 3-м и так далее. И получается в итоге сплошной оверфит. Т.е. РФ уже изначально можно сделать достаточно "огрубленным" Но надо будет еще перепроверить это, я пока не успел

Все мои модели переобучены :) т.к. я пока не нашел какие-то постоянные закономерности под них

В алглибе есть почти все- свертка, PCA, кластеризация, ансамбль нейросетей, форест.. т.е. по классике все имеется,  что еще нужно - не понимаю :) более современных вещей конечно же нет

считается хорошей опен сорс библиотекой, Причем автор пишет, что не относится к нейросетям и проч. с огромным почтением, а относит их к обычным инструментам кассификации/регрессии и не выделяет на фоне других методов. Мне нравится такой реалистичный подход.

По поводу отжига и проч, тоже не понятно - это какой-то универсальный способ для всех моделей что-ли? у каждой модели должен быть вой способ оценки, через который именно эту конкретную вещь можно обучить наилучшим образом

Я несколько раз пытался Вам объяснить некие, элементарные с моей точки зрения вещи. Неудачно.


Могу лишь посоветовать: потраться пару месяцев на caret и у Вас будет другое мышление, качественно другой кругозор. 

 
Maxim Dmitrievsky:

По поводу отжига и проч, тоже не понятно - это какой-то универсальный способ для всех моделей что-ли? у каждой модели должен быть вой способ оценки, через который именно эту конкретную вещь можно обучить наилучшим образом

Отжиг, он и в Африке отжиг, и цели/задачи примерна одинаковы. Позволяет модели находить не локальные минмаксы, а как-бы глобальные.

АДА не знаю, но для НС отжиг оч хорошие результаты дает. Штатный мне не оч понравился, т.к. параметры отжига нужно заранее выставлять, потому вручную отжигал, изменяя параметры по результатам предшествующего обучения.

ЗЫ Кстати, более-менее сложную НС без отжига вообще толком ничему не научишь.

 
Maxim Dmitrievsky:

да, но он настолько превосходен что я не затащу на данном этапе :) + он писал, что более 20% годовых зарабатывать невозможно.. Наверное, начинать всегда следует с таких заявлений, а потом углубляться в подробности :)

Максимка, хватит уже курить. Выдергивать из контекста, приписывать чужие слова другим и пр.
+ часть комментов удалена. Так же не стоит приписывать и авторство слова погремуха Фа (Фоменко)))

 
Vizard_:

Максимка, хватит уже курить. Выдергивать из контекста, приписывать чужие слова другим и пр.
+ часть комментов удалена. Так же не стоит приписывать и авторство слова погремуха Фа (Фоменко)))


да я че, я прост :) что на уме то и на языке

а там потом что-нибудь да выясняется.. рабочий процесс безличностныый

про погремуху да, ошибся ) СанСаныч как-то похоже писал.. ерундуха или тчо-то в этом роде

 

От безделья и полного отсутствия каких-либо идей для дальнейшей работы, решил поизучать что-нибудь новенькое, для себя разумеется - м.б оно уже и оч. старое.) Начал со знакомства c RF, через РФ пришел к Питону (Python), т.к. он совместим (как пишут) в обе стороны с моим софтом SciLab. Теперь вот пришел к обзору пакетов для Питон.

Всего пакетов более 120000. Из них по Машинному обучению - около 70, по нейросетям, включая глубокие - около 70. Возможно их много больше - я искал по рубрикаторы и часть пакетов могли оказаться в других разделах.

Это не считая пакетов, распространяемых непосредственно другими фирмами. Таких пакетов тоже оч много. есть и по интересующей нас тематике - сам видел, в тч. по МО, НС РФ и АДА.

Среди других фирм попадались и маш.обучение, и деревья, и НС, и что-то связанное с АДА.

Многие пакеты сделаны на С/С++, так что о быстродействии беспокоится не надо - Питон только интерфейс (язык сценариев). Как, собственно, и R.

В общем, интересно провожу время.)

 
Maxim Dmitrievsky:

почему Ada а не GBM? в ваших ответах слишком много размытых абстракций.  В реальности прирост будет не более 5% при большей переобученности.

при классификации очень часто для оценки модели используют "точность" - процентное отношение правильных ответов. На мой взгляд это одна из самых слабых и неподходящих оценок для оценки трейдинговых моделей, и её следует избегать. Я тут в теме предлагал попробовать ещё кучку других - kappa, f-score, logloss.

Ада в R (может и не только в R) использует немного иную встроенную оценку классификационной модели при обучении, которая гораздо лучшее по сравнению с "точностью".

 
Yuriy Asaulenko:

От безделья и полного отсутствия каких-либо идей для дальнейшей работы, решил поизучать что-нибудь новенькое, для себя разумеется - м.б оно уже и оч. старое.) Начал со знакомства c RF, через РФ пришел к Питону (Python), т.к. он совместим (как пишут) в обе стороны с моим софтом SciLab. Теперь вот пришел к обзору пакетов.

Всего пакетов более 120000. Из них по Машинному обучению - около 70, по нейросетям, включая глубокие - около 70. Возможно их много больше - я искал по рубрикаторы и часть пакетов могли оказаться в других разделах.

Это не считая пакетов, распространяемых непосредственно другими фирмами. Таких пакетов тоже оч много. есть и по интересующей нас тематике - сам видел, в тч. по МО, НС РФ и АДА.

Среди других фирм попадались и маш.обучение, и деревья, и НС, и что-то связанное с АДА.

Многие пакеты сделаны на С/С++, так что о быстродействии беспокоится не надо - Питон только интерфейс (язык сценариев). Как, собственно, и R.

В общем, интересно провожу время.)

с такой штукой еще ознакомьтесь https://cloud.google.com/datalab/

Злая штука, там еще AutoML направление развивается - сервис будет сам подбирать модель для конкретных задач

Cloud Datalab - Interactive Data Insights Tool  |  Google Cloud Platform
Cloud Datalab - Interactive Data Insights Tool  |  Google Cloud Platform
  • cloud.google.com
Integrated Cloud Datalab simplifies data processing with Cloud BigQuery, Cloud Machine Learning Engine, Cloud Storage, and Stackdriver Monitoring. Authentication, cloud computation and source control are taken care of out-of-the-box. Multi-Language Support Cloud Datalab currently supports Python, SQL, and JavaScript (for BigQuery...
 
Dr. Trader:

при классификации очень часто для оценки модели используют "точность" - процентное отношение правильных ответов. На мой взгляд это одна из самых слабых и неподходящих оценок для оценки трейдинговых моделей, и её следует избегать. Я тут в теме предлагал попробовать ещё кучку других - kappa, f-score, logloss.

Ада в R (может и не только в R) использует немного иную встроенную оценку классификационной модели при обучении, которая гораздо лучшее по сравнению с "точностью".


трейдинговые вообще сложно оценить таким образом, там ведь и продолжительность сделки, и уровни стоп-лоссов надо как-то приплести ко всему прочему, а еще сделать что бы сама переобучалось периодически.. в общем караул :)

Причина обращения: