Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 79

 
Dr.Trader:

Я использовал метод "repeatedcv" в trainControl, с разбиением по умолчанию. Недавно я писал код для кроссвалидации сам, пробовал кроссвалидацию и с просто рандомно взятыми барами, и с последовательно взятыми кусками без пропусков. Разницы на фронттесте не видел, в обоих случаях дало примерно одинаковый результат. Я данные для тренировки/кроссвалидации делил 50%/50%, возможно на таком отношении это уже не имеет значение.
Поэкспериментирую с этим в caret...

Я помню в той статье что вы недавно выкладывали, в сравнении лидировал boosted trees с методом Платта (как-то так). Всё что я нашёл в гугле про этот метод - нужно выход модели передать в сигмоиду, и взять её результат. gbm или xgboost такое могут? Такой подход вроде как лучше чем лес, нейронка, и некий "bagged trees", которые идут на втором месте.

Gbm и xgboost это boosted trees. Для лучшего схождения по грпдиенту каждое новое дерево строится на взвешенных наблюдениях по результатам обучения предыдущего дерева. Причем бустить можно и линейные модели, и нелинейные... 

На втором месте там random forest вроде. Это и есть bagging как я понимаю. Усреднение результатов нескольких моделей построенных на разных данных.

Почитайте про Gradient boosting. Лучшего для классификации сложно найти. Я например классификацию делаю на резулбтатах регресионного прндиктора.
 
Про CV. По умолчанию делается случайное разбиение... Для временных рядов важна разделимость по времени... в caret это можно сделать. Caret CV time series custom folds... поищите. В моем коде я ранее выкладывал. Там в traincontrol это реализовано.
 
Alexey Burnakov:
Про CV. По умолчанию делается случайное разбиение... Для временных рядов важна разделимость по времени... в caret это можно сделать. Caret CV time series custom folds... поищите. В моем коде я ранее выкладывал. Там в traincontrol это реализовано.

  Вот смотрю я на Вас и офигиваю... Вы хотите из ничего получить хоть что то. Тоесть из нуля, вы хотите получить 0.000000000000000000000000000000000001 результата. Не могу больше смотреть на это поэтому подмогну. На самом деле топология сети это вторично. В машинном обучении, применительно к форексу, да и не только, на первом месте стоят данные. Тоесть самое важное при проектирвоании нейронных сететй, это не топология сети или метод обучения. Это входные данные и выходные. Если данные актуальны рынку то любой даже мало мальский персептрон решит вашу задачу классификации и будет работать в будущем на ура, по одной простой причине, потому что данные подаваемые на вход адекватны рынку и именно эти данные способны его прогнозировать. А то что вы пытаетесь высосать из пальца информацию которая неактуальна. Извините но и резульат будет не актуален.... возвращаясь к рынку, скажу что на форексе, первичныйм является объём, а уж потом идёт реакция рынка на него. И не тот объём что в МТ (тиковый) а реальный объем с фьючерса, той же самой евры. Кластер дельта вам в помощь. Там много полезной информации. Так вот, использование объёма торгов, существенно повысит работоспособность любой сети, даже простейшего персептрона. Там ещё и дельта есть, что тоже крайне полезно. А вы пытаетесь на основании индикторов, которые вторичны, я бы даже сказал третичны после цены, построить модель и ждёте от неё чуда. Чуда не произойдёт, я Вас уверяю.....

 

П.С, Вы только подумайте против кого вы пытаетесь переть.. Корпорациии с командами наикрутейших програмистов, с вычислительными мощностями покруче чем ваши четырёх ядерки. С деньгами, которые вкладываются в разработку новых методов и т.д. А тут Алексей из простой росиской глубинки решил запилить рынок за 5 лет и получить грааль. Спуститесь с небес и снимите розовые очки........ 

 
Mihail Marchukajtes:

В машинном обучении, применительно к форексу, да и не только, на первом месте стоят данные. Тоесть самое важное при проектирвоании нейронных сететй, это не топология сети или метод обучения. Это входные данные и выходные. Если данные актуальны рынку то любой даже мало мальский персептрон решит вашу задачу классификации и будет работать в будущем на ура, по одной простой причине, потому что данные подаваемые на вход адекватны рынку и именно эти данные способны его прогнозировать.

Мне даже возразить нечего, всё правильно. Мы это тоже знаем, и обсуждаем не только классификационные модели, но и методы отбора предикторов (входных данных), почитайте эту тему сначала.

Я полагаю вы надеетесь вручную отобрать десяток входов, построить модель, поторговать неделю, начать проигрывать, начать подбирать входы сначала. Я так тоже делал, иногда у меня были забавные стратегии типа "взять определённое зерно для инициализации нейронки, обучить её ровно 7777 итераций, всё будет ок, но каждый второй вторник надо торговать против её сигнала. Оптимизировать сеть на новых данных каждый второй день". Такие стратегии реальны, но уходит много времени чтобы подобрать что-то такое, и оно приносит прибыль всего пару недель. Всё потому что такая стратегия основана на какой-то кратковременной закономерности.

Вместо этого, сейчас подбираю для себя алгоритм автоматического отбора входов. Всё просто, есть примерно по 100 входов на каждый бар, сто баров, и алгоритм который подбирает такую комбинацию входов, чтобы они вместе стабильно давали правильный сигнал на покупку/продажу в течении всего года. При чём это не так как оптимизация советников в mt5, где можно от советника на машках добиться граальных результатов и слиться на фронттесте; а всё сложнее, с кроссвалидациями и разными критериями оценки результата. Раньше отбиралось около сотни входов, сейчас уже поменьше, всего пара десятков. Получаю точность на фронттесте 60%-70%, но пока нестабильно, нужно избавляться от степеней свободы во всём процессе отбора и обучения, чтобы получать примерно одинаковые результаты даже начиная каждый раз с нуля.

 

Mihail Marchukajtes:

П.С, Вы только подумайте против кого вы пытаетесь переть.. Корпорациии с командами наикрутейших програмистов, с вычислительными мощностями покруче чем ваши четырёх ядерки. С деньгами, которые вкладываются в разработку новых методов и т.д. А тут Алексей из простой росиской глубинки решил запилить рынок за 5 лет и получить грааль. Спуститесь с небес и снимите розовые очки........ 

Корпорации со своими мощностями и программистами используют теже самые программы для анализа данных и моделирования, что доступны нам. Они допустим обучат идеальную модель, и получат 100% прибыли в месяц. У меня мощностей меньше, на техже данных смогу построить модель послабее, с допустим всего 50% прибыли. Мне хватит.

 
Mihail Marchukajtes:

  Вот смотрю я на Вас и офигиваю... Вы хотите из ничего получить хоть что то. Тоесть из нуля, вы хотите получить 0.000000000000000000000000000000000001 результата. Не могу больше смотреть на это поэтому подмогну. На самом деле топология сети это вторично. В машинном обучении, применительно к форексу, да и не только, на первом месте стоят данные. Тоесть самое важное при проектирвоании нейронных сететй, это не топология сети или метод обучения. Это входные данные и выходные. Если данные актуальны рынку то любой даже мало мальский персептрон решит вашу задачу классификации и будет работать в будущем на ура, по одной простой причине, потому что данные подаваемые на вход адекватны рынку и именно эти данные способны его прогнозировать. А то что вы пытаетесь высосать из пальца информацию которая неактуальна. Извините но и резульат будет не актуален.... возвращаясь к рынку, скажу что на форексе, первичныйм является объём, а уж потом идёт реакция рынка на него. И не тот объём что в МТ (тиковый) а реальный объем с фьючерса, той же самой евры. Кластер дельта вам в помощь. Там много полезной информации. Так вот, использование объёма торгов, существенно повысит работоспособность любой сети, даже простейшего персептрона. Там ещё и дельта есть, что тоже крайне полезно. А вы пытаетесь на основании индикторов, которые вторичны, я бы даже сказал третичны после цены, построить модель и ждёте от неё чуда. Чуда не произойдёт, я Вас уверяю.....

 

П.С, Вы только подумайте против кого вы пытаетесь переть.. Корпорациии с командами наикрутейших програмистов, с вычислительными мощностями покруче чем ваши четырёх ядерки. С деньгами, которые вкладываются в разработку новых методов и т.д. А тут Алексей из простой росиской глубинки решил запилить рынок за 5 лет и получить грааль. Спуститесь с небес и снимите розовые очки........ 

Демагог, ау. Уже пора идти отсюда. Дом строй.

"Собака лает - караван идет". С 

 
Dr.Trader:

Мне даже возразить нечего, всё правильно. Мы это тоже знаем, и обсуждаем не только классификационные модели, но и методы отбора предикторов (входных данных), почитайте эту тему сначала.

Я полагаю вы надеетесь вручную отобрать десяток входов, построить модель, поторговать неделю, начать проигрывать, начать подбирать входы сначала. Я так тоже делал, иногда у меня были забавные стратегии типа "взять определённое зерно для инициализации нейронки, обучить её ровно 7777 итераций, всё будет ок, но каждый второй вторник надо торговать против её сигнала. Оптимизировать сеть на новых данных каждый второй день". Такие стратегии реальны, но уходит много времени чтобы подобрать что-то такое, и оно приносит прибыль всего пару недель. Всё потому что такая стратегия основана на какой-то кратковременной закономерности.

Вместо этого, сейчас подбираю для себя алгоритм автоматического отбора входов. Всё просто, есть примерно по 100 входов на каждый бар, сто баров, и алгоритм который подбирает такую комбинацию входов, чтобы они вместе стабильно давали правильный сигнал на покупку/продажу в течении всего года. При чём это не так как оптимизация советников в mt5, где можно от советника на машках добиться граальных результатов и слиться на фронттесте; а всё сложнее, с кроссвалидациями и разными критериями оценки результата. Раньше отбиралось около сотни входов, сейчас уже поменьше, всего пара десятков. Получаю точность на фронттесте 60%-70%, но пока нестабильно, нужно избавляться от степеней свободы во всём процессе отбора и обучения, чтобы получать примерно одинаковые результаты даже начиная каждый раз с нуля.

 

Корпорации со своими мощностями и программистами используют теже самые программы для анализа данных и моделирования, что доступны нам. Они допустим обучат идеальную модель, и получат 100% прибыли в месяц. У меня мощностей меньше, на техже данных смогу построить модель послабее, с допустим всего 50% прибыли. Мне хватит.

Я вам так скажу. Топовые фонды показывают среднегодовую прибыль 40-50%. Там могут работать и умные и просто отличники. Не вижу ничего необычного в том, что я подбираюсь к отметке 50% в год и буду иметь этот прирост.
 
Alexey Burnakov:
Я вам так скажу. Топовые фонды показывают среднегодовую прибыль 40-50%. Там могут работать и умные и просто отличники. Не вижу ничего необычного в том, что я подбираюсь к отметке 50% в год и буду иметь этот прирост.

Во первых  - Фонды показывают такую убогою доходность только по одной причине, причине недостатка ликвидности на рынке, тяжело в стратегию засунуть большое количество денег, у вас таких проблем точно нет

 Во вторых - А почему бы не ориентироваться на 100% в мес скажем?

 

и полностью  согласен с Mihail Marchukajtes чтоб бы качественно поднять уровень распознавания нужно поднимать качество признаков , а модели.... их влияние  +/- 5% на общий результат

 
mytarmailS:

Во первых  - Фонды показывают такую убогою доходность только по одной причине, причине недостатка ликвидности на рынке, тяжело в стратегию засунуть большое количество денег, у вас таких проблем точно нет

 Во вторых - А почему бы не ориентироваться на 100% в мес скажем?

 

и полностью  согласен с Mihail Marchukajtes чтоб бы качественно поднять уровень распознавания нужно поднимать качество признаков , а модели.... их влияние  +/- 5% на общий результат

Вы тоже демагог. Ну, покажите, входы с такой степенью информационности. Мы почему модели топовые берем? Чтобы выжать из зашумленных данных сигналы, были бы данные без шумов, можно было и в экселе сделать формулу.

"100% в месяц". Стремитесь, показывайте результаты, делитесь идеями. Выслушаем, как в 20 раз поднять доходность и не слиться в следующем месяце от просадки. 

 
Alexey Burnakov:

Вы тоже демагог. Ну, покажите, входы с такой степенью информационности. Мы почему модели топовые берем? Чтобы выжать из зашумленных данных сигналы, были бы данные без шумов, можно было и в экселе сделать формулу.

"100% в месяц". Стремитесь, показывайте результаты, делитесь идеями. Выслушаем, как в 20 раз поднять доходность и не слиться в следующем месяце от просадки. 

"долгожители" форекса. Более 5 лет торгов. Сортировка по ФВ. Да, у некоторых доходность космическая, но прочая статистика плохая. Это реальность. Причем Стабилити торгует руками. Все остальные показывают ФВ 3 и меньше. 

 
Alexey Burnakov:

Вы тоже демагог. Ну, покажите, входы с такой степенью информационности. Мы почему модели топовые берем? Чтобы выжать из зашумленных данных сигналы, были бы данные без шумов, можно было и в экселе сделать формулу.

"100% в месяц". Стремитесь, показывайте результаты, делитесь идеями. Выслушаем, как в 20 раз поднять доходность и не слиться в следующем месяце от просадки. 

 Да мы все тут демагоги, только вы д'артаньян, это уже понятно,  хорошо что хоть не троль.... пока..... :)

вот вам как пример http://robostroy.ru/community/article.aspx?id=801

 Вы сразу начнете говорить что это фейк все торги только на истории и.т.п , но я довольно много общался с этим человеком по общению я понял что человек глубокий практик и по рынку у меня не было таких вопросов на которые у него не было ответов..

Человек этот кандидат. тех. наук. , уже достаточно давно (лет 20 назад )защищал диссертацию по "ИИ"  строит роботов тоже больше 20 лет, опыта у него вагон с тележкой

И он утверждает что нельзя рынок спрогнозировать с позиции черного ящика, нужно выделять рабочие признаки, понимать как и почему они работают , максимально фильтровать данные чтоб оставить только то что работает игнорируя шум.

У него в сети около 100 признаков(предикторов),  за каждым признаком стоит  целая библиотека или пакет как хотите

 А теперь сравните какая пропасть по качеству между признаком для получения которого нужно писать целую библиотеку и какой то дурацкой кривулькой имя которой "SMA" , "MACD" ,"RSI" и прочее ... полезной информации в которой 0.00000001% как и писал  Mihail Marchukajtes ,    и это есть факт иначе модели показывали бы именно ту эффективность которую они могут показывать, а это от 90% правильных ответов

 Человек этот рекомендует ознакомиться с "МГУА" и спектральным анализом в частности Фурье

 ========================================================

Дальше каких результатов я "демагог" добился, да на самом деле очень скромных, задумок хороших как мне кажется очень много, мои исследование идут сразу во многих направлениях и есть огромная нехватка в знаниях в различных областях, потому часто прошу помощи у форумчан, но особо помогать никто и не хочет , молв ты сам научись, а тогда ..... только вот если я уже сам все освою то зачем мне тогда это общение, как то без логики по моему.. ну это я отвлекся


вот лучшее на дан. мом. что мне удалось выжать из RF на новых данных это 50% в месяц на протяжении 2-ух месяцев подряд, но все пока очень не стабильно, картинки пробовал закинуть раз 10 но не получаеться  (получилось)

ww

 www

 Суть  в том что не надо себя изначально ограничивать шаблонами типа 30% в год это круто, это не круто, это рамки для разума и творчества

Причина обращения: