Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 804

 
Yuriy Asaulenko:

Не грустите, я в курсе.)) Хотя, если Вам так комфортней, можете продолжить.

А в прочем вы правы.

 
Aleksey Vyazmikin:
Скажите пожалуйста, для отбора данных на первоначальном этапе достаточно искать корреляцию с целевыми данными, если да то какой порог корреляции следует использовать?
Корреляция - это линейный метод. Если она есть, то нет смысла городить огород из НС. Достаточно линейной регрессии.
 
Grigoriy Chaunin:
Корреляция - это линейный метод. Если она есть, то нет смысла городить огород из НС. Достаточно линейной регрессии.

Спасибо за ответ.

А как применить линейную регрессию для выявления наиболее устойчивых связей, путем добавления дополнительных признаков?

 
не понял вопроса. а впрочем линейная регрессия не работает на фин. рынках.
 

А я тут давеча подумал вот над каким нюансом.... собственно.

Имеем матрицу десять на десять, что мы можем о ней сказать? 

Количество данных равно 100. посчитали

Далее можем посчитать количество информации в этих данных, которое тоже будет выражено в каких либо единицах. Что ещё содержит этот набор данныз помимо количества данных и количества информации???? Не буду томить с ответо и отвечу сам. Количество знаний. Всё это естественно по отношению к целевой. Так вот если расматривать на основе причинно следственной связи то получается следующая модель.

Количество знаний -> Количество данных -> Количество информации.

Сотвественно чтобы прогнозировать необходимо из набора данных находить именно ЗНАНИЯ о искомой величине, а не количество информации.

Сами по себе знания очень хрупкая вестч, которую можно потерять при неумелом преобразовании данных. Неосторожное изменение даже в одной записи на незначительную величину может существенно уменьшить это количество если не удалить его полностью.

Именно по этому не рекомендуется усложнять преобразованиями входные данные. Чем сложнее преобразование тем меньше знаний в остаётся в конечном итоге.

Ну это так... мысли вслух о высокой материи, некоторым этого будет не понять и они продолжат свой путь так и не дойдя до конечной станции....

 
Mihail Marchukajtes:

А я тут давеча подумал вот над каким нюансом.... собственно.

Имеем матрицу десять на десять, что мы можем о ней сказать? 

Количество данных равно 100. посчитали

Далее можем посчитать количество информации в этих данных, которое тоже будет выражено в каких либо единицах. Что ещё содержит этот набор данныз помимо количества данных и количества информации???? Не буду томить с ответо и отвечу сам. Количество знаний. Всё это естественно по отношению к целевой. Так вот если расматривать на основе причинно следственной связи то получается следующая модель.

Количество знаний -> Количество данных -> Количество информации.

Сотвественно чтобы прогнозировать необходимо из набора данных находить именно ЗНАНИЯ о искомой величине, а не количество информации.

Сами по себе знания очень хрупкая вестч, которую можно потерять при неумелом преобразовании данных. Неосторожное изменение даже в одной записи на незначительную величину может существенно уменьшить это количество если не удалить его полностью.

Именно по этому не рекомендуется усложнять преобразованиями входные данные. Чем сложнее преобразование тем меньше знаний в остаётся в конечном итоге.

Ну это так... мысли вслух о высокой материи, некоторым этого будет не понять и они продолжат свой путь так и не дойдя до конечной станции....

Более того, вот вы подумали и округлили количество до десятков, при этом потеряли часть данных, думать вообще вредно, а некоторые продолжают...

 
Aleksey Vyazmikin:

Спасибо за ответ.

А как применить линейную регрессию для выявления наиболее устойчивых связей, путем добавления дополнительных признаков?

https://www.mql5.com/ru/articles/349

Множественный регрессионный анализ: генератор стратегий и тестер в одном флаконе
Множественный регрессионный анализ: генератор стратегий и тестер в одном флаконе
  • 2011.12.07
  • ArtemGaleev
  • www.mql5.com
Один мой знакомый, посещая учебные курсы о торговле на форекс, получил домашнее задание - построить торговую систему. Повозившись с этим с недельку, он сказал, что эта задача, пожалуй, сложнее, чем написать диссертацию. Тогда я предложил ему попробовать множественный регрессионный анализ. В итоге за вечер была создана "с нуля" торговая система...
 
Grigoriy Chaunin:
не понял вопроса. а впрочем линейная регрессия не работает на фин. рынках.

Т.е. нет корреляций? А на вопрос, кажется ниже ответил Maxim Dmitrievsky .

Спасибо за ответ.

 
Попробуйте построить график автокоррекции на ценовых данных и сразу же увидите есть или нет корреляция. Добавлять индикаторы бесполезно. Индикатор это функция от цены. Поэтому строим только на ценовых данных.
 

Для любителей кроссвалидаций, тестовых выборок, ООС и прочей дичи, не устану повторять:

СанСаныч и Владимир Перервенко в частности

Out-of-sample tests
This is the most popular and also abused validation method. Briefly, out-of-sample tests require setting aside a portion of the data to be used in testing the strategy after it is developed and obtaining an unbiased estimate of future performance. However, out-of-sample tests
reduce power of tests due to a smaller sample
results are biased if strategy is developed via multiple comparisons
In other words, out-of-sample tests are useful in the case of unique hypotheses only. Use of out-of-sample tests for strategies developed via data-mining shows lack of understanding of the process. In this case the test can be used to reject strategies but not to accept any. In this sense, the test is still useful but trading strategy developers know that good performance in out-of-samples for strategies developed via multiple comparisons is in most cases a random result.
A few methods have been proposed for correcting out-of-sample significance for the presence of multiple comparisons bias but in almost all real cases the result is a non significant strategy. However, as we show in Ref. 1 with two examples that correspond to two major market regimes, highly significant strategies even after corrections for bias are applied can also fail due to changing markets. Therefore, out-of-sample tests are unbiased estimates of future performance only if future returns are distributed in identical ways as past returns. In other words, non-stationarity may invalidate any results of out-of-sample testing.


Conclusion: Out-of-sample tests apply only to unique hypotheses and assume stationarity. In this case they are useful but if these conditions are not met, they can be quite misleading.

ООС могут быть использованы только для отмены гипотез или только для заведомо стационарных задач.

Но никак не для поиска стратегий и отбора признаков\оценки устойчивости системы


Причина обращения: