Обсуждение статьи "Случайные леса предсказывают тренды" - страница 13

 
MetaQuotes Software Corp.:

Опубликована новая статья Predicting Trends with Random Forests:

By СанСаныч Фоменко


Эта модель очень проста в предсказании, но на практике с ней возникает множество проблем.

1. поскольку сигнал зигзага выбран в качестве цели, из него можно предсказать одну из простейших переменных, например, сортировку PRICE за последние 20 циклов, очевидно, из целевого дизайна, сигнал зигзага идет вверх, когда moverank_price_20 =1, и moverank_price_20 >1, когда Вероятность того, что сигнал зигзага нисходящий, более 90%; из этого можно построить множество таких переменных, так что легко добиться успеха в предсказании модели; но одно априорное условие здесь состоит в том, что вы должны знать, что эта точка является точкой зигзага. Если это другие точки во времени, но не точка зигзага, то вышеупомянутые переменные не существуют в способности предсказания.

2. Поэтому при применении возникнет большая проблема, так как вы не знаете, что является начальной точкой зигзага, поэтому вам придется рассчитать все данные, в это время moverank_price_20 =1, не думайте, что это начальная точка зигзага, и поэтому не можете предсказать изменение точки после тренда вверх.

3. поэтому метод целеполагания зигзага трудно работать.

 
Подскажите, пожалуйста, что там ставить под виндовс? По русски если можно, а то чтот тут замудрили https://rattle.togaware.com/rattle-install-mswindows.html
 

В статье есть таблица



01MeanDecreaseAccuracyMeanDecreaseGini
MA_eur.5.dif142.9741.8554.86 321.86
EUR.dif337.2146.3851.80177.34
RSI_eur.1437.7040.1150.75254.61
EUR.dif2 24.6631.6438.24110.83
MA_eur.10.dif122.9425.3931.48193.08
CHF.dif3  22.9123.4230.1573.36
MA_chf.5.dif1  21.8123.2429.56135.34


Но ничего не сказано, что значат цифры сами по себе, отношение их к другим цифрам вроде понятно - лучше - лучше, но сами по себе значения какими должны быть и от чего зависят? Вот в статье максимальное значение MeanDecreaseGini 321,86, а у меня 1876 - это зависит от количества предикторов или от чего? А MeanDecreaseAccuracy у меня 140.22 - это как интерпретировать? Может надо просто перевести все значения в процентный показатель от самого большого значения?

 
Aleksey Vyazmikin:

В статье есть таблица



01MeanDecreaseAccuracyMeanDecreaseGini
MA_eur.5.dif142.9741.8554.86 321.86
EUR.dif337.2146.3851.80177.34
RSI_eur.1437.7040.1150.75254.61
EUR.dif2 24.6631.6438.24110.83
MA_eur.10.dif122.9425.3931.48193.08
CHF.dif3  22.9123.4230.1573.36
MA_chf.5.dif1  21.8123.2429.56135.34


Но ничего не сказано, что значат цифры сами по себе, отношение их к другим цифрам вроде понятно - лучше - лучше, но сами по себе значения какими должны быть и от чего зависят? Вот в статье максимальное значение MeanDecreaseGini 321,86, а у меня 1876 - это зависит от количества предикторов или от чего? А MeanDecreaseAccuracy у меня 140.22 - это как интерпретировать? Может надо просто перевести все значения в процентный показатель от самого большого значения?

Это внутренняя статистика использования предикторов при построения кучи деревьев, все вместе называемых randoForest. Сравнивать разные модели вообще не имеет смысла. Мне не удалось сравнивать даже внутри одной модели. Если Вы хотите отобрать предикторы, то нужно пользоваться другими инструментами. Много раз писал на ветке машинного обучения и не я один.

 
СанСаныч Фоменко:

Это внутренняя статистика использования предикторов при построения кучи деревьев, все вместе называемых randoForest. Сравнивать разные модели вообще не имеет смысла. Мне не удалось сравнивать даже внутри одной модели. Если Вы хотите отобрать предикторы, то нужно пользоваться другими инструментами. Много раз писал на ветке машинного обучения и не я один.

Понятно, т.е. это оценочный показатель внутри модели, но не абсолютный...

Может, конечно, и писали на фоуме, но тот объем осилить... - итак пол форума читаю через читалку. Если ткнете носом, то буду признателен.

 
Aleksey Vyazmikin:

Понятно, т.е. это оценочный показатель внутри модели, но не абсолютный...

Может, конечно, и писали на фоуме, но тот объем осилить... - итак пол форума читаю через читалку. Если ткнете носом, то буду признателен.

1. Краткого ответа у меня нет, так как это целая отрасль, называется datamining, которая сравнима с моделями

2. Стандартная схема для datamining моделей классификации следующая:

  • определяемся с целевой переменной
  • для ЭТОЙ целевой переменной ищем предикторы
  • определяемся с предсказательной силой предикторов, т.е. часть предиктора должна предсказывать один класс, другая часть - другой класс, чем меньше пересечение, тем лучше предикторы
  • берем пакеты определения важности предикторов. Их много, цепляю файл с обзором

3. Подгоняем модель на первой половине файла желательно с кроссвалидацией

4. Проверяем на второй половине файла. Результативность должна совпасть


Для всего этого необходимо много ГОТОВЫХ инструментов. Лучше всего caret. В нем есть все, что необходимо. Но не достаточно. 


ПС.

Это R. Вне него дальше невнятного детского лепета продвинуться не получится.

Файлы:
 
СанСаныч Фоменко:

1. Краткого ответа у меня нет, так как это целая отрасль, называется datamining, которая сравнима с моделями

2. Стандартная схема для datamining моделей классификации следующая:

  • определяемся с целевой переменной
  • для ЭТОЙ целевой переменной ищем предикторы
  • определяемся с предсказательной силой предикторов, т.е. часть предиктора должна предсказывать один класс, другая часть - другой класс, чем меньше пересечение, тем лучше предикторы
  • берем пакеты определения важности предикторов. Их много, цепляю файл с обзором

3. Подгоняем модель на первой половине файла желательно с кроссвалидацией

4. Проверяем на второй половине файла. Результативность должна совпасть


Для всего этого необходимо много ГОТОВЫХ инструментов. Лучше всего caret. В нем есть все, что необходимо. Но не достаточно. 


ПС.

Это R. Вне него дальше невнятного детского лепета продвинуться не получится.

Спасибо, буду изучать дальше!

 
Поставил я RStudio, скачался пакет Boruta, но а как его активировать, как с ним работать?
 
Aleksey Vyazmikin:
Поставил я RStudio, скачался пакет Boruta, но а как его активировать, как с ним работать?

Читаем документацию, всегда по всем пакетам. В RStudio открываем вкладку Packages, набираем в поиске имя пакета и нажимаем на выскочившее имя пакета, откроется хелп. А лучше здесь по имени пакета, там могут быть ссылки на попутные материалы.

Если интересна идеология, то в функциях, которые входят в пакет, будет обязательна ссылка на теоретическую статью.

CRAN Packages By Name
  • cran.r-project.org
The package will formally test two curves represented by discrete data sets to be statistically equal or not when the errors of the two curves were assumed either equal or not using the tube formula to calculate the tail probabilities
 
СанСаныч Фоменко:

Читаем документацию, всегда по всем пакетам. В RStudio открываем вкладку Packages, набираем в поиске имя пакета и нажимаем на выскочившее имя пакета, откроется хелп. А лучше здесь по имени пакета, там могут быть ссылки на попутные материалы.

Если интересна идеология, то в функциях, которые входят в пакет, будет обязательна ссылка на теоретическую статью.

Спасибо!

Открыл я значит pdf с описанием и тут настройки ошарашали - столько всего требуется, что я и не знаю что там половину значит.

Может есть что-то попроще, пусть и менее надежное, а желательно с GUI?

А вообще, вот бы Вам забабахать статьи по этой теме, с подробностями куда и как, было бы весьма полезно!