Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована новая статья Predicting Trends with Random Forests:
By СанСаныч Фоменко
Эта модель очень проста в предсказании, но на практике с ней возникает множество проблем.
1. поскольку сигнал зигзага выбран в качестве цели, из него можно предсказать одну из простейших переменных, например, сортировку PRICE за последние 20 циклов, очевидно, из целевого дизайна, сигнал зигзага идет вверх, когда moverank_price_20 =1, и moverank_price_20 >1, когда Вероятность того, что сигнал зигзага нисходящий, более 90%; из этого можно построить множество таких переменных, так что легко добиться успеха в предсказании модели; но одно априорное условие здесь состоит в том, что вы должны знать, что эта точка является точкой зигзага. Если это другие точки во времени, но не точка зигзага, то вышеупомянутые переменные не существуют в способности предсказания.
2. Поэтому при применении возникнет большая проблема, так как вы не знаете, что является начальной точкой зигзага, поэтому вам придется рассчитать все данные, в это время moverank_price_20 =1, не думайте, что это начальная точка зигзага, и поэтому не можете предсказать изменение точки после тренда вверх.
3. поэтому метод целеполагания зигзага трудно работать.
В статье есть таблица
Но ничего не сказано, что значат цифры сами по себе, отношение их к другим цифрам вроде понятно - лучше - лучше, но сами по себе значения какими должны быть и от чего зависят? Вот в статье максимальное значение MeanDecreaseGini 321,86, а у меня 1876 - это зависит от количества предикторов или от чего? А MeanDecreaseAccuracy у меня 140.22 - это как интерпретировать? Может надо просто перевести все значения в процентный показатель от самого большого значения?
В статье есть таблица
Но ничего не сказано, что значат цифры сами по себе, отношение их к другим цифрам вроде понятно - лучше - лучше, но сами по себе значения какими должны быть и от чего зависят? Вот в статье максимальное значение MeanDecreaseGini 321,86, а у меня 1876 - это зависит от количества предикторов или от чего? А MeanDecreaseAccuracy у меня 140.22 - это как интерпретировать? Может надо просто перевести все значения в процентный показатель от самого большого значения?
Это внутренняя статистика использования предикторов при построения кучи деревьев, все вместе называемых randoForest. Сравнивать разные модели вообще не имеет смысла. Мне не удалось сравнивать даже внутри одной модели. Если Вы хотите отобрать предикторы, то нужно пользоваться другими инструментами. Много раз писал на ветке машинного обучения и не я один.
Это внутренняя статистика использования предикторов при построения кучи деревьев, все вместе называемых randoForest. Сравнивать разные модели вообще не имеет смысла. Мне не удалось сравнивать даже внутри одной модели. Если Вы хотите отобрать предикторы, то нужно пользоваться другими инструментами. Много раз писал на ветке машинного обучения и не я один.
Понятно, т.е. это оценочный показатель внутри модели, но не абсолютный...
Может, конечно, и писали на фоуме, но тот объем осилить... - итак пол форума читаю через читалку. Если ткнете носом, то буду признателен.
Понятно, т.е. это оценочный показатель внутри модели, но не абсолютный...
Может, конечно, и писали на фоуме, но тот объем осилить... - итак пол форума читаю через читалку. Если ткнете носом, то буду признателен.
1. Краткого ответа у меня нет, так как это целая отрасль, называется datamining, которая сравнима с моделями
2. Стандартная схема для datamining моделей классификации следующая:
3. Подгоняем модель на первой половине файла желательно с кроссвалидацией
4. Проверяем на второй половине файла. Результативность должна совпасть
Для всего этого необходимо много ГОТОВЫХ инструментов. Лучше всего caret. В нем есть все, что необходимо. Но не достаточно.
ПС.
Это R. Вне него дальше невнятного детского лепета продвинуться не получится.
1. Краткого ответа у меня нет, так как это целая отрасль, называется datamining, которая сравнима с моделями
2. Стандартная схема для datamining моделей классификации следующая:
3. Подгоняем модель на первой половине файла желательно с кроссвалидацией
4. Проверяем на второй половине файла. Результативность должна совпасть
Для всего этого необходимо много ГОТОВЫХ инструментов. Лучше всего caret. В нем есть все, что необходимо. Но не достаточно.
ПС.
Это R. Вне него дальше невнятного детского лепета продвинуться не получится.
Спасибо, буду изучать дальше!
Поставил я RStudio, скачался пакет Boruta, но а как его активировать, как с ним работать?
Читаем документацию, всегда по всем пакетам. В RStudio открываем вкладку Packages, набираем в поиске имя пакета и нажимаем на выскочившее имя пакета, откроется хелп. А лучше здесь по имени пакета, там могут быть ссылки на попутные материалы.
Если интересна идеология, то в функциях, которые входят в пакет, будет обязательна ссылка на теоретическую статью.
Читаем документацию, всегда по всем пакетам. В RStudio открываем вкладку Packages, набираем в поиске имя пакета и нажимаем на выскочившее имя пакета, откроется хелп. А лучше здесь по имени пакета, там могут быть ссылки на попутные материалы.
Если интересна идеология, то в функциях, которые входят в пакет, будет обязательна ссылка на теоретическую статью.
Спасибо!
Открыл я значит pdf с описанием и тут настройки ошарашали - столько всего требуется, что я и не знаю что там половину значит.
Может есть что-то попроще, пусть и менее надежное, а желательно с GUI?
А вообще, вот бы Вам забабахать статьи по этой теме, с подробностями куда и как, было бы весьма полезно!