Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 883

 
Maxim Dmitrievsky:

обычный лес и случайные леса и леса деревьев это одно и то же :) Forest это ансамбль из Trees

признаки свернуты в смысле их стало меньше или как? под разрежеееыми признаками понимаются редко изменяющиеся и/или категориальные типа единиц и нолей (ну это уже хай левел понимания)

Нет, свернуты, это значит у одной переменной много значений, но при этом число комбинаций осталось прежним. Приложил файл, аналог прошлому для покупок, но в другом представлении.

Файлы:
 
Vizard_:

Бинаризацией убито много полезной инфы.

Какая разница, как представлена информация, она же от этого не меняется... ???

 
Maxim Dmitrievsky:

Лично про СанСаныча ничего не имею, он очень грамотный и сдержанный человек, делающий что-то там свое неведомое, наверное ему нужен R

мне интуитивнее питон, хотя пока не придумал что такого этакого нужно сделать на нем что бы было прямо вау, но продолжаю изучать по тихой, авось пригодится :D

R - замечательная среда, имеющая массу преимуществ перед Питоном. Основное, R - это среда моделирования. По сравнению с Питон, результаты в R м.б. получены быстрее и проще.

Понятно, что у Питона, в совокупности с модулями, есть и свои преимущества.

Кстати, что касается РФ, то сдается, что и здесь, как и в НС, можно обойтись без перебора-подбора предикторов и использовать в качестве таковых непосредственно нормированный ВР.

 
СанСаныч Фоменко:

Обычный лес или случайные леса, или оба?

В rattle прогоните обе модели лесов, которые называются tree и  ada. Откройте вкладку log  и увидите код на R, обращения к используемым пакетам и сможете понять их различия.   

Я понимаю, чем отличается дерево от лесов (или думаю, что понимаю) леса лучше использовать когда больше неопределенности в данных, т.е. менее устойчивая закономерность так-как леса принимают решение путем голосования, которое происходит по случайным(независимым из-за укорочения) деревьям, или я не прав? А вот варианта "adad" у меня не наблюдается, его нет и на скрине, там есть "Forest" - это не то?

СанСаныч Фоменко:

Поставил я Rattle и R (ну и глючит же всё это дело...),

Не понял, что глючит, в последнее время прогнал огромное количество моделей - все нормально

Были какие то непонятнки при скачивании пакетов - пишет что начал качать, но не качает, потом ставит и пишет, что нет ему библиотек нужных, потом подвис при чтении данных из файла... ну и процесс работы не виден - не ясно, сколько ждать до окончания. Я пока про такие баги. Один раз снимал задачу из диспетчера...

СанСаныч Фоменко:


Картинка из rattle  у Вас недоделанная. Как минимум надо перейти на соседнюю вкладку evaluate и посмотреть результаты там.

Но самое главное надо исходный файл разбить на две части с разными именами (скорее всего это придется делать на R).

На первом файле строите ВСЕ шесть моделей и смотрите их оценку test, validate.   Потом имя второго файла заносите в поле R Dataset. И на нем получаете снова оценки. Все полученные оценки должны примерно совпадать!

Если у Вас эти оценки НЕ совпадают, причем на втором файле результативность моделей принципиально хуже, то это означает, что Ваши модели переобучены и причиной переобученности является наличие шумовых (не относящихся к целевой переменной) предикторов.


Это и есть момент истины: или у вас имеется набор предикторов, относящихся к конкретной целевой переменной или у Вас нет этого. И никакие модели этого печального обстоятельства исправить не могут. Далее начинается тупая работа по подбору пары "целевая-предикторы", модели вообще не интересны, найдете пару, то модели просто семечки в R, за день наберете десяток и будете делать из них ансамбли.

Так как резать файл с помощью R, нужно использовать особый алгоритм? Интересно посмотреть, что в итоге будет.

 
СанСаныч Фоменко:


2. Нет проблем использования R советника: все работает и очень устойчиво.

И для MT5 работает? А где примеры кода посмотреть? Что-то типа индикатора интересует для удобства думаю лучше через индикатор информацию подавать, так-как в оптимизаторе можно будет легко их сравнивать при подключении к советнику, да и визуально будет видно, что думает лес о ситуации на рынке в каждый момент времени.

 
Yuriy Asaulenko:

R - замечательная среда, имеющая массу преимуществ перед Питоном. Основное, R - это среда моделирования. По сравнению с Питон, результаты в R м.б. получены быстрее и проще.

Понятно, что у Питона, в совокупности с модулями, есть и свои преимущества.

Кстати, что касается РФ, то сдается, что и здесь, как и в НС, можно обойтись без перебора-подбора предикторов и использовать в качестве таковых непосредственно нормированный ВР.

можно даже не нормированный

 
Maxim Dmitrievsky:

можно даже не нормированный

Эт не получится. Должна быть четкая привязка отрезка ВР к некоторому уровню, нулю, например.

 
Aleksey Vyazmikin:


Я понимаю, чем отличается дерево от лесов (или думаю, что понимаю) леса лучше использовать когда больше неопределенности в данных, т.е. менее устойчивая закономерность так-как леса принимают решение путем голосования, которое происходит по случайным(независимым из-за укорочения) деревьям, или я не прав? 

Не знаю, я сужу по результатам.

 А вот варианта "adad" у меня не наблюдается, его нет и на скрине, там есть "Forest" - это не то?

По порядку: 


Tree

The 'rpart' package provides the 'rpart' function.


Boost

# Extreme Boost 

# The `xgboost' package implements the extreme gradient boost algorithm.


SVM

# Support vector machine. 

# The 'kernlab' package provides the 'ksvm' function.


Linear

# Regression model 

# Build a Regression model.


Neural Net

# Neural Network 

# Build a neural network model using the nnet package.

library(nnet, quietly=TRUE)


Кстати, эту работу я сделал за Вас - можете сами посмотреть в Log все это. Если у Вас другая версия rattle, то перечень может быть другим.


Так как резать файл с помощью R, нужно использовать особый алгоритм? Интересно посмотреть, что в итоге будет.

По индексу, например: [1:2000,],  [2001:4000,]. Важно чтобы во втором файле не нарушался естественная временная последовательность

 
Aleksey Vyazmikin:

И для MT5 работает? А где примеры кода посмотреть? Что-то типа индикатора интересует для удобства думаю лучше через индикатор информацию подавать, так-как в оптимизаторе можно будет легко их сравнивать при подключении к советнику, да и визуально будет видно, что думает лес о ситуации на рынке в каждый момент времени.

Библиотека модифицирована по моему заказу - мне нужен был тестер из МТ5. Я посчитал, лень искать, может быть зачистил.

Посмотрите статьи Vladimir Perervenko

Если Вас интересуют сети, то у него последний писк в этой области, R, советники, человек доступен на сайте
 
Aleksey Vyazmikin:

Нет, свернуты, это значит у одной переменной много значений, но при этом число комбинаций осталось прежним. Приложил файл, аналог прошлому для покупок, но в другом представлении.

ну пробуйте и так и так и по всякому, как душе угодно :) главное теорию не забывать почитывать что бы откровенных глупостей не делать, а пакет заюзать какой-нибудь то это не сложно, их полно вообще всяких, и даже онлайн - ничего устанавливать не надо. Сейчас бум датасайенса, "оно" везде

пока некогда архивы анализировать, постоянно свое что-то мучаю

Причина обращения: