Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 364

 
Vladimir Perervenko:

Посмотрите здесь

При оценке важности предикторов важно помнить, что это комплексная величина, не определяется только информационными критериями. и


По моим представлениям важность предикторов, определяемая как встроенными в основной алгоритм средствами, так и отдельно стоящими средствами, проблемы не решают, так как эта важность - это фактически частота использования предиктора при классификации. Если в число предикторов включить кольца Сатурна, кофейную гущу , то алгоритм будет использовать и эти предикторы.


Много раз писал на этой ветке и на других ветках, что предикторы должны "иметь отношение" к целевой переменной.

Повторно приведу пример.

Целевая переменная мужчина/женщина

Предиктор: одежда.

Для стран со строгими нравами если предиктор состоит из штанов и юбок, то он распадается на два не пересекающихся подмножества, каждое из которых однозначно определяет целевую переменную, т.е. ошибка классификации равна нулю.  

Если в состав предиктора начнем включать одежду стиля юнисекс, или шотладцев, то возникает пересечение, которое и будет определять ошибку классификации. От  этой ошибки нельзя избавиться в принципе.


Это не только мои мысли, но в этой ветке я давал ссылки на публикации с аналогичными мыслями.

 
СанСаныч Фоменко:


По моим представлениям важность предикторов, определяемая как встроенными в основной алгоритм средствами, так и отдельно стоящими средствами, проблемы не решают, так как эта важность - это фактически частота использования предиктора при классификации. Если в число предикторов включить кольца Сатурна, кофейную гущу , то алгоритм будет использовать и эти предикторы.


Много раз писал на этой ветке и на других ветках, что предикторы должны "иметь отношение" к целевой переменной.

Повторно приведу пример.

Целевая переменная мужчина/женщина

Предиктор: одежда.

Для стран со строгими нравами если предиктор состоит из штанов и юбок, то он распадается на два не пересекающихся подмножества, каждое из которых однозначно определяет целевую переменную, т.е. ошибка классификации равна нулю.  

Если в состав предиктора начнем включать одежду стиля юнисекс, или шотладцев, то возникает пересечение, которое и будет определять ошибку классификации. От  этой ошибки нельзя избавиться в принципе.


Это не только мои мысли, но в этой ветке я давал ссылки на публикации с аналогичными мыслями.

Истина одна, путей к ней миллион.

Каждый имеет право на свой путь. Главное, чтобы он не вел в тупик.

Удачи

 
Maxim Dmitrievsky:


Но в то что можно сделать хороший самооптимизирующийся аппарат я верю, который не будет работать идеально всегда но периодами будет давать

Но это явно не на стандартных индикаторах и зигзаге на выходе будет :) Это даже звучит как какие-то детские игры по-моему, просто как пример если только.

Я тоже на это надеюсь, но далек от иллюзий, которыми питался года 3 назад, что это можно сделать сконфигурировав десяток параметров, популярных библиотечных классификаторов. Оказалось это пипец как не тривиально и медленно, особенно если по вечерам после работы(((

ZZ – плохой таргет, полностью согласен.

 
Vladimir Perervenko:

При оценке важности предикторов важно помнить,...

... важность предикторов можно определять по их весам в первом слое

elibrarius:

алгоритм расчета важности в этой ф-ии

я делаю в два этапа, вначале разобираюсь с линейно скоррелированнными фичами PCA например, а потом строю богатую нелинейную модель, лес например или XGB, прорхожу по фичам(сжатых PCA) и грохаю те без которые скор меньше всего уменьшается
 

Поставил Open R, установил все пакеты, VS 2017 все равно зависает при создании проекта R

проекты для Python нормально создаются

Снес R Studio и R 3.4, оставив только Open R, и заработало ) Видимо, конфликтуют 

ну и смысла в R Studio нет, то же самое получается


 
Имеет ли смысл перед обучением, построить корелляцию входных переменных к целевой? И удалить самые некореллированные, для ускорения расчетов и повышения степени обученности?
 
elibrarius:
Имеет ли смысл перед обучением, построить корелляцию входных переменных к целевой? И удалить самые некореллированные, для ускорения расчетов и повышения степени обученности?
Вообще то нужно удалить коррелированные входные :) Если у вас входные коррелируют с целевой то это грааль и Нс не нужна))) 
 
Как то в интернете попалась интересная программка. Вы мысленно загадываете популярного персонажа или личность и компьютер путем задавания напутствующих определенных вопросов вам, сможет с высокой вероятностью  предсказать вам вашу мысль.  Так и должна работать нейро сеть. Правильный опрос. Вот где кроется сия тайна.
 
elibrarius:
Имеет ли смысл перед обучением, построить корелляцию входных переменных к целевой? И удалить самые некореллированные, для ускорения расчетов и повышения степени обученности?

Надо проверять не корреляцию переменных с целевой (она должна быть), а надо проверять отсутствие корреляции между переменными - её быть не должно (мультиколлинеарность).
 
Дмитрий:

Надо проверять не корреляцию переменных с целевой (она должна быть), а надо проверять отсутствие корреляции между переменными - её быть не должно (мультиколлинеарность).

Удаление кореллированных входных я уже сделал, просто думаю, как бы еще улучшить входы.

Так вот с Вами я согласен, что корелляция с целевой должна быть, потому и хочу в добавок удалять самые некореллированные с целевой входы, например с Ккорр<0,5 или 0,3. Это должно ускорить процесс обучения, не сильно ухудшив качество. Но есть предположение, что придется удалить все входы )))

На использованных входах (взяты случайные из тех. индикаторов), пока что корелляции с целевой не нашел, ошибка обучения = 0,44, т.е. почти монетка. Ну и баланс идет вниз.

Причина обращения: