Надо проверять корелляцию входных переменных к целевой переменной - Общее обсуждение

СанСаныч Фоменко 2017.05.19 08:40 #3631

Vladimir Perervenko:

Посмотрите здесь.

При оценке важности предикторов важно помнить, что это комплексная величина, не определяется только информационными критериями. и

По моим представлениям важность предикторов, определяемая как встроенными в основной алгоритм средствами, так и отдельно стоящими средствами, проблемы не решают, так как эта важность - это фактически частота использования предиктора при классификации. Если в число предикторов включить кольца Сатурна, кофейную гущу , то алгоритм будет использовать и эти предикторы.

Много раз писал на этой ветке и на других ветках, что предикторы должны "иметь отношение" к целевой переменной.

Повторно приведу пример.

Целевая переменная мужчина/женщина

Предиктор: одежда.

Для стран со строгими нравами если предиктор состоит из штанов и юбок, то он распадается на два не пересекающихся подмножества, каждое из которых однозначно определяет целевую переменную, т.е. ошибка классификации равна нулю.

Если в состав предиктора начнем включать одежду стиля юнисекс, или шотладцев, то возникает пересечение, которое и будет определять ошибку классификации. От этой ошибки нельзя избавиться в принципе.

Это не только мои мысли, но в этой ветке я давал ссылки на публикации с аналогичными мыслями.

Bayesian regression - Делал Обсуждение статьи "Прогнозирование рыночных Обсуждение статьи "Третье поколение

Vladimir Perervenko 2017.05.19 11:03 #3632

СанСаныч Фоменко:

По моим представлениям важность предикторов, определяемая как встроенными в основной алгоритм средствами, так и отдельно стоящими средствами, проблемы не решают, так как эта важность - это фактически частота использования предиктора при классификации. Если в число предикторов включить кольца Сатурна, кофейную гущу , то алгоритм будет использовать и эти предикторы.

Много раз писал на этой ветке и на других ветках, что предикторы должны "иметь отношение" к целевой переменной.

Повторно приведу пример.

Целевая переменная мужчина/женщина

Предиктор: одежда.

Для стран со строгими нравами если предиктор состоит из штанов и юбок, то он распадается на два не пересекающихся подмножества, каждое из которых однозначно определяет целевую переменную, т.е. ошибка классификации равна нулю.

Если в состав предиктора начнем включать одежду стиля юнисекс, или шотладцев, то возникает пересечение, которое и будет определять ошибку классификации. От этой ошибки нельзя избавиться в принципе.

Это не только мои мысли, но в этой ветке я давал ссылки на публикации с аналогичными мыслями.

Истина одна, путей к ней миллион.

Каждый имеет право на свой путь. Главное, чтобы он не вел в тупик.

Удачи

Алёша 2017.05.19 11:57 #3633

Maxim Dmitrievsky:

Но в то что можно сделать хороший самооптимизирующийся аппарат я верю, который не будет работать идеально всегда но периодами будет давать

Но это явно не на стандартных индикаторах и зигзаге на выходе будет :) Это даже звучит как какие-то детские игры по-моему, просто как пример если только.

Я тоже на это надеюсь, но далек от иллюзий, которыми питался года 3 назад, что это можно сделать сконфигурировав десяток параметров, популярных библиотечных классификаторов. Оказалось это пипец как не тривиально и медленно, особенно если по вечерам после работы(((

ZZ – плохой таргет, полностью согласен.

Пожелание к интерфейсу MT4 Как выбрать сигнал? Раздел Сентябрьская регистрация участников, на

Алёша 2017.05.19 12:17 #3634

Vladimir Perervenko:

При оценке важности предикторов важно помнить,...

... важность предикторов можно определять по их весам в первом слое

elibrarius:

алгоритм расчета важности в этой ф-ии

я делаю в два этапа, вначале разобираюсь с линейно скоррелированнными фичами PCA например, а потом строю богатую нелинейную модель, лес например или XGB, прорхожу по фичам(сжатых PCA) и грохаю те без которые скор меньше всего уменьшается

Обсуждение статьи "Теория вероятностей Как Вам новое оформление По коэффициенту Шарпа

Maxim Dmitrievsky 2017.05.20 13:55 #3635

Поставил Open R, установил все пакеты, VS 2017 все равно зависает при создании проекта R

проекты для Python нормально создаются

Снес R Studio и R 3.4, оставив только Open R, и заработало ) Видимо, конфликтуют

ну и смысла в R Studio нет, то же самое получается

Любые вопросы от ПРОФИ Python :: Anaconda3 :: Экспорт данных

Forester 2017.05.20 20:44 #3636

Имеет ли смысл перед обучением, построить корелляцию входных переменных к целевой? И удалить самые некореллированные, для ускорения расчетов и повышения степени обученности?

Maxim Dmitrievsky 2017.05.20 21:17 #3637

elibrarius:
Имеет ли смысл перед обучением, построить корелляцию входных переменных к целевой? И удалить самые некореллированные, для ускорения расчетов и повышения степени обученности?

Вообще то нужно удалить коррелированные входные :) Если у вас входные коррелируют с целевой то это грааль и Нс не нужна)))

Uladzimir Izerski 2017.05.21 07:08 #3638

Как то в интернете попалась интересная программка. Вы мысленно загадываете популярного персонажа или личность и компьютер путем задавания напутствующих определенных вопросов вам, сможет с высокой вероятностью предсказать вам вашу мысль. Так и должна работать нейро сеть. Правильный опрос. Вот где кроется сия тайна.

Вопрос по индикатору: дополнительный 'Закрыть все'/'Открыть' инструменты Наложение индикаторов

Дмитрий 2017.05.21 07:15 #3639

elibrarius:
Имеет ли смысл перед обучением, построить корелляцию входных переменных к целевой? И удалить самые некореллированные, для ускорения расчетов и повышения степени обученности?

Надо проверять не корреляцию переменных с целевой (она должна быть), а надо проверять отсутствие корреляции между переменными - её быть не должно (мультиколлинеарность).

Forester 2017.05.21 07:24 #3640

Дмитрий:

Надо проверять не корреляцию переменных с целевой (она должна быть), а надо проверять отсутствие корреляции между переменными - её быть не должно (мультиколлинеарность).

Удаление кореллированных входных я уже сделал, просто думаю, как бы еще улучшить входы.

Так вот с Вами я согласен, что корелляция с целевой должна быть, потому и хочу в добавок удалять самые некореллированные с целевой входы, например с Ккорр<0,5 или 0,3. Это должно ускорить процесс обучения, не сильно ухудшив качество. Но есть предположение, что придется удалить все входы )))

На использованных входах (взяты случайные из тех. индикаторов), пока что корелляции с целевой не нашел, ошибка обучения = 0,44, т.е. почти монетка. Ну и баланс идет вниз.

Как совместить информацию по Плывующие параметры рынка Индикатор по Сперандео.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 364