Если бы вы знали, что есть что, то не было бы ветки на 3К страниц - Общее обсуждение

mytarmailS 2023.10.25 07:42 #33101

СанСаныч Фоменко #:

Уточню свою мысль.

Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.

Препроцессинг это про нормализацию а не про мусор.

Про мусор это feature selection и от части feature engineering

Саныч харош мусор на вход подавать людям неокрепшым

Andrey Dik 2023.10.25 07:51 #33102

Ivan Butko #:

Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу.

Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать

Да никто не знает, что мусор а что нет, это гипотетические понятия.

Если бы чётко знали что есть что, то не было бы ветки на 3К страниц.))

Просто делают предположение, что выход за такие то пределы является "мусором", эти пределы тоже предположительные. Поэтому выражение "мусор на входе - мусор на выходе" не более чем красивая фраза, что для одного мусор - то для другого исследователя немусор. Тут как с волнами Элиота примерно.

ЗигЗаги, волны, тренды. чего то не хватает От теории к практике

Renat Akhtyamov 2023.10.25 08:08 #33103

Ivan Butko #:

Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу.

Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать

направленное движение, вектор

однако вытащить его из мусора, задачка еще та

например, я бы попытался в качестве предикторов зарядить свой индикатор в нейронку и попытался бы определить признаки мусора и мусорщика

Forester 2023.10.25 08:27 #33104

СанСаныч Фоменко #:

Уточню свою мысль.

Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.

В данном искусственном примере, который мы рассматриваем (а не рыночные данные),
фича по оси У не мусор и очень хорошо определяет классы. Фича по оси Х - мусор, т.к. оба класса идут вперемешку примерно равномерно.

Дерево легко разделит данные в 1 и 2 примере с картинки всего 1-м сплитом через У=0,5 с абсолютной чистотой классов, т.е. вероятность класса =100%. При тесте сплита по оси Х, чистота будет примерно 50%, алгоритм выберет более чистый сплит, по У. Т.е. ваше утверждение, что будет выбран мусорный сплит по Х - неверно в этих примерах.

3-й пример сложнее. Лист с У<0.2, будет отобран алгоритмом, т.к. чистота класса = 100%, лист У>0,8 тоже будет выбран.
Лист от 0,2 до 0,8 имеет чистоту примерно 50%, т.е. он примерно такой же мусорный, как любой сплит по оси Х.
Дальнейшее деление не имеет смысла, т.к. использовать листья с вероятностью класса 50% вы не будете.
Если сделать глупость и поделить эту мусорную часть до 1 примера в листе, то будут использованы сплиты и по У и по Х. Ну а если имеем 1 пример в листе, то его чистота конечно = 100%. Но это не репрезентативные листы. Такое будут делать только новички.

3-х первых листов достаточно, или можно остановить деление листьев хотя бы по 1-5-10% от общего числа примеров в листе. И в данном примере использовать листья с чистотой например >90%, а это будут первые 2 листа: У<0,2 и У>0.8. Остальные листья будут по 50% +-10% из за неравномерности перемешивания.

Группировка листьев - требуются Вы написали советник, работающий Техники "усреднения" убыточных позиций

Grigori.S.B 2023.10.25 08:54 #33105

Renat Akhtyamov #:

... я бы попытался в качестве предикторов зарядить свой индикатор в нейронку и попытался бы определить признаки мусора и мусорщика

И что мешает попытаться?

Vladimir Perervenko 2023.10.25 09:41 #33106

Andrey Dik #:

Да никто не знает, что мусор а что нет, это гипотетические понятия.

Если бы чётко знали что есть что, то не было бы ветки на 3К страниц.))

Просто делают предположение, что выход за такие то пределы является "мусором", эти пределы тоже предположительные. Поэтому выражение "мусор на входе - мусор на выходе" не более чем красивая фраза, что для одного мусор - то для другого исследователя немусор. Тут как с волнами Элиота примерно.

Не нужно расписываться за всех.

Скорее всего Вы не знаете какие примеры являются "мусором" а какие нет . Для Вас это гипотетическое понятие. Если бы Вы знали что есть что, Вы бы не сидели в этой ветке и не писали глубокомысленные обобщения за всех.

Когда Вы уже освоете основы МО? Вопрос риторический.

NFA запрещает локирование с FOREX - Тенденции, прогнозы Арбитраж

Andrey Dik 2023.10.25 09:47 #33107

Vladimir Perervenko #:

Не нужно расписываться за всех.

Скорее всего Вы не знаете какие примеры являются "мусором" а какие нет . Для Вас это гипотетическое понятие. Если бы Вы знали что есть что, Вы бы не сидели в этой ветке и не писали глубокомысленные обобщения за всех.

Когда Вы уже освоете основы МО? Вопрос риторический.

Из Вашего сообщения не видно, что знаете что мусор а что нет.

К тому же, в этом и прикол, что если знать что не мусор, то в МО необходимости нет.

Это и есть цели и задачи МО - отделять мух от котлет.

Если знаете, то что здесь делаете?

Корреляция со сдвигом во От теории к практике Есть ли ГРААЛЬ на

Valeriy Yastremskiy 2023.10.25 10:09 #33108

В физике обычно сторонние сигналы влияющие на нужный нам считаются мусором. Любой сигнал, любое действие чем то вызвано, мусором его называют потому что это не нужный и не дающий правильно оценить нужный исследователю сигнал. А так, ну в природе нет мусора)))

Здесь, когда ищутся закономерности цены, не эффективности или что то другое сигналом для оценки являются воздействия каких то реальных событий или их совокупности на цену. А вот все остальные воздействия будут мусором.

Не претендуя на истинность суждения конечно))))

Будущее с ИИ Случайность или непознанная закономерность? Случайное блуждание

Renat Akhtyamov 2023.10.25 10:13 #33109

Valeriy Yastremskiy #:

В физике обычно сторонние сигналы влияющие на нужный нам считаются мусором. Любой сигнал, любое действие чем то вызвано, мусором его называют потому что это не нужный и не дающий правильно оценить нужный исследователю сигнал. А так, ну в природе нет мусора)))

Здесь, когда ищутся закономерности цены, не эффективности или что то другое сигналом для оценки являются воздействия каких то реальных событий или их совокупности на цену. А вот все остальные воздействия будут мусором.

Не претендуя на истинность суждения конечно))))

если уж окунуться в теорию ЦОС, то так:

полезный сигнал без мусора изначально известен (например трендовая линия, либо кривулька какая нибудь)

затем, на следующем тике, вычитается из общей массы сигналов полезный, и определяются не нужные сигналы, т.е. мусор

MetaTrader 4 Client Terminal Спасибо первым двум подписчикам! [АРХИВ!] Любой вопрос новичка,

Maxim Dmitrievsky 2023.10.25 10:18 #33110

Мусорность признаков оценивается по отношению к конкретным целевым и наоборот. Если нет причинно-следственной связи, то датасет мусор весь целиком, либо один из его компонентов. И часто это не признаки, а неправильная разметка.

Потому что даже помоешный мусор можно разметить так, чтобы это было полезно. Например, отсортировать по типу или размеру.

Почему сигнал за один От теории к практике Диагностика рынка по пульсу

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3311