Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3103

 
mytarmailS #:

c PBO уже все? 

наговорились и забыли?

Не забыл, а отбросил.

Всегда надо тестировать на двух файлах.

1-й делим на три части по sample: 70%, 15%, 15%. На первой учим с перекрестной проверкой с мин 5 фолдами и достаточно большом фолде. Для RF - это 1500. Потом прогоняем на второй и третьей выборке, а затем на втором файле, который "как есть". Ошибки классификации по всем выборкам должны быть примерно равны. 

Что дополнительного к этому даст РВО?
 
СанСаныч Фоменко #:
Что дополнительного к этому даст РВО?

что он дает написано в статье

 

Вся боль такого А/B тестирования в одном видео

(особо впечатлительным не смотреть)


 
Maxim Dmitrievsky #:

Вся боль такого А/B тестирования в одном видео

(особо впечатлительным не смотреть)


А не кажется ли Вам, что в начале он говорит о бинарном примере, а в коде берет именно диапазон чисел из нормального распределения?

И, все подобные тесты зависят от генератора случайных чисел, это так же нужно учитывать. Природа появления чисел может быть сложней для каждого явления, хотя и иметь при этом нормальное распределение.

При таком подходе к проблеме, как он показывает, разумней тогда не "дни" мерить, а оценивать динамику прихода к порогу и время нахождения за порогом.

В общем, явление было бы полезней наблюдать на реальных данных для каких либо выводов о нём.

 
Aleksey Vyazmikin #:

А не кажется ли Вам, что в начале он говорит о бинарном примере, а в коде берет именно диапазон чисел из нормального распределения?

И, все подобные тесты зависят от генератора случайных чисел, это так же нужно учитывать. Природа появления чисел может быть сложней для каждого явления, хотя и иметь при этом нормальное распределение.

При таком подходе к проблеме, как он показывает, разумней тогда не "дни" мерить, а оценивать динамику прихода к порогу и время нахождения за порогом.

В общем, явление было бы полезней наблюдать на реальных данных для каких либо выводов о нём.

очень наверное сложно, когда вообще никогда не понимаешь о чем речь? и контекст )

а речь здесь о том, что даже если у вас трейн и тест из одного распределения, то вы не всегда можете подтвердить или опровергнуть гипотезу, например, о робастности модели. не говоря уже о том, когда они из разных распределений. 

добавляете к этому множественные тестирования и множите статистическую значимость таких тестов на ноль.

 
Maxim Dmitrievsky #:

очень наверное сложно, когда вообще никогда не понимаешь о чем речь? и контекст )

а речь здесь о том, что даже если у вас трейн и тест из одного распределения, то вы не всегда можете подтвердить или опровергнуть гипотезу, например, о робастности модели. не говоря уже о том, когда они из разных распределений. 

добавляете к этому множественные тестирования и множите статистическую значимость таких тестов на ноль.

Понятно. Ему про суть, а он только уши развесил...

 
Aleksey Vyazmikin #:

Понятно. Ему про суть, а он только уши развесил...

вы не поняли суть.

 
Maxim Dmitrievsky #:

вы не поняли суть.

То, что там вещает человек, делая далеко идущие выводы, оно и так понятно, но он не понимает, что результат у него зависит от алгоритма генератора случайных чисел.

Единственный вывод, который ценен, это то, что компьютерное моделирование в примитивном виде не даёт приблизится к реальным процессам, без понимания таковых.

Если бы он распределение сразу поделил на две части с 0 и 1 и показал, что у него единиц стало на порядок больше - вот тут я бы удивился. Понимаете, он говорит об одном, а делает другое.

Я как раз сейчас пытаюсь по фактическому изменению распределения во времени прогнозировать вероятность распределение (у меня классификация) в квантовом отрезке на следующие 3 месяца, и по тестом удалось за счет этих метрик поднять 15% точности, и думаю, что это не придел.

Ну и, вообще автор видео придумал хорошую "отмазку", почему у него не верный вывод в эксперименте был. Да, удобно, но не функционально. Я про то, что с его слов надо зафиксировать время/число наблюдений и делать вывод по нему. Вообще тут я его действительно не понимаю - какой в этом прок, кроме оправданий перед работодателем.

 
Aleksey Vyazmikin #:

То, что там вещает человек, делая далеко идущие выводы, оно и так понятно, но он не понимает, что результат у него зависит от алгоритма генератора случайных чисел.

p-hacking это известная проблема, которую он попытался объяснить нубам, которые не поняли суть.

можно не плодить тонны бессмысленных букв? и так уже понятно, что понимания не произошло.
 
Maxim Dmitrievsky #:

p-hacking это известная проблема, которую он попытался объяснить нубам, которые не поняли суть.

можно не плодить тонны бессмысленных букв? и так уже понятно, что понимания не произошло.

Жаль, что так и не поняли, что Вам пытаюсь донести.

Причина обращения: