Важно тестировать на разных данных и учитывать случайность, но выводы зависят от алгоритмов и распределений.

СанСаныч Фоменко 2023.06.09 18:44 #31021

mytarmailS #:

c PBO уже все?

наговорились и забыли?

Не забыл, а отбросил.

Всегда надо тестировать на двух файлах.

1-й делим на три части по sample: 70%, 15%, 15%. На первой учим с перекрестной проверкой с мин 5 фолдами и достаточно большом фолде. Для RF - это 1500. Потом прогоняем на второй и третьей выборке, а затем на втором файле, который "как есть". Ошибки классификации по всем выборкам должны быть примерно равны.

Что дополнительного к этому даст РВО?

Машинное обучение в трейдинге Расчет коэффициентов От теории к практике

mytarmailS 2023.06.09 19:36 #31022

СанСаныч Фоменко #:
Что дополнительного к этому даст РВО?

что он дает написано в статье

[Удален] 2023.06.12 03:51 #31023

Вся боль такого А/B тестирования в одном видео

(особо впечатлительным не смотреть)

Aleksey Vyazmikin 2023.06.12 14:29 #31024

Maxim Dmitrievsky #:

Вся боль такого А/B тестирования в одном видео

(особо впечатлительным не смотреть)

А не кажется ли Вам, что в начале он говорит о бинарном примере, а в коде берет именно диапазон чисел из нормального распределения?

И, все подобные тесты зависят от генератора случайных чисел, это так же нужно учитывать. Природа появления чисел может быть сложней для каждого явления, хотя и иметь при этом нормальное распределение.

При таком подходе к проблеме, как он показывает, разумней тогда не "дни" мерить, а оценивать динамику прихода к порогу и время нахождения за порогом.

В общем, явление было бы полезней наблюдать на реальных данных для каких либо выводов о нём.

Тестирование интуиции Bayesian regression - Делал Генератор уникального идентификатора для

[Удален] 2023.06.12 14:43 #31025

Aleksey Vyazmikin #:

А не кажется ли Вам, что в начале он говорит о бинарном примере, а в коде берет именно диапазон чисел из нормального распределения?

И, все подобные тесты зависят от генератора случайных чисел, это так же нужно учитывать. Природа появления чисел может быть сложней для каждого явления, хотя и иметь при этом нормальное распределение.

При таком подходе к проблеме, как он показывает, разумней тогда не "дни" мерить, а оценивать динамику прихода к порогу и время нахождения за порогом.

В общем, явление было бы полезней наблюдать на реальных данных для каких либо выводов о нём.

очень наверное сложно, когда вообще никогда не понимаешь о чем речь? и контекст )

а речь здесь о том, что даже если у вас трейн и тест из одного распределения, то вы не всегда можете подтвердить или опровергнуть гипотезу, например, о робастности модели. не говоря уже о том, когда они из разных распределений.

добавляете к этому множественные тестирования и множите статистическую значимость таких тестов на ноль.

Улучшаем рейтинг торговых сигналов Обсуждение статьи "Критерий независимости Нужен ли Арбитраж качества

Aleksey Vyazmikin 2023.06.12 15:58 #31026

Maxim Dmitrievsky #:

очень наверное сложно, когда вообще никогда не понимаешь о чем речь? и контекст )

а речь здесь о том, что даже если у вас трейн и тест из одного распределения, то вы не всегда можете подтвердить или опровергнуть гипотезу, например, о робастности модели. не говоря уже о том, когда они из разных распределений.

добавляете к этому множественные тестирования и множите статистическую значимость таких тестов на ноль.

Понятно. Ему про суть, а он только уши развесил...

[Удален] 2023.06.12 16:17 #31027

Aleksey Vyazmikin #:

Понятно. Ему про суть, а он только уши развесил...

вы не поняли суть.

Aleksey Vyazmikin 2023.06.12 17:17 #31028

Maxim Dmitrievsky #:

вы не поняли суть.

То, что там вещает человек, делая далеко идущие выводы, оно и так понятно, но он не понимает, что результат у него зависит от алгоритма генератора случайных чисел.

Единственный вывод, который ценен, это то, что компьютерное моделирование в примитивном виде не даёт приблизится к реальным процессам, без понимания таковых.

Если бы он распределение сразу поделил на две части с 0 и 1 и показал, что у него единиц стало на порядок больше - вот тут я бы удивился. Понимаете, он говорит об одном, а делает другое.

Я как раз сейчас пытаюсь по фактическому изменению распределения во времени прогнозировать вероятность распределение (у меня классификация) в квантовом отрезке на следующие 3 месяца, и по тестом удалось за счет этих метрик поднять 15% точности, и думаю, что это не придел.

Ну и, вообще автор видео придумал хорошую "отмазку", почему у него не верный вывод в эксперименте был. Да, удобно, но не функционально. Я про то, что с его слов надо зафиксировать время/число наблюдений и делать вывод по нему. Вообще тут я его действительно не понимаю - какой в этом прок, кроме оправданий перед работодателем.

Феномены рынка Можно ли отличить график Индикаторы: MACD с адаптивным

[Удален] 2023.06.12 17:23 #31029

Aleksey Vyazmikin #:

То, что там вещает человек, делая далеко идущие выводы, оно и так понятно, но он не понимает, что результат у него зависит от алгоритма генератора случайных чисел.

p-hacking это известная проблема, которую он попытался объяснить нубам, которые не поняли суть.

можно не плодить тонны бессмысленных букв? и так уже понятно, что понимания не произошло.

Aleksey Vyazmikin 2023.06.12 17:33 #31030

Maxim Dmitrievsky #:

p-hacking это известная проблема, которую он попытался объяснить нубам, которые не поняли суть.

можно не плодить тонны бессмысленных букв? и так уже понятно, что понимания не произошло.

Жаль, что так и не поняли, что Вам пытаюсь донести.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3103