Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1304

 
Maxim Dmitrievsky:

"Даже на зигзагах" )))

самой худшей может быть только валидация, которая никак не участвовала в обучении, даже опосредованно
А почему не тестовый участок? Ведь он тоже "никак не участвовал в обучении, даже опосредованно"
 
elibrarius:
А почему не тестовый участок? Ведь он тоже "никак не участвовал в обучении, даже опосредованно"

тестовый всегда опосредованно участвует в обучении, возьмите тот же катбуст.. ну вы че

 

А... или мы по разному называем участки.

Я называю

1 участок тренировочным (train)
2 валидационным (valid) -именно его используют во многих пакетах для контроля в процессе обучения и для ранней остановки. И называют его именно Valid
3 тестовым - для оценки системы на новых данных

Видимо вы 2-й участок назвали тестовым

 
Maxim Dmitrievsky:

тестовый всегда опосредованно участвует в обучении, возьмите тот же катбуст.. ну вы че

Катбуст не знаю. Вот цитата из XGBoost

early_stopping_rounds
If NULL, the early stopping function is not triggered. If set to an integer k, training
with a validation set will stop if the performance doesn’t improve for k
rounds.

 
elibrarius:

А... или мы по разному называем участки.

Я называю

1 участок тренировочным (train)
2 валидационным (valid) -именно его используют во многих пакетах для контроля в процессе обучения и для ранней остановки. И называют его именно Valid
3 тестовым - для оценки системы на новых данных

Видимо вы 2-й участок назвали тестовым

по-моему наоборот, валидационный это новые, где как пишут

ну да, короче вы поняли

https://tech.yandex.com/catboost/doc/dg/concepts/cli-reference_train-model-docpage/

-t

--test-set

A comma-separated list of input files that contain the validation dataset description (the format must be the same as used in the training dataset).

Omitted. If this parameter is omitted, the validation dataset isn't used.


)))) пиши как хочешь, называется

 
Maxim Dmitrievsky:

по-моему наоборот, валидационный это новые, где как пишут

ну да, короче вы поняли

Сначала как раз и не понял.
Ибо по разному термины обозначаем.

Надо бы единой терминологии придерживаться.

 
elibrarius:

Сначала как раз и не понял.
Ибо по разному термины обозначаем.

Надо бы единой терминологии придерживаться.

Покажите документацию любого пакета, где второй участок (по которому идет контроль обучения и/или ранний останов) называют тестовым, а не валидационным.

выше показал, вот еще 

https://tech.yandex.com/catboost/doc/dg/concepts/output-data_training-log-docpage/

CatBoost — Metrics and time information — Yandex Technologies
  • tech.yandex.com
The table below lists the names of parameters that define the metric values to output. The values of all functions defined by these parameters are output. Information about the number of seconds of training: The resulting JSON file consists of the following arrays: meta Contains basic information about the training. Format of the array with...
 
Maxim Dmitrievsky:

выше показал, вот еще 

https://tech.yandex.com/catboost/doc/dg/concepts/output-data_training-log-docpage/

увидел)
В общем неразбериха с терминологией
 

Изменение показателей в зависимости от смещения порога "вероятности" для классификации 0/1 от 0,45 до 0,65

По сути точность

Из гистограмм видно, что повышение точности классификации происходит достаточно плавно при смещении порога вероятности для классификации, чего нельзя сказать о прибыли.

Получается, что нужно учитывать не только эффективность классификации, но и давать оценку тому, как распределена прибыль между правилами (листьями), и какой порог чувствительности у них. Т.е. как не крути, а надо вытаскивать отдельные правила и давать им оценку.

 
elibrarius:
увидел)
В общем неразбериха с терминологией

а если взять кросс-валидацию? там все сабсеты учавствуют, значит валидация вернее чем тест

короче да, пофиг. У меня тест это 2-я часть подвыборки, но  буду называть ее валидационной тогда

Причина обращения: