Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 963

 
Ivan Negreshniy:

А чем вы, для себя, обосновываете допустимость отклонений вниз,  кроме чистой случайности?

Я не имею обоснований ожидать, что ООС должен быть лучше Train.
Как можно требовать от случайных данных ООС результатов лучших, чем на тех на которых учились? Этого не может быть, кроме как случайно.
Недавно в др. ветке писали, что ученик не может знать больше учителя.
Пример.
Часть данных (например 80%) на ООС будет знакома модели и там она покажет ту же ошибку что и на Train (пусть ошибка=30%), остальные 20% от данных ООС будут новые и не выученные, и будут давать ошибку 50%. В сумме эти 80% знакомых  и 20% новых данных должны повышать ошибку ООС участка примерно до 35%.
Так что я ожидаю ухудшения результатов на ООС с большей вероятностью, чем улучшения.
Вероятность улучшения тоже есть, если в ООС попадет очень много удачных примеров, в большей пропорции чем на Train участке. Других вариантов уменьшения ошибки на ООС, я не представляю.

Ivan Negreshniy:

И какая тогда ваша главная задача, если не борьба с этой случайностью, ведь она нивелирует смысл и валидации и ООС и МО в целом.?)) 

Задача, - чтобы дельта ошибок была не слишком большой.

 
Вопрос к Алёше.
Как вы из своих 600 предикторов отсеиваете шумовые?
 
elibrarius:

Я не имею обоснований ожидать, что ООС должен быть лучше Train.
Как можно требовать от случайных данных ООС результатов лучших, чем на тех на которых учились? Этого не может быть, кроме как случайно.
Недавно в др. ветке писали, что ученик не может знать больше учителя.
Пример.
Часть данных (например 80%) на ООС будет знакома модели и там она покажет ту же ошибку что и на Train (пусть ошибка=30%), остальные 20% от данных ООС будут новые и не выученные, и будут давать ошибку 50%. В сумме эти 80% знакомых  и 20% новых данных должны повышать ошибку ООС участка примерно до 35%.
Так что я ожидаю ухудшения результатов на ООС с большей вероятностью, чем улучшения.
Вероятность улучшения тоже есть, если в ООС попадет очень много удачных примеров, в большей пропорции чем на Train участке. Других вариантов уменьшения ошибки на ООС, я не представляю.

Задача, - чтобы дельта ошибок была не слишком большой.

Чтоб не запутаться, надо определиться с терминологией - ООС или OOS(out of sample) это данные, по определению не знакомые модели, другое дело IS(in sample)

 
Ivan Negreshniy:

надо определиться с терминологией - ООС или OOS(out of sample) это данные, по определению не знакомые модели, другое дело IS(in sample)

Если будут найдены закономерности в данных, то примеры которые им соответствуют - можно считать знакомыми.
 
elibrarius:

Вероятность улучшения тоже есть, если в ООС попадет очень много удачных примеров, в большей пропорции чем на Train участке. Других вариантов уменьшения ошибки на ООС, я не представляю.

В одной из книг по МО читал, что при обучении соотношение удачных-неудачных должно соответствовать реальности. Мы в равной степени должны обучать как удачным исходам, так и неудачным.

 
Yuriy Asaulenko:

В одной из книг по МО читал, что при обучении соотношение удачных-неудачных должно соответствовать реальности. Мы в равной степени должны обучать как удачным исходам, так и неудачным.

А зачем тогда пытаются отфильтровать неудачные и шумовые примеры; или выделить их, переразметить на "незнаю" и снова обучить сеть?
 
elibrarius:
А зачем тогда пытаются отфильтровать неудачные и шумовые примеры; или выделить их, переразметить на "незнаю" и снова обучить сеть?

Я не в курсе. Это к тем, кто этим занимается. Я обучаю как написал выше.

 
Dr. Trader:

Да, жаль что твоя демка слилась. А всё потому что ты на ООС слишком много смотришь, хотя сам же приводил статью где написано что по ООС выбирать модели нельзя, да и на форуме тут много раз писали тоже самое.

ООС не актуальна для фореста.. смотрю ООБ, уже писал что прямая корреляция между ООБ и устойчивостью на ООС.

Не получилась на ООБ ошибка такая же как на трейне пока что, всегда больше минимум в 2 раза. Потом еще поделаю, сейчас надоела эта муть :)

Может быть, придется-таки перейти на Р и взять модель саму получше, т.к. сам алглиб не дает больше ничего посмотреть
 
Maxim Dmitrievsky:

 т.к. сам алглиб не дает больше ничего посмотреть

Уже давно вам говорили - тупиковый вариант. Моделировать надо не в МТ - R, МатЛаб, как А_К2, в ВисСим и пр.

Когда модель заработает, тогда можно и в МТ перенести, а можно и не переносить.)

 
Yuriy Asaulenko:

Уже давно вам говорили - тупиковый вариант. Моделировать надо не в МТ - R, МатЛаб, как А_К2, в ВисСим и пр.

Когда модель заработает, тогда можно и в МТ перенести, а можно и не переносить.)

еще что интересного скажете?

Причина обращения: