ООС не актуальна для фореста - Общее обсуждение

Forester 2018.05.29 09:50 #9621

Ivan Negreshniy:

А чем вы, для себя, обосновываете допустимость отклонений вниз, кроме чистой случайности?

Я не имею обоснований ожидать, что ООС должен быть лучше Train.
Как можно требовать от случайных данных ООС результатов лучших, чем на тех на которых учились? Этого не может быть, кроме как случайно.
Недавно в др. ветке писали, что ученик не может знать больше учителя.
Пример.
Часть данных (например 80%) на ООС будет знакома модели и там она покажет ту же ошибку что и на Train (пусть ошибка=30%), остальные 20% от данных ООС будут новые и не выученные, и будут давать ошибку 50%. В сумме эти 80% знакомых и 20% новых данных должны повышать ошибку ООС участка примерно до 35%.
Так что я ожидаю ухудшения результатов на ООС с большей вероятностью, чем улучшения.
Вероятность улучшения тоже есть, если в ООС попадет очень много удачных примеров, в большей пропорции чем на Train участке. Других вариантов уменьшения ошибки на ООС, я не представляю.

Ivan Negreshniy:

И какая тогда ваша главная задача, если не борьба с этой случайностью, ведь она нивелирует смысл и валидации и ООС и МО в целом.?))

Задача, - чтобы дельта ошибок была не слишком большой.

Обсуждение статьи "Глубокие нейросети Есть ли закономерность в Чудеса продолжаются!

Forester 2018.05.29 10:18 #9622

Вопрос к Алёше.
Как вы из своих 600 предикторов отсеиваете шумовые?

Ivan Negreshniy 2018.05.29 10:32 #9623

elibrarius:

Я не имею обоснований ожидать, что ООС должен быть лучше Train.
Как можно требовать от случайных данных ООС результатов лучших, чем на тех на которых учились? Этого не может быть, кроме как случайно.
Недавно в др. ветке писали, что ученик не может знать больше учителя.
Пример.
Часть данных (например 80%) на ООС будет знакома модели и там она покажет ту же ошибку что и на Train (пусть ошибка=30%), остальные 20% от данных ООС будут новые и не выученные, и будут давать ошибку 50%. В сумме эти 80% знакомых и 20% новых данных должны повышать ошибку ООС участка примерно до 35%.
Так что я ожидаю ухудшения результатов на ООС с большей вероятностью, чем улучшения.
Вероятность улучшения тоже есть, если в ООС попадет очень много удачных примеров, в большей пропорции чем на Train участке. Других вариантов уменьшения ошибки на ООС, я не представляю.

Задача, - чтобы дельта ошибок была не слишком большой.

Чтоб не запутаться, надо определиться с терминологией - ООС или OOS(out of sample) это данные, по определению не знакомые модели, другое дело IS(in sample)

Forester 2018.05.29 10:36 #9624

Ivan Negreshniy:

надо определиться с терминологией - ООС или OOS(out of sample) это данные, по определению не знакомые модели, другое дело IS(in sample)

Если будут найдены закономерности в данных, то примеры которые им соответствуют - можно считать знакомыми.

Yuriy Asaulenko 2018.05.29 10:46 #9625

elibrarius:

Вероятность улучшения тоже есть, если в ООС попадет очень много удачных примеров, в большей пропорции чем на Train участке. Других вариантов уменьшения ошибки на ООС, я не представляю.

В одной из книг по МО читал, что при обучении соотношение удачных-неудачных должно соответствовать реальности. Мы в равной степени должны обучать как удачным исходам, так и неудачным.

Forester 2018.05.29 10:53 #9626

Yuriy Asaulenko:

В одной из книг по МО читал, что при обучении соотношение удачных-неудачных должно соответствовать реальности. Мы в равной степени должны обучать как удачным исходам, так и неудачным.

А зачем тогда пытаются отфильтровать неудачные и шумовые примеры; или выделить их, переразметить на "незнаю" и снова обучить сеть?

Yuriy Asaulenko 2018.05.29 10:57 #9627

elibrarius:
А зачем тогда пытаются отфильтровать неудачные и шумовые примеры; или выделить их, переразметить на "незнаю" и снова обучить сеть?

Я не в курсе. Это к тем, кто этим занимается. Я обучаю как написал выше.

Maxim Dmitrievsky 2018.05.29 12:28 #9628

Dr. Trader:

Да, жаль что твоя демка слилась. А всё потому что ты на ООС слишком много смотришь, хотя сам же приводил статью где написано что по ООС выбирать модели нельзя, да и на форуме тут много раз писали тоже самое.

ООС не актуальна для фореста.. смотрю ООБ, уже писал что прямая корреляция между ООБ и устойчивостью на ООС.

Не получилась на ООБ ошибка такая же как на трейне пока что, всегда больше минимум в 2 раза. Потом еще поделаю, сейчас надоела эта муть :)

Может быть, придется-таки перейти на Р и взять модель саму получше, т.к. сам алглиб не дает больше ничего посмотреть

Любой вопрос новичка, чтоб Есть ли закономерность в Любые вопросы новичков по

Yuriy Asaulenko 2018.05.29 14:03 #9629

Maxim Dmitrievsky:

т.к. сам алглиб не дает больше ничего посмотреть

Уже давно вам говорили - тупиковый вариант. Моделировать надо не в МТ - R, МатЛаб, как А_К2, в ВисСим и пр.

Когда модель заработает, тогда можно и в МТ перенести, а можно и не переносить.)

Maxim Dmitrievsky 2018.05.29 14:12 #9630

Yuriy Asaulenko:

Уже давно вам говорили - тупиковый вариант. Моделировать надо не в МТ - R, МатЛаб, как А_К2, в ВисСим и пр.

Когда модель заработает, тогда можно и в МТ перенести, а можно и не переносить.)

еще что интересного скажете?

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 963