Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3082

 
Maxim Dmitrievsky #:

Чтобы nuisance параметры превратить в ф-ии, можно использовать выходные значения RF или любого базового алгоритма, как в статье. Для совсем неодаренных: заменить значения выделенных параметров на значения функций. Тогда как линейная регрессия (или любой другой алгоритм) будет мета лернером, через который оценивается тритмент эффект. Почему и как все это работает - учите матчасть.

Для понимания достаточно начать думать головой. Но Саныч опять начнет чудить, ибо лишь бы че взболтнуть не подумамши. Саныч, твое непонимание настолько велико, что ты приводишь параметры RF в качестве какого-то доказательства, что абсолютно мимо. Я тебе 3 раза написал - забудь про RF. Последний раз говорю: изучи тему, потом разглагольствуй. Иначе такие же недоучи слепо верят тебе.

И не надо на мои посты отвечать с апломбом всезнайки (что раздражает), ибо ты ничего не знаешь, а выглядит это как бред птушника.

Все ссылки на источники приведены в статье. Вас как слепых котят тыкать в каждое слово нужно? Или вы все-таки взрослые люди?

Это Вы уже нечто другое цитируете же...

Хорошо обучили модель, взяли спонтанно предикторы и заменили их на значения, что предсказала модель, дальше обучаем опять модель. Сравниваем результат через RMSE для регрессионных моделей/данных. Если результат улучшился, то замененные предикторы изменили на отрезке обучения свои свойств, или как?

 
Lilita Bogachkova #:

У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?

Кроме того, я получаю следующие результаты тестовых данных: зеленые ячейки очень хорошие, желтые ячейки хорошие, красные ячейки средние.

Я не знаток, но поделюсь мыслями.

Мало кому удаётся получить модель, которая успешно работает на разных символах. Поэтому можно считать, что это хорошее достижение, если это действительно так. Предполагаю, что модель видит паттерны, которые вероятностно одинаково реализуются.

Lilita Bogachkova #:

А также вопрос о модификации данных для обучения модели. Я заметила, что модель с трудом находит экстремумы, в моем случае значения выше 60 и значения ниже 40. 
Поэтому я нахожу в тренировочных данных значения выше 60 и ниже 40, которые я дополнительно повторно добавляю в тренировочные данные перед их подачей в модель, поэтому вопрос: можно ли повысить точность модели за счет увеличения обучающие данные, содержащие информацию об экстремумах?

Если добавляете больше примеров - то модель может найти в них объединяющую закономерность, если она там есть в призме используемых предикторов.

 
Maxim Dmitrievsky #:

Чтобы nuisance параметры превратить в ф-ии, можно использовать выходные значения RF или любого базового алгоритма, как в статье. Для совсем неодаренных: заменить значения выделенных параметров на значения функций. Тогда как линейная регрессия (или любой другой алгоритм) будет мета лернером, через который оценивается тритмент эффект. Почему и как все это работает - учите матчасть.

Для понимания достаточно начать думать головой. Но Саныч опять начнет чудить, ибо лишь бы че взболтнуть не подумамши. Саныч, твое непонимание настолько велико, что ты приводишь параметры RF в качестве какого-то доказательства, что абсолютно мимо. Я тебе 3 раза написал - забудь про RF. Последний раз говорю: изучи тему, потом разглагольствуй. Иначе такие же недоучи слепо верят тебе.

И не надо на мои посты отвечать с апломбом всезнайки (что раздражает), ибо ты ничего не знаешь, а выглядит это как бред птушника.

Все ссылки на источники приведены в статье. Вас как слепых котят тыкать в каждое слово нужно? Или вы все-таки взрослые люди?

Я обсуждал статью, а не Вашу фигу в кармане, которых, верю, там очень много в соответствии со списком литературы, на которую Вы ссылаетесь.

Если у Вас такое горячее желание продолжить обсуждение выложенной Вами статьи, то я готов продолжить, но: только статью и только мои аргументы, причем в  форме, исключающей запредельное хамство с Ваше стороны.


В статье обсуждалась RF. Других функций, которые бы вычисляли ошибку подгонки, как и саму подгонку, я не увидел. Поэтому, будьте любезны, возьмите текст статьи и приведите конкретно цитату, которая опровергает эту мысль.

 
Lilita Bogachkova #:

У меня вопрос к знатокам машинного обучения. Если я использую данные одного символа для обучения, данные другого символа для валидации и данные третьего символа для тестирования, является ли это хорошей практикой?

Кроме того, я получаю следующие результаты тестовых данных: зеленые ячейки очень хорошие, желтые ячейки хорошие, красные ячейки средние.


А также вопрос о модификации данных для обучения модели. Я заметила, что модель с трудом находит экстремумы, в моем случае значения выше 60 и значения ниже 40. 
Поэтому я нахожу в тренировочных данных значения выше 60 и ниже 40, которые я дополнительно повторно добавляю в тренировочные данные перед их подачей в модель, поэтому вопрос: можно ли повысить точность модели за счет увеличения обучающие данные, содержащие информацию об экстремумах?

Если разницу между инструментами не сможете определить, то можно. Или насильно довести их до такого состояния, вычитая разницу. 

По второму вопросу нет скорее всего, нельзя. Будет больше ошибаться в других местах, потому что потянут градиент на себя. Но это индивидуально все.
 
Maxim Dmitrievsky #:
Если разницу между инструментами не сможете определить, то можно. Или насильно довести их до такого состояния, вычитая разницу. 

По второму вопросу нет скорее всего, нельзя. Будет больше ошибаться в других местах, потому что потянут градиент на себя.

На данный момент это действительно выглядит так.


Однако, прежде чем отказаться от этой идеи, я посмотрю, что получится в результате обучения модели, если смешать разные инструменты (символы) вместе, а затем создать данные, содержащие только экстремальные значения.

 
Lilita Bogachkova #:

На данный момент это действительно выглядит так.


Однако, прежде чем отказаться от этой идеи, я посмотрю, что получится в результате обучения модели, если смешать разные инструменты (символы) вместе, а затем создать данные, содержащие только экстремальные значения.

Попробуйте, ну. Я не увидел разницы между одним и несколькими.
 
Maxim Dmitrievsky #:
Если разницу между инструментами не сможете определить, то можно. Или насильно довести их до такого состояния, вычитая разницу. 

Практика с различными символами для обучения, валидации и тестирования в настоящее время позволяет повысить точность прогнозирования. В качестве плюса для такой практики могу отметить, что нет ограничений на размер данных, вы можете давать столько, сколько хотите или нужно для валидации или обучения.

При тестировании с третьим символом сразу видно, способна ли модель находить универсальные закономерности, а не загоняться на узкие рыночные события, присущие конкретному символу.

 
Lilita Bogachkova #:

Практика с различными символами для обучения, валидации и тестирования в настоящее время позволяет повысить точность прогнозирования. В качестве плюса для такой практики могу отметить, что нет ограничений на размер данных, вы можете давать столько, сколько хотите или нужно для валидации или обучения.

При тестировании с третьим символом сразу видно, способна ли модель находить универсальные закономерности, а не загоняться на узкие рыночные события.

Если смещения в данных большого нет. У разных символов разная дисперсия признаков, на них модель может удрейфовать или вообще залипнуть в одном положении. Если признаки хотя бы не меняют своих свойств от символа к символу, то можно.
 
Я хочу услышать мнение об исправлении обучающих данных путем удаления значений, повторяющихся несколько раз подряд, например значений, повторяющихся более 4 раз подряд.
seq = remove_repeating_values(seq, 5)
Насколько я понимаю, такие равные значения имеют тенденцию достигать нескольких десятков в случае флэтового рынка. Что на мой взгляд мешает обучению модели.
 
Lilita Bogachkova #:
Я хочу услышать мнение об исправлении обучающих данных путем удаления значений, повторяющихся несколько раз подряд, например значений, повторяющихся более 4 раз подряд.
Насколько я понимаю, такие равные значения имеют тенденцию достигать нескольких десятков в случае флэтового рынка. Что на мой взгляд мешает обучению модели.
Обычно модели рандомно выдергивают значения, а не подряд. И перемешать выборку - признак хорошего тона :) lstm можно выбросить и мешать выборки.
Причина обращения: