Алгоритм объединения диапазонов отрезка - помогите создать - страница 7

 
Aleksey Nikolayev:

Вопрос не по теме и скорее философский. Осознаётся ли, что подход к классификации посредством разбиения признаков на отрезки подразумевает разрывную зависимость выходов от входов? То есть, может возникнуть ситуация, когда сделка откроется при одном наборе значений признаков и не откроется при другом очень-очень близком к первому (они рядом с границей, но по разную сторону от неё). Я не говорю, что это неправильный подход. Просто хочу спросить - стоит ли за ним какая-то трейдерская интуиция или это произвольный выбор?

Да, такое возможно, в теории. Однако, метод бустинга подразумевает строения множества последовательных деревьев на разных предикторах, а значит для другого признака может быть выбрана нужная граница (если есть статистическое обоснование), таким образом "ошибка" нивелируется.

Aleksey Nikolayev:

Как возможный альтернативный вариант можно предложить классификацию посредством логистической регрессии или методом ближайших соседей. Там на выходе можно получать оценку вероятности принадлежности к классу, которую можно, например, использовать для определения объёма сделки. Не настаиваю на каких-либо конкретных алгоритмах, просто интересует трейдерский аспект выбора конкретного алгоритма МО.

CatBoost так же дает оценку вероятности принадлежности к классу, но по моим наблюдением всё ровно наоборот - большая уверенность в редких наблюдениях, которые недостаточно часто возникают и это ведет к их переоценке, а на независимой выборке это приведет либо к неверной классификации либо к ещё более редкому возникновению высокого показателя.

Почему для трейдинга я использую CatBoost:

1. Быстрый алгоритм.

2. Современный и развивающийся алгоритм, включающий множества достижений в МО из коробки.

3. Автономный способ применения модели в MT5 без Питона и R.

 
Aleksey Vyazmikin:

Вопрос тут в том, как выявить "множество ценных отрезков и токсичных" - т.е. требуется выявить их взаимозаменяемость, либо делать в два прохода, как я ранее предложил. Или у Вас есть иной вариант?

Знаю способ только в два прохода. Сперва строим карту, потом выбираем путь. Сразу, без карты тоже можно пойти, но это гораздо большие риски, особенно когда овраги и болота по пути, и компаса, звезд и солнца нет)

Вопрос в стоимости действий и наличии начальных данных. Видимо отсюда надо ставить задачу. Условия разные могут быть. Мы знаем количество точек и отрезков. Мы не знаем количество отрезков, но знаем количество точек, Мы не знаем количество точек и отрезков, знаем только что их достаточно много. Мы знаем что количество отрезков от точки не более N. 

В общем эту часть сперва нужно формализовать. 

 
Aleksey Vyazmikin:

Да, такое возможно, в теории. Однако, метод бустинга подразумевает строения множества последовательных деревьев на разных предикторах, а значит для другого признака может быть выбрана нужная граница (если есть статистическое обоснование), таким образом "ошибка" нивелируется.

Иногда возникает ощущение, что это вовсе не ошибка и зависимость ответа от признаков (в наших задачах) вполне может иногда быть скачкообразной.

Aleksey Vyazmikin:

CatBoost так же дает оценку вероятности принадлежности к классу, но по моим наблюдением всё ровно наоборот - большая уверенность в редких наблюдениях, которые недостаточно часто возникают и это ведет к их переоценке, а на независимой выборке это приведет либо к неверной классификации либо к ещё более редкому возникновению высокого показателя.

Имею в виду, что обученная модель для каждого конкретного набора признаков вместо ответа "либо 0, либо 1" даёт ответ в виде числа на отрезке от 0 до 1. Логистическая регрессия, например, работает именно так. В случайных лесах вроде бы тоже так можно, но не понял имеете ли вы в виду именно это или говорите про метрики.

 
Dmitry Fedoseev:

Дмитрий, помогите, пожалуйста, мне надо поменять в алгоритме массив cut[] с int на float, но компилятор сыплет ошибками.

 
Valeriy Yastremskiy:

Знаю способ только в два прохода. Сперва строим карту, потом выбираем путь. Сразу, без карты тоже можно пойти, но это гораздо большие риски, особенно когда овраги и болота по пути, и компаса, звезд и солнца нет)

Полный мрак ожидает отважных путников :)

Valeriy Yastremskiy:

Вопрос в стоимости действий и наличии начальных данных. Видимо отсюда надо ставить задачу. Условия разные могут быть. Мы знаем количество точек и отрезков. Мы не знаем количество отрезков, но знаем количество точек, Мы не знаем количество точек и отрезков, знаем только что их достаточно много. Мы знаем что количество отрезков от точки не более N. 

В общем эту часть сперва нужно формализовать. 

Ну как же, количество точек и отрезков мы знаем в начале поиска, даже знаем вероятный максимум отрезков, которые могут уместится в однин - 40 штук (если в отрезке не менее 5% точек от одного вида целевой при двух вариантах).

По факту отрезков разное количество может быть для перебора - сейчас получил, что от 1 до 263, но там могут быть дубликаты.

 
Aleksey Nikolayev:

Иногда возникает ощущение, что это вовсе не ошибка и зависимость ответа от признаков (в наших задачах) вполне может иногда быть скачкообразной.

Если говорить о статистическом попадании в отрезок большего процента одного из классов, то да, отрезки расположенные рядом могут иметь разную предрасположенность к целевой. Я даже хочу попробовать сделать трансформацию с целью облегчения обучения, суть трансформации будет ранжирование отрезков по типу принадлежности к целевой и степени вероятности, таким образом в левой части будут отрезки для нулей, а в правой для единиц - в центре слабо выраженные.

Aleksey Nikolayev:

Имею в виду, что обученная модель для каждого конкретного набора признаков вместо ответа "либо 0, либо 1" даёт ответ в виде числа на отрезке от 0 до 1. Логистическая регрессия, например, работает именно так. В случайных лесах вроде бы тоже так можно, но не понял имеете ли вы в виду именно это или говорите про метрики.

Это модель CatBoost после обучения по оси x вероятностная шкала - синяя кривая - количество примеров, видно что их число снижается.

Аква - класс 0, а магнетта - класс 1. Красная кривая - убыток, салатовая - прибыль.

а это та же модель уже на независимой выборке.

Думаете у логистической регресси другое распределение будет?

Сам же алгоритм логистической регрессии без тюнинга параметров проигрывает CatBoost.

 
Aleksey Vyazmikin:

Думаете у логистической регресси другое распределение будет?

Сам же алгоритм логистической регрессии без тюнинга параметров проигрывает CatBoost.

Нет, я не про сравнение алгоритмов на практике. Интересует философский вопрос, как при выборе алгоритма и его обучении правильно учитывать то, что классы могут быть а) чётко отделёнными друг от друга, б) перемешанными, в) некая смесь пунктов а) и б). Для пункта (а) нужна чёткая классификация, для (б) - нечёткая, а для (в) - нужно как-то их смешать, но не взбалтывать.

Возможно, мне стоит перенести свой вопрос в ветку про МО.

 
Aleksey Nikolayev:

Нет, я не про сравнение алгоритмов на практике. Интересует философский вопрос, как при выборе алгоритма и его обучении правильно учитывать то, что классы могут быть а) чётко отделёнными друг от друга, б) перемешанными, в) некая смесь пунктов а) и б). Для пункта (а) нужна чёткая классификация, для (б) - нечёткая, а для (в) - нужно как-то их смешать, но не взбалтывать.

Возможно, мне стоит перенести свой вопрос в ветку про МО.

С четким разделением, пожалуй, справится любой алгоритм. Вопрос в том, какой алгоритм может лучше выделить подпространство для выделения областей перемешанных классов.

Проблема разметки в трейденге - сомнительность правильности разметки - отсюда и дополнительная сложность в обучении.

Я не работал со множеством, имеющихся в настоящий момент, методов МО, поэтому оценить их достоинства и недостатки в должной мере не могу.

 
Может экстраполировать пространство в будущее в виде фрактальных кластеров .   
 
Veniamin Skrepkov:
Может экстраполировать пространство в будущее в виде фрактальных кластеров .   

Покажете, как это сделать?

Причина обращения: