Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3331

 
Ivan Butko #:


Единственная претензия к Катющику - почему он ничего не построил до сих пор. Да хоть в гараже. На стримах собрал инженеров и бегом. Но, нет.

Это да, с этим не поспоришь. 

Ну как не построил. У него есть несколько магнитов на палке, тикеры и токеры из Ленты и пробка, плавающая в чеплашке с водой.

Так что не отчаивайтесь, все образуется.. Главное его достижение, что у вас теперь Катющик головного мозга.
 
Maxim Kuznetsov #:

а вы можете сформулировать идею марксизма ?

раз уж такой хороший пример :-)

Как философская система - марксизм перевёрнутое с ног на голову гегельянство с заменой "абсолютного духа" на "исторический процесс". Гегелевские догматизм и претензия на всеобщность переняты без изменений. Можно ещё сказать, что это одна из последних попыток реализма выжить в век побеждающего номинализма.

Сила марксизма, как идеи, в том, что он обосновывает архаизацию сознания, как нечто хорошее. Посему он легко овладевает массами, тянущимися к архаике и по этой причине относится к идеям, рулящим в мире.

 
Forester #:
Господа! А вы не перепутали тему? Хорошо бы 2-3 страницы подчистить от оффтопа.
У Алексея статья час назад вышла, почитайте.
Вроде бы уже обсосали его квантование в своё время со всех сторон. Добавить к сказанному ранее могу лишь то, что рад за него, что оно принесло ему как минимум 200 долларов.
 
Aleksey Nikolayev #:
Вроде бы уже обсосали его квантование в своё время со всех сторон. Добавить к сказанному ранее могу лишь то, что рад за него, что оно принесло ему как минимум 200 долларов.

Ваша веточка? Сегодня Вы много филосовских и других измышлений не по теме ветки (флуд) высказали, а как называется "несоблюдение своих же принципов"?
К тому же, как бы Кант и Диоген, а возможно и Аристотель с Пифагором, назвали бы человека, кайфующего от унижения, оскорбления и принижения достоинств и достижений другого человека?
 
Aleksey Nikolayev #:
Вроде бы уже обсосали его квантование в своё время со всех сторон. Добавить к сказанному ранее могу лишь то, что рад за него, что оно принесло ему как минимум 200 долларов.

Вот спасибо, приятно, что рады за мой доход - редкое это явление!

Статья вводная - Вы правы, всё что там написал - думаю, и так понятно.

Вторая часть на модерации, там чуть интересней. Впрочем, на данный момент я отказался от описания именно своего метода, и придумал упрощённый вариант, который дал на тестах небольшой эффект. Он будет описан во второй части.

Впрочем - это тот случай, когда новые идеи занимают не более 5% текста.

Заходите по желанию читать и комментировать.

 
Andrey Dik #:

Ваша веточка? Сегодня Вы много филосовских и других измышлений не по теме ветки (флуд) высказали, а как называется "несоблюдение своих же принципов"?
К тому же, как бы Кант и Диоген, а возможно и Аристотель с Пифагором, назвали бы человека, кайфующего от унижения, оскорбления и принижения достоинств и достижений другого человека?

Не знаю какого Диогена имеете в виду, но в смысле троллинга мы все дети малые в сравнении хоть с Диогеном Синопским, хоть с Диогеном Лаэртским.

Если посмотрите на даты той моей ветки, моей регистрации на ресурсе и сегодняшнюю, то станет понятнее. Через два года после регистрации надежда на возможность конструктивного и полезного общения на форуме ещё была, а через шесть с половиной - её почти не осталось. Just for fun.

 
Aleksey Vyazmikin #:

Вот спасибо, приятно, что рады за мой доход - редкое это явление!

Статья вводная - Вы правы, всё что там написал - думаю, и так понятно.

Вторая часть на модерации, там чуть интересней. Впрочем, на данный момент я отказался от описания именно своего метода, и придумал упрощённый вариант, который дал на тестах небольшой эффект. Он будет описан во второй части.

Впрочем - это тот случай, когда новые идеи занимают не более 5% текста.

Заходите по желанию читать и комментировать.

Спасибо за приглашение. Естественно, прочитал первую часть и вторую тоже прочитаю. Если возникнут какие-либо мысли по поводу текста, то обязательно поделюсь ими.
 
Forester #:

Зачем рандомно?
Цикл по всем точкам 1 класса, и измеряете расстояние до всех точек др. класса, берете минимальное расстояние.
Когда все получено, сортируете, удаляете до нужного вам расстояния, по одной паре. Если удаленная точка использовалась в другой паре, то находите освободившейся точке, новую с новым минимальным расстоянием, снова сортируете и продолжаете.
Может как то пооптимальнее можно придумать. Может и без сортировки - просто удалять до нужного расстояния.

Ех, туго до меня доходит, я так понимаю:

  1. Строим матрицу по сути расстояний - длина и ширина размером с число примеров в выборке.
  2. Строим уже новую матрицу, допустим бинарную, где единицы те точки, которые отвечают критерию "минимальное расстояние". 
  3. Как я понимаю, тут уже надо посчитать число точек в условном островке (просуммировать единицы в строках), и если их больше, чем в соседнем, а точки делятся между ними, то присвоить эти точки в кучку (кластер), где таких точек больше. Зафиксировать, что такая то точка относится к набору №n точек, и обнулить эти точки в матрицу из пункта два.
  4. Продолжать обнулять, пока точек не останется.

Правильно я понял прототип алгоритма?

Возвращаюсь к теме с такой задержкой, так как немного увлекла мысль о том, что листья в моделях CatBoost да и в других ансамблях деревьев, могут сильно коррелировать по активации, что искажает при обучении их уверенность, приводя к завышению значения в листе для модели в целом.

 
Aleksey Vyazmikin #:

Ех, туго до меня доходит, я так понимаю:

  1. Строим матрицу по сути расстояний - длина и ширина размером с число примеров в выборке.
  2. Строим уже новую матрицу, допустим бинарную, где единицы те точки, которые отвечают критерию "минимальное расстояние". 
  3. Как я понимаю, тут уже надо посчитать число точек в условном островке (просуммировать единицы в строках), и если их больше, чем в соседнем, а точки делятся между ними, то присвоить эти точки в кучку (кластер), где таких точек больше. Зафиксировать, что такая то точка относится к набору №n точек, и обнулить эти точки в матрицу из пункта два.
  4. Продолжать обнулять, пока точек не останется.

Правильно я понял прототип алгоритма?

Возвращаюсь к теме с такой задержкой, так как немного увлекла мысль о том, что листья в моделях CatBoost да и в других ансамблях деревьев, могут сильно коррелировать по активации, что искажает при обучении их уверенность, приводя к завышению значения в листе для модели в целом.

Кластеры тут не при чем. Это просто удаление ближайших точек с разными классами, противоречащих друг другу, т.е. шумовые. А потом хоть кластеризацией, хоть деревом - чем угодно обучаете.

1) Можно и матрицу, но не обязательно, а сразу находим каждой точке 0 класса самую ближайшую 1 класса, т.е. получаем сразу п.2.
3) ничего не считаем и не относим к кластерам, просто удаляем пары ближайших точек. С расстоянием меньше порога, порог в том примере хорошо подошел бы 0,6. В др. задачах видимо подбирать придется.
Если удаленная точка 1 класса участвовала в паре с другой точкой 0 класса, то она осталась без пары, ей надо найти новую ближайшую точку 1 класса (снова произвести расчет или воспользоваться матрицей, как вы предложили в п.1, если хватит памяти, думаю матрица 1млн на 1млн уже ни в какую память не влезет, до 100 тыс может быть).
4) не пока не останется, а до поргового расстояния. Если он оч. большой, то останутся только точки 1 из классов, которых изначально было больше.

Но, как я уже писал ранее, не думаю, что это удаление шума хорошая идея (см. https://www.mql5.com/ru/forum/86386/page3324#comment_50171043). Вы же не сможете этот шум удалять при прогнозировании. Дерево само пометит шумные листья тем, что даст им вероятность около 50%, а не шумные листья берите например с вероятностью одного из классов >80% (или сколько сочтете нужным).

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - На рыночных данных сигналы пропадают, потому что на новых данных сигналы выходят за узкий допустимый диапазон.
Машинное обучение в трейдинге: теория, модели, практика и алготорговля - На рыночных данных сигналы пропадают, потому что на новых данных сигналы выходят за узкий допустимый диапазон.
  • 2023.10.26
  • www.mql5.com
если в работу использовать листья с высокой чистотой классов и не делить листья до 1 примера в листе. остальные как то достигли чистоты листьев например 70 - вроде неплохо. Препочитаю дерево и лист с честными 53 чистоты одного из классов
 
Forester #:
Кластеры тут не при чем. Это просто удаление ближайших точек с разными классами, противоречащих друг другу, т.е. шумовые. А потом хоть кластеризацией, хоть деревом - чем угодно обучаете.

1) Можно и матрицу, но не обязательно, а сразу находим каждой точке 0 класса самую ближайшую 1 класса, т.е. получаем сразу п.2.
3) ничего не считаем и не относим к кластерам, просто удаляем пары ближайших точек. С расстоянием меньше порога, порог в том примере хорошо подошел бы 0,6. В др. задачах видимо подбирать придется.
Если удаленная точка 1 класса участвовала в паре с другой точкой 0 класса, то она осталась без пары, ей надо найти новую ближайшую точку 1 класса (снова произвести расчет или воспользоваться матрицей, как вы предложили в п.1, если хватит памяти, думаю матрица 1млн на 1млн уже ни в какую память не влезет, до 100 тыс может быть).
4) не пока не останется, а до поргового расстояния. Если он оч. большой, то останутся только точки 1 из классов, которых изначально было больше.

Но, как я уже писал ранее, не думаю, что это удаление шума хорошая идея (см. https://www.mql5.com/ru/forum/86386/page3324#comment_50171043). Вы же не сможете этот шум удалять при прогнозировании. Дерево само пометит шумные листья тем, что даст им вероятность около 50%, а не шумные листья берите например с вероятностью одного из классов >80% (или сколько сочтете нужным).

Пока не укладывается в голову. Хорошо это всё в одном пространстве же происходит - в метрике одного предиктора, а как учитывать остальные?

По поводу что делать при прогнозировании - я предполагал использовать две модели - одна детектит то, что отсеяли, или подтверждает, что данные в области "кучкавания", а другая уже работает на том, что осталось.

Причина обращения: