Что такое обучение? - страница 29

 
spiderman8811 #:
1 к 20 и даже 1 к 50 это знакомые Герчика. Например, Гаврилов. Там ТФ типа недельного/дневного со входом на М5. Отбор дневок. В Ютуб есть, там про рынок CME показывает на Ninja Trader. Что меньше ещё поверю. 
Хуже когда 4-5 стопов подряд, поэтому и верно писали ранее, что сильно коротких не бывает, учитывается шум цены. 
Осознал по поводу 50/50 давно, но такие сигналы не нравятся, люблю более надёжные и проверенные статистикой и гарантией для входа и четкой отработки (системность).
Ясно
Понял вас
 
Aleksei Stepanenko #:
Прикольно, уровни - в этом что-то есть, но тяжело применить. 
Не совсем это уровни, скорее, диапазоны. Там идут по порядку и рисуют. Светофоры и смену зеркалок
 
Где-то год или года два назад спрашивал у чатботов, можно ли при обучении модели с помощью обратного распространения ошибки вместо стандартной целевой (значение следующей свечи) подавать результат торговли (прибыль, RF, PF, DD), то есть - при каждом наборе весов прогонять модель торговлей по истории и потом вычислять, на что чатботы отвечали "Это какое-то безумие!". 

Сейчас они отвечают "Да, можно". 

Либо за это время что-то произошло в плане наполнения датасетов, на которых обучались чатботы, а именно - неких экспериментов или теоретического обоснования, либо просто - чатботы стали умнее и что-то поняли))
 
Вечерний литературный досуг, когда стих шум дня



Онтология кластеризации или почему «естественной» группировки на ценовых графиках не существует

Классическое машинное обучение выросло из мира физических констант и стационарных сред. Когда мы кластеризуем оттенки цветов,
параметры ирисов Фишера или габариты деталей на конвейере, мы опираемся на объективную метрику. В этих мирах число — это скаляр,
а расстояние — это физическая реальность. Красный цвет объективно далек от синего в спектре частот.

Но когда исследователь переносит эти методы на график цены, он совершает категориальную ошибку.
Он подменяет информационное состояние (консенсус толпы в моменте) геометрической точкой. В этот момент рождается иллюзия,
что к рынку применимы понятия «близости» и «формы».

Кластеризация математически не является методом обнаружения. Это метод оптимизации геометрической проекции. Алгоритм не ищет «скрытую структуру».
Он минимизирует или максимизирует заданную функциональную форму в пространстве признаков, которое вы сконструировали самостоятельно.

В физических, биологических или бытовых доменах кластеризация работает стабильно, потому что объекты обладают инвариантными признаками
и стационарными распределениями. Цвет фотона не меняется от наблюдателя. Генотип вида эволюционирует медленно.
Мусор в контейнере подчиняется законам термодинамики и человеческой утилитарности. Границы кластеров там объективны или квазиобъективны.

На рынке ценовой ряд — это не объект. Это след рефлексивного взаимодействия алгоритмов, институциональных потоков, розничной ликвидности и макро-импульсов.
Распределение признаков не стационарно. Топология пространства деформируется в реальном времени. Требовать от рыночных данных той же группировки,
что от физических объектов, — это онтологическая фундаментальная ошибка, из-за которой всё дальнейшее исследование либо имеет статус потерянного времени,
либо, если у вас его много — проверки произвольной гипотезы. Рынок не содержит «естественных кластеров». Он содержит временные аттракторы ликвидности,
которые рождаются, смещаются и распадаются быстрее, чем сходятся итерации любого оптимизатора.

Кластеризация графика цены и его производных — изначально произвольное действие. Это не недостаток, а структурная данность.

Каждый шаг построения кластера является актом интервенции:
  • Выбор признаков — вы решаете, какие аспекты рынка считать релевантными, а какие — игнорировать.
  • Окно нормализации — вы задаёте горизонт локальной стационарности. N=50 даёт одну геометрию, N=200 — другую.
  • Метрика расстояния — вы постулируете, что такое «близость состояний». Евклид, косинус, Махаланобис, DTW — это разные аксиоматики, а не свойства данных.
  • Гиперпараметры (k, eps, min_samples) — вы принудительно задаёте грануляцию пространства.

Ни один из этих шагов не диктуется рынком. Все они — ваша гипотеза. Кластеризация лишь проверяет, насколько эта гипотеза геометрически согласована.

Следствие: Требовать «правильной» или «научно обоснованной» кластеризации для ценового ряда — бессмысленно. Правильной может быть только та кластеризация,
которая проходит утилитарную валидацию: даёт ли переход между полученными группами статистически значимое смещение в распределении
целевой переменной (доходности, волатильности, imbalance) на out-of-sample данных. Если да — произвол оправдан.
Если нет — это математически корректная, но экономически пустая проекция.

Популярные методы кластеризации (вроде K-Means) требуют, чтобы пространство было изотропным и предсказуемым.
В физическом мире «соседство» — это свойство объекта. В мире Форекса «соседство» — это случайный артефакт.

Отсутствие инвариантности: В группировке цветов «зеленый» остается «зеленым» всегда. В группировке ценовых траекторий состояние «рост на 1%» сегодня — это признак силы, а завтра — признак истощения.
Нестационарность метрики: Сама «линейка», которой мы меряем рынок, гнется и растягивается каждую секунду. Попытка требовать от рынка «красивых»,
«плотных» и «отделенных» друг от друга кластеров — это требование к хаосу вести себя как кристалл. И требовать от финансового кластера стабильной формы — это всё равно что требовать от облака, чтобы оно всегда было похоже на квадрат,
потому что нам так удобнее его классифицировать.


Но догматизм популярных алгоритмов сам есть категория ошибки.

Популярность k-means, DBSCAN, HDBSCAN, GMM в академической среде обусловлена тремя факторами:
  • Вычислительная эффективность на синтетических и стационарных датасетах (Iris, MNIST, UCI).
  • Простота интерпретации в евклидовом пространстве.
  • Наличие готовых библиотек.

Ни один из этих факторов не делает алгоритмы применимыми к Форекс. Каждый из них содержит жёсткие априорные утверждения, которые рынок систематически нарушает:
  • k-means предполагает сферические кластеры и одинаковый масштаб дисперсии. Рыночные режимы вытянуты, асимметричны и масштабируются по степенному закону.
  • DBSCAN требует фиксированной плотности eps. Ликвидность на рынке распределена фрактально: плотность ордеров меняется на порядки в зависимости от сессии, новостного фона и волатильности.
  • GMM опирается на гауссовы компоненты. Распределения доходностей имеют тяжёлые хвосты, кластеризацию волатильности и структурные разрывы.

Требовать применения этих алгоритмов к ценовым данным только потому, что они «стандартны в ML», — это глупость, маскирующаяся под строгость.
Это всё равно что требовать от линейки измерить кривизну пространства. Инструмент не виноват, но его применение без учёта онтологии данных превращает анализ в нумерологию.

Если цена — это не скаляр, а приращение — не вектор силы, то любое действие по их группировке является ничем иным, как набором произвольных правил.

Когда алгоритм проводит границу между кластером А и кластером Б на графике цены, он не «находит структуру». Он рисует её.
Это не акт открытия истины, это акт картографического насилия над данными. Любая «группировка по сходству» на рынке обоснована не более чем гадание на кофейной гуще,
потому что само понятие «сходства» здесь не дано природой, а назначено аналитиком.
  • Если мы используем Евклидово расстояние — это наш произвол.
  • Если мы используем корреляцию — это наш произвол.
  • Если мы группируем по траекториям LHC/HLC — это тоже наш произвол, попытка навязать дискретную логику непрерывному потоку «информационного шума».

Существует опасная интеллектуальная мода требовать от моделей «понятных» и «красивых» группировок. Считается, что если кластеры на графике не выглядят как четкие, разделенные шары, то модель плоха.

На самом деле, требовать от финансовой системы стационарных и визуально эстетичных кластеров — это высшая форма когнитивной слепоты.
Рынок не обязан группироваться так, чтобы это нравилось человеческому глазу или стандартному алгоритму из учебника.
Если состояния рынка перемешаны, если они перетекают друг в друга и не имеют четких границ в фазовом пространстве, то любая попытка «разрезать» их на аккуратные куски — это ложь.

Кластеризация на Форекс не открывает «истинные состояния рынка». Она проецирует вашу гипотезу на многомерное пространство признаков и проверяет, образует ли эта проекция границы, значимые для вашего целевого горизонта.
Требовать популярной формы группировки — глупость. Рынок не читает учебники по ML.
Считать данные «зашумлёнными» — эпистемическая лень. Нет модели → нет шума. Есть только неспецифицированный остаток.
Произвол в выборе метрики, признаков и алгоритма — не баг, а точка дизайна. Он ограничивается только одним: утилитарной валидацией на непересекающихся данных.


Эквивалентность произвола идёт от Ишимоку до DBSCAN.
В этой пустоте обоснований возникает самый ироничный парадокс: между сложнейшим математическим алгоритмом и субъективным индикатором нет никакой разницы на уровне истины.
Если мы признаем, что пространство цены — это плод нашего воображения, то инструмент, которым мы «режем» это пространство, теряет свою сакральность.

Использование DBSCAN или HDBSCAN для поиска «сгущений» в данных ничем не честнее, чем группировка состояний по положению звезд или по толщине облака Ишимоку.
Математическая сложность алгоритма — это лишь интеллектуальное кокетство, попытка придать веса произвольному решению.

Если вы решите, что «состояние рынка №1» — это когда цена находится внутри облака Ишимоку, а «состояние №2» — когда Юпитер находится в ретроградной фазе,
вы совершите ровно тот же акт назначения правил, что и дата-сайентист, подбирающий параметр epsilon в алгоритме кластеризации. Разница лишь в фасаде: в одном случае это выглядит как «древнее знание» или «технический анализ»,
в другом — как «Data Science». Но под капотом у обоих — абсолютное отсутствие связи с объективной реальностью Форекса.

Сакрализация формул на форексе — это карго-культ.
Требовать от модели именно «научных» методов группировки — значит поклоняться форме, а не сути. Если метрическое расстояние между ценами — это фикция, то и «плотность», которую ищет DBSCAN — это фикция.

Мы можем с тем же успехом кластеризовать график по:
  • Количеству букв в заголовке последней новости Bloomberg.
  • Геометрическим теням от индикатора Ichimoku.
  • Любому другому набору произвольных признаков.

И ни один из этих методов не будет «хуже» или «неправильнее» классического МЛ. Они все равноудалены от реальности. Попытка объявить одни методы «научными», а другие «глупыми» на рынке, где не существует стационарных законов — это лишь способ академического самообмана.