Сложности в понимании статистических методов и их применения к данным

Aleksey Vyazmikin 2023.03.25 16:20 #11

Aleksey Nikolayev #:

Прочитал, но не могу сообразить, как сопоставить те эксперименты в примере с задачей - явно чего то не вижу в силу нехватки опыта. Можете подробней разъяснить на нашем примере, как Вы это представили?

Замечу, что число наблюдений на интервалах не одинаковое, кроме того, наблюдений может не быть на интервале. Интервал - временной период за который считался процент. Беру временные интервалы, так как считаю это правильным - для наблюдения, ведь прогноз нужно будет давать на будущее время, хотя бы один интервал. Больше - лучше.

Aleksey Nikolayev #:

Для его расчёта нужна функция CDF гипергеометрического распределения. Она есть в стат. библиотеке MQL5, но иногда считает с ошибками (если не исправили).

Вот тут я как раз совсем запутался - как я понимаю, что для в начале нужно тогда определить к какому распределению относится выборка? Если так, то нужно строить разные распределения и сравнивать их с имеющимся, правильно? Это вообще возможно автоматизировать?

Если я хочу определить pdf, то нужно воспользоваться функцией MathProbabilityDensityEmpirical()?

Не считаю себя экспертом в статистике, хотя изучил много информации - но в голове как то всё не укладывается, а спросить некого.

Машинное обучение в трейдинге: "Научите" советника !!! [за Обсуждение статьи "Критерий однородности

Aleksey Vyazmikin 2023.03.25 16:23 #12

RomFil #:

Я даже начинаю догадываться зачем Вам "это" ... :) Но без выборки трудно предложить конкретное решение. Решений может быть 100500 и предлагаете их здесь все предлагать чтобы потом был сделан соответствующий выбор?

В качестве альтернативы можно взять тот же столбец 5584 из выборки train.csv. Если принимается, то попробую на ней что-нибудь поколдовать.

Думаю, что выборка со столбцом 5584 косвенно относится к данному вопросу.

Без выборки трудно - но цель ветки то создать предикторы для выборки, а так что я могу дать - ну целевые и интервальные наблюдения. Сделаю попозже пример. Нули и единицы не вижу смысла давать - да и объём очень большой будет.

Обсуждение статьи "SQLite: нативная Есть ли закономерность в Машинное обучение в трейдинге:

Aleksey Vyazmikin 2023.03.25 18:13 #13

Добавляю выборку с преобразованием в проценты показателей временного ряда. Взяты измерения за месяц в одном интервале.

Всего интервалов 116.

Последний столбец - целевая - в неё попали отрицательные значения из предпоследнего столбца.

Второй и третий столбец с конца - это показатель всей выборки в процентах за минусом константы - его не вижу смысла использовать при обучении, к тому же предпоследний столбец не может быть получен в момент обучения.

Файлы:

Viborka_V_00.zip 4127 kb

FOREX и ЭКОНОМЕТРИКА. Теория, Есть ли закономерность в Показатель Херста

Aleksey Vyazmikin 2023.03.25 18:22 #14

Вот первая строка имеет такой вид в хронологическом порядке

А это в упорядоченном

Другая строка :)

Aleksey Nikolayev 2023.03.25 19:30 #15

Aleksey Vyazmikin #:

Прочитал, но не могу сообразить, как сопоставить те эксперименты в примере с задачей - явно чего то не вижу в силу нехватки опыта. Можете подробней разъяснить на нашем примере, как Вы это представили?

Замечу, что число наблюдений на интервалах не одинаковое, кроме того, наблюдений может не быть на интервале. Интервал - временной период за который считался процент. Беру временные интервалы, так как считаю это правильным - для наблюдения, ведь прогноз нужно будет давать на будущее время, хотя бы один интервал. Больше - лучше.

Вот тут я как раз совсем запутался - как я понимаю, что для в начале нужно тогда определить к какому распределению относится выборка? Если так, то нужно строить разные распределения и сравнивать их с имеющимся, правильно? Это вообще возможно автоматизировать?

Если я хочу определить pdf, то нужно воспользоваться функцией MathProbabilityDensityEmpirical()?

Не считаю себя экспертом в статистике, хотя изучил много информации - но в голове как то всё не укладывается, а спросить некого.

Ответил на конкретный вопрос - как проверить разное ли соотношение числа единиц и нолей в двух выборках.

Пусть N1 и N2 - длины двух выборок, а n1 и n2 - число единиц в них. Считаем:

double p = MathCumulativeDistributionHypergeometric(n2, N1 + N2, n1 + n2, N2, err); // err - для записи кода ошибки

Если p<0.05, то во второй выборке частота единиц ниже, а если p>0.95, то выше, чем в первой выборке. В остальных случаях ничего определённого сказать нельзя.

Машинное обучение в трейдинге: Cтатистика по трейдингу и Территория вероятности

Aleksey Vyazmikin 2023.03.25 19:44 #16

Aleksey Nikolayev #:

Ответил на конкретный вопрос - как проверить разное ли соотношение числа единиц и нолей в двух выборках.

Пусть N1 и N2 - длины двух выборок, а n1 и n2 - число единиц в них. Считаем:

Если p<0.05, то во второй выборке частота единиц ниже, а если p>0.95, то выше, чем в первой выборке. В остальных случаях ничего определённого сказать нельзя.

Запутался - вроде был вопрос о сохранении соотношения в будущем - т.е. предполагается, что новых данных пока нет.

Или идея в том, что бы разделить текущую выборку на две части и сравнить их?

Предсказание рынка на основе Вопросы от "чайника" Написать советника

RomFil 2023.03.25 20:14 #17

Aleksey Vyazmikin #:

Запутался - вроде был вопрос о сохранении соотношения в будущем - т.е. предполагается, что новых данных пока нет.

Или идея в том, что бы разделить текущую выборку на две части и сравнить их?

Поставленная задача по моему мнению не решается ... Будущее не известно!

Нельзя сказать, что на указанном горизонте будет столько то нулей, а столько единиц. Ведь в любой момент времени в будущем может произойсти какое-нибудь нетривиальное событие (типа как раньше при правлении Трампа ляпнет он что-нибудь и все антидолларовые пары летали как ракеты, аналогично было с фунтовыми парами по моему в конце какого-то из недавних годов).

Поэтому горизонт прогноза не более 2-3 шагов вперёд для финансовых рынков. Реально не более 1-2 шагов.

Эконометрика: прогноз на один О неравной вероятности движения торговая стратегия на базе

Aleksey Vyazmikin 2023.03.25 20:20 #18

RomFil #:

Поставленная задача по моему мнению не решается ... Будущее не известно!

Нельзя сказать, что на указанном горизонте будет столько то нулей, а столько единиц. Ведь в любой момент времени в будущем может произойсти какое-нибудь нетривиальное событие (типа как раньше при правлении Трампа ляпнет он что-нибудь и все антидолларовые пары летали как ракеты, аналогично было с фунтовыми парами по моему в конце какого-то из недавних годов).

Поэтому горизонт прогноза не более 2-3 шагов вперёд для финансовых рынков. Реально не более 1-2 шагов.

Так это редкие события - если они давали большой вес, то их и надо выявить и выкинуть (классифицировать нулем).

Лучше не думать тут о финансовых рынках, а представлять задачу, как я описал ранее - про машины и перекресток.

Как зависит эффективность нейросети как классифицировать ордера? Машинное обучение в трейдинге:

RomFil 2023.03.25 20:33 #19

Aleksey Vyazmikin #:

Так это редкие события - если они давали большой вес, то их и надо выявить и выкинуть (классифицировать нулем).

Лучше не думать тут о финансовых рынках, а представлять задачу, как я описал ранее - про машины и перекресток.

Их выявить можно и исключить можно из обучаемой выборки, но вдруг это исключенное событие появится в текущем отрезке, по которому имеется определённый прогноз. Появление такого события нельзя исключать. И в целом такая выборка будет класифицирована как нормальная, а в реальности внести большой вес в общий результат.

Очень запутано как-то всё это ... :)

нейронная сеть и входы Ошибки, баги, вопросы Машинное обучение в трейдинге:

Aleksey Vyazmikin 2023.03.25 20:40 #20

RomFil #:

Их выявить можно и исключить можно из обучаемой выборки, но вдруг это исключенное событие появится в текущем отрезке, по которому имеется определённый прогноз. Появление такого события нельзя исключать. И в целом такая выборка будет класифицирована как нормальная, а в реальности внести большой вес в общий результат.

Очень запутано как-то всё это ... :)

Так 100% гарантии никто и не хочет - редкие события на то и редки, что происходят не часто, а значит повторение должно быть с меньшей долей вероятности.

Другое дело, если выбросы равномерно распространены по всей выборке - то это уже какие то редкие закономерности скорей, которые и дальше будут повторяться. Их частоту видимо надо оценить и спрогнозировать - будут они в следующем окне (или N окон) или нет.

Ищу реальные, реально слитые Машинное обучение в трейдинге: SL быть или не

Автоматический расчет описательных статистик выборки на MQL5 - страница 2