Автоматический расчет описательных статистик выборки на MQL5 - страница 3

 
Aleksey Vyazmikin #:

вроде был вопрос о сохранении соотношения в будущем - т.е. предполагается, что новых данных пока нет.

А, это тогда к пифиям дельфийского оракула. Математика здесь бессильна.

 
Aleksey Nikolayev #:

А, это тогда к пифиям дельфийского оракула. Математика здесь бессильна.

Да, поэтому и предполагается использовать машинное обучение - вдруг выявится закономерность, которая человеку ещё не ведана.

Поэтому я и хочу собрать много разных метрик, описывающих выборку.

 
Aleksey Vyazmikin #:

Да, поэтому и предполагается использовать машинное обучение - вдруг выявится закономерность, которая человеку ещё не ведана.

Поэтому я и хочу собрать много разных метрик, описывающих выборку.

Ну, если речь о прогнозе наступления событий, то есть два типа моделей, отличающихся по тому, как устроено время. Если время дискретно - точно известен набор моментов времени, в которые события либо произойдут либо нет, то используется обычный подход классификации для разделения моментов времени на классы.

Если время непрерывно, то используется пуассоновская регрессия, где строится прогноз для интенсивности событий в единицу времени. Обычно эту регрессию излагают как линейную, но это не обязательно, вполне можно прикрутить бустинг или что другое.

 
Aleksey Nikolayev #:

Ну, если речь о прогнозе наступления событий, то есть два типа моделей, отличающихся по тому, как устроено время. Если время дискретно - точно известен набор моментов времени, в которые события либо произойдут либо нет, то используется обычный подход классификации для разделения моментов времени на классы.

Если время непрерывно, то используется пуассоновская регрессия, где строится прогноз для интенсивности событий в единицу времени. Обычно эту регрессию излагают как линейную, но это не обязательно, вполне можно прикрутить бустинг или что другое.

Да тут и с этим сложно. С одной стороны, у нас есть временной диапазон (на самом деле можно и только события взять, но думаю это не корректно) и есть события, которые происходят в разное время этого временного диапазона. События не могут происходить чаще чем в минуту, но при этом они могут вообще не происходить, т.е. если дискретная шкала, то получается три состояния - нет события, есть событие А или есть событие Б. Если брать больший диапазон и переходить на процент событий А или Б в единицу времени, то становится два показателя - нет события и процент событий А или Б. А или Б - зависит от того, что ищем - сохранение положительной (относительно условной константы) пропорции нулей или единиц - по сути разные категории. С другой стороны, можно говорить измерять только наличие или отсутствие события - появление нуля или единицы - в зависимости от категории искомого, тогда некая пуассоновская регрессия кажется разумной. Однако, никогда не работал с такой моделью.

Возможно, нужно использовать в начале регрессию, а потом классификацию.

Вчера пробовал классифицировать с помощью CatBoost выборку - на базе функции из первого поста - брал весь временной ряд, потом ещё по две половинки и считал метрики, так вот результат очень слабый - точность выявления нестабильных примеров колеблется в районе 52%. Нужны явно дополнительные метрики.

 
Я сейчас размышляю над одной задачей - и мне кажется что она схожа с вашей

Завтра на свежую голову прочитаю всю эту ветку и поделюсь своими наблюдениями - я думаю что у меня есть хороший способ определять так называемые "выбросы"

* и да - описательная статистика это вроде из регрессионного анализа?
 
Alexandr Sokolov #:
Я сейчас размышляю над одной задачей - и мне кажется что она схожа с вашей

Завтра на свежую голову прочитаю всю эту ветку и поделюсь своими наблюдениями - я думаю что у меня есть хороший способ определять так называемые "выбросы"

Конечно пишите! Любые идеи интересны, особенно если понятно, как их реализовать! :)

Alexandr Sokolov #:
* и да - описательная статистика это вроде из регрессионного анализа?

Скорей наоборот - это один из методов.

Я как раз сегодня думал, взять разные подходы построения формул, описывающих выборку (массив с числами), и записать коэффициенты в выборку (для обучения) - та же регрессия, полином и что там ещё бывает. Другое дело, что нужно автоматизировать их получение. Вроде как есть подобный функционал в AlgLib, но нужно с ней разбираться.

 
Aleksey Vyazmikin #:

Сразу не написал в задаче, но надо найти отрицательную величину изменения, что это - есть эталон и мы определяем дельту, так вот эта дельта не должна стать отрицательной на новых данных. К примеру единиц 36% в выборке, а эталон 30%, значит положительное значение дельты 6%, если значение дельты будет ниже нуля, то это негативная ситуация, которую надо идентифицировать

Почему именно отрицательная? - она же может быть и положительной, в чём суть или для чего?

 
Aleksey Vyazmikin #:

Поэтому я и хочу собрать много разных метрик, описывающих выборку

Ну в этом я думаю мало кто может помочь - я сам в подавляющем большинстве случаем ищу в гугле, изредка что-то сам пытаюсь придумать ;)

 
Alexandr Sokolov #:

Почему именно отрицательная? - она же может быть и положительной, в чём суть или для чего?

Ищется целевая "1", но логика заложена в эту целевую - все отрицательные разницы. Так мне надо :) По сути отрицательное значение означает, что явлений A стало слишком мало происходить относительно всех явлений.

Alexandr Sokolov #:

Ну в этом я думаю мало кто может помочь - я сам в подавляющем большинстве случаем ищу в гугле, изредка что-то сам пытаюсь придумать ;)

Ну тут такое дело - есть тут знающие люди, просто хотят они помочь или нет...

Информации конечно много в других источниках - для меня там проблема в понимании хитро-мудрых формул - не все ясно, в том числе откуда взялись уже разные переменные в них. Я осознаю, что не обладаю достаточным объемом знаний, что бы легко воспринять всю информацию, поэтому и прошу помощи у сообщества.

 

Ексель файл не могу прикрепить - пишет что некорректный формат файла, если хотите могу отправить в телеграмм



Причина обращения: