Bayesian regression - Делал ли кто советник по этому алгоритму? - страница 35

 

Что, снова мало????

Ну, на еще больше:

 Dependent: AUDNZD           Multiple R =  .83469441     F = 3845.556

                                       R?=  .69671476    df =   1,1674

  No. of cases: 1676          adjusted R?=  .69653358     p = 0.000000

               Standard error of estimate:  .053321255

  Intercept:  6.047516031  Std.Error: .0782142  t( 1674) = 77.320  p = 0.0000


 

Контрольный в голову:

 Dependent: NZDCAD           Multiple R =  .87619213     F = 5532.591

                                       R?=  .76771265    df =   1,1674

  No. of cases: 1676          adjusted R?=  .76757389     p = 0.000000

               Standard error of estimate:  .032035522

  Intercept: -2.664033151  Std.Error: .0469913  t( 1674) = -56.69  p = 0.0000


 
Дмитрий:

Уже R^2 "очень низкий"?

А взаимосвязь существует? 

Взаимосвязь невыявлена. R слабый. Так уж получилось, что сам я очень активно использую R2 в оценке качества эквити своих стратегий, и поверь, насмотрелся на сотни графиков, чей R2 был примерно таким, каким он представлен здесь. Эта полная жесть, неотличимая от СБ.

 
Vasiliy Sokolov:

Взаимосвязь невыявлена. R слабый. Так уж получилось, что сам я очень активно использую R2 в оценке качества эквити своих стратегий, и поверь, насмотрелся на сотни графиков, чей R2 был примерно таким, каким он представлен здесь. Эта полная жесть, неотличимая от СБ.

))))))))))))))))))))))))))0
 

Помню в R-project делал такую штуку: генерил тысячу рыночных случайных траекторий, по тысячу измерений каждую. Затем накидывал на каждую из них линейную регрессию и получал ее R^2. В итоге, получившийся вектор значений R^2 получился равномерно распределенной величиной от нуля до 0.99... Со средним около 0.5. Предлагаю всем желающим повторить получившийся у меня результат, и задуматься над сутью того, что мы считаем.

з.ы. жаль под рукой нет ни R, ни этих кодов, так бы одна картинка стоила бы тысячу слов...

 
Vasiliy Sokolov:
Помню в R-project делал такую штуку: генерил тысячу рыночных случайных траекторий, по тысячу измерений каждую. Затем накидывал на каждую из них линейную регрессию и получал ее R^2. В итоге, получившийся вектор значений R^2 получился равномерно распределенной величиной от нуля до 0.99... Со средним около 0.5. Предлагаю всем желающим повторить получившийся у меня результат, и задуматься над сутью того, что мы считаем.

И?

В чем смысл написанного? В том, что регрессионным анализом не надо пользоваться на том основании, что один из n-ого числа сгенерированных ГПСЧ ряда может показать большое R^2?

Так это надо все методы матстатистики и прогнозирования выкинуть 

 
Vasiliy Sokolov:

Поражаюсь высоким уровнем владения математическими методами участников дискуссии на фоне полного непонимания принципов их применимости. Любая регрессия анализирует взаимосвязанные данные. Если взаимосвязи нет, то регрессия не применима. Если распределение изучаемых величин отличное от нормального, методы параметрической статистики также не применимы. Рынок не обладает свойством нормальности. Также рынок, как процесс, не зависит от времени. И то и другое, перечеркивает саму идею регрессионного анализа, какой бы он не был на корню. 

Проблема в том что многие участники, включая вас, не понимают сути регрессии и используют непомнятно отуда взятые определения. В правильном определении регрисионного анализа нет ограничений на распределение ошибок. Главное это чтобы ошибки были статистически независимы друг от друга чтобы позволить представить суммарную ошибку регрессии как сумму функций индивидуальных ошибок. Всё остальное это частные случаи регрессии. Например, требование нормальности ошибок только применимо к средне-квадратичной регрессии, т.е. когда суммарная ошибка регрессии представлена как сумма квадратов индивидуальных ошибок. Это наиболее простой способ регрессии так он ведёт к решению системы линейных уравнений. Если не хотите делать предположение о нормальности ошибок, то используйте любое друго распределение. Вместо суммы квадратов, суммарная ошибка будет представляться суммой каких-то других функций индивидуальных ошибок.

Попробую объяснить так. Домустим имеем измерения y и входные данные x. Построим график y  от x. Точки y(x) образуют какое-то облако. Если это облако круглое с равномерной плотностью точек во всех направлениях, то как не крутись и не извращайся с распределением ошибок, модель y(x) не существует так как y и x независимы. Если это облако вытянуто в каком-то направлении, то можем построить модель. В таком случае у нас несколько выборов модели:

1. Строим линейную y_mod(x) = a + b*x или нелинейную y_mod(x) = F(x) = example = a0 + a1*x + a2*x^2 +... модели.

2. Предпологая независимость ошибок измерений e[i] = y[i] - y_mod[i], предпологаем их нормальность err_sum = SUM e[i]^2, либо ненормальность err_sum = SUM G(e[i]) где G() это любая "неквадратная" функция, например G(e) = |e|, или в общем случае G(e) = |e|^p. Можно извратиться и сделать такую функцию ошибки где больший вес уделяется например отрицательным значениям y[i]. Какую мы выберем G(e) не влияет на предсказуемость y как функции x. Это только влияет на то как мы будем чертить прямую линию через облако y(x). Например, если G(e) = e^10, то эта прямая будет лежать ближе к большим значениям y.

Выбор линейной y_mod(x) = a + b*x или полиномной y_mod(x) = a0 + a1*x + a2*x^2 +... модели зависит от формы нашего вытянутого облако. В обоих случаях можно использовать средне-квадратичную регрессию, которая будет вести к системе линейных уравнений, которая решается быстро.

Теперь поговорим о времени. Если y(t) и x(t) зависят от времени. что случается почти в всех случаях регрессии так как измерения делаются в разные моменты времени, то это не изменяет сути дела. По прежнему можно говорить о регрессии y(t) = F(x(t)). Если функция y(t) = F(x(t)) зависит от времени, т.е.  y(t) = F(x(t),t), то статическая регрессия y=F(x) на всём промежутке времени неприменима. Нужно использовать динамическую модель y=F(x,t).

 
Vladimir:
По исследованиям одного из математиков (фамилию не помню, работает на ФИНАМ), распределение близко к нормальному с вытянутыми хвостами (но это понятно почему). Так что линейная регрессия, имхо, вполне рулит.
 
Yuriy Asaulenko:
По исследованиям одного из математиков (фамилию не помню, работает на ФИНАМ), распределение близко к нормальному с вытянутыми хвостами (но это понятно почему). Так что линейная регрессия, имхо, вполне рулит.
Я испробовал кучу разных распределений ошибок. Особой разницы в результатах не заметил, только время расчёта растёт значительно. Поэтому использую средне-квадратичную регрессию. Боюсь называть её линейной, так как функция y(x) можеть быть нелинейной по переменной x, но линейной по коэффициентам модели, в каком случае средне-квадратичная регрессия всё равно даёт ощутимое убыстрение вычсислений. Вместо уделения столько много времени теориям применимости нормальности и регрессии, намного важнее говорить о подготовке входных данных так как я могу вытянуть это облако y(x) или сделать его круглым простым преобразованием входа x и измерений y. Как мы будем чертить прямую или параболу через это облако и рассчитывать ошибки моделирования (квадратами или абсолютными значениями) это уже дело второстепенное.
 

Обращаюсь к скептикам.

Леди и джентельмены, дамы и господа, товарищи! В вашей системе спиртообращения слишком много крови.(С)

 Что можно математически моделировать на R если не определились с концептуальными вопросами для формулы Байеса: что там за рынок справа  от нулевого бара. И рынок ли? А может хороший игровой симулятор с соответствующим алгоритмом? Какое распределение и функцию правдоподобия взять?

Да не сошелся свет клином на нормальном распределении. Байес уже умер когда Гаусс родился. Я предложил взять нормальное распределение приращений, потому что вы , скептики, это убедительно показали.  И, если вы, скептики утверждаете что то не подходит, это не применимо, то предложите пожалуйста то, что применимо , кроме того что уже предложено. Вашу функцию правдоподобия , закон распределения можно подставить в формулу Байеса, например как я описал на с.31 в посте от 8 марта под букетом. И посмотреть что будет получатся.

Причина обращения: