贝叶斯回归 - 有没有人用这种算法做了一个EA? - 页 38

 
Vasiliy Sokolov:
我订阅了每一个字。如果在下一节,这个回归的特征将绝对不同,那么建立一个回归的意义何在。你可以随心所欲地调整模型以适应数据,但至少在线性回归 方面,承认Y(价格)不取决于X(时间)更容易。

这是另一个常识性的例子。

我的一个同事在Coursera学习数据科学,做了一个毕业项目,他在一个随机生成的序列(马丁格尔,或者你可以说是一个具有正态分布增量的维纳过程)上建立了一个线性回归近似,并证明了在该序列的下一段中,所有回归参数是如何完全不可预测地漂移。玩具问题。

如果我要使用回归(我会倾向于梳状回归,尽管我不太了解其原理),我会在价格增量或价格导数上做文章。然后有机会获得强有力的指标。但即使在这种情况下,要获得正态分布的残差也是不现实的。

 
Alexey Burnakov:

这是另一个常识性的例子。

我的一个同事在Coursera学习数据科学,做了一个毕业项目,他在一个随机产生的序列(马丁格尔,或者你可以说是一个具有正态分布增量的维纳过程)上建立了一个线性回归近似,并证明了在该序列的下一段中,所有回归参数是如何完全不可预测地漂移。玩具问题。

如果我要使用回归(我会倾向于梳状回归,尽管我对它不是很了解,只知道原理),我应该在价格增量或价格导数上做文章。然后有机会获得强有力的指标。但即使在这种情况下,要得到正态分布的残差也是不真实的。

;)

对于岭回归来说,残差分布的正态性是不需要的。

贝叶斯 回归与梳状回归相似,但它是基于噪声在数据中呈正态分布的假设--因此它假设已经存在对数据结构的一般理解,这使得它有可能获得 线性回归 更准确的模型。

 
岭回归解决了多重共线性的问题--如果有这么多的自变量相互关联的话
 
Дмитрий:

;)

对于岭回归,残差分布的正态性是不需要的。


好吧,我承认,我对回归亚种不是很了解。但不要求残差的正态性,这一点非常好。而山脊回归可能更适用于市场。这里对系数的值进行了限制。我知道有这样的例子,这种对报价的回归给出了有力的结果。

当有可能将一些回归因子的系数退化为零时,也存在着L2-调节的回归。当有大量的回归因子,而我们需要降低输入向量的维度时,它是有用的。

但在不了解细节的情况下,进入回归矩阵的迷宫会很危险。

 
Дмитрий:
岭回归解决了多重共线性的问题--如果有这么多的自变量相互关联的话

而这也是岭回归的一个极为有用的方面。

在实践中,要获得回归者之间的独立性几乎是不现实的,而且勾稽关系的存在会扭曲序数线性回归 的所有统计数据。因此,正如SanSanych正确指出的那样,方法的适用性是第一位的。

 
Alexey Burnakov:


还有用L2-调节的回归,这时有可能将个别回归者的系数退化为零。如果有许多回归因子,并且我们需要降低输入向量的维度,这就很有用。


拉索-回归?是的,有这样一个东西。

在实践中,使用山脊回归更为方便--它被实现为一个带有因素的包容或排除的回归。

 
Дмитрий:

拉索回归?是的,有这样一个东西。

在实践中,山脊回归更方便--实现为一个带有排除或不排除因素的回归。

是的,它是。

下面是一个使用稳健回归预测报价的例子,比赛的第三名,但没有细节:http://blog.kaggle.com/2016/02/12/winton-stock-market-challenge-winners-interview-3rd-place-mendrika-ramarlina/

还有一个在我看来很华丽的例子:https://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge/forums/t/5966/share-your-approach

阅读Sergey Yurgenson,看看他的代码(在另一个竞赛中获得第二名)。

我的算法是在Matlab上编写的,下面将提供代码。该算法的主要思想是使用线性回归模型(稳健回归),使用少量的预测器,这些预测器是根据每个潜在预测器的p值来选择的。

Winton Stock Market Challenge, Winner's Interview: 3rd place, Mendrika Ramarlina
Winton Stock Market Challenge, Winner's Interview: 3rd place, Mendrika Ramarlina
  • 2016.12.02
  • blog.kaggle.com
The Stock Market Challenge, Winton's second recruiting competition on Kaggle, asked participants to predict intra and end of day stock returns. The competition was crafted by research scientist at Winton to mimic the type of problem that they work on everyday. Mendrika Ramarlina finished third in the competition with a combination of simple...
 

而关于L1/L2-调节的问题:https://msdn.microsoft.com/ru-ru/magazine/dn904675.aspx

在任何情况下,相互了解都是有益的。

 
Alexey Burnakov:

而这也是岭回归的一个极为有用的方面。

在实践中,要获得回归者之间的独立性几乎是不现实的,而且勾稽关系的存在会扭曲序数线性回归 的所有统计数据。因此,正如SanSanych正确指出的那样,方法的适用性是第一位的。

我已经尝试了主成分法。这似乎很理想。这种转换的结果是一组相互之间的相关性为零的回归者。你仍然可以挑出那些解释主要多样性的 "主要"。

为分类任务扼杀了大量的时间。至少要减少%的误差。

 
СанСаныч Фоменко:

我试着用主成分法。这似乎很理想。这种转换的结果是一组相互之间的相关性为零的回归者。也可以选择解释主要多样性的 "主要"。

为分类任务扼杀了大量的时间。至少要减少%的误差。

我最近在和同事讨论线性回归的 历史和发展。长话短说,最初没有什么数据,也没有什么预测因素。普通线性回归在一些假设下进行管理。然后,随着信息技术的发展,数据量增加,预测器的数量很容易超过几万个。在这些条件下,普通线性回归将无济于事--过度学习。因此,出现了规范化的版本,以及适应分布要求的稳健版本,等等。