交易中的机器学习:理论、模型、实践和算法交易 - 页 2219

 
马克西姆-德米特里耶夫斯基

你是否尝试过GMM以外的任何聚类?

 
mytarmailS:

你是否尝试过GMM以外的任何聚类?

你不需要聚类,你需要密度估计。编码器和GAN就可以了。

在MO中,有一些处理尾部分布的特殊技术,但我还没有完全掌握它们。

例如,有这样一个技巧。对于有尾分布(而增量正好形成这样的分布),训练的样本量必须几乎是无限的,才能对新数据起作用。而这一点已经被证实。你怎么看?

 
Maxim Dmitrievsky:

需要的不是聚类,而是密度估计。编码器和GAN就可以了。

在MO中,有一些处理尾部分布的特殊技术,但我还没有完全弄清楚。这简直是最新的东西了。

我就是想不明白。

我已经在两个集群上训练了模型。

> gm <- ClusterR::GMM(X,gaussian_comps = 2)
> gm
$centroids
            [,1]       [,2]       [,3]
[1,] -0.24224591 -0.5103346  0.7653689
[2,]  0.07675401  0.1668665 -0.2967750

$covariance_matrices
         [,1]      [,2]      [,3]
[1,] 1.169446 0.5971381 0.5771400
[2,] 1.006148 0.7724611 0.8297428

$weights
[1] 0.2505878 0.7494122

$Log_likelihood
            [,1]      [,2]
 [1,]  -4.060188 -3.111429
 [2,]  -6.105358 -3.516479
 [3,]  -4.301979 -4.310115
 [4,]  -3.752352 -3.583401
 [5,]  -3.172447 -3.302278
 [6,]  -7.849530 -5.254127
 [7,]  -3.055816 -3.157801
 [8,]  -5.307695 -2.795444
 [9,] -11.721658 -6.764240
[10,] -10.575876 -5.565554
[11,]  -6.760511 -5.193087
[12,]  -3.978182 -5.066543
[13,]  -2.577926 -4.418768
[14,]  -4.398716 -3.614050
[15,]  -4.082245 -5.268694
[16,]  -2.918141 -2.901401
[17,]  -9.153176 -4.797331
[18,]  -5.678321 -3.599856
[19,]  -4.500670 -2.622113
[20,]  -2.965878 -4.415078
[21,]  -4.453389 -4.152286
[22,]  -5.365306 -4.368355
[23,]  -8.533327 -3.813763
[24,]  -4.142515 -2.811048
[25,]  -7.174136 -5.631351
[26,]  -5.063518 -3.491408
[27,]  -4.935992 -8.336194
[28,]  -4.210241 -5.869093
[29,]  -3.605818 -2.577456
[30,]  -3.670845 -5.686447
[31,]  -2.733389 -5.010803
[32,]  -3.730563 -2.646749
[33,]  -3.201767 -3.689452
[34,]  -4.879268 -3.111545

这就是分配。

$centroids

$covariance_matrices

以及如何模拟它们(繁殖类似的)的方法

 
马克西姆-德米特里耶夫斯基

而且它被证实了。你怎么看?

炸弹。

你在哪里读到的?

 
mytarmailS:

炸弹。

你在哪里读到的?

我看过一些文章。

看看吧。

https://venturebeat.com/2020/08/14/how-to-improve-ai-economics-by-taming-the-long-tail-of-data/

How to improve AI economics by taming the long tail of data
How to improve AI economics by taming the long tail of data
  • 2020.08.14
  • Matt Bornstein, Andreessen Horowitz
  • venturebeat.com
As the CTO of one late-stage data startup put it, AI development often feels “closer to molecule discovery in pharma” than software engineering. This is because AI development is a process of experimenting, much like chemistry or physics. The job of an AI developer is to fit a statistical model to a dataset, test how well the model performs on...
 
mytarmailS:

我就是想不明白。

我在两个群组上训练了这个模型。

什么是分布

以及如何模拟它们(繁殖类似的)的方法

寻找一个能让你从训练好的模型中取样的软件包

 
Maxim Dmitrievsky:

寻找一个能让你从训练好的模型中取样的软件包

有三种分布(线)。

Normal Mixture' object   ``#9 Trimodal'' 
       mu sigma    w
[1,] -1.2  0.60 0.45
[2,]  1.2  0.60 0.45
[3,]  0.0  0.25 0.10

它应该是这样的吗?

 
mytarmailS:

有三种分布(线)

它应该是这样的吗?

这些是高斯参数

 
Maxim Dmitrievsky:

需要的不是聚类,而是密度估计。编码器和GAN就可以了。

在MO中,有一些处理有尾分布的特殊技术,但我还没有完全说到它们。

例如,有这样一个技巧。对于有尾分布(而增量正好形成这样的分布),训练的样本量必须几乎是无限的,才能对新数据起作用。而这一点已经被证实。你怎么看?

好在只是尾部的增量,证明了价格系列与SB.)))) 的相似性。而作为一个结论,为了让它发挥作用,我们需要看整个系列,即未来的系列也是如此,或者如果我们接受系列是无限的,那么未来的系列将被认可。仿佛结论是:在一个无限大的系列上有无限多的变化,我们将对它们进行训练并看到它们。

这对实践来说是无用的,但必须理解。

ZS,在密度方面,你可以在评估后分成几个部分。
 
Valeriy Yastremskiy:

好吧,它只是通过尾数增量证明了价格系列与SB.)))) 的相似性。而作为结论,可行的是看到整个系列,即未来的系列也是如此,或者如果我们接受系列是无限的,那么未来的系列将被认可。仿佛结论是:在一个无限大的系列上有无限多的变化,我们将对它们进行训练并看到它们。

这对实践来说是无用的,但对理解来说是必要的。

SZY和在评估后的密度方面,你可以把它分为几个部分。

将它们分成几个部分,选择最频繁的例子,其余的应作为噪音被丢弃。

或反之,在罕见事件上划定界限

正如你从文章中看到的那样--这是一个现实世界的问题,而不仅仅是外汇的问题。而MO们在不同的领域都在为之奋斗着