文章 "运用人工智能实现的 Thomas DeMark 次序 (TD SEQUENTIAL)"

toxic 2017.03.31 13:48 #51

Mihail Marchukajtes:

我为 50 条记录建立了模型，我感兴趣的是模型在下一个 50 或 100%训练区间的结果。如果在不增加移动次数的情况下增加建立模型的记录数，泛化能力就会下降。泛化能力就会下降。因此，有可能将泛化水平降低到可接受的 65%，调节样本的长度，如果我们说在市场上赚钱就足够了，那么训练样本的大小就会大得多，这样的模型就会工作得更久，但比泛化水平为 90% 的模型要差得多。将适当的 MM 和资金管理应用到这样的模型（65%）中，你可以赚很多钱。

我已经说过，你不能从 50 个样本中学习，前一分钟非常嘈杂的数据并不包含市场行为所有细微差别的信息，要学会从整套数据中学习。

我不知道你如何看待 "泛化"，但计算准确率对你来说仍然是个问题。算法比较高，非程序员也能看懂。计算模型猜测的次数，然后除以样本数。

Mihail Marchukajtes 2017.03.31 13:49 #52

toxic:

鱼是有的，但不是用这样的数据。在低频数据上，价格会考虑到一切，而在纯粹的市场数据（成交量价格、delta 等）上，你什么也得不到，价格几乎在几分钟内就会完全适应新闻和新信息，信息扩散是主要的市场低效。剩下的，如果简单地说，就是内幕消息。你不知道什么时候、为什么玩偶会大量买入/卖出，什么时候会形成趋势，什么时候会停止。

想象一下，你在战斗，你在战斗中的成功取决于你如何预测对手的打击，在他们开始的时候，看到姿势和运动的开始，你采取适当的规避动作，当你看到对手的防守效率低下时，你就进攻，在交易（投机）中一切都是一样的，你不能决定反应慢两倍，你不会变得效率低两倍，你会完全失去效率。

现在，所有的投机都是自动化的，所有基于信息扩散的交易（静态、事件套利等）都是HFT 交易，它必然是超HFT ，就像某些 MM 一样，它更像是 "algo-scalping"（平均持仓时间约为 1 分钟，甚至 10 分钟），但我们谈论的不是数小时或数天，价格中没有信息，一切都是陈旧的。

但总的来说，从理论上讲，预测数小时甚至数天是可能的，但不仅仅是通过市场数据，还需要监测世界各地人类活动的数千个参数，特别是与大公司有关的参数，我们需要天气、各地的运输量、人们在互联网上的社交活动，尤其是抛售 tn。"例如，我听说他们正在从太空观察工厂，以了解那里生产了多少产品、运进了什么、运出了什么))))。这是在边界上的内幕，但没被抓到也不是贼)))))。而所有这些都需要由一个优秀的分析师团队处理成符号形式，还需要一个冷静的基本面预测师团队，以及从公开预测中收集数据并进行分析。一般来说，即使是一家中等规模的银行，也没有足够的资源来实现这一切，并使其达到生产质量。而且，仅凭价格和天量是不可能预测出统计上可靠的未来价格的，这是 "押红加倍 "的童话))))。

举个例子，我们来看看 "序列 "信号，假设形成了买入信号，NS 说信号是 "真 "的，但过了一段时间，市场情况发生了变化，信号失去了相关性，市场开始与之背道而驰，最后它被当作网络错误注销了。或者说，这不是一个错误。在发出信号的那一刻，市场确实在上涨，只是后来改变了主意。然后我们就出错了，然后就好了。我们的任务就是尽可能少犯错误 :-)最后，如何优化我的数据？

toxic 2017.03.31 14:04 #53

Mihail Marchukajtes:

那么，最终我如何优化我的数据呢？

150 个样本哇哦

好吧，我今晚就运行

Mihail Marchukajtes 2017.03.31 14:05 #54

toxic:

我已经说过，你不能从 50 个样本中学习，前一分钟非常嘈杂的数据并不包含市场行为所有细微差别的信息，要学会从整个集合中学习。

我不知道你如何看待 "泛化"，但计算准确率对你来说仍然是个问题。算法比较高，非程序员也能看懂。我们计算模型猜测的次数，然后除以样本数。

顺便说一下，是的，一开始我在整理指标代码和其他东西的时候，我计算的是历史上有哪些信号和有多少信号，因为我们有 4 个参数（一切对我来说都是可行的）。但是，如果 0 和 1 的数量相等，就可以计算信号，否则在分割时就会复制一些行。也就是说，如果少了两个 1，它就会加上去（我指的是分隔符）。现在，我将尝试获取模型，并演示它如何在训练样本上工作，但为此您需要获取相同数量的 0 和 1 数据。稍后，机器计数。至于训练文件，我可以将其转换为 11 列 750 行。这样的文件会更方便????

toxic 2017.03.31 14:46 #55

Mihail Marchukajtes:

顺便说一下，是的，一开始我在整理指标代码和其他东西时，我计算的是历史上有哪些信号和有多少信号，因为我们有 4 个参数（一切对我来说都是可行的）。但如果 0 和 1 的数量相等，就可以计算信号，否则在分割时会复制一些行。也就是说，如果少了两个 1，它就会加上去（我指的是分隔符）。现在，我将尝试获取模型，并演示它如何在训练样本上工作，但为此您需要获取相同数量的 0 和 1 数据。稍后，机器计数。至于训练文件，我可以将其转换为 11 列 750 行。这样的文件会更方便????

11 列和 750 行当然更好，也许交叉验证时会有一些共同点......

一般来说，布局不同的集，与低频日期和他们的筹码和目标，你可以在一个私人的消息，如果什么是不适合公众，我承认，我没有深入挖掘低频，因为我立即被说服的 "老练 "的主题，在它缺乏信息，所以如果你改变我的想法，我会很感激，这将扭转我对市场的理解，我已经准备好了，虽然我认为这不太可能。

Mihail Marchukajtes 2017.03.31 15:00 #56

是的，我马上就准备好了文件，数据是一样的，只是收集的方式不同。

好吧，我还有一个理论，可以说是一个假设，我想把它说出来，不仅想听听您的意见。(顺便问一下，你叫什么名字？因为通常不叫昵称），但也想听听向导的意见。所以，他是这一行的老人了，我记得我们还在 NSh 上交流过。

附加的文件：

trainTDSequenta_11X765.txt 129 kb

Mihail Marchukajtes 2017.03.31 15:19 #57

我想讨论另一个话题。问题是，在优化过程中，我们会得到一个模型，经过多次优化后，我们会得到一组模型，例如 5 个模型（举例来说）。现在，我将发布一个讲座链接，请从 33 分钟开始观看，其中他谈到了多项式的度数和重新训练多项式的效果。误差最小化图让我们来谈谈这个问题。

如果我没理解错的话，优化师的任务就是建立这样一个模型，使多项式维度最小时近似度最大。也就是说，我们的任务是建立这样一个多项式，它既能最大限度地提高输出的逼近度，又不会有大量的度数。现在，让我们设想一下，我们的优化器知道如何构建这样一个多项式，而在对数据进行反复优化的情况下，我们会不断进入收敛与过度训练之间的某个区域。让我们想象一下，这是一个很小的区域，但无论我们到达那里多少次，我们总会得到进入充分而非过度训练区域的模型（我可以用示意图表示），但这些模型在未来的工作结果方面会有所不同。因此，我们需要根据专家的意见来选择最合适的模型。因此，也许有一些方法可以在未来的工作中选择可行的模型?????。

图中显示的是训练完整和充分的区域，主要是不过度训练。

001. Вводная лекция - К.В. Воронцов

2014.12.22
www.youtube.com

Курс "Машинное обучение" является одним из основных курсов Школы, поэтому он является обязательным для всех студентов ШАД. Лектор: Константин Вячеславович Во...

Mihail Marchukajtes 2017.03.31 15:54 #58

令人惊讶的是，有这么多的 prsomotorov，却没有人支持对话。AWOOOO人....你在哪里？在这个话题中只有有毒和向导...真不敢相信....

toxic 2017.03.31 17:18 #59

Mihail Marchukajtes:

是的，我马上就准备好了文件，数据是一样的，只是收集的方式不同。

好吧，我还有一个理论，可以说是一个假设，我想把它说出来，不仅想听听您的意见。(顺便问一下，你叫什么名字？因为用昵称称呼并不常见），但也想听听向导的意见。我记得我们还在 NSH 上交流过。

嗯，一般来说，令人惊讶的是，第一个数据集 - 包含一点点的阿尔法，约3-4％以上的随机50％，如果你不太在意，也就是说，从理论上讲，与更大的样本数量可以高达5-6％可以挤出，这几个小时和几天原则上非常不坏，考虑到庞氏交易成本。嗯...有意思，有意思如果有人检查一下有多少信息，那也不错。

当然，这都是在目标正确的情况下，如果目标不包括过去的收益或价格。在目标中，应该只有未来的回报，因此，举例来说，如果您在价格 pt-n,...,pt-1,pt 时建立了指数，目标不应该 "看到 "建立标志的价格，例如，目标可以是下一个回报的标志（(pt+2-pt+1)/pt+1)。Sign())，但如果目标将是（(pt+1-pt)/pt).Sign())，图片将 "模糊"，将得到一个不切实际的性能的模型，假 "圣杯"，重要的是要考虑到。

第二个数据集（更长的数据集）一点也不好，你对它进行了奇怪的拉伸，将一些特征移到了其他))))。

Mihail Marchukajtes 2017.03.31 17:35 #60

toxic:

嗯，一般来说，令人惊讶的是，第一个数据集 - 包含一点点的阿尔法，约3-4％以上的随机50％，如果你不太在意，也就是说，从理论上讲，更多的样本可以高达5-6％可以挤出，这几个小时和几天原则上非常不坏，考虑到庞氏交易成本。嗯...有趣，有趣如果有人检查一下有多少信息，那也不错。

当然，这都是在目标正确的情况下，如果目标不包括过去的收益或价格。在目标中，应该只有未来的回报，因此，举例来说，如果您在价格 pt-n,...,pt-1,pt 时建立了指数，目标不应该 "看到 "建立标志的价格，例如，目标可以是下一个回报的标志（(pt+2-pt+1)/pt+1)。Sign())，但如果目标将是（(pt+1-pt)/pt).Sign())，图片将 "模糊"，将得到一个不切实际的性能的模型，假 "圣杯"，重要的是要考虑到。

第二个数据集（较长的数据集）一点也不好，你对它进行了奇怪的拉伸，将一些特征移到了其他))))。

是的，我的输出是向前看的，不用担心数据收集的纯度，我非常注意这一点。

那是 15 分钟的数据。

第二个我只是把列变成了行，每行11个，然后乘以输出，原来当我们得到一个信号的时候，我们会为一个信号提交11列5次，你甚至可以在这个层面上组织一个委员会。我也给自己做了这样一个文件，一旦机器有空，我就会试着转一下。

文章 "运用人工智能实现的 Thomas DeMark 次序 (TD SEQUENTIAL)" - 页 6