文章 "运用人工智能实现的 Thomas DeMark 次序 (TD SEQUENTIAL)" - 页 6 12345678910 新评论 toxic 2017.03.31 13:48 #51 Mihail Marchukajtes:我为 50 条记录建立了模型,我感兴趣的是模型在下一个 50 或 100%训练区间的结果。如果在不增加移动次数的情况下增加建立模型的记录数,泛化能力就会下降。泛化能力就会下降。因此,有可能将泛化水平降低到可接受的 65%,调节样本的长度,如果我们说在市场上赚钱就足够了,那么训练样本的大小就会大得多,这样的模型就会工作得更久,但比泛化水平为 90% 的模型要差得多。将适当的 MM 和资金管理应用到这样的模型(65%)中,你可以赚很多钱。 我已经说过,你不能从 50 个样本中学习,前一分钟非常嘈杂的数据并不包含市场行为所有细微差别的信息,要学会从整套数据中学习。 我不知道你如何看待 "泛化",但计算准确率 对你来说仍然是个问题。算法比较高,非程序员也能看懂。 计算模型猜测的次数,然后除以样本数。 Mihail Marchukajtes 2017.03.31 13:49 #52 toxic: 鱼是有的,但不是用这样的数据。在低频数据上,价格会考虑到一切,而在纯粹的市场数据(成交量价格、delta 等)上 , 你什么也得不到,价格几乎在几分钟内就会完全适应新闻和新信息,信息扩散是主要的市场低效。剩下的,如果简单地说,就是内幕消息。你不知道什么时候、为什么玩偶会大量买入/卖出,什么时候会形成趋势,什么时候会停止。想象一下,你在战斗,你在战斗中的成功取决于你如何预测对手的打击,在他们开始的时候,看到姿势和运动的开始,你采取适当的规避动作,当你看到对手的防守效率低下时,你就进攻,在交易(投机)中一切都是一样的,你不能决定反应慢两倍,你不会变得效率低两倍,你会完全失去效率。现在,所有的投机都是自动化的,所有基于信息扩散的交易(静态、事件套利等)都是HFT 交易,它必然是超HFT ,就像某些 MM 一样,它更像是 "algo-scalping"(平均持仓时间约为 1 分钟,甚至 10 分钟),但我们谈论的不是数小时或数天,价格中没有信息,一切都是陈旧的。 但总的来说,从理论上讲,预测数小时甚至数天是可能的,但不仅仅是通过市场数据,还需要监测世界各地人类活动的数千个参数,特别是与大公司有关的参数,我们需要天气、各地的运输量、人们在互联网上的社交活动,尤其是抛售 tn。"例如,我听说他们正在从太空观察工厂,以了解那里生产了多少产品、运进了什么、运出了什么))))。这是在边界上的内幕,但没被抓到也不是贼)))))。而所有这些都需要由一个优秀的分析师团队处理成符号形式,还需要一个冷静的基本面预测师团队,以及从公开预测中收集数据并进行分析。一般来说,即使是一家中等规模的银行,也没有足够的资源来实现这一切,并使其达到生产质量。而且,仅凭价格和天量是不可能预测出统计上可靠的未来价格的,这是 "押红加倍 "的童话))))。 举个例子,我们来看看 "序列 "信号,假设形成了买入信号,NS 说信号是 "真 "的,但过了一段时间,市场情况发生了变化,信号失去了相关性,市场开始与之背道而驰,最后它被当作网络错误注销了。或者说,这不是一个错误。在发出信号的那一刻,市场确实在上涨,只是后来改变了主意。然后我们就出错了,然后就好了。我们的任务就是尽可能少犯错误 :-)最后,如何优化我的数据? toxic 2017.03.31 14:04 #53 Mihail Marchukajtes: 那么,最终我如何优化我的数据呢?150 个样本哇哦好吧,我今晚就运行 Mihail Marchukajtes 2017.03.31 14:05 #54 toxic:我已经说过,你不能从 50 个样本中学习,前一分钟非常嘈杂的数据并不包含市场行为所有细微差别的信息,要学会从整个集合中学习。我不知道你如何看待 "泛化",但计算准确率 对你来说仍然是个问题。算法比较高,非程序员也能看懂。 我们计算模型猜测的次数,然后除以样本数。 顺便说一下,是的,一开始我在整理指标代码和其他东西的时候,我计算的是历史上有哪些信号和有多少信号,因为我们有 4 个参数(一切对我来说都是可行的)。但是,如果 0 和 1 的数量相等,就可以计算信号,否则在分割时就会复制一些行。也就是说,如果少了两个 1,它就会加上去(我指的是分隔符)。现在,我将尝试获取模型,并演示它如何在训练样本上工作,但为此您需要获取相同数量的 0 和 1 数据。稍后,机器计数。至于训练文件,我可以将其转换为 11 列 750 行。这样的文件会更方便???? toxic 2017.03.31 14:46 #55 Mihail Marchukajtes: 顺便说一下,是的,一开始我在整理指标代码和其他东西时,我计算的是历史上有哪些信号和有多少信号,因为我们有 4 个参数(一切对我来说都是可行的)。但如果 0 和 1 的数量相等,就可以计算信号,否则在分割时会复制一些行。也就是说,如果少了两个 1,它就会加上去(我指的是分隔符)。现在,我将尝试获取模型,并演示它如何在训练样本上工作,但为此您需要获取相同数量的 0 和 1 数据。稍后,机器计数。至于训练文件,我可以将其转换为 11 列 750 行。这样的文件会更方便???? 11 列和 750 行当然更好,也许交叉验证时会有一些共同点......一般来说,布局不同的集,与低频日期和他们的筹码和目标,你可以在一个私人的消息,如果什么是不适合公众,我承认,我没有深入挖掘低频,因为我立即被说服的 "老练 "的主题,在它缺乏信息,所以如果你改变我的想法,我会很感激,这将扭转我对市场的理解,我已经准备好了,虽然我认为这不太可能。 Mihail Marchukajtes 2017.03.31 15:00 #56 是的,我马上就准备好了文件,数据是一样的,只是收集的方式不同。好吧,我还有一个理论,可以说是一个假设,我想把它说出来,不仅想听听您的意见。(顺便问一下,你叫什么名字? 因为通常不叫昵称),但也想听听向导的意见。所以,他是这一行的老人了,我记得我们还在 NSh 上交流过。 附加的文件: trainTDSequenta_11X765.txt 129 kb Mihail Marchukajtes 2017.03.31 15:19 #57 我想讨论另一个话题。问题是,在优化过程中,我们会得到一个模型,经过多次优化后,我们会得到一组模型,例如 5 个模型(举例来说)。现在,我将发布一个讲座 链接,请从 33 分钟开始观看,其中他谈到了多项式的度数和重新训练多项式的效果。误差最小化图让我们来谈谈这个问题。如果我没理解错的话,优化师的任务就是建立这样一个模型,使多项式维度最小时近似度最大。也就是说,我们的任务是建立这样一个多项式,它既能最大限度地提高输出的逼近度,又不会有大量的度数。现在,让我们设想一下,我们的优化器知道如何构建这样一个多项式,而在对数据进行反复优化的情况下,我们会不断进入收敛与过度训练之间的某个区域。让我们想象一下,这是一个很小的区域,但无论我们到达那里多少次,我们总会得到进入充分而非过度训练区域的模型(我可以用示意图表示),但这些模型在未来的工作结果方面会有所不同。因此,我们需要根据专家的意见来选择最合适的模型。因此,也许有一些方法可以在未来的工作中选择可行的模型?????。图中显示的是训练完整和充分的区域,主要是不过度训练。 001. Вводная лекция - К.В. Воронцов 2014.12.22www.youtube.com Курс "Машинное обучение" является одним из основных курсов Школы, поэтому он является обязательным для всех студентов ШАД. Лектор: Константин Вячеславович Во... Mihail Marchukajtes 2017.03.31 15:54 #58 令人惊讶的是,有这么多的 prsomotorov,却没有人支持对话。AWOOOO人....你在哪里? 在这个话题中只有有毒和向导...真不敢相信.... toxic 2017.03.31 17:18 #59 Mihail Marchukajtes:是的,我马上就准备好了文件,数据是一样的,只是收集的方式不同。好吧,我还有一个理论,可以说是一个假设,我想把它说出来,不仅想听听您的意见。(顺便问一下,你叫什么名字? 因为用昵称称呼并不常见),但也想听听向导的意见。我记得我们还在 NSH 上交流过。嗯,一般来说,令人惊讶的是,第一个数据集 - 包含一点点的阿尔法,约3-4%以上的随机50%,如果你不太在意,也就是说,从理论上讲,与更大的样本数量可以高达5-6%可以挤出,这几个小时和几天原则上非常不坏,考虑到庞氏交易成本。嗯...有意思,有意思如果有人检查一下有多少信息,那也不错。当然,这都是在目标正确的情况下,如果目标不包括过去的收益或价格。在目标中,应该只有未来的回报,因此,举例来说,如果您在价格 pt-n,...,pt-1,pt 时建立了指数,目标不应该 "看到 "建立标志的价格,例如,目标可以是下一个回报的标志((pt+2-pt+1)/pt+1)。Sign()),但如果目标将是((pt+1-pt)/pt).Sign()),图片将 "模糊",将得到一个不切实际的性能的模型,假 "圣杯",重要的是要考虑到。第二个数据集(更长的数据集)一点也不好,你对它进行了奇怪的拉伸,将一些特征移到了其他))))。 Mihail Marchukajtes 2017.03.31 17:35 #60 toxic:嗯,一般来说,令人惊讶的是,第一个数据集 - 包含一点点的阿尔法,约3-4%以上的随机50%,如果你不太在意,也就是说,从理论上讲,更多的样本可以高达5-6%可以挤出,这几个小时和几天原则上非常不坏,考虑到庞氏交易成本。嗯...有趣,有趣如果有人检查一下有多少信息,那也不错。当然,这都是在目标正确的情况下,如果目标不包括过去的收益或价格。在目标中,应该只有未来的回报,因此,举例来说,如果您在价格 pt-n,...,pt-1,pt 时建立了指数,目标不应该 "看到 "建立标志的价格,例如,目标可以是下一个回报的标志((pt+2-pt+1)/pt+1)。Sign()),但如果目标将是((pt+1-pt)/pt).Sign()),图片将 "模糊",将得到一个不切实际的性能的模型,假 "圣杯",重要的是要考虑到。第二个数据集(较长的数据集)一点也不好,你对它进行了奇怪的拉伸,将一些特征移到了其他))))。 是的,我的输出是向前看的,不用担心数据收集的纯度,我非常注意这一点。那是 15 分钟的数据。第二个我只是把列变成了行,每行11个,然后乘以输出,原来当我们得到一个信号的时候,我们会为一个信号提交11列5次,你甚至可以在这个层面上组织一个委员会。我也给自己做了这样一个文件,一旦机器有空,我就会试着转一下。 12345678910 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
我为 50 条记录建立了模型,我感兴趣的是模型在下一个 50 或 100%训练区间的结果。如果在不增加移动次数的情况下增加建立模型的记录数,泛化能力就会下降。泛化能力就会下降。因此,有可能将泛化水平降低到可接受的 65%,调节样本的长度,如果我们说在市场上赚钱就足够了,那么训练样本的大小就会大得多,这样的模型就会工作得更久,但比泛化水平为 90% 的模型要差得多。将适当的 MM 和资金管理应用到这样的模型(65%)中,你可以赚很多钱。
我已经说过,你不能从 50 个样本中学习,前一分钟非常嘈杂的数据并不包含市场行为所有细微差别的信息,要学会从整套数据中学习。
我不知道你如何看待 "泛化",但计算准确率 对你来说仍然是个问题。算法比较高,非程序员也能看懂。 计算模型猜测的次数,然后除以样本数。
鱼是有的,但不是用这样的数据。在低频数据上,价格会考虑到一切,而在纯粹的市场数据(成交量价格、delta 等)上 , 你什么也得不到,价格几乎在几分钟内就会完全适应新闻和新信息,信息扩散是主要的市场低效。剩下的,如果简单地说,就是内幕消息。你不知道什么时候、为什么玩偶会大量买入/卖出,什么时候会形成趋势,什么时候会停止。
想象一下,你在战斗,你在战斗中的成功取决于你如何预测对手的打击,在他们开始的时候,看到姿势和运动的开始,你采取适当的规避动作,当你看到对手的防守效率低下时,你就进攻,在交易(投机)中一切都是一样的,你不能决定反应慢两倍,你不会变得效率低两倍,你会完全失去效率。
现在,所有的投机都是自动化的,所有基于信息扩散的交易(静态、事件套利等)都是HFT 交易,它必然是超HFT ,就像某些 MM 一样,它更像是 "algo-scalping"(平均持仓时间约为 1 分钟,甚至 10 分钟),但我们谈论的不是数小时或数天,价格中没有信息,一切都是陈旧的。
但总的来说,从理论上讲,预测数小时甚至数天是可能的,但不仅仅是通过市场数据,还需要监测世界各地人类活动的数千个参数,特别是与大公司有关的参数,我们需要天气、各地的运输量、人们在互联网上的社交活动,尤其是抛售 tn。"例如,我听说他们正在从太空观察工厂,以了解那里生产了多少产品、运进了什么、运出了什么))))。这是在边界上的内幕,但没被抓到也不是贼)))))。而所有这些都需要由一个优秀的分析师团队处理成符号形式,还需要一个冷静的基本面预测师团队,以及从公开预测中收集数据并进行分析。一般来说,即使是一家中等规模的银行,也没有足够的资源来实现这一切,并使其达到生产质量。而且,仅凭价格和天量是不可能预测出统计上可靠的未来价格的,这是 "押红加倍 "的童话))))。
举个例子,我们来看看 "序列 "信号,假设形成了买入信号,NS 说信号是 "真 "的,但过了一段时间,市场情况发生了变化,信号失去了相关性,市场开始与之背道而驰,最后它被当作网络错误注销了。或者说,这不是一个错误。在发出信号的那一刻,市场确实在上涨,只是后来改变了主意。然后我们就出错了,然后就好了。我们的任务就是尽可能少犯错误 :-)最后,如何优化我的数据?
那么,最终我如何优化我的数据呢?
150 个样本哇哦
好吧,我今晚就运行
我已经说过,你不能从 50 个样本中学习,前一分钟非常嘈杂的数据并不包含市场行为所有细微差别的信息,要学会从整个集合中学习。
我不知道你如何看待 "泛化",但计算准确率 对你来说仍然是个问题。算法比较高,非程序员也能看懂。 我们计算模型猜测的次数,然后除以样本数。
顺便说一下,是的,一开始我在整理指标代码和其他东西的时候,我计算的是历史上有哪些信号和有多少信号,因为我们有 4 个参数(一切对我来说都是可行的)。但是,如果 0 和 1 的数量相等,就可以计算信号,否则在分割时就会复制一些行。也就是说,如果少了两个 1,它就会加上去(我指的是分隔符)。现在,我将尝试获取模型,并演示它如何在训练样本上工作,但为此您需要获取相同数量的 0 和 1 数据。稍后,机器计数。至于训练文件,我可以将其转换为 11 列 750 行。这样的文件会更方便????
顺便说一下,是的,一开始我在整理指标代码和其他东西时,我计算的是历史上有哪些信号和有多少信号,因为我们有 4 个参数(一切对我来说都是可行的)。但如果 0 和 1 的数量相等,就可以计算信号,否则在分割时会复制一些行。也就是说,如果少了两个 1,它就会加上去(我指的是分隔符)。现在,我将尝试获取模型,并演示它如何在训练样本上工作,但为此您需要获取相同数量的 0 和 1 数据。稍后,机器计数。至于训练文件,我可以将其转换为 11 列 750 行。这样的文件会更方便????
11 列和 750 行当然更好,也许交叉验证时会有一些共同点......
一般来说,布局不同的集,与低频日期和他们的筹码和目标,你可以在一个私人的消息,如果什么是不适合公众,我承认,我没有深入挖掘低频,因为我立即被说服的 "老练 "的主题,在它缺乏信息,所以如果你改变我的想法,我会很感激,这将扭转我对市场的理解,我已经准备好了,虽然我认为这不太可能。
是的,我马上就准备好了文件,数据是一样的,只是收集的方式不同。
好吧,我还有一个理论,可以说是一个假设,我想把它说出来,不仅想听听您的意见。(顺便问一下,你叫什么名字? 因为通常不叫昵称),但也想听听向导的意见。所以,他是这一行的老人了,我记得我们还在 NSh 上交流过。
我想讨论另一个话题。问题是,在优化过程中,我们会得到一个模型,经过多次优化后,我们会得到一组模型,例如 5 个模型(举例来说)。现在,我将发布一个讲座 链接,请从 33 分钟开始观看,其中他谈到了多项式的度数和重新训练多项式的效果。误差最小化图让我们来谈谈这个问题。
如果我没理解错的话,优化师的任务就是建立这样一个模型,使多项式维度最小时近似度最大。也就是说,我们的任务是建立这样一个多项式,它既能最大限度地提高输出的逼近度,又不会有大量的度数。现在,让我们设想一下,我们的优化器知道如何构建这样一个多项式,而在对数据进行反复优化的情况下,我们会不断进入收敛与过度训练之间的某个区域。让我们想象一下,这是一个很小的区域,但无论我们到达那里多少次,我们总会得到进入充分而非过度训练区域的模型(我可以用示意图表示),但这些模型在未来的工作结果方面会有所不同。因此,我们需要根据专家的意见来选择最合适的模型。因此,也许有一些方法可以在未来的工作中选择可行的模型?????。
图中显示的是训练完整和充分的区域,主要是不过度训练。
是的,我马上就准备好了文件,数据是一样的,只是收集的方式不同。
好吧,我还有一个理论,可以说是一个假设,我想把它说出来,不仅想听听您的意见。(顺便问一下,你叫什么名字? 因为用昵称称呼并不常见),但也想听听向导的意见。我记得我们还在 NSH 上交流过。
嗯,一般来说,令人惊讶的是,第一个数据集 - 包含一点点的阿尔法,约3-4%以上的随机50%,如果你不太在意,也就是说,从理论上讲,与更大的样本数量可以高达5-6%可以挤出,这几个小时和几天原则上非常不坏,考虑到庞氏交易成本。嗯...有意思,有意思如果有人检查一下有多少信息,那也不错。
当然,这都是在目标正确的情况下,如果目标不包括过去的收益或价格。在目标中,应该只有未来的回报,因此,举例来说,如果您在价格 pt-n,...,pt-1,pt 时建立了指数,目标不应该 "看到 "建立标志的价格,例如,目标可以是下一个回报的标志((pt+2-pt+1)/pt+1)。Sign()),但如果目标将是((pt+1-pt)/pt).Sign()),图片将 "模糊",将得到一个不切实际的性能的模型,假 "圣杯",重要的是要考虑到。
第二个数据集(更长的数据集)一点也不好,你对它进行了奇怪的拉伸,将一些特征移到了其他))))。
嗯,一般来说,令人惊讶的是,第一个数据集 - 包含一点点的阿尔法,约3-4%以上的随机50%,如果你不太在意,也就是说,从理论上讲,更多的样本可以高达5-6%可以挤出,这几个小时和几天原则上非常不坏,考虑到庞氏交易成本。嗯...有趣,有趣如果有人检查一下有多少信息,那也不错。
当然,这都是在目标正确的情况下,如果目标不包括过去的收益或价格。在目标中,应该只有未来的回报,因此,举例来说,如果您在价格 pt-n,...,pt-1,pt 时建立了指数,目标不应该 "看到 "建立标志的价格,例如,目标可以是下一个回报的标志((pt+2-pt+1)/pt+1)。Sign()),但如果目标将是((pt+1-pt)/pt).Sign()),图片将 "模糊",将得到一个不切实际的性能的模型,假 "圣杯",重要的是要考虑到。
第二个数据集(较长的数据集)一点也不好,你对它进行了奇怪的拉伸,将一些特征移到了其他))))。
是的,我的输出是向前看的,不用担心数据收集的纯度,我非常注意这一点。
那是 15 分钟的数据。
第二个我只是把列变成了行,每行11个,然后乘以输出,原来当我们得到一个信号的时候,我们会为一个信号提交11列5次,你甚至可以在这个层面上组织一个委员会。我也给自己做了这样一个文件,一旦机器有空,我就会试着转一下。