交易中的机器学习:理论、模型、实践和算法交易 - 页 3388 1...338133823383338433853386338733883389339033913392339333943395...3399 新评论 Aleksey Vyazmikin 2024.01.23 10:29 #33871 Maxim Dmitrievsky #:为什么大量的标志是邪恶的?科祖鲁》一书中的图表很有意思。在训练样本中找到相同示例的概率,取决于特征的数量。 不清楚。找到与训练样本中相同示例的概率? Maxim Dmitrievsky 2024.01.23 10:36 #33872 Aleksey Vyazmikin #:什么都不清楚。找到与训练样本中相同示例的概率?数据集中的同一行如果只有 1,000 行粗略地说,如果你有 18 个以上的特征,那么你在训练分类器时就会记住每一行,因为它们根本不重复 而在因果推理中,你无法匹配示例来计算统计数据。 mytarmailS 2024.01.23 10:53 #33873 Aleksey Vyazmikin #:1.如何得到这个矩阵?其中有哪些数字?2.我说的是规则。在我的方法中,我并不关心规则是如何得出的,也不关心规则是由什么得出的,但如果响应与训练样本中的另一个响应相似,它就不包含额外的信息。 1. 任何特征值2.我会让你大吃一惊的是,没有人关心特征是如何产生的,每个人都只根据响应来评估特征 mytarmailS 2024.01.23 10:55 #33874 Maxim Dmitrievsky #:为什么大量的标志是邪恶的?科祖鲁》一书中的图表很有意思。在训练样本中找到相同示例的概率,取决于特征的数量。如果特征多于 14 个(甚至 10 个),就会出现大量无法无损缩减的规则。 这一切都在随意性框架之内。在具有非结构化特征(文本、图片)的模型中。通常会有几千个属性。 Maxim Dmitrievsky 2024.01.23 11:00 #33875 mytarmailS #: 这一切都在随意的范围之内...... 在具有非结构化特征(文本、图片)的模型中。 几千个属性是正常的。 他们在神经元内部使用了高效的压缩算法,比如 sec2sec,所以这也是事实。 mytarmailS 2024.01.23 11:07 #33876 Maxim Dmitrievsky #:它使用神经元内部的高效压缩算法,如 sec2sec,因此也很公平。 如果我们谈论的是文本,那么它在 95% 的情况下使用的是通常的字数统计,比如在给定的观察结果中一个字出现了多少次?0, 1, 103..为了使特征矩阵占用更少的空间,它采用了 "稀疏矩阵 "的格式,这很有利,因为 95% 的矩阵值都是零。 图片是卷积。而 seq2seq 对于一个罕见的问题来说是非常奇特的。 Maxim Dmitrievsky 2024.01.23 11:13 #33877 mytarmailS #: 如果我们谈论的是文本,那么 95% 的情况下都会用到常用的单词计数器,例如--某个单词在本次观察中出现了多少次?0, 1, 103.. 为了减少特征矩阵的占用,我们将其保持为 "稀疏矩阵 "的格式,这很有利,因为 95% 的矩阵值都是零 。 图片中的卷积 而 seq2seq 则是针对罕见问题的外来方法。 这些都是不同的架构,层层叠加。很难比较。我们说的是正常的分类或回归。在这种情况下,它看起来像是一个普遍规律。 mytarmailS 2024.01.23 11:39 #33878 Maxim Dmitrievsky #:这些都是其他的架构,是层层叠加的蛋糕。这很难比较。我们说的是普通的分类或回归。在这种情况下,它看起来像是一个普遍规律。 都是一样的 我说的不是神经元,而是前馈结构。 ----------------------------------------------------------------------哦,我想起来了,这叫词袋。 什么是新的、陌生的、难以理解的、复杂的?相同的符号表 + 任何 MO这是在处理非结构化数据(文本),然后我们将其转化为词袋 结构, 再转化为我们想要的任何其他 结构 Maxim Dmitrievsky 2024.01.23 12:07 #33879 mytarmailS #: 都是一样的。 我说的不是神经元,而是性状饲料的结构。 ----------------------------------------------------------------------哦,我想起来了,这叫词袋。什么是新的、陌生的、难以理解的、复杂的?相同的符号表 + 任何 MO这是非结构化数据(文本),然后我们将其转化为词袋 结构, 再转化为我们想要的任何其他 结构 这是另一个话题。无论如何转换,输入向量的维度都必须低于指定的阈值,否则就无法确定模式。分类信息对向量长度的限制可能更大。此外,还要考虑与行数的关系。在庞大的数据中,特征的数量可能会更多。 mytarmailS 2024.01.23 12:15 #33880 Maxim Dmitrievsky #: 这是两码事。无论如何转换,输入向量的维度都必须低于指定的阈值,否则就无法检测到模式。分类数据对向量长度的限制可能更大。此外,还要考虑到行数的依赖性。在庞大的数据中,特征的数量可能会更多。 还有什么?)全世界都这么做,每个人都很高兴) 1...338133823383338433853386338733883389339033913392339333943395...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
为什么大量的标志是邪恶的?科祖鲁》一书中的图表很有意思。
在训练样本中找到相同示例的概率,取决于特征的数量。
不清楚。找到与训练样本中相同示例的概率?
什么都不清楚。找到与训练样本中相同示例的概率?
数据集中的同一行
如果只有 1,000 行
粗略地说,如果你有 18 个以上的特征,那么你在训练分类器时就会记住每一行,因为它们根本不重复
而在因果推理中,你无法匹配示例来计算统计数据。1.如何得到这个矩阵?其中有哪些数字?
2.我说的是规则。在我的方法中,我并不关心规则是如何得出的,也不关心规则是由什么得出的,但如果响应与训练样本中的另一个响应相似,它就不包含额外的信息。
为什么大量的标志是邪恶的?科祖鲁》一书中的图表很有意思。
在训练样本中找到相同示例的概率,取决于特征的数量。
如果特征多于 14 个(甚至 10 个),就会出现大量无法无损缩减的规则。
这一切都在随意的范围之内......
他们在神经元内部使用了高效的压缩算法,比如 sec2sec,所以这也是事实。
它使用神经元内部的高效压缩算法,如 sec2sec,因此也很公平。
如果我们谈论的是文本,那么 95% 的情况下都会用到常用的单词计数器,例如--某个单词在本次观察中出现了多少次?0, 1, 103..
。
这些都是不同的架构,层层叠加。很难比较。我们说的是正常的分类或回归。在这种情况下,它看起来像是一个普遍规律。
这些都是其他的架构,是层层叠加的蛋糕。这很难比较。我们说的是普通的分类或回归。在这种情况下,它看起来像是一个普遍规律。
----------------------------------------------------------------------
哦,我想起来了,这叫词袋。
什么是新的、陌生的、难以理解的、复杂的?
相同的符号表 + 任何 MO
这是在处理非结构化数据(文本),然后我们将其转化为词袋 结构, 再转化为我们想要的任何其他 结构
都是一样的。
----------------------------------------------------------------------
哦,我想起来了,这叫词袋。
什么是新的、陌生的、难以理解的、复杂的?
相同的符号表 + 任何 MO
这是非结构化数据(文本),然后我们将其转化为词袋 结构, 再转化为我们想要的任何其他 结构
这是两码事。无论如何转换,输入向量的维度都必须低于指定的阈值,否则就无法检测到模式。分类数据对向量长度的限制可能更大。此外,还要考虑到行数的依赖性。在庞大的数据中,特征的数量可能会更多。