感谢您撰写了这篇文章,它正是我试图理解的内容,我自己也在努力检查相关性。还要感谢您提供的 python 文件,因为它为我提供了一个易于调整的模板。希望经过一番分析后,我会对您说,感谢您让我大开眼界,了解到什么是可能的。
«Объединяя или удаляя сильно коррелированные признаки, можно упростить модель, не теряя при этом важной информации. Например, в представленной выше корреляционной матрице переменные Open, High и Low имеют 100% корреляцию. Их корреляция составляет 99 с лишним % (округленные значения). В этом случае можно исключить часть этих переменных, оставив лишь одну, либо применить методы снижения размерности, которые мы рассмотрим далее.»
杀死市场数据。这是所谓的免费 "数据清洗 "的经典方法,它基于一种直接源自静态学习的偏见。例如,在这篇文章https://link.springer.com/article/10.1186/s40854-024-00622-6?utm_source
中,他们证明了OHLC 不仅仅是四个数字,而是 一个单一的拓扑对象。
如果我们只留下收盘价,就会丢失 条形图 内的波动信息。对于线性回归而言,99% 的高相关性是 "噪音",但对于交易者而言,1% 的差异却是 "信号"(影子长度、突破强度)。去除 "相关 "价格会使蜡烛图变成线性图,从而破坏蜡烛图分析的精髓。
。
"相关系数...只评估数字变量之间的线性关系"。
市场不是线性的。同一篇文章还引入了结构限制 的概念 (High ≥ Close)。皮尔逊相关性看不到这些限制。如果我们按照第一篇文章的逻辑,去掉 "多余的 "高/低值,模型就不再理解可接受值的限制。因此,如果 "平静的市场 "和 "尾部巨大的市场 "的开盘价重合,我们得到的算法就无法理解两者之间的区别。
"通过降低维度...我们简化了模型,降低了计算成本"。
这是 "节省匹配"。
可以对数据进行转换(无约束转换),而不是 "丢弃 "数据来简化数据。与其因为 "高 "和 "低 "与 "开盘价 "相关而将其删除,不如将其转换为相对值(烛形价差、相对于极端值的接近位置)。这样,维数保持不变(或略有减少),但信息量(几何图形)保持 100%,相关性问题也就不复存在了。
A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
- 2024.03.05
- link.springer.com
The structural modeling of open-high-low-close (OHLC) data contained within the candlestick chart is crucial to financial practice. However, the inherent constraints in OHLC data pose immense challenges to its structural modeling. Models that fail to process these constraints may yield results deviating from those of the original OHLC data...
新文章 数据科学和机器学习(第 29 部分):为 AI 训练目的而选择最佳外汇数据的基本技巧已发布:
配以所有交易数据和信息,例如指标(MetaTrader 5 中有超过 36 个内置指标)、品种对(有 100 多个品种),即能当作相关策略的数据,还有对交易者颇具价值的新闻,等等。我试图提出的一点是,交易者在手工交易、或尝试构建人工智能模型时有充裕的信息可供使用,从而帮助我们在交易机器人中制定明智的交易决策。
在我们手头的所有信息当中,肯定有一些坏信息(这只是常识)。并非所有指标、数据、策略、等都对特定的交易品种、策略、或情况有用。我们如何判定可供交易和机器学习模型所用的正确信息,以便实现最大的效率和盈利能力?这就是特征选择发挥作用的地方。
作者:Omega J Msigwa