Pearson product-moment correlation matrix | //| INPUT PARAMETERS: | //| X - array[N,M], sample matrix: | //| * J-th column corresponds to J-th variable | //| * I-th row corresponds to I-th observation | //| N - N>=0, number of observations: | //| * if given, only leading N rows of X are used | //| * if not given, automatically determined from input | //| size | //| M - M>0, number of variables: | //| * if given, only leading M columns of X are used | //| * if not given, automatically determined from input | //| size | //| OUTPUT PARAMETERS: | //| C - array[M,M], correlation matrix (zero if N=0 or N=1) | //+------------------------------------------------------------------+ static bool CBaseStat::PearsonCorrM(const CMatrixDouble &cx,const int n, const int m,CMatrixDouble &c)
如果你有一个自制程序,如果没有现成的软件包,你也必须进行量化。
我想我太笨了......通过 Nampai 计算非常快,但通过 Panda 计算却又长又耗内存。我稍后再仔细检查。
Корреляционная матрица между строками заданных признаков. берется статистика по всем строкам как было в будущем в среднем. в тестере ищем корреляцию текущих значений с эталоном. Но я делаю в питоне и считаю корреляцию сразу для всех возможных пар
通过 SQL 阅读是否有效?
这辈子都不会
....
试试 Apache Arrow 或 DuckDB。
但 RAM 仍然是最快的方法。
.....
问题本身可以通过 G...ugly 解决,你的问题是不需要的 cor.
算法库中有一个双重相关计算函数。我想你只需将所有变量改为 char/uchar 变量,一切就都能正常工作了。 还有其他几十个常用函数也应重新设计。我们应该将 CMatrixDouble 改为动态数组或其他函数。
//| INPUT PARAMETERS: |
//| X - array[N,M], sample matrix: |
//| * J-th column corresponds to J-th variable |
//| * I-th row corresponds to I-th observation |
//| N - N>=0, number of observations: |
//| * if given, only leading N rows of X are used |
//| * if not given, automatically determined from input |
//| size |
//| M - M>0, number of variables: |
//| * if given, only leading M columns of X are used |
//| * if not given, automatically determined from input |
//| size |
//| OUTPUT PARAMETERS: |
//| C - array[M,M], correlation matrix (zero if N=0 or N=1) |
//+------------------------------------------------------------------+
static bool CBaseStat::PearsonCorrM(const CMatrixDouble &cx,const int n,
const int m,CMatrixDouble &c)
如果你有一个自制程序,如果没有现成的软件包,你也必须进行量化。
我想我太笨了......通过 Nampai 计算非常快,但通过 Panda 计算却又长又耗内存。我稍后再仔细检查。
无模式,模式按相关矩阵搜索
也许我有什么不明白的地方。
也许我有什么不明白的地方。
模式 = 一整套彼此高度相关的样本。
整个数据集中可能有很多这样的模式,每种模式在历史上的重合次数都不同。
如果没有矩阵,你就什么都找不到,或者你只能选取其中零散的一部分,而我正在计算所有可能的变体。
因此,你必须选取每一行,计算其与所有其他行的相关性,然后得到一个矩阵。模式 = 彼此高度相关的整组样本
整个数据集中可能有很多这样的集合
如果没有矩阵,你就什么也找不到,或者你只能选取其中零散的一部分,而我正在计算所有可能的变体。
因此,你必须取每一行,计算与其他所有行的相关性,然后得到一个矩阵。一般来说,它与聚类相似。
在这里,示例的相似性被最大化。
。
树状分类/回归最大化了这些示例的未来相似性。它使过去的相似性变差。
很久以前我也做过类似的事情,现在有了新的想法,我又重新做了一遍
模式 = 彼此高度相关的整组样本
整个数据集中可能有许多这样的模式,每个模式在历史上的匹配次数各不相同
如果没有矩阵,你将什么都找不到,或者你只能选取其中零散的一部分,而我正在计算所有可能的变体。
所以你必须把每一行都算上,然后计算与其他行的相关性,这样就得到了一个矩阵。我们有一些三维数据。
一行代表一个观察结果,一列代表一个特征。
第一行是最近的数据。
我们可以计算最后一行与其他每一行的相关性。
我们就能得到最后一行/当前一行与历史记录之间的 "相似性模式"。
你也可以进行聚类,得到类似的结果。
但我不明白,如果我们只需要当前/最后一行的状态,为什么还要计算 整个 相关矩阵?
这里的思考深度是什么?
我们是需要所有的模式,还是需要与当前情况和最后观察结果相对应的模式?
我们是否有任何三维数据
一行代表一个观察结果,一列代表一个特征。
第一行就像是最近的数据。
您可以计算最后一行与其他各行的相关性。
我们可以得到最后一行/当前行与历史记录之间的 "相似模式
你也可以进行聚类,得到类似的结果。
但我不明白,如果我们只需要当前/最后一行的状态,为什么还要计算 整个 相关矩阵。
这里的思考深度是什么?
是我们将一次性找到所有模式,我们需要所有模式,还是我们需要与当前情况和最后观察结果相对应的模式?
没有当前情况,只是历史搜索。
然后,你根据你的指标对模式进行排序,然后把最好的模式输入机器人。
没有当前,只是历史搜索
你可以一次只搜索一个模式,内存几乎是免费的,如果在任何时刻你只能在一个模式中,而不是所有模式中,你为什么要查看整个历史中的所有模式呢....?
还是我有什么不明白的地方?
您可以一次只搜索一个模式,内存几乎是免费的,如果在任何特定时刻您只能在一个模式中,而不是所有模式中,您为什么要查看整个历史记录中的所有模式呢...
还是我有什么不明白的地方?
你仍然需要检查所有的数据,并选择最好的数据与新数据进行核对。
#32456