那么，你需要皮尔逊。
差不多吧
对，不是这样的
差不多了，查查吧，我走了。
试图在长字符串中快速找到相似的短字符串。
通过 Alglib 实现的这种方法需要六秒多才能在第一百万个字符串中搜索到相似的短字符串（300）。
我加快了速度。
结果。
现在只需 300 毫秒。
当没有矩阵能做到这一点时。
在一个 10M 的字符串中找到相似的 30K 字符串需要 3 秒钟。
在一个 10M 的字符串中找到相似的 30K 字符串需要三秒钟。
300/1M 不是 fft，30K/10M 才是 fft。
在一个 10M 的字符串中找到长度为 30K 的相似字符串需要 3 秒钟。
令人印象深刻的结果
我从 2010 年到 2023 年抽取了一个样本（4.7 万行），按时间顺序分成 3 部分，并决定看看如果我们交换这些部分会发生什么。
子样本的大小为：培训 - 60%，测试 - 20%，考试 - 20%。
我做了这些组合（-1）--这是标准顺序--时间顺序。每个子样本都有自己的颜色。
对每组样本使用不同的 Seed 训练了 101 个模型，结果如下
所有指标都是标准的，可以看出，很难确定模型的平均利润（AVR 利润），以及在未参与训练的最后一个样本上利润超过 3000 点的模型的百分比。
也许应该减少训练样本中 -1 和 0 变体的相对成功率？总的来说，Recall 似乎对此有所反应。
您认为，在我们的案例中，这种组合的结果是否应该具有可比性？还是说数据已经无法挽回地过时了？