文章 "时间序列挖掘的数据标签(第2部分):使用Python制作带有趋势标记的数据集"

 

新文章 时间序列挖掘的数据标签(第2部分):使用Python制作带有趋势标记的数据集已发布:

本系列文章介绍了几种时间序列标记方法,这些方法可以创建符合大多数人工智能模型的数据,而根据需要进行有针对性的数据标记可以使训练后的人工智能模型更符合预期设计,提高我们模型的准确性,甚至帮助模型实现质的飞跃!

目前,我们已经做了基础性的工作,但如果我们想获得更精确的数据,我们需要进一步的人为干预,我们在这里只指出几个方向,而不会进行详细的论证。

1.数据完整性检查

完整性是指数据信息是否缺失,可能是整个数据的缺失,也可能是数据中没有字段。数据完整性是数据质量最基本的评估标准之一。例如,如果M15时期股市数据中的前一个数据与下一个数据相差2小时,那么我们需要使用相应的工具来完成数据。当然,从我们的客户端获取外汇数据或股市数据通常很困难,但如果您从其他来源获取时间序列,如交通数据或天气数据,则需要特别注意这种情况。

数据质量的完整性相对容易评估,通常可以通过数据统计中的记录值和唯一值来评估。例如,如果上一期的股价数据收盘价为1000,但下一期的开盘价变为10,则需要检查数据是否丢失。


2.检查数据标注的准确性

从本文的角度来看,我们上面实现的数据标注方法可能存在一定的漏洞,我们不仅可以依靠pytrendseries库中提供的方法来获得准确的标注数据,还需要将数据可视化,观察数据的趋势分类是否过于敏感或迟钝,从而遗漏了一些关键信息,此时我们需要对数据进行分析,如果应该分解,则分解,如果应该合并,则需要合并。这项工作需要大量的精力和时间才能完成,这里暂时没有提供具体的例子。

准确性是指数据中记录的信息是否准确,数据中记录信息是否异常或错误。与一致性不同,存在准确性问题的数据不仅仅是规则中的不一致。一致性问题可能是由数据日志记录规则不一致引起的,但不一定是错误。

3.做一些基本的统计验证,看看标注是否合理

  • 完整性分布:快速直观地查看数据集的完整性。
  • 热图:热图使观察两个变量之间的相关性变得容易。
  • 层次聚类:你可以看到不同类别的数据是紧密相关的还是分散的。
当然,不是只有上述方法。

作者:Yuqiang Pan