Discusión sobre el artículo "Marcado de datos en el análisis de series temporales (Parte 2): Creando conjuntos de datos con marcadores de tendencias utilizando Python"

 

Artículo publicado Marcado de datos en el análisis de series temporales (Parte 2): Creando conjuntos de datos con marcadores de tendencias utilizando Python:

En esta serie de artículos, presentaremos varias técnicas de marcado de series temporales que pueden producir datos que se ajusten a la mayoría de los modelos de inteligencia artificial (IA). El marcado dirigido de datos puede hacer que un modelo de IA entrenado resulte más relevante para las metas y objetivos del usuario, mejorando la precisión del modelo y ayudando a este a dar un salto de calidad.

Ya hemos realizado la mayor parte del trabajo por ahora, pero si queremos obtener datos más precisos, necesitaremos una mayor intervención manual en el código. Aquí solo señalaremos algunas áreas y no proporcionaremos una demostración detallada.

1. Verificando la integridad de los datos

La verificación puede encontrar que falta información de datos, lo cual podría significar que faltan todos los datos o que falta un campo en ellos. La integridad de los datos es uno de los criterios más esenciales al evaluar la calidad de los datos. Por ejemplo, si los datos del mercado de valores anteriores para el periodo M15 difieren en 2 horas de los datos siguientes, entonces deberemos utilizar las herramientas correspondientes para completar los datos. Obviamente, por lo general resulta difícil obtener datos sobre los tipos de cambio o los datos del mercado de valores desde nuestro terminal de cliente, pero si recibimos series temporales de otras fuentes, como datos de tráfico o meteorológicos, deberemos prestar especial atención a esta situación.

La integridad de la calidad de los datos se puede evaluar de forma relativamente fácil y, por lo general, podremos valorarla usando valores registrados y únicos en las estadísticas de datos. Por ejemplo, si los datos del precio de las acciones en el periodo anterior tienen un precio de cierre de 1 000, pero el precio de apertura se convierte en 10 en el siguiente periodo, deberemos verificar si faltan datos.


2. Comprobamos la precisión del marcado de datos

El método de marcado de datos implementado anteriormente puede tener ciertas vulnerabilidades. Para obtener datos de marcado precisos, no podemos confiar únicamente en los métodos ofrecidos en la biblioteca pytrendseries. Deberemos visualizar los datos adicionalmente, observar si la clasificación de las tendencias de los datos resulta demasiado sensible o, por el contrario, insensible. Puede que sea necesario dividir los datos en partes o fusionarlos. Este trabajo requiere mucho esfuerzo y tiempo, por lo que no tendría sentido dar ejemplos específicos todavía.

La medida de la precisión se refiere a la información registrada en los datos y puede detectar desviaciones en los mismos. A diferencia de la coherencia, los datos con problemas de precisión no suponen simplemente inconsistencias en las reglas. Los problemas de coherencia pueden deberse a reglas incoherentes de registro de datos, pero no necesariamente a errores.

3. Realice pruebas estadísticas básicas para garantizar que el margen de beneficio sea razonable.

  • Distribución de integridad: compruebe de forma rápida e intuitiva que el conjunto de datos esté integro.
  • Mapa de calor: nos permite observar fácilmente la correlación entre dos variables.
  • Clusterización jerárquica: podrá ver cómo de relacionadas están las diferentes clases de sus datos.
Por supuesto, esto no se aplica exclusivamente a los métodos anteriores.

Autor: Yuqiang Pan

Razón de la queja: