Discusión sobre el artículo "Selección de características y reducción de dimensionalidad mediante componentes principales"
El tema es, por supuesto, eterno y siempre pertinente.
Sería bueno tener diferentes métodos en el artículo para comparar su eficacia, no en datos sintéticos, sino en datos reales.
Intenté aumentar el número de características a 5000 y las filas a 10000 - esperé tres días el resultado - ningún resultado. Así que me pregunto si la calidad sufriría significativamente si dividimos el número de características en grupos, digamos 100 ejemplos cada uno, y luego reunimos a los ganadores de cada grupo para una selección final.

Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Artículo publicado Selección de características y reducción de dimensionalidad mediante componentes principales:
La predicción de series temporales financieras a menudo implica el análisis de numerosas características, muchas de las cuales pueden estar altamente correlacionadas. Las técnicas de reducción de dimensionalidad, como el análisis de componentes principales (Principal Component Analysis, PCA), pueden ayudar a crear una representación más compacta de estas características. Sin embargo, el PCA tiene limitaciones, especialmente en presencia de variables altamente correlacionadas. En tales casos, el PCA tiende a mostrar el efecto de agrupamiento, en el que un conjunto de variables altamente correlacionadas contribuye colectivamente a un componente principal determinado. En lugar de resaltar una sola variable, el PCA distribuye la influencia de manera relativamente uniforme entre todas las variables del grupo correlacionado.
Esta distribución uniforme puede ser beneficiosa para la supresión del ruido, ya que los componentes principales enfatizan los patrones comunes en lugar de las fluctuaciones aleatorias propias de las variables individuales. Sin embargo, esta supresión del ruido tiene un coste: a menudo diluye la contribución de las variables individuales a cada componente principal. Las variables que pueden ser significativas por sí mismas pueden parecer menos importantes dentro del espacio transformado, ya que su influencia se absorbe en la estructura más amplia capturada por el grupo. Esto puede ser un inconveniente importante en tareas como la selección de variables, donde el objetivo es identificar las características más influyentes, o en el análisis de causa raíz, donde comprender el impacto directo de variables específicas es crucial.
Autor: Francis Dube