Discussão do artigo "Codificação ordinal de variáveis nominais"

 

Novo artigo Codificação ordinal de variáveis nominais foi publicado:

Neste artigo, discutiremos e demonstraremos como transformar variáveis nominais em formatos numéricos adequados para algoritmos de aprendizado de máquina, utilizando tanto Python quanto MQL5.

As variáveis nominais são dados categóricos sem nenhuma ordem ou posto inerente entre as categorias. Exemplos relacionados a conjuntos de dados financeiros de séries temporais podem incluir:

  • Tipos de barras de preço (por exemplo, barra pino, spinning top, martelo)
  • Dias da semana (por exemplo, segunda-feira, terça-feira, quarta-feira)

Essas variáveis são puramente qualitativas, o que significa que não há uma hierarquia ou sequência implícita entre as categorias. Por exemplo, a formação de uma barra pino não é intrinsecamente superior a um spinning top, assim como uma barra bullish não é melhor que uma barra bearish.

Nos cálculos numéricos, uma prática comum é atribuir números inteiros arbitrários às diferentes categorias. No entanto, quando esses números inteiros são utilizados como entradas para algoritmos de aprendizado de máquina, existe o risco de que os valores atribuídos possam distorcer as informações presentes nos dados originais. O algoritmo pode, erroneamente, presumir que valores maiores implicam algum tipo de relacionamento ou classificação, mesmo que isso não tenha sido intencional.


Autor: Francis Dube