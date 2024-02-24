Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3388
Por que um grande número de sinais é ruim? Gráfico interessante de um livro sobre kozulu.
Probabilidade de encontrar o mesmo exemplo na amostra de treinamento, dependendo do número de recursos.
Não está claro. Probabilidade de encontrar o mesmo exemplo que na amostra de treinamento?
Nada está claro. Probabilidade de encontrar onde está o mesmo exemplo que na amostra de treinamento?
a mesma linha no conjunto de dados
se você tiver apenas 1.000 linhas
Em termos gerais, se você tiver mais de 18 recursos, estará treinando um classificador para se lembrar de cada linha porque elas nem se repeteme, na inferência causal, você não pode combinar exemplos para calcular estatísticas.
1. Como você obtém essa matriz? Quais são os números nela contidos?
2. Estou falando de regras. Em minha abordagem, não me importo como e do que a regra é derivada, mas se a resposta for semelhante a outra na amostra de treinamento, ela não contém informações adicionais.
Se você tiver mais de 14 (e até 10) recursos, terá muitas regras que não poderão ser reduzidas sem perda.
Tudo isso está dentro da esfera do casual...
Eles usam algoritmos de compactação eficientes dentro da neurônica, como o sec2sec, então isso também é verdade.
Se estivermos falando de texto, em 95% dos casos é usado o contador de palavras usual, como - quantas vezes uma palavra ocorreu nessa observação? 0, 1, 103..
São arquiteturas diferentes, bolos de camadas. É difícil comparar. Estamos falando de classificação ou regressão normal. Nesse caso, parece ser uma lei universal.
Ah, eu me lembro, ele é chamado de saco de palavras.
O que é novo, desconhecido, incompreensível, complicado?
A mesma tabela de sinais + qualquer MO
Isso é trabalhar com dados não estruturados (texto) e, em seguida, traduzi-los em uma estrutura de saco de palavras e, depois, em qualquer outra coisa que quisermos
É tudo a mesma coisa.
Essa é uma questão diferente. Não importa como você os transforme, a dimensionalidade do vetor de entrada deve ser menor do que o limite especificado, caso contrário, não será possível detectar um padrão. Os categóricos provavelmente têm um limite maior para o comprimento do vetor. Além disso, leve em conta a dependência do número de linhas. Em dados enormes, o número de recursos pode ser maior.