Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3311
Quem já experimentou o método"Compactness Profile"?
O objetivo do método é eliminar exemplos inconsistentes da amostra, o que deve melhorar a aprendizagem e reduzir o tamanho do modelo se forem usados os métodos de aprendizagem K nearest neighbor.
Não consegui encontrar uma implementação em python.....
O trabalho é experimental. Aqui está uma citação de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf
O trabalho foi realizado no âmbito dos projetos RFBR 05-01-00877, 05-07-90410 e do programa OMN RAS
É improvável que cada experimento tenha sido criado em um pacote.
Sim, e o experimento é artificial. O ruído foi adicionado ao conjunto de dados claramente separado por classes. E a separação clara é feita apenas por um recurso - o eixo Y. Se removermos o ruído (todos os dados de 0,2 a 0,8), descobriremos que deixamos exemplos apenas com a distância para outra classe não inferior a 0,6. Estou falando da terceira opção mais difícil da imagem:
Vá para a vida real e adicione seus 5.000 preditores que serão ruído a essa única ficha de trabalho. No agrupamento, você calcula a distância total entre os pontos nesse espaço dimensional de 5001. 0,6 de trabalho nunca será encontrado nesse caos.
Acho que qualquer classificador fará isso melhor, a mesma árvore encontrará esse único recurso e dividirá por ele, primeiro por 0,5 e depois chegará a divisões de 0,2 e 0,8, seguidas de folhas com 100% de pureza.
Isso nunca acontecerá. Qualquer MO não o encontrará. O lixo deve ser eliminado ANTES do treinamento do modelo. "Garbage in - rubbish out" é a lei da estatística.
Para esclarecer meu ponto de vista.
Qualquer algoritmo de MO tenta reduzir o erro. A redução de erros é mais eficaz no lixo, porque é muito mais provável que ele tenha valores "convenientes" para a redução de erros. Como resultado, é certo que a "importância" dos preditores para lixo será maior do que para NÃO lixo. É por isso que existe o pré-processamento, que é muito mais trabalhoso do que o ajuste do modelo em si.
Diga-me, por favor, o que não é lixo? Nunca vi ninguém falando sobre dados de entrada puros. Mas ouço falar de lixo no fórum o tempo todo.
Quais são eles? Se você está falando de lixo, então não teve lixo, caso contrário, não há nada com que compará-lo
Ninguém sabe o que é lixo e o que não é, esses são conceitos hipotéticos.
Se soubessem exatamente o que é o quê, não haveria um tópico de 3 mil páginas)))
A pessoa simplesmente supõe que ultrapassar tais e tais limites é "lixo", e esses limites também são hipotéticos. É por isso que a expressão "lixo dentro - lixo fora" não passa de uma bela frase: o que é lixo para um pesquisador não é lixo para outro pesquisador. É como as ondas de Eliot.