Você pode me dizer o que não é lixo? Nunca vi ninguém falando sobre dados de entrada limpos. Mas ouço falar de lixo no fórum o tempo todo.
O que são? Se estiver falando de lixo, então não teve lixo, caso contrário, não há nada com que compará-lo
É um movimento direcional, um vetor.
Mas tirá-lo do lixo é um desafio.
Por exemplo, eu tentaria carregar meu indicador em neurônios como preditores e tentaria identificar os sinais de lixo e de coletor de lixo.
Deixe-me esclarecer meu ponto de vista.
Qualquer algoritmo de MO tenta reduzir o erro. A redução do erro é mais eficaz no lixo, porque os valores "convenientes" para a redução do erro são muito mais comuns no lixo. Como resultado, é certo que a "importância" dos preditores para lixo será maior do que para NÃO lixo. É por isso que existe o pré-processamento, que é muito mais trabalhoso do que o ajuste real do modelo.
Neste exemplo artificial que estamos considerando (não são dados de mercado),
a ficha do eixo U não é lixo e é muito boa para definir classes. A ficha do eixo X é ruim porque as duas classes estão misturadas de maneira uniforme.
A árvore dividirá facilmente os dados em 1 e 2 exemplos da figura por apenas 1 divisão através de Y=0,5 com pureza absoluta de classes, ou seja, probabilidade de classe =100%. Ao testar a divisão no eixo X, a pureza será de cerca de 50%, e o algoritmo selecionará a divisão mais limpa, sobre Y. Ou seja, sua afirmação de que uma divisão ruim sobre X será selecionada está incorreta nesses exemplos.
O terceiro exemplo é mais complicado. A folha com U<0,2 será selecionada pelo algoritmo, uma vez que a pureza da classe = 100%, a folha U>0,8 também será selecionada.
A folha de 0,2 a 0,8 tem uma pureza de cerca de 50%, ou seja, é tão ruim quanto qualquer divisão do eixo X.
Outras divisões não fazem sentido, pois você não usará folhas com uma probabilidade de classe de 50%.
Se você fizer algo estúpido e dividir essa parte ruim em 1 exemplo em uma folha, então as divisões em Y e X serão usadas. Bem, se tivermos 1 exemplo em uma folha, então sua pureza, é claro, será de 100%. Mas essas não são folhas representativas. Somente os iniciantes farão isso.
As 3 primeiras folhas são suficientes, ou você pode parar de dividir as folhas em pelo menos 1-5-10% do número total de exemplos na folha. E nesse exemplo, use folhas com pureza, por exemplo, >90%, e essas serão as duas primeiras folhas: U<0,2 e U>0,8. O restante das folhas terá 50% +-10% devido à mistura desigual.
... Eu tentaria carregar meu indicador para os neurônios como preditores e tentaria identificar os sinais de lixo e catadores
E o que o impede de tentar?
Ninguém sabe o que é lixo e o que não é, são hipóteses.
Se soubéssemos exatamente o que é o quê, não haveria um tópico de 3 mil páginas)).
A pessoa simplesmente supõe que ir além de tais e tais limites é "lixo", e esses limites também são hipotéticos. É por isso que a expressão "lixo dentro - lixo fora" nada mais é do que uma bela frase: o que é lixo para um pesquisador não é lixo para outro pesquisador. É como as ondas de Eliot.
Não há necessidade de assinar para todos.
Muito provavelmente você não sabe quais exemplos são "lixo" e quais não são. Para você, esse é um conceito hipotético. Se soubesse o que é o quê, não estaria sentado neste tópico e escrevendo generalizações profundas para todos.
Quando você aprenderá o básico sobre o MoD? É uma pergunta retórica.
Você não precisa assinar para todos.
Esse é o propósito e o objetivo do IO - separar as moscas das costeletas.
Se você sabe, o que está fazendo aqui?
Na física, os sinais que afetam o sinal de que precisamos são geralmente considerados lixo. Qualquer sinal, qualquer ação causada por algo, é chamado de lixo porque não é necessário e não fornece uma avaliação correta do sinal de que o pesquisador precisa. E assim, bem, na natureza não há lixo))))))))))
Aqui, ao procurar padrões de preço, ineficiência ou qualquer outra coisa, o sinal para avaliação é o impacto de alguns eventos reais ou sua totalidade sobre o preço. E todas as outras influências serão lixo.
Não estou afirmando a veracidade do julgamento do curso))))
Se mergulharmos na teoria do DSP, será assim:
um sinal útil sem lixo é inicialmente conhecido (por exemplo, uma linha de tendência ou alguma curva)
então, no próximo tick, o sinal útil é subtraído da massa total de sinais, e os sinais que não são necessários, ou seja, o lixo, são identificados.
NÃO é um indicador que está relacionado a/influenciado por um professor. Aqui está um pacote de proxy repleto de algoritmos para separar lixo de NÃO lixo. A propósito, está longe de ser o único no R.
Por exemplo, o mashka para o incremento de preço do professor é um lixo, assim como qualquer algoritmo de suavização.
Se você se refere à seleção de recursos como parte dos modelos, discordo totalmente, pois a seleção de recursos como parte dos modelos classifica qualquer lixo.