Maxim Dmitrievsky #:
Eu esperava que alguém pudesse pelo menos pesquisar a dica no Google.

Mesmo que você tenha curvas de probabilidade em seu treinamento, sobre quais dados novos você pode falar. E Busting e Forrest pecam muito com isso. Busting é excesso de confiança, Forrest é falta de confiança. Desde que, é claro, você planeje usar o limite.

Eu mesmo observei que, quando você aumenta o limite, a qualidade das negociações não melhora, nem mesmo na linha do tempo. Então, qual é a probabilidade de retorno? Nada :)

De alguma forma, você não está prestando atenção às minhas publicações, concentrando-se nas probabilidades. Não importa como a probabilidade é chamada, o que importa é que, se ela não melhorar, o modelo está treinado em excesso, na lixeira. O erro de previsão em OOV, OOS e VNU deve ser praticamente o mesmo.

Aqui está outro histograma

Algoritmo diferente - histograma diferente, embora os rótulos e preditores sejam os mesmos. Se você estiver procurando algum tipo de probabilidade teórica, o que implica que diferentes algoritmos de classificação produzirão os mesmos histogramas ... isso não me ocorre, já que você precisa trabalhar com algoritmos específicos e eles farão previsões e precisam ser avaliados, não um ideal teórico. A principal avaliação aqui é o ajuste excessivo do modelo, não a proximidade das probabilidades com algum ideal teórico.

СанСаныч Фоменко #:

Um modelo pronto para uso não fornece probabilidades corretas, nenhum modelo. Essa é a história. Os rótulos previstos podem corresponder completamente, mas as probabilidades não refletem, não refletirão a probabilidade real do resultado.
Você está me entendendo?
 
Maxim Dmitrievsky #:
Você está me entendendo?

Adicionei minha postagem. Qualquer modelo fornece probabilidades corretas no sentido de que o erro de classificação não flutuará.

СанСаныч Фоменко #:

Desistiu? Faça uma pesquisa no Google sobre calibração de probabilidade de classificação, que deve estar no R.

E trace a curva de probabilidade de seu modelo em relação à referência.
 
Maxim Dmitrievsky #:
Estamos falando de coisas diferentes.

Eu estou escrevendo sobre o resultado, e você está escrevendo sobre o ideal de dados intermediários.

Para mim, é óbvio que os valores de probabilidade de rótulos específicos fornecidos por RF e ada serão diferentes, mas as previsões de rótulos específicos são quase as mesmas. Não estou interessado nos valores de probabilidade, estou interessado no erro de previsão

Se você teorizar, é muito provável que seja impossível obter a probabilidade de classe no seu sentido, já que você precisa provar que sua probabilidade satisfaz o teorema do limite, o que é muito duvidoso.

СанСаныч Фоменко #:

No entanto, a pergunta original estava lá, ninguém a respondeu. Estou falando exatamente do que perguntei.
Portanto, há algo pelo que se esforçar.
 
Maxim Dmitrievsky #:
Por quê? Se no sentido de uma tese....

СанСаныч Фоменко #:

Por quê? Se no sentido de uma tese....

Porque negociar com curvas de probabilidade significa ter perdas em vez de ganhos. Qualquer classificador precisa de calibração se for um aplicativo sensível ao risco.
Finalmente.
