Novo jPrediction 11 Release foi lançado
Corrigida uma pequena falha (a vírgula em CSV não foi substituída por uma parada completa para números). Melhoria significativa do algoritmo de seleção de preditores para modelos.
Você pode baixá-lo do meu site (indicado no meu perfil), primeiro post na página principal.
E também queria escrever sobre a selecção de preditores...
Para além da experiência principal, também estou a fazer uma pequena análise sobre um activo cambial.
Há aí volumes normais, que também acrescentei às características.
Apliquei então o modelo linear habitual (regressão OLS) [Target ~ Predictor] a cada preditor separadamente para diferentes outputs (dos quais são 11).
Modelos f-stat.calculado. Eu tenho uma foto como esta:
E aqui está uma surpresa - todos os blocos de preditores ligados a volumes se revelaram desnecessários. E também não precisávamos de preditores baseados na autocorrelação dos aumentos de preços.
Também é claro que quanto maior o atraso da variável de saída, pior é o seu significado.
Depois eliminei todo o ruído por F crítico (a 0,01 nível).
Aconteceu assim:
Isto sem ter em conta possíveis interacções, infelizmente...
Mas para alguns inputs, o significado do modelo linear não é mau.
Eu tento não analisar a importância dos preditores um por um. Havia um bom exemplo na linha:
Há dois preditores.Qual deles é visualmente muito fácil de trabalhar com a análise de dois ao mesmo tempo, você pode ver que o segundo alvo forma clusters claros que podem ser encontrados pelos modelos. Se você usar estes preditores um por um, então cada um deles será inútil em predição.O quadro é puramente hipotético. Mas em relação ao Forex eu posso julgar por uma série de sinais de que bons preditores de alguma forma formam clusters semelhantes lá, apenas eu preciso de 30 preditores em vez de 2.
...
Anteriormente, na versão 10 era para que o jPrediction usando mais inputs não aumentasse a capacidade de generalização, e eu tinha que me retrair, mas agora, com mais preditores no modelo, a capacidade de generalização do modelo em geral aumenta, e o trabalho de tais modelos dura mais e melhor...
Obrigado pelo feedback!
Tentando a versão 11 nas amostras que tenho, cheguei a uma conclusão semelhante. Foi necessário confirmar esta hipotética conclusão com pesquisas independentes (reprodução do experimento). Afinal de contas, todos têm objectivos diferentes. Portanto, havia um risco potencial de que para alguns problemas o classificador desse resultados opostos. Além disso, o tempo para a seleção de preditores significativos na nova versão foi substancialmente aumentado e nem todos ficaram satisfeitos com isso.
Quanto ao tempo de treinamento do modelo, você pode potencialmente diminui-lo sem piorar a qualidade (generalizabilidade) - já é uma questão de técnica. O principal é obter um feedback construtivo a tempo de entender: vale a pena melhorar a jPredição nesta direção, ou a direção estava errada e deveria ser revertida para trás? Caso contrário, teríamos de perder tempo e esforço com características fúteis.
...
Eu recebo 92,3%(oos) sobre os dados que uso.
...
Os meus sinceros parabéns! (Se não estiveres a mentir).
E lamenta que esteja algures por aí e não seja do domínio público.
Discutir o que é do domínio público é inútil, pois é impossível provar ou refutar as suas "alegações" sobre o jPrediction.
Acabei de encontrar um artigo sobre um tópico que acho que é particularmente interessante para os amantes de NS.
O que achei interessante foi o final do artigo, que compara o erro de previsãodentro da amostra com o erro de previsãofora da amostra: ele faz isso através da correlação desses erros. Na minha terminologia isto significa que se a correlação for alta (no artigo 0.8), então o modelo não está excessivamente treinado.
De um modo geral, tudo isto é verdade. Há uma informatividade adicional sobre as interações que excede a soma das informações das entradas marginais.
Árvores de decisão, mendigando e impulsionando as interações dos modelos facilmente. Ou seja, sem qualquer esforço adicional por parte do usuário. Há muitos problemas para os modelos lineares. A regressão OLS leva em conta a ordem de ocorrência dos preditores... A adição alternada e gananciosa de preditores funciona, em princípio, mas a ganância faz com que o modelo seja desequilibrado. O mesmo se aplica às florestas e às árvores.
Mas eu seria cauteloso em incluir dezenas de preditores. Consegues imaginar-te a interagir com 30 variáveis? Para uma árvore, seria uma profundidade de pelo menos 30. É preciso uma grande quantidade de dados para simular sem um treino selvagem...
Na prática, a profundidade de interação de 3-5 já é suficiente.
Para mim, a interacção dos preditores é uma coisa extremamente duvidosa. Há tantos problemas lá.....
E se também há interação no OLS, é simplesmente impensável. Se você pegar e em um pedaço de papel escreva cuidadosamente todas as condições sob as quais o OLS pode ser aplicado. E depois comparar tudo o que está escrito no papel com a realidade nas séries de tempos financeiros.
PS.
Se você pegar quase qualquer livro sobre datamining, os procedimentos para remover os preditores correlatos são necessariamente descritos.
