Discussão do artigo "Reamostragem avançada e seleção de modelos CatBoost pelo método de força bruta"

[Excluído] 2020.12.05 10:45 #131

mytarmailS:

Karoch Não sei, talvez eu tenha um gmm errado ))) Mas não vejo diferença entre com ele e sem ele, em minha opinião tudo é decidido pelo alvo e nada mais....

Tenho 60 mil dados no total.

Pego os primeiros 10 mil e seleciono aleatoriamente 500 pontos.

Treino o modelo com eles imediatamente ou treino o gmm e, em seguida, treino o modelo.

testo os 50 mil restantes

E mesmo da maneira usual, você pode encontrar modelos como o gmm e, com a mesma frequência, eles são genetisados.

Por exemplo

o modelo sem gmm é treinado em 500 pontos e testado em 50 mil.

=================================================================================================

Vi uma coisa interessante para se pensar.....

Existe um ponto de vista segundo o qual o mercado deveria ser dividido em estados e negociar em cada estado uma estratégia diferente, mas todas as tentativas conhecidas por mim não tiveram êxito, ou o estado não é visto ou o modelo negocia mal mesmo em um "tipo de estado".

Mas, com essa abordagem, você pode ver claramente de qual mercado o modelo "gosta". e de quais ele não gosta.

Provavelmente por causa dos retornos do mashka como sinais, o modelo funciona melhor em flat.

É possível dividir manualmente em estados e adicionar esses períodos à trilha. Você precisa equilibrar os exemplos por "estados" ou criar exemplos artificiais por meio do gmm. Como assim, nunca obtive esses resultados em um modelo simples. Talvez alguns Mashas possam fazer isso.

Aprendizado de máquina no Quaisquer perguntas de recém-chegados Discussão do artigo "Como

mytarmailS 2020.12.05 10:55 #132

Maxim Dmitrievsky:
Você pode dividir manualmente em estados e inserir esses períodos na trilha. Você precisa equilibrar os exemplos por "estados" ou criar exemplos artificiais por meio do gmm

Sim, você pode fazer o HMM por estado, mas tudo será reconhecido por uma janela deslizante, portanto, com uma defasagem no tamanho da janela, portanto, ...... )

Acabei de ver que há uma visão realmente clara dos estados, o que me pareceu interessante.

Da teoria à prática Experiências com o MetaTrader Ferramentas úteis

[Excluído] 2020.12.05 10:56 #133

mytarmailS:

Sim, você pode fazer o HMM por estados, mas tudo será reconhecido por uma janela deslizante, ou seja, com um atraso no tamanho da janela, o que significa ...... )

Acabei de ver que você pode ver os estados com muita clareza aqui, o que me pareceu interessante.

As tendências geralmente são menos do que planas, então me parece que sempre será assim, você deve fazer uma amostragem delas. O mesmo agrupamento pode ser usado para dividi-las em estados.

Interessante saber ! O fenômeno de São Há alguns comerciantes que

mytarmailS 2020.12.05 10:57 #134

Maxim Dmitrievsky:
. Como é possível que eu nunca tenha obtido resultados como esses em um modelo nu? Talvez alguns Mashkas consigam fazer isso.

Com o gmm, tenho tentado coisas diferentes, isso e aquilo.

mytarmailS 2020.12.05 10:59 #135

Maxim Dmitrievsky:

Tenho uma obsessão por criar uma amostra de treinamento otimizando distribuições ou funções.

Sem usar nenhuma amostra, basta gerar "algo" e testá-lo em dados reais.

Mas ainda não sei como fazer isso

=====================================================

Também tenho uma ideia para melhorar a qualidade removendo árvores ruins do modelo, o que também pode ajudar.

Neuromongers, não passem por Aprendizado de máquina no Discussão do artigo "Metamodelos

[Excluído] 2020.12.05 12:53 #136

mytarmailS:

Tenho uma obsessão por criar uma amostra de treinamento otimizando distribuições ou funções.

Depois, sem começar com nenhuma amostra, basta gerar "algo" e testá-lo em dados reais.

Mas ainda não sei como fazer isso.

=====================================================

Também tenho uma ideia para melhorar a qualidade removendo árvores ruins do modelo, o que também pode ajudar.

Você é o único que quer se aprofundar na modelagem estocástica

iwelimorn 2020.12.06 16:10 #137

Maxim Dmitrievsky:

É uma abordagem curiosa. Para equilibrar as classes. Poderia ser usada para nossos propósitos. Isso acabou de me ocorrer.

https://towardsdatascience.com/augmenting-categorical-datasets-with-synthetic-data-for-machine-learning-a25095d6d7c8

Tentei integrar essa abordagem ao clusterizador do artigo, mas não como um método de balanceamento de classe, e sim como um gerador de um novo conjunto de dados balanceado.

Há um ótimo método para calcular a distância de Mahalanobis entre duas matrizes unidimensionais. O artigo diz que se trata de uma generalização multivariada de quantos desvios padrão uma amostra está da média da distribuição

Ainda não experimentei totalmente essa métrica, mas o autor sugere usá-la para avaliar se os recursos gerados pertencem a uma determinada classe .

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.mahalanobis.html

Para calcular esse indicador, precisamos de duas matrizes univariadas e uma matriz de covariância.

No nosso caso, a primeira matriz é o recurso gerado e a segunda matriz é a distribuição média dos recursos do GMM. A matriz de covariância também é obtida do GMM. O GMM é preparado para cada classe separadamente. Também são gerados a média, os desvios padrão de cada característica e os rótulos. Eles são necessários para gerar novos dados.

import numpy.linalg as lnalg
from scipy.spatial.distance import mahalanobis

#initialization 
gmms = dict()
desc_df = list()
inv_sig = dict()
arr_classes = np.sort(X.labels.unique())
cols = X.columns.tolist()
pr_c = add_labels(pr.copy(), min=60, max=120, add_noize=0.0)
X = pr_c[pr_c.columns[2:]]
x_train = X.copy()

#create descriptive statistics, train gmm, extract means and covariances for each classes
for ind, cls in enumerate(arr_classes):

    desc_df.append(x_train[x_train['labels'] == cls].describe())

    x_trainGMM = x_train[x_train['labels'] == cls].values[:, :-1]
    gmm = mixture.GaussianMixture(n_components=1, covariance_type='full').fit(x_trainGMM)
    gmms[cls] = (gmm.means_, gmm.covariances_)

    # invert the matrix for mahalanobis calc
    mu, sig = gmms[cls]
    isig = lnalg.inv(sig)
    inv_sig[cls] = mu, isig

Tudo está pronto para gerar e selecionar novos dados. Abaixo, aleatoriamente, com base na média e no desvio, são gerados recursos para cada classe em um número mais de 60 vezes maior do que o especificado. Isso é necessário para ter algo para escolher. E os rótulos são trazidos para o estado 0 -1.

 def brute_force(samples=5000):
    import numpy.linalg as lnalg
    gen = []

    for index_cl, cls in enumerate(arr_classes):

        dlt = samples * 60
        sub_arr = np.zeros((dlt, len(cols), 1))
        
        #generate samples ahd lables for cls class
        col_counter = 0
        for col in cols:
            sub_arr[:, col_counter] = np.random.normal(loc=desc_df[index_cl][col]['mean'],
                                                       scale=desc_df[index_cl][col]['std'],
                                                       size=(dlt, 1)
                                                       )
            col_counter += 1
        sub_arr = sub_arr.reshape((sub_arr.shape[:-1]))

        #normalization lables
        sub_arr[-1] = np.where(sub_arr[-1] >= 0.5, 1, 0)

        mh = np.zeros((arr_classes.shape[0]))
        counter = 0

        #selection of the most successful samples
        for index, i in enumerate(sub_arr):
            for m_index, m_cls in enumerate(arr_classes):
                mu, isig = inv_sig[m_cls]
                mh[m_index] = mahalanobis(i[:-1], mu, isig)
            
            #if gmm assignment the same as the original label add in gen
            if np.argmin(mh) == i[-1]:
                gen = np.append(gen, i)
                counter += 1
            if counter == int(samples / 2):
                break


...

Depois, para cada amostra, é calculado o índice de distância de Mahalanobis em relação às matrizes de distribuições médias do GMM para ambas as classes. É obtida uma matriz de 2 valores que mostram a proximidade da amostra gerada com ambas as classes. Se o rótulo coincidir com ele, nós o adicionamos à amostra de treinamento. E quando a amostra atinge o valor definido, passamos para a próxima classe. Dessa forma, obtemos uma amostra perfeitamente equilibrada.

Mas isso não cancela a dança do pandeiro e as relações complexas com a aleatoriedade. Mas se você se esforçar bastante, poderá obter um resultado normal:

Se eu tiver tempo e energia, tentarei semear as distribuições de recursos de 25 a 75 quantis no gerador, talvez isso dê algum resultado.

Também tentei usar o indicador de distância para avaliar a escolha dos recursos de destino. A ideia era que, com rótulos e alvos selecionados corretamente, o valor médio desse indicador diminuiria.

results = np.zeros(x_train.shape[0])
mh = np.zeros((arr_classes.shape[0]))
for index, i in enumerate(x_train.to_numpy()):
    for m_ind, m_cls in enumerate(arr_classes):
        mu, isig = inv_sig[m_ind]
        mh[m_ind] = mahalanobis(i[:-1], mu, isig)

    if np.argmin(mh) == i[-1]:
        results[index] = mh[np.argmin(mh)]

acc = results.sum() / results.shape[0]

print('Accuracy:', acc)

Executei todas as combinações "bem-sucedidas" disponíveis de alvo e recursos e também reproduzi as combinações "malsucedidas". Com uma análise tão superficial, o índice diminui para as variantes bem-sucedidas e aumenta para as mal-sucedidas. Pode haver alguma correlação, mas é preciso verificar. Se você tiver alguma versão de scanner de grade ou GA, poderá verificar isso

Aprendizado de máquina no Teorema de Bernoulli, Moab-Laplace; Discussão do artigo "Interfaces

[Excluído] 2020.12.06 16:48 #138

welimorn:

Tentei integrar essa abordagem ao mecanismo de agrupamento do artigo, mas não como um método de balanceamento de classe, e sim como um gerador de um novo conjunto de dados balanceado.

Executei todas as combinações "bem-sucedidas" de destino e atributos e reproduzi as combinações "malsucedidas". Nessa análise superficial, o índice diminui para as variantes bem-sucedidas e aumenta para as variantes malsucedidas. Pode haver alguma correlação, mas é preciso verificar. Se você tiver alguma versão do grid scanner ou GA, poderá verificar isso

Ainda não há scanner. Ótimo, vou ter que dar uma olhada mais de perto. Até o momento, tenho reunido informações sobre abordagens adicionais que podem aprimorar o modelo (além dos codificadores). Provavelmente formalizarei um artigo em breve.

Opções Aprendizado de máquina no FOREX - Tendências, previsões

iwelimorn 2020.12.08 17:03 #139

Maxim Dmitrievsky:

Ainda não há scanner. Ótimo, vou ter que dar uma olhada mais de perto. Enquanto isso, tenho reunido informações sobre outras abordagens que podem aprimorar o modelo (além dos codificadores). Provavelmente formalizarei um artigo em breve.

Com relação à combinação de modelos bem-sucedidos no processo de busca, mencionada anteriormente, tentei combinar modelos bem-sucedidos com atributos diferentes. Essa técnica equilibra a redução em algumas partes do histórico. Também notei que adicionar modelos com R^2 a partir de 0,65 melhora os resultados, mesmo se houver modelos com R^2 0,85-0,95.

Aprendizado de máquina no Qualquer pergunta de novato, Da teoria à prática

[Excluído] 2020.12.08 18:19 #140

welimorn:

Além da combinação acima mencionada de modelos bem-sucedidos no processo de busca, tentei combinar modelos bem-sucedidos com atributos diferentes. Essa técnica equilibra o rebaixamento em algumas partes do histórico. Também foi observado que adicionar modelos com R^2 a partir de 0,65 melhora os resultados, mesmo que haja modelos com R^2 0,85-0,95.

Sim, mas muitas vezes à custa da redução do número de negociações em 10 a 20%.

Discussão do artigo "Reamostragem avançada e seleção de modelos CatBoost pelo método de força bruta" - página 14