Recherche dans les paquets matriciels

[Supprimé] 2016.02.16 21:37 #71

Alexey Volchanskiy:
Une question connexe pour tous les participants à la discussion. Travaillez-vous avec des données de type tick ? Je me suis éloigné depuis longtemps de l'analyse des barres, travaillant exclusivement sur les méthodes DSP.

J'utilise des enchères à barres M1 avec ascendants ainsi que Level2.

Alexey Volchanskiy 2016.02.16 21:40 #72

zaskok3:
J'utilise des offres à barres M1 avec des demandes ainsi que Level2.

L2 est-elle sur MT5 ?

Alexey Burnakov 2016.02.16 21:42 #73

Vladimir Perervenko:

L'article auquel vous faites référence concerne la régression. Il s'agit d'une classification. Ce sont deux grandes différences...

Je ne comprends toujours pas votre question.

Bonne chance

Ici, la régression ou la classification n'a pas d'importance. C'est pareil. C'est juste un article qui traite spécifiquement de la régression.

Juste pour clarifier : Vous avez des exemples pour la formation avec quelle étape sont prises, une barre (c'est-à-dire les entrées de chaque ligne du tableau de données) ou n barres, de sorte qu'il y a un décalage de temps entre les lignes ?

Je ne fais pas l'intello, et je ne veux certainement pas discréditer votre travail (vos articles m'aident).

Permettez-moi d'expliquer mon point de vue à l'aide d'un exemple concret, sans citer d'études statistiques :

dans un arbre de décision, vous aurez, disons, m nœuds terminaux. Chaque nœud contiendra des cas similaires dans les vecteurs d'entrée - un sous-espace de valeurs d'entrée. Ainsi, si vous avez des exemples consécutifs décalés en barres utilisant des entrées qui remontent à quelques barres (dans le pire des cas, également des centaines de barres), il y aura une forte autocorrélation entre les points proches, mais en même temps, puisque nous prédisons l'avenir quelques barres à l'avance (dans le pire des cas, également des centaines de barres), les sorties proches seront également les mêmes. Par exemple, la colonne des sorties sera formée par les séquences 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1. Ainsi, des dizaines de sorties identiques tomberont dans nos nœuds terminaux, se référant à des entrées adjacentes - similaires. On pourrait dire qu'il y aura une redondance d'exemples identiques regroupés par points de temps, ce qui faussera la distribution des réponses de la manière la plus catégorique. C'est pourquoi il est recommandé de ne pas conserver plus d'une position sur le marché, car l'effet de dépendance des entrées et sorties voisines est également présent lors de la formation d'un EA dans le terminal.

Dans ce cas, il y aura un recyclage difficile, ou plutôt une formation de statistiques d'observations non dépendantes. En d'autres termes, la chose la plus désagréable que l'on puisse obtenir en analysant des séries temporelles est la dépendance de vecteurs de données voisins. Si les vecteurs de données sont éloignés dans le temps, c'est bon. Dans ce cas, l'apprentissage automatique se résume à trouver des modèles qui sont invariants par rapport au temps.

Et ensuite, en se référant à la matrice d'erreurs que vous donnez comme exemple dans l'article :

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958

Test set
Error rate: 19.97%

Confusion matrix:
          Reference
Prediction  -1   1 class.error
        -1 541 145      0.2114
        1  119 517      0.1871

Je peux seulement dire que c'est fantastique. ) L'expérience a été menée par erreur. Il est impossible d'obtenir une matrice d'erreurs aussi abrupte sur un échantillon comportant des exemples indépendants, tout en séparant strictement l'ensemble de données de test de l'ensemble de données d'apprentissage dans le temps (biais d'anticipation).

Et le fait que la matrice d'erreur sur l'ensemble de test soit également fantastique suggère qu'un échantillon a été pris en mélange avec l'échantillon d'entraînement par le temps, dans lequel des exemples similaires sont également "regroupés". C'est-à-dire que ce résultat particulier ne dit rien sur la capacité du modèle construit à prédire le marché.

Vous pouvez essayer de prendre un peu plus de données et de les tester en utilisant la logique tail(all_data, 1/3) et voir comment le nombre d'observations dans les cellules de la matrice s'aligne. Vous pouvez même appliquer le critère du chi carré pour voir si les devinettes sont devenues presque aléatoires.

Tout ce que je voulais vous transmettre, j'ai essayé de le faire. Note, avec de bonnes intentions)

Bonne chance ! Alexey

L'Apprentissage Automatique dans le Algorithme pour combiner les Que mettre à l'entrée

[Supprimé] 2016.02.17 00:10 #74

Alexey Volchanskiy:
L2 est sur MT5 ?

MT4. Le code source a circulé sur le forum...

Alexey Volchanskiy 2016.02.17 02:30 #75

zaskok3:
MT4. Le code source a été divulgué sur le forum...

Amis et collègues, j'ai une question.

Comment formuler un algorithme à partir de données commerciales publiées ?

Alexey Volchanskiy 2016.02.17 02:32 #76

Alexey Volchanskiy:

Amis et collègues, j'ai une question.

Comment formuler un algorithme à partir de données commerciales publiées ?

Je sais que je l'ai mal écrit - formuler, du mot formule)

[Supprimé] 2016.02.17 08:56 #77

Alexey Volchanskiy:

Comment formuler un algorithme à partir de données commerciales publiées ?

Si vous voulez réorganiser le TS en fonction de l'état, utilisez l'apprentissage automatique :

Prenez un tas de valeurs indicatrices sur l'entrée, la sortie de l'état. Ajustement par des modèles mathématiques.

Je n'ai pas eu affaire à de telles absurdités.

[Archive] FOREX - Tendances, Discussion de l'article "Indicateurs Toute question de débutant,

СанСаныч Фоменко 2016.02.17 08:59 #78

Alexey Volchanskiy:
Au fait, j'ai une question pour tous les participants à la discussion. Travaillez-vous avec des données de type tick ? J'ai abandonné l'analyse des barres il y a longtemps et je travaille exclusivement avec des méthodes DSP.

L'utilisation du DSP est très discutable.

Pour les données en ticks, les idées de cointégration sont plus appropriées.

СанСаныч Фоменко 2016.02.17 09:21 #79

Alexey Burnakov:
Ici, la régression ou la classification n'a pas d'importance. C'est pareil. Il s'agit juste d'un article portant spécifiquement sur la régression.

Juste pour clarifier : avez-vous des exemples de formation avec lesquels les étapes sont prises, une barre (c'est-à-dire les entrées de chaque ligne du tableau de données) ou n barres, de sorte qu'il y ait un intervalle de temps entre les lignes ?

Je ne fais pas l'intello, et je ne veux certainement pas discréditer votre travail (vos articles m'aident).

Permettez-moi d'expliquer mon point de vue à l'aide d'un exemple concret, sans citer d'études statistiques :

dans un arbre de décision, vous aurez, disons, m nœuds terminaux. Chaque nœud contiendra des cas similaires dans les vecteurs d'entrée - un sous-espace de valeurs d'entrée. Ainsi, si vous avez des exemples consécutifs décalés en barres utilisant des entrées qui remontent à quelques barres (dans le pire des cas, également des centaines de barres), il y aura une forte autocorrélation entre les points proches, mais en même temps, puisque nous prédisons l'avenir quelques barres à l'avance (dans le pire des cas, également des centaines de barres), les sorties proches seront également les mêmes. Par exemple, la colonne des sorties sera formée par les séquences 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1. Ainsi, des dizaines de sorties identiques tomberont dans nos nœuds terminaux, se référant à des entrées adjacentes - similaires. On pourrait dire qu'il y aura une redondance d'exemples identiques regroupés par points de temps, ce qui faussera la distribution des réponses de la manière la plus catégorique. C'est pourquoi il est recommandé de ne pas détenir plus d'une position sur le marché, car l'effet de dépendance des entrées et sorties adjacentes se produit également lors de la formation d'un EA dans le terminal.

Dans ce cas, il y aura un recyclage difficile, ou plutôt une formation de statistiques d'observations non dépendantes. C'est-à-dire que la chose la plus désagréable que l'on puisse obtenir en analysant des séries temporelles est la dépendance de vecteurs de données voisins. Si les vecteurs de données sont éloignés dans le temps, c'est bon. Dans ce cas, l'apprentissage automatique se résume à trouver des modèles qui sont invariants par rapport au temps.

Et ensuite, en se référant à la matrice d'erreurs que vous donnez comme exemple dans l'article :

Je peux seulement dire que c'est fantastique. ) L'expérience a été menée par erreur. Il est impossible d'obtenir une matrice d'erreurs aussi abrupte sur un échantillon comportant des exemples indépendants, tout en séparant strictement l'ensemble de données de test de l'ensemble de données d'apprentissage dans le temps (biais d'anticipation).

Et le fait que la matrice d'erreur sur l'ensemble de test soit également fantastique suggère qu'un échantillon a été pris en mélange avec l'échantillon d'entraînement par le temps, dans lequel des exemples similaires sont également "regroupés". En d'autres termes, ce résultat particulier ne dit rien sur la capacité du modèle construit à prédire le marché.

Vous pouvez essayer de prendre un peu plus de données et de les tester en utilisant la logique tail(all_data, 1/3) et voir comment le nombre d'observations dans les cellules de la matrice s'aligne. Vous pourriez même appliquer le critère du chi carré pour voir si les devinettes sont devenues presque aléatoires.

Tout ce que je voulais vous transmettre, j'ai essayé de le faire. Note, avec de bonnes intentions)

Bonne chance ! Alexey

Désolé de m'immiscer, mais il semble qu'il s'agisse d'une discussion publique.

Votre message me semble être un mélange de plusieurs problèmes liés mais différents.

1. Qu'enseignez-vous au modèle ? Tendances ? Répartition des niveaux ? Une déviation de quelque chose ? Il semble très simple de sélectionner l'enseignant du modèle, mais dans la pratique, cela pose certaines difficultés. Quoi qu'il en soit, nous devons préparer l'enseignant (le vecteur selon lequel le modèle est formé) très spécifiquement pour notre idée de trading, par exemple, "Je trade les tendances".

2. Sur quoi enseignez-vous ? Dans votre post, vous mentionnez la présence d'une dépendance entre des barres adjacentes. Oui, il existe des modèles en bois (CORELearn) qui tiennent compte des dépendances entre des barres adjacentes, mais le problème que vous soulevez est beaucoup plus vaste et plus grave et n'a pas grand-chose à voir avec le modèle utilisé. C'est du recyclage de modèle. De la façon dont je le vois, il y a des ensembles de données qui produisent TOUJOURS des modèles surentraînés. Et aucune technique visant à éliminer le surentraînement n'est utile dans ce cas.

Il existe des ensembles de données d'entrée (ensembles de prédicteurs) parmi lesquels il y a des prédicteurs qui peuvent être utilisés pour construire des modèles qui ne sont PAS surentraînés. Mais les prédicteurs restants génèrent tellement de bruit qu'ils ne peuvent être éliminés par les progiciels de sélection de prédicteurs existants.

Par conséquent, une sélection manuelle des prédicteurs basée sur le critère "semble être pertinent pour notre enseignant, la variable cible" est obligatoire.

PS.

C'est drôle à dire, mais lorsqu'on négocie des tendances, tous les prédicteurs obtenus par lissage, en particulier la MA, sont extrêmement bruyants et les modèles sont toujours surentraînés. Et lorsqu'il est entraîné sur des échantillons OOV, vous pouvez également obtenir une erreur de 5% !

Régression bayésienne - Est-ce L'Apprentissage Automatique dans le Discussion de l'article "Les

Vladimir Perervenko 2016.02.17 10:52 #80

Alexey Burnakov:
Ici, la régression ou la classification n'a pas d'importance. C'est pareil. C'est juste un article qui traite spécifiquement de la régression.

Juste pour clarifier : Vous avez des exemples pour l'entraînement, avec quelle étape sont pris, une barre (c'est-à-dire, les entrées de chaque ligne des données du tableau) ou n barres, de sorte qu'il y avait un décalage de temps entre les lignes ?

L'ensemble de données initial est une matrice ou un cadre de données contenant les entrées et la cible. Lorsqu'ils sont divisés (stratifiés) en ensembles d'apprentissage et de test, les exemples sont mélangés de manière aléatoire, mais la distribution des classes dans les ensembles reste la même que dans l'ensemble original. Il n'est donc pas possible de dire à quel niveau les exemples sont pris. De toute évidence, vous confondez la transformation d'un vecteur en matrice, où vous pouvez parler de décalage temporel.

Je ne fais pas l'intello et je ne veux certainement pas discréditer votre travail (vos articles m'aident).

Oui, je suis loin de penser de cette façon. Mais je ne comprends vraiment pas la question.

Permettez-moi d'expliquer ma pensée par un exemple concret, sans citer d'études statistiques :

dans un arbre de décision, vous aurez, disons, m nœuds terminaux. Chaque nœud contiendra des cas similaires dans les vecteurs d'entrée - un sous-espace de valeurs d'entrée. Ainsi, si vous avez des exemples consécutifs décalés en barres utilisant des entrées qui remontent à quelques barres (dans le pire des cas, également des centaines de barres), il y aura une forte autocorrélation entre les points proches, mais en même temps, puisque nous prédisons l'avenir quelques barres à l'avance (dans le pire des cas, également des centaines de barres), les sorties proches seront également les mêmes. Par exemple, la colonne des sorties sera formée par les séquences 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1. Ainsi, des dizaines de sorties identiques tomberont dans nos nœuds terminaux, se référant à des entrées adjacentes - similaires. On pourrait dire qu'il y aura une redondance d'exemples identiques regroupés par points de temps, ce qui faussera la distribution des réponses de la manière la plus catégorique. C'est pourquoi il est recommandé de ne pas détenir plus d'une position sur le marché, car l'effet de dépendance des entrées et sorties voisines est également présent lors de la formation d'un EA dans le terminal.

Dans ce cas, il y aura un recyclage difficile, ou plutôt une formation de statistiques d'observations non dépendantes. C'est-à-dire que la chose la plus désagréable que l'on puisse obtenir en analysant des séries temporelles est la dépendance de vecteurs de données voisins. Si les vecteurs de données sont éloignés dans le temps, c'est bon. Dans ce cas, l'apprentissage automatique se résume à trouver des modèles qui sont invariants par rapport au temps.

Et ensuite, en se référant à la matrice d'erreurs que vous donnez comme exemple dans l'article :

Je peux seulement dire que c'est fantastique. ) L'expérience a été menée par erreur. Il est impossible d'obtenir une matrice d'erreurs aussi abrupte sur un échantillon comportant des exemples indépendants, tout en séparant strictement l'ensemble de données de test de l'ensemble de données d'apprentissage dans le temps (biais d'anticipation).

Et le fait que la matrice d'erreur sur l'ensemble de test soit également fantastique suggère qu'un échantillon a été pris en mélange avec l'échantillon d'entraînement par le temps, dans lequel des exemples similaires sont également "regroupés". En d'autres termes, ce résultat particulier ne dit rien sur la capacité du modèle construit à prédire le marché.

Vous pouvez essayer de prendre un peu plus de données et de les tester en utilisant la logique tail(all_data, 1/3) et voir comment le nombre d'observations dans les cellules de la matrice s'aligne. Vous pourriez même appliquer le critère du chi carré pour voir si les devinettes sont devenues presque aléatoires.

Vous allez donc donner un exemple pour l'expliquer sur vos doigts . Ou pensez-vous que je n'ai pas fait de tels tests ?

Tout ce que je voulais vous transmettre, j'ai essayé de le faire. Remarquez, avec de bonnes intentions )

Je veux vraiment comprendre ce que vous essayez de faire passer. En utilisant un exemple, je pense que ce serait plus clair.

Lorsqu'ils disent que vous avez commis uneerreur lors de l'expérience, vous devez leur dire quelle est cette erreur et leur proposer la bonne solution. Vous avez le paquet, des exemples, décrivez comment vous pensez que le calcul devrait être effectué.

Sans vouloir vous offenser.

Bonne chance

Recherche dans les paquets matriciels - page 8