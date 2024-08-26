Le développement de la technologie a conduit à l'émergence d'une approche fondamentalement nouvelle de la construction d'algorithmes de traitement des données. Avant cela, la résolution de chaque tâche spécifique nécessitait une formalisation claire et le développement d'algorithmes correspondants.

Avec l'apprentissage automatique, ou machine learning, l'ordinateur apprend à trouver les meilleurs moyens de traiter les données par lui-même. Les modèles d'apprentissage automatique peuvent résoudre avec succès des tâches de classification (lorsqu'il existe un ensemble fixe de classes et que l'objectif est de déterminer les probabilités d'appartenance à chaque classe d'un ensemble donné de caractéristiques) et des tâches de régression (lorsque l'objectif est d'estimer une valeur numérique de la variable cible sur la base d'un ensemble donné de caractéristiques). Des modèles de traitement de données plus complexes peuvent être élaborés à partir de ces composants fondamentaux.

La bibliothèque Scikit-learn fournit une multitude d'outils pour la classification et pour la régression. Le choix de méthodes et de modèles spécifiques dépend des caractéristiques des données, car différentes méthodes peuvent avoir une efficacité variable et fournir des résultats différents en fonction de la tâche.

Dans le communiqué de presse "ONNX Runtime is now open source", il est indiqué que le Runtime ONNX supporte également le profil ONNX-ML :



ONNX Runtime est le premier moteur d'inférence disponible publiquement avec un support complet pour ONNX 1.2 et supérieur, y compris le profil ONNX-ML.

Le profil ONNX-ML est une partie d'ONNX conçue spécifiquement pour les modèles d'apprentissage automatique (Machine Learning, ML). Il est destiné à décrire et à représenter divers types de modèles ML, tels que la classification, la régression, le regroupement et autres, dans un format pratique qui peut être utilisé sur diverses plateformes et environnements qui supportent ONNX. Le profil ONNX-ML simplifie la transmission, le déploiement et l'exécution des modèles d'apprentissage automatique, les rendant plus accessibles et portables.



Dans cet article, nous allons explorer l'application de tous les modèles de classification dans le paquet Scikit-learn pour résoudre la tâche de classification de l'Iris de Fisher. Nous tenterons également de convertir ces modèles au format ONNX et d'utiliser les modèles résultants dans les programmes MQL5.



Nous comparerons également la précision des modèles originaux avec leurs versions ONNX sur l'ensemble des données Iris.







Table des Matières







1. Iris de Fisher



L'ensemble de données Iris est l'un des ensembles de données les plus connus et les plus utilisés dans le domaine de l'apprentissage automatique. Il a été introduit pour la première fois en 1936 par le statisticien et biologiste R.A. Fisher et est devenu depuis un ensemble de données classique pour les tâches de classification.

L'ensemble de données Iris consiste en des mesures de sépales et de pétales de trois espèces d'iris : Iris setosa, Iris virginica et Iris versicolor.

Figure 1. Iris setosa









Figure 2. Iris virginica









Figure 3. Iris versicolor



L'ensemble de données Iris comprend 150 instances d'iris, avec 50 instances de chacune des trois espèces. Chaque instance a 4 caractéristiques numériques (mesurées en centimètres) :



Longueur du sépale Largeur du sépale Longueur du pétale Largeur du pétale

Chaque instance a également une classe correspondante indiquant l'espèce d'iris (Iris setosa, Iris virginica ou Iris versicolor). Cette caractéristique de classification fait de l'ensemble de données Iris un ensemble de données idéal pour les tâches d'apprentissage automatique telles que la classification et le regroupement.

MetaEditor permet de travailler avec des scripts Python. Pour créer un script Python, sélectionnez "Nouveau" dans le menu "Fichier" de MetaEditor, et une boîte de dialogue permettant de choisir l'objet à créer apparaît (voir figure 4).



Figure 4. Création d'un script Python dans l'Assistant MQL5 - Etape 1



Donnez ensuite un nom au script, par exemple "IRIS.py" (voir figure 5).







Figure 5. Création d'un script Python dans l'Assistant MQL5 - Etape 2 - Nom du script

Vous pouvez ensuite spécifier les bibliothèques qui seront utilisées. Dans notre cas, nous laisserons ces champs vides (voir figure 6).







Figure 6 : Création d'un script Python dans l'Assistant MQL5 - Etape 3





L'une des façons de commencer l'analyse de l'ensemble de données Iris est de visualiser les données. Une représentation graphique nous permet de mieux comprendre la structure des données et les relations entre les caractéristiques.

Par exemple, vous pouvez créer un diagramme de dispersion pour voir comment les différentes espèces d'iris sont réparties dans l'espace des caractéristiques.

Code du script Python :



# The script shows the scatter plot of the Iris dataset features # Copyright 2023, MetaQuotes Ltd. # https://mql5.com import matplotlib.pyplot as plt from sklearn import datasets # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # extract sepal length and sepal width (the first two features) sepal_length = X[:, 0 ] sepal_width = X[:, 1 ] # create a scatter plot plt.figure(figsize=( 8 , 6 )) plt.scatter(sepal_length, sepal_width, c=y, cmap=plt.cm.Set1, edgecolor= 'k' ) plt.xlabel( 'Sepal Length (cm)' ) plt.ylabel( 'Sepal Width (cm)' ) plt.title( 'Scatter Plot for Sepal Length and Sepal Width' ) plt.colorbar(label= 'Iris Species' , ticks=[ 0 , 1 , 2 ]) plt.show() # save the scatter plot to a file (optional) # plt.savefig('scatter_plot_sepal_length_width.png') # Extract petal length and petal width (the third and fourth features) petal_length = X[:, 2 ] petal_width = X[:, 3 ] # create a scatter plot plt.figure(figsize=( 8 , 6 )) plt.scatter(petal_length, petal_width, c=y, cmap=plt.cm.Set1, edgecolor= 'k' ) plt.xlabel( 'Petal Length (cm)' ) plt.ylabel( 'Petal Width (cm)' ) plt.title( 'Scatter Plot for Petal Length and Petal Width' ) plt.colorbar(label= 'Iris Species' , ticks=[ 0 , 1 , 2 ]) plt.show() # save the scatter plot to a file (optional) # plt.savefig('scatter_plot_petal_length_width.png')

Pour exécuter ce script, vous devez le copier dans MetaEditor (voir figure 7) et cliquer sur "Compiler".





Figure 7 : Script IRIS.py dans MetaEditor





Ensuite, les parcelles s'affichent à l'écran :







Figure 8 : Le script IRIS.py dans MetaEditor avec le tracé de la longueur et de la largeur des sépales









Figure 9 : Le script IRIS.py dans MetaEditor avec le tracé de la longueur et de la largeur des pétales





Examinons-les de plus près.





Figure 10 : Diagramme de dispersion de la longueur du sépale vs la largeur du sépale



Ce graphique montre la répartition des différentes espèces d'iris en fonction de la longueur et de la largeur des sépales. Nous pouvons observer que l'Iris setosa a typiquement des sépales plus courts et plus larges que les deux autres espèces.



Figure 11 : Diagramme de dispersion de la longueur du pétale par rapport à la largeur du pétale





Ce graphique montre la répartition des différentes espèces d'iris en fonction de la longueur et de la largeur des pétales. Nous pouvons remarquer que l'Iris setosa a les pétales les plus courts et les plus étroits, l'Iris virginica a les pétales les plus longs et les plus larges, et l'Iris versicolor se situe entre les deux.



L'ensemble de données Iris est un ensemble de données idéal pour former et tester des modèles d'apprentissage automatique. Nous l'utiliserons pour analyser l'efficacité des modèles d'apprentissage automatique pour une tâche de classification.









2. Modèles de Classification



La classification est l'une des tâches fondamentales de l'apprentissage automatique. Son objectif est de classer les données dans différentes catégories, ou classes, sur la base de certaines caractéristiques.

Explorons les principaux modèles d'apprentissage automatique du paquet scikit-learn.





Liste des Classificateurs Scikit-learn

Pour afficher la liste des classificateurs disponibles dans scikit-learn, vous pouvez utiliser le script suivant :



# ScikitLearnClassifiers.py # The script lists all the classification algorithms available in scikit-learn # Copyright 2023, MetaQuotes Ltd. # https://mql5.com # print Python version from platform import python_version print ( "The Python version is " , python_version()) # print scikit-learn version import sklearn print ( 'The scikit-learn version is {}.' .format(sklearn.__version__)) # print scikit-learn classifiers from sklearn.utils import all_estimators classifiers = all_estimators(type_filter= 'classifier' ) for index, (name, ClassifierClass) in enumerate(classifiers, start= 1 ): print ( f"Classifier {index}: {name}" )

Sortie :

Python The Python version is 3.10.0

Python The scikit-learn version is 1.2.2.

Python Classifier 1: AdaBoostClassifier

Python Classifier 2: BaggingClassifier

Python Classifier 3: BernoulliNB

Python Classifier 4: CalibratedClassifierCV

Python Classifier 5: CategoricalNB

Python Classifier 6: ClassifierChain

Python Classifier 7: ComplementNB

Python Classifier 8: DecisionTreeClassifier

Python Classifier 9: DummyClassifier

Python Classifier 10: ExtraTreeClassifier

Python Classifier 11: ExtraTreesClassifier

Python Classifier 12: GaussianNB

Python Classifier 13: GaussianProcessClassifier

Python Classifier 14: GradientBoostingClassifier

Python Classifier 15: HistGradientBoostingClassifier

Python Classifier 16: KNeighborsClassifier

Python Classifier 17: LabelPropagation

Python Classifier 18: LabelSpreading

Python Classifier 19: LinearDiscriminantAnalysis

Python Classifier 20: LinearSVC

Python Classifier 21: LogisticRegression

Python Classifier 22: LogisticRegressionCV

Python Classifier 23: MLPClassifier

Python Classifier 24: MultiOutputClassifier

Python Classifier 25: MultinomialNB

Python Classifier 26: NearestCentroid

Python Classifier 27: NuSVC

Python Classifier 28: OneVsOneClassifier

Python Classifier 29: OneVsRestClassifier

Python Classifier 30: OutputCodeClassifier

Python Classifier 31: PassiveAggressiveClassifier

Python Classifier 32: Perceptron

Python Classifier 33: QuadraticDiscriminantAnalysis

Python Classifier 34: RadiusNeighborsClassifier

Python Classifier 35: RandomForestClassifier

Python Classifier 36: RidgeClassifier

Python Classifier 37: RidgeClassifierCV

Python Classifier 38: SGDClassifier

Python Classifier 39: SVC

Python Classifier 40: StackingClassifier

Python Classifier 41: VotingClassifier



Pour plus de visibilité dans cette liste de classificateurs, ils sont mis en évidence par des couleurs différentes. Les modèles qui nécessitent des classificateurs de base sont surlignés en jaune, les autres modèles peuvent être utilisés indépendamment.



Pour l'avenir, il est intéressant de noter que les modèles colorés en vert ont été exportés avec succès au format ONNX. Les modèles colorés en rouge rencontrent des erreurs lors de la conversion dans la version actuelle de scikit-learn 1.2.2.





Différentes représentations des données de sortie dans les modèles



Il convient de noter que les différents modèles représentent les données de sortie différemment. Il faut donc être attentif lorsque l'on travaille avec des modèles convertis en ONNX.

Pour la tâche de classification de l'Iris de Fisher, les tenseurs d'entrée ont le même format pour tous ces modèles :



Informations sur les tenseurs d'entrée dans ONNX :

1. Nom : float_input, Type de Données : tensor(float), Forme : [None, 4]

Les tenseurs de sortie des modèles ONNX sont différents.



1. Modèles ne nécessitant pas de post-traitement :



Classificateur SVC Classificateur LinearSVC NuSVC Classifier

Classificateur Radius Neighbors Classificateur Ridge Classificateur Ridge CV



Informations sur les tenseurs de sortie dans ONNX :

1. Nom : label, Type de Données : tensor(int64), Forme : [None]

2. Name : probabilities, Type de Données : tensor(float), Forme : [None, 3]

Ces modèles renvoient le résultat (numéro de classe) explicitement dans le premier tenseur entier de sortie "label", sans nécessiter de post-traitement.



2. Modèles dont les résultats nécessitent un post-traitement :



Classification Random Forest Classificateur Gradient Boosting Classificateur AdaBoost Classificateur Bagging Classificateur K-NN Classificateur Decision Tree Classificateur Logistic Regression Classificateur Logistic Regression CV

Classificateur Passif-Agressif Classificateur Perceptron Classificateur SGD Classificateur Gaussian Naive Bayes Classificateur Multinomial Naive Bayes Classificateur Complement Naive Bayes Classificateur Bernoulli Naive Bayes Classification Multilayer Perceptron Classificateur Linear Discriminant Analysis Classificateur Hist Gradient Boosting Classificateur Categorical Naive Bayes Classificateur ExtraTree Classificateur ExtraTrees



Informations sur les tenseurs de sortie dans ONNX :

1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

2. Nom : output_probability, Type de Données : seq(map(int64,tensor(float) )), Forme : []

Ces modèles renvoient une liste de classes et de probabilités d'appartenance à chaque classe.



Pour obtenir le résultat dans ces cas, un post-traitement est nécessaire, tel que seq(map(int64, tensor(float)) (recherche de l'élément ayant la probabilité la plus élevée).



Il est donc essentiel d'être attentif et de prendre en compte ces aspects lorsque l'on travaille avec des modèles ONNX. Un exemple de traitement différent des résultats est présenté dans le script au point 2.28.2.



iris.mqh



Pour tester les modèles sur l'ensemble des données Iris dans MQL5, une préparation des données est nécessaire. Pour cela, la fonction PrepareIrisDataset() sera utilisée.

Il est pratique de déplacer ces fonctions dans le fichier iris.mqh.

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" struct sIRISsample { int sample_id; double features[ 4 ]; string class_name; int class_id; }; sIRISsample ExtIRISDataset[]; int Exttotal= 0 ; int IRISClassID( string class_name) { if (class_name== "Iris-setosa" ) return ( 0 ); else if (class_name== "Iris-versicolor" ) return ( 1 ); else if (class_name== "Iris-virginica" ) return ( 2 ); return (- 1 ); } bool AddSample( const int Id, const double SepalLengthCm, const double SepalWidthCm, const double PetalLengthCm, const double PetalWidthCm, const string Species) { ExtIRISDataset[Exttotal].sample_id=Id; ExtIRISDataset[Exttotal].features[ 0 ]=SepalLengthCm; ExtIRISDataset[Exttotal].features[ 1 ]=SepalWidthCm; ExtIRISDataset[Exttotal].features[ 2 ]=PetalLengthCm; ExtIRISDataset[Exttotal].features[ 3 ]=PetalWidthCm; ExtIRISDataset[Exttotal].class_name=Species; ExtIRISDataset[Exttotal].class_id=IRISClassID(Species); Exttotal++; return ( true ); } bool PrepareIrisDataset(sIRISsample &iris_samples[]) { ArrayResize (ExtIRISDataset, 150 ); Exttotal=0;
AddSample(1,5.1,3.5,1.4,0.2,"Iris-setosa");
AddSample(2,4.9,3.0,1.4,0.2,"Iris-setosa");
// ... [additional iris samples omitted for brevity]
AddSample(50,5.0,3.3,1.4,0.2,"Iris-setosa"); AddSample(19,5.7,3.8,1.7,0.3,"Iris-setosa");
AddSample(20,5.1,3.8,1.5,0.3,"Iris-setosa");
// ... [additional iris samples omitted for brevity]
AddSample(36,5.0,3.2,1.2,0.2,"Iris-setosa"); AddSample(37,5.5,3.5,1.3,0.2,"Iris-setosa");
AddSample(38,4.9,3.6,1.4,0.1,"Iris-setosa");
// ... [additional iris samples omitted for brevity]
AddSample(54,5.5,2.3,4.0,1.3,"Iris-versicolor"); AddSample(55,6.5,2.8,4.6,1.5,"Iris-versicolor");
AddSample(56,5.7,2.8,4.5,1.3,"Iris-versicolor");
// ... [additional iris samples omitted for brevity]
AddSample(71,5.6,3.0,4.5,1.5,"Iris-versicolor"); AddSample(72,6.1,2.8,4.0,1.3,"Iris-versicolor");
AddSample(73,6.3,2.5,4.9,1.5,"Iris-versicolor");
// ... [additional iris samples omitted for brevity]
AddSample(88,6.3,2.3,4.4,1.3,"Iris-versicolor"); AddSample(89,5.6,3.0,4.1,1.3,"Iris-versicolor");
AddSample(90,5.5,2.5,4.0,1.3,"Iris-versicolor");
// ... [additional iris samples omitted for brevity]
AddSample(105,6.5,3.0,5.8,2.2,"Iris-virginica"); AddSample(106,7.6,3.0,6.6,2.1,"Iris-virginica");
AddSample(107,4.9,2.5,4.5,1.7,"Iris-virginica");
// ... [additional iris samples omitted for brevity]
AddSample(122,5.6,2.8,4.9,2.0,"Iris-virginica"); AddSample(123,7.7,2.8,6.7,2.0,"Iris-virginica");
AddSample(124,6.3,2.7,4.9,1.8,"Iris-virginica");
// ... [additional iris samples omitted for brevity]
AddSample(139,6.4,3.1,5.5,1.8,"Iris-virginica"); AddSample( 140 , 6.9 , 3.1 , 5.4 , 2.1 , "Iris-virginica" ); AddSample( 141 , 6.7 , 3.1 , 5.6 , 2.4 , "Iris-virginica" ); AddSample( 142 , 6.9 , 3.1 , 5.1 , 2.3 , "Iris-virginica" ); AddSample( 143 , 5.8 , 2.7 , 5.1 , 1.9 , "Iris-virginica" ); AddSample( 144 , 6.8 , 3.2 , 5.9 , 2.3 , "Iris-virginica" ); AddSample( 145 , 6.7 , 3.3 , 5.7 , 2.5 , "Iris-virginica" ); AddSample( 146 , 6.7 , 3.0 , 5.2 , 2.3 , "Iris-virginica" ); AddSample( 147 , 6.3 , 2.5 , 5.0 , 1.9 , "Iris-virginica" ); AddSample( 148 , 6.5 , 3.0 , 5.2 , 2.0 , "Iris-virginica" ); AddSample( 149 , 6.2 , 3.4 , 5.4 , 2.3 , "Iris-virginica" ); AddSample( 150 , 5.9 , 3.0 , 5.1 , 1.8 , "Iris-virginica" ); ArrayResize (iris_samples, 150 ); for ( int i= 0 ; i<Exttotal; i++) { iris_samples[i]=ExtIRISDataset[i]; } return ( true ); }





Note sur les méthodes de classification : SVC, LinearSVC et NuSVC



Comparons 3 méthodes de classification courantes : SVC (Support Vector Classification), LinearSVC (Linear Support Vector Classification) et NuSVC (Nu Support Vector Classification).



Principes de Fonctionnement :



SVC (Support Vector Classification)

Principe de Fonctionnement : Le SVC est une méthode de classification basée sur la maximisation de la marge entre les classes. Il recherche un hyperplan de séparation optimal qui sépare au maximum les classes et soutient les vecteurs de soutien - les points les plus proches de l'hyperplan.

Fonctions Noyau : Le SVC peut utiliser différentes fonctions noyau, telles que la fonction linéaire, la fonction de base radiale (RBF), la fonction polynomiale et d'autres encore. La fonction noyau détermine comment les données sont transformées pour trouver l'hyperplan optimal.



LinearSVC (Linear Support Vector Classification)

Principe de Fonctionnement : LinearSVC est une variante de SVC spécialisée dans la classification linéaire. Elle recherche un hyperplan de séparation linéaire optimal sans utiliser de fonctions noyau. Elle est donc plus rapide et plus efficace lorsqu'il s'agit de travailler avec de grands volumes de données.



NuSVC (Nu Support Vector Classification)

Principe de Fonctionnement : NuSVC est également basé sur les méthodes de vecteurs de support mais introduit un paramètre Nu (nu), qui contrôle la complexité du modèle et la fraction des vecteurs de support. La valeur Nu est comprise entre 0 et 1 et détermine la part des données qui peut être utilisée pour les vecteurs de support et pour les erreurs.



Avantages :



SVC

Algorithme Puissant : Le SVC peut gérer des tâches de classification complexes et travailler avec des données non linéaires grâce à l'utilisation de fonctions noyau.

Robustesse face aux valeurs aberrantes : Le SVC est résistant aux données aberrantes car il utilise des vecteurs de support pour construire l'hyperplan de séparation.



LinearSVC

Haute Efficacité : LinearSVC est plus rapide et plus efficace lorsqu'il s'agit de traiter de grands ensembles de données, en particulier lorsque les données sont volumineuses et que la séparation linéaire est adaptée à la tâche.

Classification Linéaire : Si le problème est bien linéairement séparable, LinearSVC peut donner de bons résultats sans qu'il soit nécessaire d'utiliser des fonctions noyau complexes.



NuSVC

Contrôle de la Complexité des Modèles : Le paramètre Nu de NuSVC vous permet de contrôler la complexité du modèle et le compromis entre l'adaptation aux données et la généralisation.

Robustesse face aux valeurs aberrantes : Comme le SVC, le NuSVC est résistant aux valeurs aberrantes, ce qui le rend utile pour les tâches impliquant des données bruyantes.



Limites :



SVC

Complexité de Calcul : Le SVC peut être lent sur de grands ensembles de données et/ou lors de l'utilisation de fonctions de noyau complexes.

Sensibilité du Noyau : Le choix de la bonne fonction noyau peut être une tâche difficile et avoir un impact significatif sur la performance du modèle.



LinearSVC

Contrainte de Linéarité : LinearSVC est limité par la séparation linéaire des données et peut donner de mauvais résultats dans les cas de dépendances non linéaires entre les caractéristiques et la variable cible.



NuSVC

Réglage du Paramètre Nu : Le réglage du paramètre Nu peut nécessiter du temps et des tests pour obtenir des résultats optimaux.



En fonction des caractéristiques de la tâche et du volume de données, chacune de ces méthodes peut constituer le meilleur choix. Il est important de mener des expériences et de sélectionner la méthode qui répond le mieux aux exigences spécifiques de la tâche de classification. Comparons 3 méthodes de classification courantes : SVC (Support Vector Classification), LinearSVC (Linear Support Vector Classification) et NuSVC (Nu Support Vector Classification).Principes de Fonctionnement :SVC (Support Vector Classification)Principe de Fonctionnement : Le SVC est une méthode de classification basée sur la maximisation de la marge entre les classes. Il recherche un hyperplan de séparation optimal qui sépare au maximum les classes et soutient les vecteurs de soutien - les points les plus proches de l'hyperplan.Fonctions Noyau : Le SVC peut utiliser différentes fonctions noyau, telles que la fonction linéaire, la fonction de base radiale (RBF), la fonction polynomiale et d'autres encore. La fonction noyau détermine comment les données sont transformées pour trouver l'hyperplan optimal.LinearSVC (Linear Support Vector Classification)Principe de Fonctionnement : LinearSVC est une variante de SVC spécialisée dans la classification linéaire. Elle recherche un hyperplan de séparation linéaire optimal sans utiliser de fonctions noyau. Elle est donc plus rapide et plus efficace lorsqu'il s'agit de travailler avec de grands volumes de données.NuSVC (Nu Support Vector Classification)Principe de Fonctionnement : NuSVC est également basé sur les méthodes de vecteurs de support mais introduit un paramètre Nu (nu), qui contrôle la complexité du modèle et la fraction des vecteurs de support. La valeur Nu est comprise entre 0 et 1 et détermine la part des données qui peut être utilisée pour les vecteurs de support et pour les erreurs.Avantages :SVCAlgorithme Puissant : Le SVC peut gérer des tâches de classification complexes et travailler avec des données non linéaires grâce à l'utilisation de fonctions noyau.Robustesse face aux valeurs aberrantes : Le SVC est résistant aux données aberrantes car il utilise des vecteurs de support pour construire l'hyperplan de séparation.LinearSVCHaute Efficacité : LinearSVC est plus rapide et plus efficace lorsqu'il s'agit de traiter de grands ensembles de données, en particulier lorsque les données sont volumineuses et que la séparation linéaire est adaptée à la tâche.Classification Linéaire : Si le problème est bien linéairement séparable, LinearSVC peut donner de bons résultats sans qu'il soit nécessaire d'utiliser des fonctions noyau complexes.NuSVCContrôle de la Complexité des Modèles : Le paramètre Nu de NuSVC vous permet de contrôler la complexité du modèle et le compromis entre l'adaptation aux données et la généralisation.Robustesse face aux valeurs aberrantes : Comme le SVC, le NuSVC est résistant aux valeurs aberrantes, ce qui le rend utile pour les tâches impliquant des données bruyantes.Limites :SVCComplexité de Calcul : Le SVC peut être lent sur de grands ensembles de données et/ou lors de l'utilisation de fonctions de noyau complexes.Sensibilité du Noyau : Le choix de la bonne fonction noyau peut être une tâche difficile et avoir un impact significatif sur la performance du modèle.LinearSVCContrainte de Linéarité : LinearSVC est limité par la séparation linéaire des données et peut donner de mauvais résultats dans les cas de dépendances non linéaires entre les caractéristiques et la variable cible.NuSVCRéglage du Paramètre Nu : Le réglage du paramètre Nu peut nécessiter du temps et des tests pour obtenir des résultats optimaux.En fonction des caractéristiques de la tâche et du volume de données, chacune de ces méthodes peut constituer le meilleur choix. Il est important de mener des expériences et de sélectionner la méthode qui répond le mieux aux exigences spécifiques de la tâche de classification.







2.1. Classificateur SVC



La méthode de classification Support Vector Classification (SVC) est un puissant algorithme d'apprentissage automatique largement utilisé pour résoudre les tâches de classification.

Principes de Fonctionnement :



Hyper-plan de Séparation Optimal

Principe de Fonctionnement : L'idée principale du SVC est de trouver l'hyper-plan de séparation optimal dans l'espace des caractéristiques. Cet hyper-plan doit maximiser la séparation entre les objets de différentes classes et soutenir les vecteurs de soutien, qui sont les points de données les plus proches de l'hyper-plan.

Maximiser la Marge : Le SVC vise à maximiser la marge entre les classes, c'est-à-dire la distance entre les vecteurs de support et l'hyper-plan. Cela permet à la méthode d'être résistante aux valeurs aberrantes et de bien s'adapter à de nouvelles données.



Utilisation des Fonctions Noyau

Fonctions Noyau : Le SVC peut utiliser différentes fonctions noyau, telles que la fonction linéaire, la fonction de base radiale (RBF), la fonction polynomiale et d'autres encore. La fonction noyau permet de projeter les données dans un espace de dimension supérieure où la tâche devient linéaire, même s'il n'y a pas de séparabilité linéaire dans l'espace de données d'origine.

Sélection du Noyau : Le choix de la bonne fonction noyau peut avoir un impact significatif sur les performances du modèle SVC. Un hyper-plan linéaire n'est pas toujours la solution optimale.

Avantages :



Algorithme Puissant. Gérer des Tâches Complexes : Le SVC peut résoudre des tâches de classification complexes, y compris celles qui présentent des dépendances non linéaires entre les caractéristiques et la variable cible.

Robustesse face aux valeurs aberrantes : L'utilisation de vecteurs de support rend la méthode robuste aux données aberrantes. Elle dépend des vecteurs de support plutôt que de l'ensemble des données.

Flexibilité du Noyau. Adaptabilité aux Données : La possibilité d'utiliser différentes fonctions noyau permet à SVC de s'adapter à des données spécifiques et de découvrir des relations non linéaires.

Bonne Généralisation. Généralisation à de Nouvelles Données : Le modèle SVC peut se généraliser à de nouvelles données, ce qui le rend utile pour les tâches de prédiction.

Limites :



Complexité de Calcul. Durée de la Formation : L'apprentissage du SVC peut être lent, en particulier lorsqu'il s'agit de grands volumes de données ou de fonctions noyau complexes.

Sélection du Noyau. Choisir la Bonne Fonction Noyau : La sélection de la bonne fonction noyau peut nécessiter des tests et dépend des caractéristiques des données.

Sensibilité à la Mise à l'Echelle des Caractéristiques. Normalisation des Données : Le SVC est sensible à la mise à l'échelle des caractéristiques, il est donc recommandé de normaliser ou de standardiser les données avant l'entraînement.

Interprétabilité du Modèle. Complexité d'Interprétation : Les modèles SVC peuvent être complexes à interpréter en raison de l'utilisation de noyaux non linéaires et d'une multitude de vecteurs de support.

En fonction de la tâche spécifique et du volume de données, la méthode SVC peut être un outil puissant pour résoudre les tâches de classification. Mais il est essentiel de tenir compte de ses limites et de régler les paramètres pour obtenir des résultats optimaux.





2.1.1. Code de Création du Modèle de Classification SVC

Ce code démontre le processus d'entraînement d'un modèle de Classificateur SVC sur le jeu de données Iris, son export au format ONNX et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.

# Iris_SVCClassifier.py # The code demonstrates the process of training SVC model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.svm import SVC from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create an SVC Classifier model with a linear kernel svc_model = SVC(kernel= 'linear' , C= 1.0 ) # train the model on the entire dataset svc_model.fit(X, y) # predict classes for the entire dataset y_pred = svc_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of SVC Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(svc_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "svc_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename} " ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of SVC Classifier model in ONNX format:" , accuracy_onnx)

Après avoir exécuté le script dans MetaEditor en utilisant le bouton "Compiler", vous pouvez voir les résultats de son exécution dans l'onglet Journal.







Figure 12. Résultats du script Iris_SVMClassifier.py dans MetaEditor



Sortie du script Iris_SVCClassifier.py :



Python Accuracy of SVC Classifier model: 0.9933333333333333

Python

Python Classification Report:

Python precision recall f1-score support

Python

Python 0 1.00 1.00 1.00 50

Python 1 1.00 0.98 0.99 50

Python 2 0.98 1.00 0.99 50

Python

Python accuracy 0.99 150

Python macro avg 0.99 0.99 0.99 150

Python weighted avg 0.99 0.99 0.99 150

Python

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\svc_iris.onnx

Python

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python

Python Information about output tensors in ONNX:

Python 1. Name: label, Data Type: tensor(int64), Shape: [None]

Python 2. Name: probabilities, Data Type: tensor(float), Shape: [None, 3]

Python

Python Accuracy of SVC Classifier model in ONNX format: 0.9933333333333333





Vous trouverez ici des informations sur le chemin où le modèle ONNX a été sauvegardé, les types de paramètres d'entrée et de sortie du modèle ONNX, ainsi que la précision dans la description de l'ensemble de données Iris.



La précision de la description de l'ensemble de données à l'aide du Classificateur SVM est de 99 %, et le modèle exporté au format ONNX présente le même niveau de précision.



Nous allons maintenant vérifier ces résultats dans MQL5 en exécutant le modèle construit pour chacun des 150 échantillons de données. Le script comprend également un exemple de traitement des données par lots.







2.1.2. Code MQL5 pour travailler avec le modèle de Classification SVC



#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "svc_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); ulong input_shape[]= { batch_size, input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); int output1[]; float output2[][ 3 ]; ArrayResize (output1,( int )batch_size); ArrayResize (output2,( int )batch_size); ulong output_shape[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape); ulong output_shape2[]= {batch_size, 3 }; OnnxSetOutputShape (model, 1 ,output_shape2); bool res= OnnxRun (model, ONNX_DEBUG_LOGS ,input_data,output1,output2); if (res) { for ( int k= 0 ; k<( int )batch_size; k++) model_classes_id[k]=output1[k]; } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "SVCClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Les résultats de l'exécution du script sont affichés dans l'onglet "Experts" du terminal MetaTrader 5.

Iris_SVCClassifier (EURUSD,H1) model:SVCClassifier sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_SVCClassifier (EURUSD,H1) model:SVCClassifier correct results: 99.33 % Iris_SVCClassifier (EURUSD,H1) model=SVCClassifier all samples accuracy= 0.993333 Iris_SVCClassifier (EURUSD,H1) model=SVCClassifier batch test accuracy= 1.000000

Le modèle SVC a correctement classé 149 échantillons sur 150, ce qui est un excellent résultat. Le modèle n'a commis qu'une seule erreur de classification dans l'ensemble de données Iris, en prédisant la classe 2 (versicolor) au lieu de la classe 1 (virginica) pour l'échantillon n° 84.

Il est intéressant de noter que la précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 99,33 %, ce qui correspond à la précision du modèle original.







2.1.3. Représentation ONNX du Modèle de Classification SVC

Vous pouvez visualiser le modèle ONNX construit dans MetaEditor.





Figure 13. Modèle ONNX svc_iris.onnx dans MetaEditor





Pour obtenir des informations plus détaillées sur l'architecture du modèle, vous pouvez utiliser Netron. Pour cela, cliquez sur le bouton "Ouvrir dans Netron" dans la description du modèle dans MetaEditor.









Figure 14. Modèle ONNX svc_iris.onnx dans Netron





De plus, en pointant la souris sur les opérateurs ONNX présents dans le modèle, vous pouvez obtenir des informations sur les paramètres de ces opérateurs (SVMClassifier dans la Figure 15).









Figure 15. Modèle ONNX svc_iris.onnx dans Netron (SVMClassifier ONNX Operator Parameters)









2.2. Classificateur LinearSVC

LinearSVC (Linear Support Vector Classification) est un puissant algorithme d'apprentissage automatique utilisé pour les tâches de classification binaire et multi-classe. Il est basé sur l'idée de trouver un hyper-plan qui sépare au mieux les données.



Principes de LinearSVC :



Recherche de l'hyper-plan optimal : L'idée principale de LinearSVC est de trouver l'hyper-plan optimal qui sépare au maximum les deux classes de données. Un hyper-plan est un plan multidimensionnel défini par une équation linéaire. Minimisation de la Marge : LinearSVC vise à minimiser les marges (les distances entre les points de données et l'hyper-plan). Plus les marges sont importantes, plus l'hyper-plan sépare efficacement les classes. Traitement de données linéairement non séparables : LinearSVC peut travailler avec des données qui ne peuvent pas être séparées linéairement dans l'espace des caractéristiques d'origine, grâce à l'utilisation de fonctions noyau (kernel trick) qui projettent les données dans un espace de dimension supérieure où elles peuvent être séparées linéairement.

Avantages de LinearSVC :



Bonne Généralisation : LinearSVC a une bonne capacité de généralisation et peut donner de bons résultats sur de nouvelles données inédites.

Efficacité : LinearSVC fonctionne rapidement sur de grands ensembles de données et nécessite relativement peu de ressources de calcul.

Traitement de données linéairement non séparables : En utilisant des fonctions noyau, LinearSVC peut traiter des tâches de classification avec des données linéairement non séparables.

Évolutivité : LinearSVC peut être utilisé efficacement dans les tâches comportant un grand nombre de caractéristiques et des volumes de données importants.

Limites de LinearSVC :



Uniquement des hyper-plans de séparation linéaires : LinearSVC ne construit que des hyper-plans de séparation linéaires, ce qui peut s'avérer insuffisant pour les tâches de classification complexes comportant des dépendances non linéaires.

Sélection des Paramètres : Le choix des bons paramètres (par exemple, le paramètre de régularisation) peut nécessiter des connaissances d'expert ou une validation croisée.

Sensibilité aux valeurs aberrantes : LinearSVC peut être sensible aux valeurs aberrantes dans les données, ce qui peut affecter la qualité de la classification.

Interprétabilité du modèle : Les modèles créés à l'aide de LinearSVC peuvent être moins faciles à interpréter que d'autres méthodes.

LinearSVC est un algorithme de classification puissant qui excelle dans la généralisation, l'efficacité et le traitement de données linéairement non séparables. Il trouve des applications dans diverses tâches de classification, en particulier lorsque les données peuvent être séparées par un hyper-plan linéaire. Mais pour les tâches complexes qui nécessitent la modélisation de dépendances non linéaires, LinearSVC peut s'avérer moins adapté. Dans ce cas, il convient d'envisager d'autres méthodes avec des limites de décision plus complexes.







2.2.1. Code pour la Création du Modèle de Classification LinearSVC

Ce code démontre le processus d'entraînement d'un modèle de classification LinearSVC sur le jeu de données Iris, l'exportant au format ONNX, et effectuant la classification en utilisant le modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.

# Iris_LinearSVC.py # The code demonstrates the process of training LinearSVC model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.svm import LinearSVC from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a LinearSVC model linear_svc_model = LinearSVC(C= 1.0 , max_iter= 10000 ) # train the model on the entire dataset linear_svc_model.fit(X, y) # predict classes for the entire dataset y_pred = linear_svc_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of LinearSVC model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(linear_svc_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "linear_svc_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print (f"Model saved to {onnx_filename}") # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name} , Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name} , Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of LinearSVC model in ONNX format:" , accuracy_onnx)

Sortie :

Python Accuracy of LinearSVC model: 0.9666666666666667

Python

Python Classification Report:

Python precision recall f1-score support

Python

Python 0 1.00 1.00 1.00 50

Python 1 0.96 0.94 0.95 50

Python 2 0.94 0.96 0.95 50

Python

Python accuracy 0.97 150

Python macro avg 0.97 0.97 0.97 150

Python weighted avg 0.97 0.97 0.97 150

Python

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\linear_svc_iris.onnx

Python

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python

Python Information about output tensors in ONNX:

Python 1. Name: label, Data Type: tensor(int64), Shape: [None]

Python 2. Name: probabilities, Data Type: tensor(float), Shape: [None, 3]

Python

Python Accuracy of LinearSVC model in ONNX format: 0.9666666666666667







2.2.2. Code MQL5 pour Travailler avec le Modèle de Classification LinearSVC

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "linear_svc_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); ulong input_shape[]= { batch_size, input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); int output1[]; float output2[][ 3 ]; ArrayResize (output1,( int )batch_size); ArrayResize (output2,( int )batch_size); ulong output_shape[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape); ulong output_shape2[]= {batch_size, 3 }; OnnxSetOutputShape (model, 1 ,output_shape2); bool res= OnnxRun (model, ONNX_DEBUG_LOGS ,input_data,output1,output2); if (res) { for ( int k= 0 ; k<( int )batch_size; k++) model_classes_id[k]=output1[k]; } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "LinearSVC" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Sortie :

Iris_LinearSVC (EURUSD,H1) model:LinearSVC sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_LinearSVC (EURUSD,H1) model:LinearSVC sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_LinearSVC (EURUSD,H1) model:LinearSVC sample= 85 FAILED [ class = 2 , true class = 1 ] features=( 5.40 , 3.00 , 4.50 , 1.50 ] Iris_LinearSVC (EURUSD,H1) model:LinearSVC sample= 130 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.00 , 5.80 , 1.60 ] Iris_LinearSVC (EURUSD,H1) model:LinearSVC sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_LinearSVC (EURUSD,H1) model:LinearSVC correct results: 96.67 % Iris_LinearSVC (EURUSD,H1) model=LinearSVC all samples accuracy= 0.966667 Iris_LinearSVC (EURUSD,H1) model=LinearSVC batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 96,67 %, ce qui correspond à la précision du modèle original.







2.2.3. Représentation ONNX du Modèle de Classification LinearSVC





Figure 16. Représentation ONNX du Modèle de Classification LinearSVC dans Netron







2.3. Classificateur NuSVC

La méthode Nu-Support Vector Classification (NuSVC) est un puissant algorithme d'apprentissage automatique basé sur l'approche Support Vector Machine (SVM).



Principes de NuSVC :



Support Vector Machine (SVM) : NuSVC est une variante des SVM utilisée pour les tâches de classification binaire et multi-classe. Le principe de base des SVM est de trouver l'hyper-plan de séparation optimal qui sépare au maximum les classes tout en conservant une marge maximale. Le Paramètre Nu : Un paramètre clé de NuSVC est le paramètre Nu (nu), qui contrôle la complexité du modèle et définit la proportion de l'échantillon qui peut être utilisée comme vecteurs de support et d'erreurs. La valeur de Nu est comprise entre 0 et 1, où 0,5 signifiant qu'environ la moitié de l'échantillon sera utilisée comme vecteurs de support et d'erreurs. Réglage des Paramètres : La détermination des valeurs optimales du paramètre Nu et d'autres hyper-paramètres peut nécessiter une validation croisée et une recherche des meilleures valeurs sur les données d'apprentissage. Fonctions Noyau : NuSVC peut utiliser différentes fonctions noyau telles que la fonction linéaire, la fonction de base radiale (RBF), la fonction polynomiale, etc. La fonction noyau détermine la façon dont l'espace des caractéristiques est transformé pour trouver l'hyper-plan de séparation.

Avantages de NuSVC :



Efficacité dans les Espaces à Haute Dimension : NuSVC peut travailler efficacement dans des espaces à haute dimension, ce qui le rend adapté aux tâches comportant un grand nombre de caractéristiques.

Robustesse face aux valeurs aberrantes : Les SVM, et NuSVC en particulier, sont résistants aux données aberrantes grâce à l'utilisation de vecteurs de support.

Contrôle de la Complexité du Modèle : Le paramètre Nu permet de contrôler la complexité du modèle et d'équilibrer l'adaptation aux données et la généralisation.

Bonne Généralisation : Les SVM et NuSVC, en particulier, font preuve d'une bonne généralisation, ce qui se traduit par d'excellentes performances sur des données nouvelles, jamais vues auparavant.

Limites de NuSVC :



Inefficacité Avec de Grands Volumes de Données : NuSVC peut être inefficace lorsqu'il est entraîné sur de grands volumes de données en raison de la complexité des calculs.

Réglage des Paramètres Requis : L'ajustement du paramètre Nu et de la fonction noyau peut nécessiter du temps et des ressources de calcul.

Linéarité de la Fonction du Noyau : L'efficacité de NuSVC peut dépendre de manière significative du choix de la fonction noyau, et pour certaines tâches, il peut être nécessaire d'expérimenter différentes fonctions.

Interprétabilité du Modèle : SVM et NuSVC fournissent d'excellents résultats, mais leurs modèles peuvent être complexes à interpréter, en particulier lorsque des noyaux non linéaires sont utilisés.

La classification vectorielle Nu-Support (NuSVC) est une méthode de classification puissante basée sur les SVM qui présente plusieurs avantages, notamment la robustesse aux valeurs aberrantes et une bonne généralisation. Mais son efficacité dépend de la sélection des paramètres et de la fonction du noyau, et elle peut être inefficace pour les grands volumes de données. Il est essentiel de sélectionner soigneusement les paramètres et d'adapter la méthode à des tâches de classification spécifiques.







2.3.1. Code de Création du Modèle de Classification NuSVC

Ce code démontre le processus d'entraînement d'un modèle de Classification NuSVC sur le jeu de données Iris, son export au format ONNX et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.

# Iris_NuSVC.py # The code demonstrates the process of training NuSVC model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.svm import NuSVC from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind("\\") + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a NuSVC model nusvc_model = NuSVC(nu= 0.5 , kernel= 'linear' ) # train the model on the entire dataset nusvc_model.fit(X, y) # predict classes for the entire dataset y_pred = nusvc_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of NuSVC model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(nusvc_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "nusvc_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename} " ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name} , Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name} , Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of NuSVC model in ONNX format:" , accuracy_onnx)

Sortie :

Python Accuracy of NuSVC model: 0.9733333333333334

Python

Python Classification Report:

Python precision recall f1-score support

Python

Python 0 1.00 1.00 1.00 50

Python 1 0.96 0.96 0.96 50

Python 2 0.96 0.96 0.96 50

Python

Python accuracy 0.97 150

Python macro avg 0.97 0.97 0.97 150

Python weighted avg 0.97 0.97 0.97 150

Python

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts

usvc_iris.onnx

Python

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python

Python Information about output tensors in ONNX:

Python 1. Name: label, Data Type: tensor(int64), Shape: [None]

Python 2. Name: probabilities, Data Type: tensor(float), Shape: [None, 3]

Python

Python Accuracy of NuSVC model in ONNX format: 0.9733333333333334







2.3.2. Code MQL5 pour Travailler avec le Modèle de Classification NuSVC

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "nusvc_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); ulong input_shape[]= { batch_size, input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); int output1[]; float output2[][ 3 ]; ArrayResize (output1,( int )batch_size); ArrayResize (output2,( int )batch_size); ulong output_shape[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape); ulong output_shape2[]= {batch_size, 3 }; OnnxSetOutputShape (model, 1 ,output_shape2); bool res= OnnxRun (model, ONNX_DEBUG_LOGS ,input_data,output1,output2); if (res) { for ( int k= 0 ; k<( int )batch_size; k++) model_classes_id[k]=output1[k]; } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "NuSVC" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Sortie :

Iris_NuSVC (EURUSD,H1) model:NuSVC sample= 78 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.00 , 5.00 , 1.70 ] Iris_NuSVC (EURUSD,H1) model:NuSVC sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_NuSVC (EURUSD,H1) model:NuSVC sample= 107 FAILED [ class = 1 , true class = 2 ] features=( 4.90 , 2.50 , 4.50 , 1.70 ] Iris_NuSVC (EURUSD,H1) model:NuSVC sample= 139 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 3.00 , 4.80 , 1.80 ] Iris_NuSVC (EURUSD,H1) model:NuSVC correct results: 97.33 % Iris_NuSVC (EURUSD,H1) model=NuSVC all samples accuracy= 0.973333 Iris_NuSVC (EURUSD,H1) model=NuSVC batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble des données d'Iris est de 97,33 %, ce qui correspond à la précision du modèle original.







2.3.3. Représentation ONNX du Modèle de Classification NuSVC





Figure 17. Représentation ONNX du Modèle de Classification NuSVC dans Netron







2.4. Classificateur Radius Neighbors

Détermination du rayon : Le paramètre principal du Classificateur Radius Neighbors est le rayon, qui définit la distance maximale entre un objet et ses voisins pour qu'il soit considéré comme proche de la classe de ces derniers. Recherche des voisins les plus proches : La distance par rapport à tous les autres objets de l'ensemble de données d'apprentissage est calculée pour chaque objet. Les objets situés dans le rayon spécifié sont considérés comme voisins de l'objet. Vote : Le classificateur Radius Neighbors utilise le vote majoritaire parmi les voisins pour déterminer la classe de l'objet. Par exemple, si la majorité des voisins appartiennent à la classe A, l'objet sera également classé dans la classe A.

Adaptabilité à la densité des données : Le Classificateur Radius Neighbors est adapté aux tâches où la densité des données dans les différentes régions de l'espace des caractéristiques peut varier.

Capacité à travailler avec différentes formes de classes : Cette méthode donne de bons résultats dans les tâches où les classes ont des formes complexes et non linéaires.

Convient aux données comportant des valeurs aberrantes : Le classificateur Radius Neighbors est plus robuste aux valeurs aberrantes que le K-NN car il ne tient pas compte des voisins situés au-delà du rayon spécifié.

Sensibilité au choix du rayon : La sélection de la valeur optimale du rayon peut être une tâche non triviale et nécessite un réglage.

Inefficacité sur les grands ensembles de données : Pour les grands ensembles de données, le calcul des distances entre tous les objets peut s'avérer très coûteux.

Dépendance de la densité des données : Cette méthode peut être moins efficace lorsque les données n'ont pas une densité uniforme dans l'espace des caractéristiques.

Le Classificateur Radius Neighbors est une méthode d'apprentissage automatique utilisée pour les tâches de classification basées sur le principe de proximité entre les objets. Contrairement au classique Classificateur K-NN (K-Nearest Neighbors), dans lequel un nombre fixe de voisins les plus proches (K) est choisi, dans le Classificateur Radius Neighbors, les objets sont classés en fonction de la distance qui les sépare des voisins les plus proches dans un rayon spécifié.Principes du Classificateur Radius Neighbors :Avantages du Classificateur Radius Neighbors :Limites du Classificateur Radius Neighbors :

Le Classificateur Radius Neighbors est une méthode d'apprentissage automatique précieuse dans les situations où la proximité des objets est importante et où les formes des classes peuvent être complexes. Il peut être appliqué dans divers domaines, notamment l'analyse d'images, le traitement du langage naturel, etc.





2.4.1. Code pour la Création d'un Modèle de Classification Radius Neighbors

Ce code démontre le processus d'entraînement d'un modèle de Classification Radius Neighbors sur le jeu de données Iris, son export au format ONNX et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.

# Iris_RadiusNeighborsClassifier.py # The code demonstrates the process of training an Radius Neughbors model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023 MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.neighbors import RadiusNeighborsClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Radius Neighbors Classifier model radius_model = RadiusNeighborsClassifier(radius= 1.0 ) # train the model on the entire dataset radius_model.fit(X, y) # predict classes for the entire dataset y_pred = radius_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Radius Neighbors Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [('float_input', FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(radius_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "radius_neighbors_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print (f"Model saved to {onnx_filename}") # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Radius Neighbors Classifier model in ONNX format:" , accuracy_onnx)

Résultats du script Iris_RadiusNeighbors.py :



Python Accuracy of Radius Neighbors Classifier model: 0.9733333333333334

Python

Python Classification Report:

Python precision recall f1-score support

Python

Python 0 1.00 1.00 1.00 50

Python 1 0.94 0.98 0.96 50

Python 2 0.98 0.94 0.96 50

Python

Python accuracy 0.97 150

Python macro avg 0.97 0.97 0.97 150

Python weighted avg 0.97 0.97 0.97 150

Python

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\radius_neighbors_iris.onnx

Python

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python

Python Information about output tensors in ONNX:

Python 1. Name: label, Data Type: tensor(int64), Shape: [None]

Python 2. Name: probabilities, Data Type: tensor(float), Shape: [None, 3]

Python

Python Accuracy of Radius Neighbors Classifier model in ONNX format: 0.9733333333333334



La précision du modèle original et la précision du modèle exporté au format ONNX sont identiques.





2.4.2. Code MQL5 pour Travailler avec le Modèle de Classification Radius Neighbors



#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "radius_neighbors_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); ulong input_shape[]= { batch_size, input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); int output1[]; float output2[][ 3 ]; ArrayResize (output1,( int )batch_size); ArrayResize (output2,( int )batch_size); ulong output_shape[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape); ulong output_shape2[]= {batch_size, 3 }; OnnxSetOutputShape (model, 1 ,output_shape2); bool res= OnnxRun (model, ONNX_DEBUG_LOGS ,input_data,output1,output2); if (res) { for ( int k= 0 ; k<( int )batch_size; k++) model_classes_id[k]=output1[k]; } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "RadiusNeighborsClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Sortie :

Iris_RadiusNeighborsClassifier (EURUSD,H1) model:RadiusNeighborsClassifier sample= 78 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.00 , 5.00 , 1.70 ] Iris_RadiusNeighborsClassifier (EURUSD,H1) model:RadiusNeighborsClassifier sample= 107 FAILED [ class = 1 , true class = 2 ] features=( 4.90 , 2.50 , 4.50 , 1.70 ] Iris_RadiusNeighborsClassifier (EURUSD,H1) model:RadiusNeighborsClassifier sample= 127 FAILED [ class = 1 , true class = 2 ] features=( 6.20 , 2.80 , 4.80 , 1.80 ] Iris_RadiusNeighborsClassifier (EURUSD,H1) model:RadiusNeighborsClassifier sample= 139 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 3.00 , 4.80 , 1.80 ] Iris_RadiusNeighborsClassifier (EURUSD,H1) model:RadiusNeighborsClassifier correct results: 97.33 % Iris_RadiusNeighborsClassifier (EURUSD,H1) model=RadiusNeighborsClassifier all samples accuracy= 0.973333 Iris_RadiusNeighborsClassifier (EURUSD,H1) model=RadiusNeighborsClassifier batch test accuracy= 1.000000

Le modèle Classificateur Radius Neighbors a montré une précision de 97,33% avec 4 erreurs de classification (échantillons 78, 107, 127 et 139).

La précision du modèle ONNX exporté sur l'ensemble des données d'Iris est de 97,33 %, ce qui correspond à la précision du modèle original.



2.4.3 Représentation ONNX du Modèle de Classification Radius Neighbors





Figure 18. Représentation ONNX du Classificateur Radius Neighbors dans Netron







Note sur les méthodes RidgeClassifier et RidgeClassifierCV



RidgeClassifier et RidgeClassifierCV sont deux méthodes de classification basées sur la régression Ridge. Mais elles diffèrent dans la manière dont les paramètres sont réglés et les hyper-paramètres sont automatiquement sélectionnés :



RidgeClassifier :

RidgeClassifier est une méthode de classification basée sur la régression Ridge, utilisée pour les tâches de classification binaire et multi-classe.

Dans le cas de la classification multi-classe, RidgeClassifier convertit la tâche en plusieurs tâches binaires (un contre tous) et construit un modèle pour chacune d'entre elles.

Le paramètre de régularisation alpha doit être réglé manuellement par l'utilisateur, ce qui signifie que vous devez choisir la valeur alpha optimale par le biais d'expériences ou d'analyses de données de validation. RidgeClassifierCV :

RidgeClassifierCV est une extension de RidgeClassifier qui fournit un support intégré pour la validation croisée et la sélection automatique du paramètre de régularisation optimal alpha.

Au lieu de définir manuellement alpha, vous pouvez fournir à RidgeClassifierCV une liste de valeurs alpha à étudier et spécifier la méthode de validation croisée (par exemple, via le paramètre cv).

RidgeClassifierCV sélectionne automatiquement la valeur alpha optimale qui donne les meilleurs résultats lors de la validation croisée. La principale différence entre eux réside donc dans le niveau d'automatisation de la sélection de la valeur optimale du paramètre de régularisation alpha. RidgeClassifier nécessite un réglage manuel de l'alpha, alors que RidgeClassifierCV permet une sélection automatique de la valeur alpha optimale par validation croisée. Le choix de l'un ou l'autre dépend de vos besoins et de votre désir d'automatiser le processus de mise au point du modèle.



2.5. Classificateur Ridge

Le classificateur Ridge est une variante de la régression logistique qui inclut la régularisation L2 (Régression Ridge) dans le modèle. La régularisation L2 ajoute une pénalité aux grands coefficients du modèle, ce qui permet de réduire l'ajustement excessif et d'améliorer la capacité de généralisation du modèle.



Principes du Classificateur Ridge :



Prédiction des Probabilités : À l'instar de la régression logistique, le Classificateur Ridge modélise la probabilité qu'un objet appartienne à une classe spécifique à l'aide d'une fonction logistique (sigmoïde). Régularisation L2 : Le Classificateur Ridge ajoute un terme de régularisation L2 qui pénalise les coefficients importants du modèle. Cela permet de contrôler la complexité du modèle et de réduire l'ajustement excessif. Formation des Paramètres : Le modèle Classificateur Ridge est entraîné sur l'ensemble de données d'entraînement afin d'ajuster les poids (coefficients) des caractéristiques et le paramètre de régularisation.

Avantages du Classificateur Ridge :



Réduction de l'Ajustement Excessif : La régularisation L2 permet de réduire la tendance du modèle à se sur-adapter, ce qui est particulièrement utile lorsque les données sont limitées.

Traitement de la Multi-colinéarité : Le Classificateur Ridge gère bien les problèmes de multi-colinéarité, lorsque les caractéristiques sont fortement corrélées entre elles.

Limites du Classificateur Ridge :



Sensibilité au Choix du Paramètre de Régularisation : Comme pour les autres méthodes de régularisation, le choix de la bonne valeur pour le paramètre de régularisation (alpha) nécessite un réglage et une évaluation.

Contrainte de Classification Multi-classe : Le classificateur Ridge est initialement conçu pour la classification binaire. Mais il peut être adapté à la classification multi-classe à l'aide d'approches telles que One-vs-All.

Le Classificateur Ridge est une puissante méthode d'apprentissage automatique qui combine les avantages de la régression logistique avec la régularisation pour lutter contre l'ajustement excessif et améliorer la capacité de généralisation du modèle. Il trouve des applications dans divers domaines où la classification probabiliste et le contrôle de la complexité des modèles sont importants.







2.5.1. Code de Création du Modèle Classificateur Ridge

Ce code démontre le processus d'entraînement du modèle Classificateur Ridge sur le jeu de données Iris, son export au format ONNX, et la réalisation de la classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.

# Iris_RidgeClassifier.py # The code demonstrates the process of training Ridge Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.linear_model import RidgeClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Ridge Classifier model ridge_model = RidgeClassifier() # train the model on the entire dataset ridge_model.fit(X, y) # predict classes for the entire dataset y_pred = ridge_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Ridge Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(ridge_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "ridge_classifier_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename}" ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ("

Information about output tensors in ONNX:") for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Ridge Classifier model in ONNX format:" , accuracy_onnx)

Sortie :

Python Accuracy of Ridge Classifier model: 0.8533333333333334

Python

Python Classification Report:

Python precision recall f1-score support

Python

Python 0 1.00 1.00 1.00 50

Python 1 0.87 0.66 0.75 50

Python 2 0.73 0.90 0.80 50

Python

Python accuracy 0.85 150

Python macro avg 0.86 0.85 0.85 150

Python weighted avg 0.86 0.85 0.85 150

Python

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\ridge_classifier_iris.onnx

Python

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python

Python Information about output tensors in ONNX:

Python 1. Name: label, Data Type: tensor(int64), Shape: [None]

Python 2. Name: probabilities, Data Type: tensor(float), Shape: [None, 3]

Python

Python Accuracy of Ridge Classifier model in ONNX format: 0.8533333333333334







2.5.2. Code MQL5 pour Travailler avec le Modèle de Classification Ridge

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "ridge_classifier_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); ulong input_shape[]= { batch_size, input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); int output1[]; float output2[][ 3 ]; ArrayResize (output1,( int )batch_size); ArrayResize (output2,( int )batch_size); ulong output_shape[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape); ulong output_shape2[]= {batch_size, 3 }; OnnxSetOutputShape (model, 1 ,output_shape2); bool res= OnnxRun (model, ONNX_DEBUG_LOGS ,input_data,output1,output2); if (res) { for ( int k= 0 ; k<( int )batch_size; k++) model_classes_id[k]=output1[k]; } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "RidgeClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Sortie :

Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 51 FAILED [ class = 2 , true class = 1 ] features=( 7.00 , 3.20 , 4.70 , 1.40 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 52 FAILED [ class = 2 , true class = 1 ] features=( 6.40 , 3.20 , 4.50 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 53 FAILED [ class = 2 , true class = 1 ] features=( 6.90 , 3.10 , 4.90 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 57 FAILED [ class = 2 , true class = 1 ] features=( 6.30 , 3.30 , 4.70 , 1.60 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 62 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.00 , 4.20 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 65 FAILED [ class = 2 , true class = 1 ] features=( 5.60 , 2.90 , 3.60 , 1.30 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 66 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.10 , 4.40 , 1.40 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 67 FAILED [ class = 2 , true class = 1 ] features=( 5.60 , 3.00 , 4.50 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 76 FAILED [ class = 2 , true class = 1 ] features=( 6.60 , 3.00 , 4.40 , 1.40 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 78 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.00 , 5.00 , 1.70 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 79 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.90 , 4.50 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 85 FAILED [ class = 2 , true class = 1 ] features=( 5.40 , 3.00 , 4.50 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 86 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 3.40 , 4.50 , 1.60 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 87 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.10 , 4.70 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 89 FAILED [ class = 2 , true class = 1 ] features=( 5.60 , 3.00 , 4.10 , 1.30 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 92 FAILED [ class = 2 , true class = 1 ] features=( 6.10 , 3.00 , 4.60 , 1.40 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 109 FAILED [ class = 1 , true class = 2 ] features=( 6.70 , 2.50 , 5.80 , 1.80 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 120 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 2.20 , 5.00 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 130 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.00 , 5.80 , 1.60 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier sample= 135 FAILED [ class = 1 , true class = 2 ] features=( 6.10 , 2.60 , 5.60 , 1.40 ] Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier correct results: 85.33 % Iris_RidgeClassifier (EURUSD,H1) model=RidgeClassifier all samples accuracy= 0.853333 Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier FAILED [ class = 2 , true class = 1 ] features=( 7.00 , 3.20 , 4.70 , 1.40 ) Iris_RidgeClassifier (EURUSD,H1) model:RidgeClassifier FAILED [ class = 2 , true class = 1 ] features=( 6.40 , 3.20 , 4.50 , 1.50 ) Iris_RidgeClassifier (EURUSD,H1) model=RidgeClassifier batch test accuracy= 0.000000

Sur l'ensemble des données d'Iris, le modèle a démontré une précision de 85,33 %, ce qui correspond à la précision de l'original.





2.5.3. Représentation ONNX du Modèle de Classification Ridge

Figure 19. Représentation ONNX du Modèle de Classification Ridge dans Netron







2.6. RidgeClassifierCV

La méthode de classification RidgeClassifierCV est un puissant algorithme de classification binaire et multi-classe basé sur la régression Ridge.



Principes de RidgeClassifierCV :



Régression Linéaire Ridge : RidgeClassifierCV est basé sur la régression linéaire Ridge. Cette méthode est une modification de la régression linéaire à laquelle on ajoute une régularisation L2. La régularisation permet de contrôler le sur-ajustement en réduisant l'ampleur des poids des caractéristiques. Classification Binaire et Multi-classe : RidgeClassifierCV peut être utilisé pour la classification binaire (lorsqu'il n'y a que deux classes) et la classification multi-classe (lorsqu'il y a plus de 2 classes). Pour la classification multi-classe, il convertit la tâche en plusieurs tâches binaires (un contre tous) et construit un modèle pour chacune d'entre elles. Sélection Automatique du Paramètre de Régularisation : L'un des principaux avantages du RidgeClassifierCV est sa prise en charge intégrée de la validation croisée et la sélection automatique du paramètre de régularisation optimal alpha. Au lieu de régler manuellement alpha, la méthode itère sur différentes valeurs alpha et sélectionne la meilleure sur la base d'une validation croisée. Traitement de la Multi-colinéarité : La régression ridge gère bien les problèmes de multi-colinéarité, lorsque les caractéristiques sont fortement corrélées entre elles. La régularisation permet de contrôler la contribution de chaque caractéristique, ce qui rend le modèle robuste aux données corrélées.

Avantages de RidgeClassifierCV :



Sélection Automatique des Hyper-paramètres : L'un des principaux avantages de RidgeClassifierCV est sa capacité à sélectionner automatiquement la valeur alpha optimale à l'aide de la validation croisée. Il n'est donc pas nécessaire d'expérimenter différentes valeurs alpha, ce qui augmente les chances d'obtenir de bons résultats.

Contrôle du Sur-Ajustement : La régularisation L2 fournie par RidgeClassifierCV permet de contrôler la complexité du modèle et de réduire le risque de sur-ajustement. Ceci est particulièrement important pour les tâches dont les données sont limitées.

Transparence et Interprétabilité : RidgeClassifierCV fournit des poids interprétables pour les caractéristiques, ce qui permet d'analyser la contribution de chaque caractéristique aux prédictions et de tirer des conclusions sur l'importance des caractéristiques.

Efficacité : La méthode est très efficace et peut être appliquée à de grands ensembles de données.

Limites de RidgeClassifierCV :



Linéarité : RidgeClassifierCV suppose des relations linéaires entre les caractéristiques et la variable cible. Si les données présentent de fortes relations non linéaires, la méthode peut ne pas être suffisamment précise.

Sensibilité à la Mise à l'Echelle des Caractéristiques : La méthode est sensible à la mise à l'échelle des caractéristiques. Il est recommandé de normaliser les caractéristiques avant d'appliquer RidgeClassifierCV.

Sélection Optimale des Caractéristiques : RidgeClassifierCV n'effectue pas de sélection automatique des caractéristiques. Vous devez donc décider manuellement des caractéristiques à inclure dans le modèle.

La méthode de classification RidgeClassifierCV est un outil puissant pour la classification binaire et multi-classe avec sélection automatique du paramètre de régularisation optimal. Son contrôle du sur-ajustement, sa facilité d'interprétation et son efficacité en font un choix populaire pour diverses tâches de classification. Mais il est important de garder à l'esprit ses limites, en particulier l'hypothèse de relations linéaires entre les caractéristiques et la variable cible.





2.6.1. Code de Création du Modèle RidgeClassifierCV

Ce code démontre le processus d'entraînement du modèle RidgeClassifierCV sur le jeu de données Iris, son export au format ONNX et la réalisation de la classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.

# Iris_RidgeClassifierCV.py # The code demonstrates the process of training RidgeClassifierCV model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.linear_model import RidgeClassifierCV from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a RidgeClassifierCV model ridge_classifier_cv_model = RidgeClassifierCV() # train the model on the entire dataset ridge_classifier_cv_model.fit(X, y) # predict classes for the entire dataset y_pred = ridge_classifier_cv_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of RidgeClassifierCV model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(ridge_classifier_cv_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "ridge_classifier_cv_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename} " ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 } . Name: {input_tensor.name} , Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 } . Name: {output_tensor.name} , Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of RidgeClassifierCV model in ONNX format:" , accuracy_onnx)

Sortie :

Python Accuracy of RidgeClassifierCV model: 0.8533333333333334

Python

Python Classification Report:

Python precision recall f1-score support

Python

Python 0 1.00 1.00 1.00 50

Python 1 0.87 0.66 0.75 50

Python 2 0.73 0.90 0.80 50

Python

Python accuracy 0.85 150

Python macro avg 0.86 0.85 0.85 150

Python weighted avg 0.86 0.85 0.85 150

Python

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\ridge_classifier_cv_iris.onnx

Python

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python

Python Information about output tensors in ONNX:

Python 1. Name: label, Data Type: tensor(int64), Shape: [None]

Python 2. Name: probabilities, Data Type: tensor(float), Shape: [None, 3]

Python

Python Accuracy of RidgeClassifierCV model in ONNX format: 0.8533333333333334







2.6.2. Code MQL5 pour Travailler avec le Modèle RidgeClassifierCV

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "ridge_classifier_cv_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); ulong input_shape[]= { batch_size, input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); int output1[]; float output2[][ 3 ]; ArrayResize (output1,( int )batch_size); ArrayResize (output2,( int )batch_size); ulong output_shape[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape); ulong output_shape2[]= {batch_size, 3 }; OnnxSetOutputShape (model, 1 ,output_shape2); bool res= OnnxRun (model, ONNX_DEBUG_LOGS ,input_data,output1,output2); if (res) { for ( int k= 0 ; k<( int )batch_size; k++) model_classes_id[k]=output1[k]; } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "RidgeClassifierCV" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Sortie :

Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 51 FAILED [ class = 2 , true class = 1 ] features=( 7.00 , 3.20 , 4.70 , 1.40 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 52 FAILED [ class = 2 , true class = 1 ] features=( 6.40 , 3.20 , 4.50 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 53 FAILED [ class = 2 , true class = 1 ] features=( 6.90 , 3.10 , 4.90 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 57 FAILED [ class = 2 , true class = 1 ] features=( 6.30 , 3.30 , 4.70 , 1.60 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 62 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.00 , 4.20 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 65 FAILED [ class = 2 , true class = 1 ] features=( 5.60 , 2.90 , 3.60 , 1.30 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 66 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.10 , 4.40 , 1.40 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 67 FAILED [ class = 2 , true class = 1 ] features=( 5.60 , 3.00 , 4.50 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 76 FAILED [ class = 2 , true class = 1 ] features=( 6.60 , 3.00 , 4.40 , 1.40 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 78 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.00 , 5.00 , 1.70 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 79 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.90 , 4.50 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 85 FAILED [ class = 2 , true class = 1 ] features=( 5.40 , 3.00 , 4.50 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 86 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 3.40 , 4.50 , 1.60 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 87 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.10 , 4.70 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 89 FAILED [ class = 2 , true class = 1 ] features=( 5.60 , 3.00 , 4.10 , 1.30 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 92 FAILED [ class = 2 , true class = 1 ] features=( 6.10 , 3.00 , 4.60 , 1.40 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 109 FAILED [ class = 1 , true class = 2 ] features=( 6.70 , 2.50 , 5.80 , 1.80 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 120 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 2.20 , 5.00 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 130 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.00 , 5.80 , 1.60 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV sample= 135 FAILED [ class = 1 , true class = 2 ] features=( 6.10 , 2.60 , 5.60 , 1.40 ] Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV correct results: 85.33 % Iris_RidgeClassifierCV (EURUSD,H1) model=RidgeClassifierCV all samples accuracy= 0.853333 Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV FAILED [ class = 2 , true class = 1 ] features=( 7.00 , 3.20 , 4.70 , 1.40 ) Iris_RidgeClassifierCV (EURUSD,H1) model:RidgeClassifierCV FAILED [ class = 2 , true class = 1 ] features=( 6.40 , 3.20 , 4.50 , 1.50 ) Iris_RidgeClassifierCV (EURUSD,H1) model=RidgeClassifierCV batch test accuracy= 0.000000

La performance du modèle ONNX correspond également parfaitement à la performance du modèle scikit-learn original (85,33%).







2.6.3. Représentation ONNX du Modèle RidgeClassifierCV

Figure 20. Représentation ONNX du RidgeClassifierCV dans Netron







2.7. Classificateur Random Forest

Le Classificateur Random Forest est une méthode d'apprentissage automatique d'ensemble basée sur la construction de plusieurs arbres de décision et la combinaison de leurs résultats pour améliorer la qualité de la classification. Cette méthode est extrêmement populaire en raison de son efficacité et de sa capacité à travailler avec des données diverses.



Principes du Classificateur Random Forest :



Bagging (Bootstrap Aggregating) : Random Forest utilise la méthode du bagging, qui consiste à créer de multiples sous-échantillons (échantillons bootstrap) à partir des données d'apprentissage avec remplacement. Pour chaque sous-échantillon, un arbre de décision distinct est construit. Sélection Aléatoire des Caractéristiques : Lors de la construction de chaque arbre, un sous-ensemble aléatoire de caractéristiques est sélectionné parmi l'ensemble des caractéristiques. Cela favorise la diversité entre les arbres et réduit les corrélations entre eux. Vote : Lors de la classification d'un objet, chaque arbre fournit sa propre prédiction et la classe qui reçoit la majorité des votes de tous les arbres est choisie comme prédiction finale du modèle.

Avantages du Classificateur Random Forest :



Haute Précision : Random Forest atteint généralement une grande précision de classification en faisant la moyenne des résultats de plusieurs arbres.

Capacité à Traiter des Données Diverses : Il fonctionne bien avec des caractéristiques numériques et catégorielles, ainsi qu'avec des données de structures variées.

Résistance au Sur-Ajustement : Random Forest dispose d'une régularisation intégrée, ce qui le rend résistant à l'ajustement excessif.

Importance de la Fonction : Random Forest peut évaluer l'importance des caractéristiques, aidant ainsi les data scientists et les feature engineers à mieux comprendre les données.

Limites du Classificateur Random Forest :



Complexité de Calcul : L'apprentissage d'une Forêt Aléatoire peut prendre beaucoup de temps, surtout avec un grand nombre d'arbres et de caractéristiques.

Défis en Matière d'Interprétabilité : En raison du grand nombre d'arbres et de la sélection aléatoire des caractéristiques, l'interprétation des modèles peut s'avérer difficile.

Pas de Garantie de Robustesse des Valeurs Aberrantes : Random Forest n'est pas toujours robuste face aux données aberrantes.

Le Classificateur Random Forest est un puissant algorithme d'apprentissage automatique largement utilisé dans divers domaines, notamment la biomédecine, l'analyse financière et l'analyse de données textuelles. Il excelle dans la résolution des tâches de classification et de régression et possède une grande capacité de généralisation.





2.7.1. Code de Création du Modèle de Classification Random Forest

Ce code démontre le processus d'entraînement du modèle Classificateur Random Forest sur le jeu de données Iris, son export au format ONNX, et la réalisation de la classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_RandomForestClassifier.py # The code demonstrates the process of training Random Forest Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023 ,2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Random Forest Classifier model rf_model = RandomForestClassifier(n_estimators= 100 , random_state= 42 ) # train the model on the entire dataset rf_model.fit(X, y) # predict classes for the entire dataset y_pred = rf_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Random Forest Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(rf_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "rf_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename}" ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Random Forest Classifier model in ONNX format:" , accuracy_onnx)

Sortie :

Python Accuracy of Random Forest Classifier model: 1.0

Python

Python Classification Report:

Python precision recall f1-score support

Python

Python 0 1.00 1.00 1.00 50

Python 1 1.00 1.00 1.00 50

Python 2 1.00 1.00 1.00 50

Python

Python accuracy 1.00 150

Python macro avg 1.00 1.00 1.00 150

Python weighted avg 1.00 1.00 1.00 150

Python

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\rf_iris.onnx

Python

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python

Python Accuracy of Random Forest Classifier model in ONNX format: 1.0



Le modèle de Classification Random Forest (et sa version ONNX) résout le problème de classification de l'Iris de Fisher avec une précision de 100%.







2.7.2. Code MQL5 pour Travailler avec le Modèle de Classification Random Forest

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "rf_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "RandomForestClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Sortie :

Iris_RandomForestClassifier (EURUSD,H1) model:RandomForestClassifier correct results: 100.00 % Iris_RandomForestClassifier (EURUSD,H1) model=RandomForestClassifier all samples accuracy= 1.000000 Iris_RandomForestClassifier (EURUSD,H1) model=RandomForestClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble des données d'Iris est de 100%, ce qui correspond à la précision du modèle original.







2.7.3. Représentation ONNX du Modèle de Classification Random Forest

Figure 21. Représentation ONNX du Modèle de Classification Random Forest dans Netron







2.8. Classificateur Gradient Boosting

Gradient Boosting est l'une des méthodes d'apprentissage automatique les plus puissantes et trouve des applications dans divers domaines, notamment l'analyse de données, la vision par ordinateur, le traitement du langage naturel et l'analyse financière, grâce à sa grande précision et à sa capacité à travailler avec des données diverses. Le Classificateur Gradient Boosting est une méthode d'apprentissage automatique d'ensemble qui crée une composition d'arbres de décision pour résoudre les tâches de classification. Cette méthode est appréciée pour sa capacité à atteindre une grande précision et sa résistance à l'ajustement excessif.



Principes du Classificateur Gradient Boosting :



Ensemble d'Arbres de Décision : Le Classificateur Gradient Boosting construit un ensemble d'arbres de décision, où chaque arbre vise à améliorer les prédictions de l'arbre précédent. Descente en Gradient : Gradient Boosting utilise la descente de gradient pour optimiser la fonction de perte. Il minimise l'erreur de classification en calculant le gradient de la fonction de perte et en actualisant les prédictions sur la base de ce gradient. Pondération des Arbres : Chaque arbre de la composition a un poids et, à la fin, les prédictions de tous les arbres sont combinées en tenant compte de leurs poids.

Avantages du Classificateur Gradient Boosting :



Haute Précision : Le Classificateur Gradient Boosting offre généralement une grande précision de classification et constitue l'une des méthodes d'apprentissage automatique les plus puissantes.

Résistance au Sur-Ajustement : Grâce à l'utilisation de la régularisation et de la descente de gradient, cette méthode est résistante au sur-ajustement, en particulier lors de l'ajustement des hyper-paramètres.

Capacité à Travailler avec Différents Types de Données : Le Classificateur Gradient Boosting peut traiter différents types de données, y compris des caractéristiques numériques et catégorielles.

Limites du Classificateur Gradient Boosting :



Complexité de Calcul : L'apprentissage du Classificateur Gradient Boosting peut être très gourmand en ressources informatiques, en particulier avec un grand nombre d'arbres ou d'arbres profonds.

Défis en Matière d'Interprétabilité : En raison de la complexité de la composition de plusieurs arbres, l'interprétation des résultats peut s'avérer difficile.

Pas toujours adapté aux petits ensembles de données : Le renforcement du gradient nécessite généralement une quantité importante de données pour fonctionner efficacement et peut être sujet à un sur-ajustement sur de petits ensembles de données.

Le Classificateur Gradient Boosting est une puissante méthode d'apprentissage automatique souvent utilisée dans les concours d'analyse de données, qui permet de résoudre efficacement diverses tâches de classification. Il permet de découvrir des relations non linéaires complexes dans les données et présente une bonne généralisation lorsque les hyper-paramètres sont correctement réglés.







2.8.1. Code de Création du Modèle de Classification Gradient Boosting

Ce code démontre le processus d'entraînement du modèle Classificateur Gradient Boosting sur le jeu de données Iris, son export au format ONNX, et la réalisation de la classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_GradientBoostingClassifier.py # The code demonstrates the process of training Gradient Boostring Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.ensemble import GradientBoostingClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Gradient Boosting Classifier model gb_model = GradientBoostingClassifier(n_estimators= 100 , random_state= 42 ) # train the model on the entire dataset gb_model.fit(X, y) # predict classes for the entire dataset y_pred = gb_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Gradient Boosting Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the inpu t data type initial_type = [('float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(gb_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "gb_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename}" ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ("

Accuracy of Gradient Boosting Classifier model in ONNX format:" , accuracy_onnx)

Sortie :

Python Accuracy of Gradient Boosting Classifier model: 1.0

Python

Python Classification Report:

Python precision recall f1-score support

Python

Python 0 1.00 1.00 1.00 50

Python 1 1.00 1.00 1.00 50

Python 2 1.00 1.00 1.00 50

Python

Python accuracy 1.00 150

Python macro avg 1.00 1.00 1.00 150

Python weighted avg 1.00 1.00 1.00 150

Python

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\gb_iris.onnx

Python

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python

Python Accuracy of Gradient Boosting Classifier model in ONNX format: 1.0



La précision du modèle ONNX exporté sur l'ensemble des données d'Iris est de 100%, ce qui correspond à la précision du modèle original.







2.8.2. Code MQL5 pour Travailler avec le Modèle de Classification Gradient Boosting

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "gb_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "GradientBoostingClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Sortie :

Iris_GradientBoostingClassifier (EURUSD,H1) model:GradientBoostingClassifier correct results: 100.00 % Iris_GradientBoostingClassifier (EURUSD,H1) model=GradientBoostingClassifier all samples accuracy= 1.000000 Iris_GradientBoostingClassifier (EURUSD,H1) model=GradientBoostingClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble des données d'Iris est de 100%, ce qui correspond à la précision du modèle original.







2.8.3. Représentation ONNX du Modèle de Classification Gradient Boosting

Figure 22. Représentation ONNX du Modèle de Classification Gradient Boosting dans Netron







2.9. Classificateur Adaptative Boosting

Le Classificateur AdaBoost (Adaptive Boosting) est une méthode d'apprentissage automatique d'ensemble utilisée pour améliorer la classification en combinant les résultats de plusieurs classificateurs faibles (par exemple, des arbres de décision) pour créer un algorithme plus puissant.



Principes du Classificateur AdaBoost :



Ensemble de Classificateurs Faibles : AdaBoost commence par initialiser les poids de chaque échantillon de l'ensemble de formation, en leur attribuant des valeurs initiales égales. Formation de Classificateurs Faibles : AdaBoost entraîne ensuite un classificateur faible (par exemple, un arbre de décision) sur l'ensemble d'apprentissage en tenant compte des poids de l'échantillon. Ce classificateur tente de classer correctement les échantillons. Redistribution des Poids : AdaBoost ajuste les poids des échantillons, en augmentant les poids des échantillons mal classés et en diminuant les poids des échantillons correctement classés. Création de la Composition : AdaBoost répète plusieurs fois le processus de formation des classificateurs faibles et de redistribution des poids. Les résultats de ces classificateurs faibles sont ensuite combinés dans une composition, chaque classificateur contribuant en fonction de sa précision.

Avantages du Classificateur AdaBoost :



Haute Précision : AdaBoost fournit généralement une précision de classification élevée en combinant plusieurs classificateurs faibles.

Résistance au Sur-Ajustement : AdaBoost dispose d'une régularisation intégrée, ce qui le rend résistant au sur-ajustement.

Capacité à travailler avec différents classificateurs : AdaBoost peut utiliser différents classificateurs de base, ce qui permet de l'adapter à des tâches spécifiques.

Limites du Classificateur AdaBoost :



Sensibilité aux Valeurs Aberrantes : AdaBoost peut être sensible aux valeurs aberrantes dans les données, car elles peuvent avoir un poids important.

N'est pas toujours adapté aux tâches complexes : Dans certaines tâches complexes, AdaBoost peut nécessiter un grand nombre de classificateurs de base pour obtenir de bons résultats.

Dépendance à l'égard de la qualité des classificateurs de base : AdaBoost est plus performant lorsque les classificateurs de base sont meilleurs que les suppositions aléatoires.

Le classificateur AdaBoost est un puissant algorithme d'apprentissage automatique couramment utilisé dans la pratique pour résoudre les tâches de classification. Il est bien adapté aux problèmes binaires et multi-classes et peut être adapté à divers classificateurs de base.







2.9.1. Code de Création du Modèle de Classificateur Adaptative Boosting

Ce code démontre le processus d'entraînement du modèle de Classificateur Adaptive Boosting sur le jeu de données Iris, son export au format ONNX, et la réalisation de la classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_AdaBoostClassifier.py # The code demonstrates the process of training AdaBoost Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.ensemble import AdaBoostClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create an AdaBoost Classifier model adaboost_model = AdaBoostClassifier(n_estimators= 50 , random_state= 42 ) # train the model on the entire dataset adaboost_model.fit(X, y) # predict classes for the entire dataset y_pred = adaboost_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of AdaBoost Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(adaboost_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "adaboost_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename}" ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of AdaBoost Classifier model in ONNX format:" , accuracy_onnx)

Sortie :



Python Accuracy of AdaBoost Classifier model: 0.96

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 0.92 0.96 0.94 50

Python 2 0.96 0.92 0.94 50

Python accuracy 0.96 150

Python macro avg 0.96 0.96 0.96 150

Python weighted avg 0.96 0.96 0.96 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\adaboost_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of AdaBoost Classifier model in ONNX format: 0.96







2.9.2. Code MQL5 pour Travailler avec le Modèle de Classification Adaptive Boosting

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "adaboost_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "AdaBoostClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_AdaBoostClassifier (EURUSD,H1) model:AdaBoostClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_AdaBoostClassifier (EURUSD,H1) model:AdaBoostClassifier sample= 78 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.00 , 5.00 , 1.70 ] Iris_AdaBoostClassifier (EURUSD,H1) model:AdaBoostClassifier sample= 120 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 2.20 , 5.00 , 1.50 ] Iris_AdaBoostClassifier (EURUSD,H1) model:AdaBoostClassifier sample= 130 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.00 , 5.80 , 1.60 ] Iris_AdaBoostClassifier (EURUSD,H1) model:AdaBoostClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_AdaBoostClassifier (EURUSD,H1) model:AdaBoostClassifier sample= 135 FAILED [ class = 1 , true class = 2 ] features=( 6.10 , 2.60 , 5.60 , 1.40 ] Iris_AdaBoostClassifier (EURUSD,H1) model:AdaBoostClassifier correct results: 96.00 % Iris_AdaBoostClassifier (EURUSD,H1) model=AdaBoostClassifier all samples accuracy= 0.960000 Iris_AdaBoostClassifier (EURUSD,H1) model=AdaBoostClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 96%, ce qui correspond à la précision du modèle original.







2.9.3. Représentation ONNX du Modèle de Classification Adaptative Boosting



Figure 23. Représentation ONNX du Classificateur Adaptative Boosting dans Netron







2.10. Classificateur Bootstrap Aggregating

Le classificateur Bagging (Bootstrap Aggregating) est une méthode d'apprentissage automatique d'ensemble qui repose sur la création de plusieurs sous-échantillons aléatoires (échantillons bootstrap) à partir des données d'apprentissage et sur l'élaboration de modèles distincts pour chacun d'entre eux. Les résultats sont ensuite combinés pour améliorer la capacité de généralisation du modèle.



Principes du Classificateur Bagging :



Création de Sous-Echantillons : L'échantillonnage commence par la création de plusieurs sous-échantillons aléatoires (échantillons bootstrap) à partir des données d'apprentissage, avec remplacement. Cela signifie que les mêmes échantillons peuvent apparaître dans plusieurs sous-échantillons et que certains échantillons peuvent être omis. Formation des Modèles de Base : Pour chaque sous-échantillon, un modèle de base distinct (par exemple, un arbre de décision) est formé. Chaque modèle est formé indépendamment des autres. Agrégation des Résultats : Après l'entraînement de tous les modèles de base, les résultats de leurs prédictions sont combinés pour obtenir la prédiction finale. Dans la classification binaire, cela peut se faire par le biais d'un vote à la majorité.

Avantages de la Classification Bagging :



Variance Réduite : Le bagging réduit la variance du modèle en faisant la moyenne des résultats de plusieurs modèles de base, ce qui peut conduire à des prédictions plus stables et plus fiables.

Réduction de l'Ajustement Excessif : Étant donné que chaque modèle de base est formé sur différents sous-échantillons, le Bagging peut réduire la tendance du modèle à se sur-adapter.

Polyvalence : L'agrégation peut utiliser différents modèles de base, ce qui permet de l'adapter à différents types de données et de tâches.

Limites de la Classification Bagging :



N'améliore pas la partialité : Bagging tend à réduire la variance, mais ne résout pas le biais du modèle. Si les modèles de base ont tendance à être biaisés (par exemple, sous-adaptation), Bagging ne corrigera pas ce problème.

N'est pas toujours adapté aux tâches complexes : Dans certaines tâches complexes, le Bagging peut nécessiter un grand nombre de modèles de base pour obtenir de bons résultats.

Le Classificateur Bagging est une méthode d'apprentissage automatique efficace qui permet d'améliorer la capacité de généralisation du modèle et de réduire le sur-ajustement. Il est souvent utilisé en combinaison avec différents modèles de base pour répondre à diverses tâches de classification et de régression.







2.10.1. Code de Création du Modèle de Classification Bootstrap Aggregating

Ce code démontre le processus d'entraînement du modèle de Classification Bootstrap Aggregating sur le jeu de données Iris, son export au format ONNX, et la réalisation de la classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_BootstrapAggregatingClassifier.py # The code demonstrates the process of training Bagging Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.ensemble import BaggingClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Bagging Classifier model with a Decision Tree base estimator bagging_model = BaggingClassifier(n_estimators= 100 , random_state= 42 ) # train the model on the entire dataset bagging_model.fit(X, y) # predict classes for the entire dataset y_pred = bagging_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Bagging Classifier model:" , accuracy) # display the classification report print ("

Classification Report:

", classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(bagging_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "bagging_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename}" ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape}") # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print (f"{i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape}") # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Bagging Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of Bagging Classifier model: 1.0

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 1.00 1.00 1.00 50

Python 2 1.00 1.00 1.00 50

Python accuracy 1.00 150

Python macro avg 1.00 1.00 1.00 150

Python weighted avg 1.00 1.00 1.00 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\bagging_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of Bagging Classifier model in ONNX format: 1.0



Le modèle Bootstrap Aggregating Classifier (et sa version ONNX) a atteint une précision de 100% dans la classification de l'ensemble de données Iris.





2.10.2. Code MQL5 pour Travailler avec le Modèle Bootstrap Aggregating Classifier

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "bagging_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "BootstrapAggregatingClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_BootstrapAggregatingClassifier (EURUSD,H1) model:BootstrapAggregatingClassifier correct results: 100.00 % Iris_BootstrapAggregatingClassifier (EURUSD,H1) model=BootstrapAggregatingClassifier all samples accuracy= 1.000000 Iris_BootstrapAggregatingClassifier (EURUSD,H1) model=BootstrapAggregatingClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 100%, ce qui correspond à la précision du modèle original.







2.10.3. Représentation ONNX du Classificateur Bootstrap Aggregating

Figure 24. Représentation ONNX du Classificateur Bootstrap Aggregating dans Netron







2.11. Classificateur K-Nearest Neighbors (K-NN)

Le classificateur K-Nearest Neighbors (K-NN) est une méthode d'apprentissage automatique utilisée pour résoudre les tâches de classification et de régression basées sur la similarité entre les points de données. Elle repose sur le principe selon lequel les objets proches les uns des autres dans un espace multidimensionnel présentent des caractéristiques similaires et peuvent donc avoir des étiquettes de classe similaires.



Principes du Classificateur K-NN :



Déterminer la Proximité : Le classificateur K-NN calcule la proximité entre l'objet à classer et les autres objets de l'ensemble de données d'apprentissage. Pour cela, on utilise souvent une mesure de distance, telle que la distance euclidienne ou la distance de Manhattan. Choix du nombre de voisins : Le paramètre K détermine le nombre de plus proches voisins à utiliser pour classer un objet. En règle générale, K est choisi en fonction de la tâche et des données. Vote : K-NN utilise le vote majoritaire parmi les K voisins les plus proches pour déterminer la classe de l'objet. Par exemple, si la majorité des K voisins appartiennent à la classe A, l'objet sera également classé dans la classe A.

Avantages du Classificateur K-NN :



Simplicité et intuitivité : K-NN est une méthode simple et intuitive, facile à comprendre et à appliquer.

Capacité à travailler avec différents types de données : K-NN peut être utilisé pour différents types de données, notamment les données numériques, catégorielles et textuelles.

Adaptabilité à l'évolution des données : K-NN peut s'adapter rapidement aux changements dans les données, ce qui le rend approprié pour les tâches avec des données dynamiques.

Limites du Classificateur K-NN :



Sensibilité au choix de K : La sélection de la valeur optimale de K peut être une tâche non triviale. Un petit K peut conduire à un sur-ajustement, alors qu'un grand K peut conduire à un sous-ajustement.

Sensibilité à la mise à l'échelle des caractéristiques : K-NN est sensible à la mise à l'échelle des caractéristiques, c'est pourquoi la normalisation des données peut s'avérer importante.

Complexité de calcul : Pour les grands ensembles de données et un grand nombre de caractéristiques, le calcul des distances entre toutes les paires d'objets peut s'avérer très coûteux.

Manque d'interprétabilité : Les résultats de K-NN peuvent être difficiles à interpréter, en particulier lorsque K est grand et qu'il y a beaucoup de données.

Le Classificateur K-NN est une méthode d'apprentissage automatique qui peut être utile dans les tâches où la proximité des objets est essentielle, comme les systèmes de recommandation, la classification des textes et la reconnaissance des formes. Il est bien adapté à l'analyse initiale des données et au prototypage rapide de modèles.





2.11.1. Code de Création du Modèle de Classificateur K-Nearest Neighbors (K-NN)

Ce code démontre le processus d'entraînement d'un modèle de Classification K-NN (K-Nearest Neighbors) sur le jeu de données Iris, son export au format ONNX et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_KNearestNeighborsClassifier.py # The code uses the K-Nearest Neighbors (KNN) Classifier for the Iris dataset, converts the model to ONNX format, saves it, and evaluates its accuracy. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a K-Nearest Neighbors (KNN) Classifier model knn_model = KNeighborsClassifier(n_neighbors= 3 ) # train the model on the entire dataset knn_model.fit(X, y) # predict classes for the entire dataset y_pred = knn_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of KNN Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(knn_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "knn_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename}" ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of KNN Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of KNN Classifier model: 0.96

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 0.94 0.94 0.94 50

Python 2 0.94 0.94 0.94 50

Python accuracy 0.96 150

Python macro avg 0.96 0.96 0.96 150

Python weighted avg 0.96 0.96 0.96 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\knn_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of KNN Classifier model in ONNX format: 0.96







2.11.2. Code MQL5 pour Travailler avec le Modèle de Classification K-NN (K-Nearest Neighbors)

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "knn_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "KNearestNeighborsClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_KNearestNeighborsClassifier (EURUSD,H1) model:KNearestNeighborsClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_KNearestNeighborsClassifier (EURUSD,H1) model:KNearestNeighborsClassifier sample= 73 FAILED [ class = 2 , true class = 1 ] features=( 6.30 , 2.50 , 4.90 , 1.50 ] Iris_KNearestNeighborsClassifier (EURUSD,H1) model:KNearestNeighborsClassifier sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_KNearestNeighborsClassifier (EURUSD,H1) model:KNearestNeighborsClassifier sample= 107 FAILED [ class = 1 , true class = 2 ] features=( 4.90 , 2.50 , 4.50 , 1.70 ] Iris_KNearestNeighborsClassifier (EURUSD,H1) model:KNearestNeighborsClassifier sample= 120 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 2.20 , 5.00 , 1.50 ] Iris_KNearestNeighborsClassifier (EURUSD,H1) model:KNearestNeighborsClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_KNearestNeighborsClassifier (EURUSD,H1) model:KNearestNeighborsClassifier correct results: 96.00 % Iris_KNearestNeighborsClassifier (EURUSD,H1) model=KNearestNeighborsClassifier all samples accuracy= 0.960000 Iris_KNearestNeighborsClassifier (EURUSD,H1) model:KNearestNeighborsClassifier FAILED [ class = 2 , true class = 1 ] features=( 6.30 , 2.50 , 4.90 , 1.50 ) Iris_KNearestNeighborsClassifier (EURUSD,H1) model=KNearestNeighborsClassifier batch test accuracy= 0.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 96%, ce qui est cohérent avec la précision du modèle original.







2.11.3. Représentation ONNX du Classificateur K-NN (K-NN)

Figure 25. Représentation ONNX des K-Nearest Neighbors dans Netron







2.12. Classificateur Decision Tree

Le Classificateur Decision Tree est une méthode d'apprentissage automatique utilisée pour les tâches de classification basées sur la construction d'un arbre de décision. Cette méthode divise l'ensemble de données en sous-groupes plus petits en effectuant une série de tests conditionnels sur les caractéristiques et détermine la classe d'un objet en fonction du chemin qu'il suit dans l'arbre.



Principes du Classificateur Decision Tree :



Construction de l'arbre de décision : Au départ, toutes les données sont représentées à la racine de l'arbre. Pour chaque nœud de l'arbre, les données sont divisées en deux sous-groupes ou plus sur la base des valeurs d'une caractéristique, dans le but de minimiser l'incertitude (par exemple, l'entropie ou l'indice de Gini) dans chaque sous-groupe. Construction récursive : Le processus de division des données est effectué de manière récursive jusqu'à ce que l'arbre atteigne ses feuilles. Les feuilles représentent les dernières classes d'objets. Prise de décision : Lorsqu'un objet entre dans l'arbre, il suit un chemin allant de la racine à l'une des feuilles, où sa classe est déterminée en fonction de la majorité des objets présents dans cette feuille.

Avantages du Classificateur Decision Tree :



Interprétabilité : Les arbres de décision sont faciles à interpréter et à visualiser. Les règles de décision utilisées pour la classification sont compréhensibles.

Traitement de différents types de données : Le Classificateur Decision Tree peut travailler avec des caractéristiques numériques et catégorielles.

Importance de la Fonctionnalité : Les arbres de décision permettent d'évaluer l'importance des caractéristiques, ce qui aide les analystes de données et les ingénieurs à comprendre les données.

Limites du Classificateur Decision Tree :



Sur-ajustement : Les arbres de grande taille et les arbres profonds peuvent être sujets à un sur-ajustement, ce qui les rend moins généralisables à de nouvelles données.

Sensibilité au bruit : Les arbres de décision peuvent être sensibles au bruit et aux valeurs aberrantes des données.

Construction gourmande : Les arbres de décision sont construits à l'aide d'un algorithme gourmand, ce qui peut conduire à des solutions globales sous-optimales.

Instabilité face aux changements de données : Des modifications mineures des données peuvent entraîner des changements importants dans la structure de l'arbre.

L'arbre de décision est une méthode d'apprentissage automatique utile pour les tâches de classification, en particulier dans les situations où l'interprétabilité du modèle est essentielle et où vous devez comprendre quelles caractéristiques influencent la décision. Cette méthode peut également être utilisée dans des méthodes d'ensemble telles que Random Forest et Gradient Boosting.









2.12.1. Code pour la Création du Modèle de Classification Decision Tree

Ce code démontre le processus d'entraînement d'un modèle de Classification Decision Tree sur le jeu de données Iris, son export au format ONNX et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_DecisionTreeClassifier.py # The code uses the Decision Tree Classifier for the Iris dataset, converts the model to ONNX format, saves it, and evaluates its accuracy. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Decision Tree Classifier model decision_tree_model = DecisionTreeClassifier(random_state= 42 ) # train the model on the entire dataset decision_tree_model.fit(X, y) # predict classes for the entire dataset y_pred = decision_tree_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Decision Tree Classifier model:" , accuracy) # display the classification report print("

Classification Report:

", classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(decision_tree_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "decision_tree_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename}" ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Decision Tree Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of Decision Tree Classifier model: 1.0

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 1.00 1.00 1.00 50

Python 2 1.00 1.00 1.00 50

Python accuracy 1.00 150

Python macro avg 1.00 1.00 1.00 150

Python weighted avg 1.00 1.00 1.00 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\decision_tree_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of Decision Tree Classifier model in ONNX format: 1.0



Le modèle de Classification Decision Tree (et sa version ONNX) a démontré une précision de 100% dans la classification de l'ensemble des données d'Iris de Fisher.





2.12.2. Code MQL5 pour Travailler avec le Modèle de Classification Decision Tree

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "decision_tree_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "DecisionTreeClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_DecisionTreeClassifier (EURUSD,H1) model:DecisionTreeClassifier correct results: 100.00 % Iris_DecisionTreeClassifier (EURUSD,H1) model=DecisionTreeClassifier all samples accuracy= 1.000000 Iris_DecisionTreeClassifier (EURUSD,H1) model=DecisionTreeClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 100%, ce qui correspond à la précision du modèle original.







2.12.3. Représentation ONNX du Classificateur Decision Tree

Figure 26. Représentation ONNX du Classificateur Decision Tree dans Netron







Note sur LogisticRegression et LogisticRegressionCV : LogisticRegression et LogisticRegressionCV sont deux classificateurs utilisés pour la classification binaire à l'aide de la régression logistique, mais ils diffèrent dans la manière dont les paramètres du modèle sont réglés :



LogisticRegression :

LogisticRegression est un classificateur qui utilise la fonction logistique pour modéliser la probabilité d'appartenir à l'une des deux classes (classification binaire).

Il fournit des paramètres de base pour la personnalisation, tels que C (force de régularisation inverse), pénalité (type de régularisation, par exemple L1 ou L2), solveur (algorithme d'optimisation), et autres.

Lorsque vous utilisez la régression logistique, vous choisissez généralement manuellement les valeurs des paramètres et leurs combinaisons, puis vous entraînez le modèle sur les données. LogisticRegressionCV :

LogisticRegressionCV est une extension de LogisticRegression qui fournit un support intégré pour la validation croisée et la sélection de la valeur optimale du paramètre de régularisation C.

Au lieu de sélectionner manuellement C, vous pouvez transmettre à LogisticRegressionCV une liste de valeurs C à explorer et spécifier la méthode de validation croisée (par exemple, à l'aide du paramètre cv).

LogisticRegressionCV sélectionne automatiquement la valeur C optimale qui donne les meilleurs résultats en validation croisée.

Ceci est pratique lorsque vous avez besoin d'ajuster automatiquement la régularisation, en particulier si vous avez beaucoup de données ou si vous n'êtes pas sûr de la valeur de C à choisir. La principale différence entre eux réside donc dans le niveau d'automatisation du réglage des paramètres. LogisticRegression nécessite un réglage manuel de C, alors que LogisticRegressionCV permet la sélection automatique de la valeur optimale de C par validation croisée. Le choix de l'un ou l'autre dépend de vos besoins et de votre désir d'automatiser le processus de mise au point du modèle.







2.13. Classificateur Logistic Regression

Le Classificateur Logistic Regression est une méthode d'apprentissage automatique utilisée pour les tâches de classification binaire et multi-classe. Malgré son nom, "régression", la régression logistique prédit en fait la probabilité qu'un objet appartienne à l'une des classes. La décision finale de classification est prise sur la base de ces probabilités.



Principes du Classificateur Logistic Regression :



Prédiction de Probabilité : La régression logistique modélise la probabilité qu'un objet appartienne à une classe spécifique en utilisant la fonction logistique (sigmoïde). Limite de Décision : Sur la base des probabilités prédites, la régression logistique détermine la limite de décision qui sépare les classes. Si la probabilité dépasse un certain seuil (généralement 0,5), l'objet est classé dans une classe. Dans le cas contraire, il est classé dans une autre classe. Apprentissage des Paramètres : Le modèle de régression logistique est formé sur un ensemble de données d'apprentissage en ajustant les poids (coefficients) associés aux caractéristiques afin de minimiser la fonction de perte.

Avantages du Classificateur Logistic Regression :



Simplicité et Interprétabilité : La régression logistique est un modèle simple dont les résultats sont facilement interprétables en ce qui concerne l'influence des caractéristiques sur les prédictions de classe.

Efficacité avec les Grands Ensembles de Données : La régression logistique permet de traiter efficacement de grands ensembles de données et de s'y entraîner rapidement.

Utilisation dans les Méthodes d'Ensemble : La régression logistique peut servir de classificateur de base dans les méthodes d'ensemble telles que l'empilement.

Limites du Classificateur Logistic Regression :



Linéarité : La régression logistique suppose une relation linéaire entre les caractéristiques et le logarithme des chances, ce qui peut être inadéquat pour des tâches complexes.

Contrainte Multi-classes : Dans sa forme originale, la régression logistique est conçue pour la classification binaire. Mais il existe des méthodes comme One-vs-All (One-vs-Rest) pour l'étendre à la classification multi-classes.

Sensibilité aux Valeurs Aberrantes : La régression logistique peut être sensible aux valeurs aberrantes des données.

La régression logistique est une méthode classique d'apprentissage automatique largement utilisée dans la pratique pour les tâches de classification, en particulier lorsque l'interprétabilité du modèle est importante et que les données présentent une structure linéaire ou quasi-linéaire. Il est également utilisé dans les statistiques et l'analyse des données médicales pour évaluer l'impact des facteurs sur la probabilité des événements.







2.13.1. Code pour la Création d'un Modèle de Classification Logistic Regression

Ce code démontre le processus d'entraînement d'un modèle de Classification Logistic Regression sur le jeu de données Iris, son export au format ONNX et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_LogisticRegressionClassifier.py # The code uses the Logistic Regression Classifier for the Iris dataset, converts the model to ONNX format, saves it, and evaluates its accuracy. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Logistic Regression Classifier model logistic_regression_model = LogisticRegression(max_iter= 1000 , random_state= 42 ) # train the model on the entire dataset logistic_regression_model.fit(X, y) # predict classes for the entire dataset y_pred = logistic_regression_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Logistic Regression Classifier model:" , accuracy) # display the classification report print ("

Classification Report:

", classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(logistic_regression_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "logistic_regression_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename}" ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Logistic Regression Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of Logistic Regression Classifier model: 0.9733333333333334

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 0.98 0.94 0.96 50

Python 2 0.94 0.98 0.96 50

Python accuracy 0.97 150

Python macro avg 0.97 0.97 0.97 150

Python weighted avg 0.97 0.97 0.97 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\logistic_regression_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of Logistic Regression Classifier model in ONNX format: 0.9733333333333334







2.13.2. Code MQL5 pour Travailler avec le Modèle de Classification Regression

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "logistic_regression_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "LogisticRegressionClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_LogisticRegressionClassifier (EURUSD,H1) model:LogisticRegressionClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_LogisticRegressionClassifier (EURUSD,H1) model:LogisticRegressionClassifier sample= 78 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.00 , 5.00 , 1.70 ] Iris_LogisticRegressionClassifier (EURUSD,H1) model:LogisticRegressionClassifier sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_LogisticRegressionClassifier (EURUSD,H1) model:LogisticRegressionClassifier sample= 107 FAILED [ class = 1 , true class = 2 ] features=( 4.90 , 2.50 , 4.50 , 1.70 ] Iris_LogisticRegressionClassifier (EURUSD,H1) model:LogisticRegressionClassifier correct results: 97.33 % Iris_LogisticRegressionClassifier (EURUSD,H1) model=LogisticRegressionClassifier all samples accuracy= 0.973333 Iris_LogisticRegressionClassifier (EURUSD,H1) model=LogisticRegressionClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 97,33%, ce qui correspond à la précision du modèle original.







2.13.3. Représentation ONNX du Classificateur Logistic Regression

Figure 27. Représentation ONNX du Classificateur Logistic Regression dans Netron





2.14. Classificateur LogisticRegressionCV

LogisticRegressionCV (Logistic Regression with Cross-Validation) est une méthode puissante et flexible de classification binaire. Cette méthode permet non seulement de créer des modèles de classification basés sur la régression logistique, mais aussi d'ajuster automatiquement les paramètres pour obtenir les meilleures performances.



Principes de Travail de LogisticRegressionCV :



Régression Logistique : LogisticRegressionCV est fondamentalement basé sur la régression logistique. La régression logistique est une méthode statistique utilisée pour modéliser la probabilité qu'un objet appartienne à l'une des deux classes. Ce modèle est appliqué lorsque la variable dépendante est binaire (deux classes) ou peut être transformée en binaire. Validation Croisée : Le principal avantage de LogisticRegressionCV est sa validation croisée intégrée. Cela signifie qu'au lieu de sélectionner manuellement la valeur optimale du paramètre de régularisation C, la méthode essaie automatiquement différentes valeurs de C et sélectionne celle qui donne les meilleurs résultats lors de la validation croisée. Choisir le C Optimal : LogisticRegressionCV utilise une stratégie de validation croisée pour évaluer les performances du modèle à différentes valeurs de C. C est le paramètre de régularisation qui contrôle l'étendue de la régularisation du modèle. Une petite valeur de C indique une forte régularisation, alors qu'une grande valeur de C indique une faible régularisation. La validation croisée permet de sélectionner la valeur C optimale pour équilibrer l'ajustement insuffisant et l'ajustement excessif. Régularisation : LogisticRegressionCV prend également en charge différents types de régularisation, y compris la régularisation L1 (lasso) et L2 (ridge). Ces types de régularisation permettent d'améliorer la généralisation du modèle et d'éviter le sur-ajustement.

Avantages de LogisticRegressionCV :



Réglage Automatique des Paramètres : L'un des principaux avantages de LogisticRegressionCV est sa capacité à choisir automatiquement la valeur C optimale à l'aide de la validation croisée. Cela élimine la nécessité d'ajuster manuellement le modèle et vous permet de vous concentrer sur les données et la tâche.

Robustesse du Sur-Ajustement : La régularisation prise en charge par LogisticRegressionCV permet de contrôler la complexité du modèle et de réduire le risque de sur-ajustement, en particulier avec des données limitées.

Transparence : La régression logistique est une méthode interprétable. Vous pouvez analyser la contribution de chaque caractéristique à la prédiction, ce qui est utile pour comprendre l'importance des caractéristiques.

Haute Performance : La régression logistique permet de travailler rapidement et efficacement, en particulier avec un grand volume de données.



Limites de LogisticRegressionCV :



Dépendances Linéaires : LogisticRegressionCV permet de résoudre les problèmes de classification linéaire et quasi-linéaire. Si la relation entre les caractéristiques et la variable cible est fortement non linéaire, le modèle risque de ne pas donner de bons résultats.

Gestion d'un Grand Nombre de Caractéristiques : Avec un grand nombre de caractéristiques, la régression logistique peut nécessiter des données substantielles ou des techniques de réduction de la dimensionnalité pour éviter le sur-ajustement.

Dépendance de la Représentation des Données : L'efficacité de la régression logistique peut dépendre de la façon dont les données sont représentées et des caractéristiques choisies.



LogisticRegressionCV est un outil puissant pour la classification binaire avec un réglage automatique des paramètres et une robustesse au sur-ajustement. Elle est particulièrement utile lorsqu'il s'agit de construire rapidement un modèle de classification interprétable. Mais il est important de se rappeler qu'elle est plus performante lorsque les données présentent des dépendances linéaires ou quasi-linéaires.







2.14.1. Code de Création du Modèle de Classification LogisticRegressionCV

Ce code démontre le processus d'entraînement d'un modèle de Classification LogisticRegressionCV sur le jeu de données Iris, son export au format ONNX, et l'exécution de la classification en utilisant le modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.

# Iris_LogisticRegressionCVClassifier.py # The code demonstrates the process of training LogisticRegressionCV model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.linear_model import LogisticRegressionCV from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a LogisticRegressionCV model logistic_regression_model = LogisticRegressionCV(cv= 5 , max_iter= 1000 ) # train the model on the entire dataset logistic_regression_model.fit(X, y) # predict classes for the entire dataset y_pred = logistic_regression_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of LogisticRegressionCV model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(logistic_regression_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "logistic_regressioncv_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print (f"Model saved to {onnx_filename}") # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 } . Name: {input_tensor.name} , Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 } . Name: {output_tensor.name} , Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of LogisticRegressionCV model in ONNX format:" , accuracy_onnx)

Python Accuracy of LogisticRegressionCV model: 0.98

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 0.98 0.96 0.97 50

Python 2 0.96 0.98 0.97 50

Python accuracy 0.98 150

Python macro avg 0.98 0.98 0.98 150

Python weighted avg 0.98 0.98 0.98 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\logistic_regression_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of LogisticRegressionCV model in ONNX format: 0.98







2.14.2. Code MQL5 pour Travailler avec le Modèle de Classification LogisticRegressionCV

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "logistic_regressioncv_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "LogisticRegressionCVClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_LogisticRegressionCVClassifier (EURUSD,H1) model:LogisticRegressionCVClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_LogisticRegressionCVClassifier (EURUSD,H1) model:LogisticRegressionCVClassifier sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_LogisticRegressionCVClassifier (EURUSD,H1) model:LogisticRegressionCVClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_LogisticRegressionCVClassifier (EURUSD,H1) model:LogisticRegressionCVClassifier correct results: 98.00 % Iris_LogisticRegressionCVClassifier (EURUSD,H1) model=LogisticRegressionCVClassifier all samples accuracy= 0.980000 Iris_LogisticRegressionCVClassifier (EURUSD,H1) model=LogisticRegressionCVClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 98%, ce qui correspond à la précision du modèle original.







2.14.3. Représentation ONNX du Classificateur LogisticRegressionCV

Figure 28. Représentation ONNX du Classificateur LogisticRegressionCV dans Netron







2.15. Classificateur Passif-Agressif (PA)

Le Classificateur Passif-Agressif (PA) est une méthode d'apprentissage automatique utilisée pour les tâches de classification. L'idée centrale de cette méthode est d'adapter les poids (coefficients) du modèle pendant l'apprentissage afin de minimiser les erreurs de classification. Le Classificateur Passif-Agressif peut être utile dans les scénarios d'apprentissage en ligne et dans les situations où les données changent au fil du temps.



Principes de Fonctionnement du Classificateur Passif-Agressif :



Adaptation des Poids : Au lieu de mettre à jour les poids du modèle dans le sens de la minimisation de la fonction de perte, comme c'est le cas dans la descente de gradient stochastique, le Classificateur Passif-Agressif adapte les poids dans le sens de la minimisation de l'erreur de classification pour l'exemple en cours. Maintien de l'Agressivité : La méthode dispose d'un paramètre appelé agressivité (C), qui détermine l'intensité avec laquelle les poids du modèle doivent être adaptés. Des valeurs de C plus élevées rendent la méthode plus agressive dans l'adaptation, alors que des valeurs plus petites la rendent moins agressive.

Avantages du Classificateur Passif-Agressif :



Adapté à l'Apprentissage en Ligne : Le Classificateur Passif-Agressif peut être mis à jour au fur et à mesure de l'arrivée de nouvelles données, ce qui le rend adapté aux tâches d'apprentissage en ligne où les données arrivent en flux continu.

Adaptabilité aux Changements de Données : La méthode fonctionne bien avec des données changeantes puisqu'elle adapte le modèle aux nouvelles circonstances.

Limites du Classificateur Passif-Agressif :



Sensibilité au Choix du Paramètre d'Agressivité : La sélection de la valeur optimale du paramètre d'agressivité C peut nécessiter un réglage et dépend des caractéristiques des données.

N'est pas toujours adapté aux tâches complexes : Le Classificateur Passif-Agressif peut ne pas offrir une grande précision dans les tâches complexes où des dépendances complexes doivent être prises en compte.

Interprétation des Poids : Les poids des modèles obtenus à l'aide de cette méthode peuvent être moins faciles à interpréter que les poids obtenus à l'aide d'une régression linéaire ou logistique.

Le Classificateur Passif-Agressif est une méthode d'apprentissage automatique adaptée aux tâches de classification avec des données évolutives et aux situations où l'adaptation rapide du modèle à de nouvelles circonstances est cruciale. Il trouve des applications dans divers domaines, notamment l'analyse de données textuelles, la classification d'images et d'autres tâches.







2.15.1. Code pour la Création du Modèle de Classificateur Passif-Agressif (PA)

Ce code démontre le processus d'entraînement d'un modèle de Classificateur Passif-Agressif (PA) sur le jeu de données Iris, son export au format ONNX et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_PassiveAgressiveClassifier.py # The code uses the Passive-Aggressive (PA) Classifier for the Iris dataset, converts the model to ONNX format, saves it, and evaluates its accuracy. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.linear_model import PassiveAggressiveClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind("\\") + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Passive-Aggressive (PA) Classifier model pa_classifier_model = PassiveAggressiveClassifier(max_iter= 1000 , random_state= 42 ) # train the model on the entire dataset pa_classifier_model.fit(X, y) # predict classes for the entire dataset y_pred = pa_classifier_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ("Accuracy of Passive-Aggressive (PA) Classifier model:", accuracy) # display the classification report print ("

Classification Report:

", classification_report(y, y_pred)) # define the input data type initial_type = [('float_input', FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(pa_classifier_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "pa_classifier_iris.onnx" with open(onnx_filename, "wb") as f: f.write(onnx_model.SerializeToString()) # print model path print (f"Model saved to {onnx_filename}") # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ("

Information about input tensors in ONNX:") for i, input_tensor in enumerate(onnx_session.get_inputs()): print (f"{i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape}") # display information about output tensors in ONNX print ("

Information about output tensors in ONNX:") for i, output_tensor in enumerate(onnx_session.get_outputs()): print (f"{i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape}") # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ("

Accuracy of Passive-Aggressive (PA) Classifier model in ONNX format:", accuracy_onnx)

Python Accuracy of Passive-Aggressive (PA) Classifier model: 0.96

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 0.96 0.92 0.94 50

Python 2 0.92 0.96 0.94 50

Python accuracy 0.96 150

Python macro avg 0.96 0.96 0.96 150

Python weighted avg 0.96 0.96 0.96 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\pa_classifier_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of Passive-Aggressive (PA) Classifier model in ONNX format: 0.96







2.15.2. Code MQL5 pour Travailler avec le Modèle de Classification Passif-Agressif (PA)

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "pa_classifier_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "PassiveAgressiveClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_PassiveAgressiveClassifier (EURUSD,H1) model:PassiveAgressiveClassifier sample= 67 FAILED [ class = 2 , true class = 1 ] features=( 5.60 , 3.00 , 4.50 , 1.50 ] Iris_PassiveAgressiveClassifier (EURUSD,H1) model:PassiveAgressiveClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_PassiveAgressiveClassifier (EURUSD,H1) model:PassiveAgressiveClassifier sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_PassiveAgressiveClassifier (EURUSD,H1) model:PassiveAgressiveClassifier sample= 85 FAILED [ class = 2 , true class = 1 ] features=( 5.40 , 3.00 , 4.50 , 1.50 ] Iris_PassiveAgressiveClassifier (EURUSD,H1) model:PassiveAgressiveClassifier sample= 130 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.00 , 5.80 , 1.60 ] Iris_PassiveAgressiveClassifier (EURUSD,H1) model:PassiveAgressiveClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_PassiveAgressiveClassifier (EURUSD,H1) model:PassiveAgressiveClassifier correct results: 96.00 % Iris_PassiveAgressiveClassifier (EURUSD,H1) model=PassiveAgressiveClassifier all samples accuracy= 0.960000 Iris_PassiveAgressiveClassifier (EURUSD,H1) model=PassiveAgressiveClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 96%, ce qui correspond à la précision du modèle original.







2.15.3. Représentation ONNX du Classificateur Passif-Agressif (PA)

Figure 29. Représentation ONNX du Classificateur Passif-Agressif (PA) dans Netron



2.16. Classificateur Perceptron

Le Classificateur Perceptron est un classificateur binaire linéaire utilisé pour séparer deux classes sur la base d'un hyperplan de séparation linéaire. Il s'agit de l'une des méthodes d'apprentissage automatique les plus simples et les plus anciennes, dont le principe de base consiste à former les poids (coefficients) du modèle afin de maximiser la précision de la classification sur l'ensemble des données d'apprentissage.



Principes de Fonctionnement du Classificateur Perceptron :



Hyper-plan linéaire : Le Perceptron construit un hyper-plan linéaire dans l'espace des caractéristiques qui sépare deux classes. Cet hyper-plan est déterminé par les poids (coefficients) du modèle. Entraînement des Poids : Au départ, les poids sont initialisés de manière aléatoire ou à zéro. Pour chaque objet de l'ensemble de données d'apprentissage, le modèle prédit ensuite la classe sur la base des poids actuels et les ajuste en cas d'erreur. L'apprentissage se poursuit jusqu'à ce que tous les objets soient classés correctement ou jusqu'à ce qu'un nombre maximal d'itérations soit atteint.

Avantages du Classificateur Perceptron :



Simplicité : Le Perceptron est un algorithme très simple, facile à comprendre et à mettre en œuvre.

Vitesse d'Entraînement Elevée : Le Perceptron peut être formé rapidement, en particulier sur de grands ensembles de données, et peut être utilisé dans des tâches d'apprentissage en ligne.

Limites du Classificateur Perceptron :



Contrainte de Séparabilité Linéaire : Le Perceptron ne fonctionne bien que dans les cas où les données sont linéairement séparables. Si les données ne peuvent pas être séparées linéairement, le Perceptron risque de ne pas atteindre une grande précision.

Sensibilité aux Poids Initiaux : Le choix initial des poids peut avoir un impact sur la convergence de l'algorithme. De mauvais choix de poids initiaux peuvent conduire à une convergence lente ou à un neurone qui ne peut pas séparer correctement les classes.

Incapacité à Déterminer les Probabilités : Le Perceptron ne fournit pas d'estimation de la probabilité d'appartenance à une classe, ce qui peut être important pour certaines tâches.

Le Classificateur Perceptron est un algorithme de base pour la classification binaire qui peut être utile dans les cas simples où les données sont linéairement séparables. Il peut également servir de base à des méthodes plus complexes, telles que les réseaux neuronaux multicouches. Il est important de se rappeler que dans les tâches plus complexes où les données ont des structures complexes, d'autres méthodes comme la régression logistique ou les Machines à Vecteurs de Support (SVM) peuvent fournir une meilleure précision de classification.







2.16.1. Code de Création du Modèle de Classification Perceptron



Ce code démontre le processus d'entraînement d'un modèle de Classification Perceptron sur le jeu de données Iris, son export au format ONNX, et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.

# Iris_PerceptronClassifier.py # The code demonstrates the process of training Perceptron Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.linear_model import Perceptron from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Perceptron Classifier model perceptron_model = Perceptron(max_iter= 1000 , random_state= 42 ) # train the model on the entire dataset perceptron_model.fit(X, y) # predict classes for the entire dataset y_pred = perceptron_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Perceptron Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(perceptron_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "perceptron_classifier_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename} " ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 } . Name: {input_tensor.name} , Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 } . Name: {output_tensor.name} , Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Perceptron Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of Perceptron Classifier model: 0.6133333333333333

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 0.80 0.89 50

Python 1 0.46 1.00 0.63 50

Python 2 1.00 0.04 0.08 50

Python accuracy 0.61 150

Python macro avg 0.82 0.61 0.53 150

Python weighted avg 0.82 0.61 0.53 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\perceptron_classifier_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of Perceptron Classifier model in ONNX format: 0.6133333333333333







2.16.2. Code MQL5 pour Travailler avec le Modèle de Classification Perceptron

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "perceptron_classifier_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "PerceptronClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 2 FAILED [ class = 1 , true class = 0 ] features=( 4.90 , 3.00 , 1.40 , 0.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 9 FAILED [ class = 1 , true class = 0 ] features=( 4.40 , 2.90 , 1.40 , 0.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 10 FAILED [ class = 1 , true class = 0 ] features=( 4.90 , 3.10 , 1.50 , 0.10 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 13 FAILED [ class = 1 , true class = 0 ] features=( 4.80 , 3.00 , 1.40 , 0.10 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 21 FAILED [ class = 1 , true class = 0 ] features=( 5.40 , 3.40 , 1.70 , 0.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 26 FAILED [ class = 1 , true class = 0 ] features=( 5.00 , 3.00 , 1.60 , 0.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 31 FAILED [ class = 1 , true class = 0 ] features=( 4.80 , 3.10 , 1.60 , 0.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 35 FAILED [ class = 1 , true class = 0 ] features=( 4.90 , 3.10 , 1.50 , 0.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 42 FAILED [ class = 1 , true class = 0 ] features=( 4.50 , 2.30 , 1.30 , 0.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 46 FAILED [ class = 1 , true class = 0 ] features=( 4.80 , 3.00 , 1.40 , 0.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 102 FAILED [ class = 1 , true class = 2 ] features=( 5.80 , 2.70 , 5.10 , 1.90 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 103 FAILED [ class = 1 , true class = 2 ] features=( 7.10 , 3.00 , 5.90 , 2.10 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 104 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.90 , 5.60 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 105 FAILED [ class = 1 , true class = 2 ] features=( 6.50 , 3.00 , 5.80 , 2.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 106 FAILED [ class = 1 , true class = 2 ] features=( 7.60 , 3.00 , 6.60 , 2.10 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 107 FAILED [ class = 1 , true class = 2 ] features=( 4.90 , 2.50 , 4.50 , 1.70 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 108 FAILED [ class = 1 , true class = 2 ] features=( 7.30 , 2.90 , 6.30 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 109 FAILED [ class = 1 , true class = 2 ] features=( 6.70 , 2.50 , 5.80 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 110 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.60 , 6.10 , 2.50 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 111 FAILED [ class = 1 , true class = 2 ] features=( 6.50 , 3.20 , 5.10 , 2.00 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 112 FAILED [ class = 1 , true class = 2 ] features=( 6.40 , 2.70 , 5.30 , 1.90 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 113 FAILED [ class = 1 , true class = 2 ] features=( 6.80 , 3.00 , 5.50 , 2.10 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 114 FAILED [ class = 1 , true class = 2 ] features=( 5.70 , 2.50 , 5.00 , 2.00 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 116 FAILED [ class = 1 , true class = 2 ] features=( 6.40 , 3.20 , 5.30 , 2.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 117 FAILED [ class = 1 , true class = 2 ] features=( 6.50 , 3.00 , 5.50 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 118 FAILED [ class = 1 , true class = 2 ] features=( 7.70 , 3.80 , 6.70 , 2.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 119 FAILED [ class = 1 , true class = 2 ] features=( 7.70 , 2.60 , 6.90 , 2.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 120 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 2.20 , 5.00 , 1.50 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 121 FAILED [ class = 1 , true class = 2 ] features=( 6.90 , 3.20 , 5.70 , 2.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 122 FAILED [ class = 1 , true class = 2 ] features=( 5.60 , 2.80 , 4.90 , 2.00 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 123 FAILED [ class = 1 , true class = 2 ] features=( 7.70 , 2.80 , 6.70 , 2.00 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 124 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.70 , 4.90 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 125 FAILED [ class = 1 , true class = 2 ] features=( 6.70 , 3.30 , 5.70 , 2.10 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 126 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.20 , 6.00 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 127 FAILED [ class = 1 , true class = 2 ] features=( 6.20 , 2.80 , 4.80 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 128 FAILED [ class = 1 , true class = 2 ] features=( 6.10 , 3.00 , 4.90 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 129 FAILED [ class = 1 , true class = 2 ] features=( 6.40 , 2.80 , 5.60 , 2.10 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 130 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.00 , 5.80 , 1.60 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 131 FAILED [ class = 1 , true class = 2 ] features=( 7.40 , 2.80 , 6.10 , 1.90 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 132 FAILED [ class = 1 , true class = 2 ] features=( 7.90 , 3.80 , 6.40 , 2.00 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 133 FAILED [ class = 1 , true class = 2 ] features=( 6.40 , 2.80 , 5.60 , 2.20 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 135 FAILED [ class = 1 , true class = 2 ] features=( 6.10 , 2.60 , 5.60 , 1.40 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 136 FAILED [ class = 1 , true class = 2 ] features=( 7.70 , 3.00 , 6.10 , 2.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 137 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 3.40 , 5.60 , 2.40 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 138 FAILED [ class = 1 , true class = 2 ] features=( 6.40 , 3.10 , 5.50 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 139 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 3.00 , 4.80 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 140 FAILED [ class = 1 , true class = 2 ] features=( 6.90 , 3.10 , 5.40 , 2.10 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 141 FAILED [ class = 1 , true class = 2 ] features=( 6.70 , 3.10 , 5.60 , 2.40 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 142 FAILED [ class = 1 , true class = 2 ] features=( 6.90 , 3.10 , 5.10 , 2.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 143 FAILED [ class = 1 , true class = 2 ] features=( 5.80 , 2.70 , 5.10 , 1.90 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 144 FAILED [ class = 1 , true class = 2 ] features=( 6.80 , 3.20 , 5.90 , 2.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 145 FAILED [ class = 1 , true class = 2 ] features=( 6.70 , 3.30 , 5.70 , 2.50 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 146 FAILED [ class = 1 , true class = 2 ] features=( 6.70 , 3.00 , 5.20 , 2.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 147 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.50 , 5.00 , 1.90 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 148 FAILED [ class = 1 , true class = 2 ] features=( 6.50 , 3.00 , 5.20 , 2.00 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 149 FAILED [ class = 1 , true class = 2 ] features=( 6.20 , 3.40 , 5.40 , 2.30 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier sample= 150 FAILED [ class = 1 , true class = 2 ] features=( 5.90 , 3.00 , 5.10 , 1.80 ] Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier correct results: 61.33 % Iris_PerceptronClassifier (EURUSD,H1) model=PerceptronClassifier all samples accuracy= 0.613333 Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.70 , 4.90 , 1.80 ) Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier FAILED [ class = 1 , true class = 0 ] features=( 4.90 , 3.10 , 1.50 , 0.10 ) Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier FAILED [ class = 1 , true class = 2 ] features=( 5.80 , 2.70 , 5.10 , 1.90 ) Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier FAILED [ class = 1 , true class = 2 ] features=( 7.10 , 3.00 , 5.90 , 2.10 ) Iris_PerceptronClassifier (EURUSD,H1) model:PerceptronClassifier FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.90 , 5.60 , 1.80 ) Iris_PerceptronClassifier (EURUSD,H1) model=PerceptronClassifier batch test accuracy= 0.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 61,33%, ce qui correspond à la précision du modèle original.





2.16.3. Représentation ONNX du Classificateur Perceptron





Figure 30. Représentation ONNX du Classificateur Perceptron dans Netron







2.17. Classificateur Stochastic Gradient Descent

Le Classificateur SGD (Stochastic Gradient Descent) est une méthode d'apprentissage automatique utilisée pour les tâches de classification. Il s'agit d'un cas spécifique de modèles linéaires et d'un classificateur linéaire formé à l'aide d'une descente de gradient stochastique.



Principes du Classificateur SGD :



Hyper-plan linéaire : Le Classificateur SGD construit un hyper-plan linéaire dans l'espace multidimensionnel des caractéristiques qui sépare 2 classes. Cet hyper-plan est déterminé par les poids (coefficients) du modèle. Descente Stochastique de Gradient : La méthode est entraînée à l'aide de la descente de gradient stochastique, ce qui signifie que les mises à jour des poids sont effectuées sur chaque objet de l'ensemble de données d'entraînement (ou d'un sous-ensemble sélectionné de manière aléatoire), plutôt que sur l'ensemble de données complet. Le Classificateur SGD est donc adapté aux grands volumes de données et à l'apprentissage en ligne. Fonction de Perte : Le Classificateur SGD optimise une fonction de perte, telle que la fonction de perte logistique pour la classification binaire ou la fonction de perte softmax pour la classification multi-classes.

Avantages du Classificateur SGD :



Vitesse d'Entraînement : Le Classificateur SGD s'entraîne rapidement, en particulier sur de grands volumes de données, grâce à la descente de gradient stochastique.

Adapté à l'Apprentissage en Ligne : La méthode est bien adaptée aux tâches d'apprentissage en ligne où les données arrivent en flux continu et où le modèle doit être mis à jour au fur et à mesure de l'arrivée de nouvelles données.

Limites du Classificateur SGD :



Sensibilité aux Paramètres : Le Classificateur SGD possède de nombreux hyper-paramètres, tels que le taux d'apprentissage et le paramètre de régularisation, qui nécessitent un réglage minutieux.

Initialisation des Poids : Le choix initial des poids peut influencer la convergence et la qualité du modèle.

Convergence Vers les Minima Locaux : En raison de la nature stochastique de la méthode SGD, elle peut converger vers des minima locaux de la fonction de perte, ce qui peut affecter la qualité du modèle.

Le Classificateur SGD est une méthode d'apprentissage automatique polyvalente qui peut être utilisée pour les tâches de classification binaire et multi-classes, en particulier lorsqu'il s'agit de traiter de grands volumes de données nécessitant un traitement rapide. Il est important d'ajuster correctement ses hyper-paramètres et de surveiller la convergence afin d'obtenir une précision de classification élevée.







2.17.1. Code de Création du Modèle de Classification Stochastic Gradient Descent

Ce code démontre le processus d'entraînement d'un modèle de Classificateur SGD sur le jeu de données Iris, son export au format ONNX et la réalisation d'une classification à l'aide du modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_SGDClassifier.py # The code demonstrates the process of training Stochastic Gradient Descent Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.linear_model import SGDClassifier from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create an SGD Classifier model sgd_model = SGDClassifier(max_iter= 1000 , random_state= 42 ) # train the model on the entire dataset sgd_model.fit(X, y) # predict classes for the entire dataset y_pred = sgd_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of SGD Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(sgd_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "sgd_classifier_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename} " ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 } . Name: {input_tensor.name} , Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 } . Name: {output_tensor.name} , Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of SGD Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of SGD Classifier model: 0.9333333333333333

Python Classification Report:

Python precision recall f1-score support

Python 0 0.96 1.00 0.98 50

Python 1 0.88 0.92 0.90 50

Python 2 0.96 0.88 0.92 50

Python accuracy 0.93 150

Python macro avg 0.93 0.93 0.93 150

Python weighted avg 0.93 0.93 0.93 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\perceptron_classifier_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of SGD Classifier model in ONNX format: 0.9333333333333333





2.17.2. Code MQL5 pour Travailler avec le Modèle de Classification Stochastic Gradient Descent

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "sgd_classifier_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "SGDClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 65 FAILED [ class = 0 , true class = 1 ] features=( 5.60 , 2.90 , 3.60 , 1.30 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 86 FAILED [ class = 0 , true class = 1 ] features=( 6.00 , 3.40 , 4.50 , 1.60 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 120 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 2.20 , 5.00 , 1.50 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 124 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.70 , 4.90 , 1.80 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 127 FAILED [ class = 1 , true class = 2 ] features=( 6.20 , 2.80 , 4.80 , 1.80 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 130 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.00 , 5.80 , 1.60 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier sample= 135 FAILED [ class = 1 , true class = 2 ] features=( 6.10 , 2.60 , 5.60 , 1.40 ] Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier correct results: 93.33 % Iris_SGDClassifier (EURUSD,H1) model=SGDClassifier all samples accuracy= 0.933333 Iris_SGDClassifier (EURUSD,H1) model:SGDClassifier FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.70 , 4.90 , 1.80 ) Iris_SGDClassifier (EURUSD,H1) model=SGDClassifier batch test accuracy= 0.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 93,33%, ce qui correspond à la précision du modèle original.





2.17.3. Représentation ONNX du Classificateur Stochastic Gradient Descent





Figure 31. Représentation ONNX du Classificateur Stochastic Gradient Descent dans Netron







2.18. Classificateur Gaussian Naive Bayes (GNB)

Le Classificateur Gaussian Naive Bayes (GNB) est une méthode d'apprentissage automatique basée sur un modèle probabiliste bayésien utilisé pour les tâches de classification. Il fait partie de la famille des classificateurs naïfs de Bayes et suppose que toutes les caractéristiques sont indépendantes et ont une distribution normale.



Principes du Classificateur Gaussian Naive Bayes :



Approche Bayésienne : Le GNB est basé sur l'approche bayésienne de la classification, qui utilise le théorème de Bayes pour calculer la probabilité d'appartenance d'un objet à chaque classe. Hypothèse Naïve : L'hypothèse clé du GNB est que toutes les caractéristiques sont indépendantes et suivent une distribution normale (gaussienne). Cette hypothèse est considérée comme naïve car, dans les données réelles, les caractéristiques sont souvent en corrélation les unes avec les autres. Estimation des Paramètres : Le modèle GNB est entraîné sur l'ensemble des données d'entraînement en calculant les paramètres de la distribution (moyenne et écart-type) pour chaque caractéristique de chaque classe.

Avantages du Classificateur Gaussian Naive Bayes :



Simplicité et Rapidité de Formation : Le GNB est un algorithme très simple qui s'entraîne rapidement, même sur de grands ensembles de données.

Efficacité pour les Petites et Moyennes Données : Le GNB peut être efficace pour les tâches de classification comportant un nombre faible ou moyen de caractéristiques, en particulier lorsque l'hypothèse d'une distribution normale des caractéristiques est respectée.

Limites du Classificateur Gaussian Naive Bayes :



Hypothèse Naïve : L'hypothèse de l'indépendance des caractéristiques et de la distribution normale peut être trop simpliste et incorrecte pour les données du monde réel, ce qui réduit la précision de la classification.

Sensibilité aux Valeurs Aberrantes : Le GNB peut être sensible aux valeurs aberrantes dans les données car elles peuvent fausser de manière significative les paramètres de la distribution normale.

Incapacité à Saisir les Dépendances des Caractéristiques : En raison de l'hypothèse d'indépendance, le GNB ne tient pas compte des dépendances entre les caractéristiques.

Le Classificateur Gaussian Naive Bayes est un bon choix pour les tâches de classification simples, en particulier lorsque l'hypothèse de distribution normale des caractéristiques est approximativement respectée. Mais dans les tâches plus complexes où les caractéristiques sont corrélées ou ne suivent pas une distribution normale, d'autres méthodes telles que les Machines à Vecteurs de Support (SVM) ou le gradient boosting peuvent fournir des résultats plus précis.







2.18.1. Code de Création du Modèle de Classification Gaussian Naive Bayes (GNB)

Ce code démontre le processus d'entraînement d'un modèle de Classificateur Gaussian Naive Bayes (GNB) sur le jeu de données Iris, l'exportant au format ONNX, et effectuant la classification en utilisant le modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_GaussianNaiveBayesClassifier.py # The code demonstrates the process of training Gaussian Naive Bayes Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.naive_bayes import GaussianNB from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Gaussian Naive Bayes (GNB) Classifier model gnb_model = GaussianNB() # train the model on the entire dataset gnb_model.fit(X, y) # predict classes for the entire dataset y_pred = gnb_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Gaussian Naive Bayes (GNB) Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(gnb_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "gnb_classifier_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename} " ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 } . Name: {input_tensor.name} , Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 } . Name: {output_tensor.name} , Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Gaussian Naive Bayes (GNB) Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of Gaussian Naive Bayes (GNB) Classifier model: 0.96

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 0.94 0.94 0.94 50

Python 2 0.94 0.94 0.94 50

Python accuracy 0.96 150

Python macro avg 0.96 0.96 0.96 150

Python weighted avg 0.96 0.96 0.96 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\gnb_classifier_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of Gaussian Naive Bayes (GNB) Classifier model in ONNX format: 0.96







2.18.2. Code MQL5 pour Travailler avec le Modèle de Classificateur Gaussian Naive Bayes (GNB)

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "gnb_classifier_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "GaussianNaiveBayesClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model:GaussianNaiveBayesClassifier sample= 53 FAILED [ class = 2 , true class = 1 ] features=( 6.90 , 3.10 , 4.90 , 1.50 ] Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model:GaussianNaiveBayesClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model:GaussianNaiveBayesClassifier sample= 78 FAILED [ class = 2 , true class = 1 ] features=( 6.70 , 3.00 , 5.00 , 1.70 ] Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model:GaussianNaiveBayesClassifier sample= 107 FAILED [ class = 1 , true class = 2 ] features=( 4.90 , 2.50 , 4.50 , 1.70 ] Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model:GaussianNaiveBayesClassifier sample= 120 FAILED [ class = 1 , true class = 2 ] features=( 6.00 , 2.20 , 5.00 , 1.50 ] Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model:GaussianNaiveBayesClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model:GaussianNaiveBayesClassifier correct results: 96.00 % Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model=GaussianNaiveBayesClassifier all samples accuracy= 0.960000 Iris_GaussianNaiveBayesClassifier (EURUSD,H1) model=GaussianNaiveBayesClassifier batch test accuracy= 1.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 96%, ce qui correspond à la précision du modèle original.







2.18.3. Représentation ONNX du Classificateur Gaussian Naive Bayes (GNB)





Figure 32. Représentation ONNX du Classificateur Gaussian Naive Bayes (GNB) dans Netron







2.19. Classificateur Multinomial Naive Bayes (MNB)

Le Classificateur Multinomial Naive Bayes (MNB) est une méthode d'apprentissage automatique basée sur un modèle probabiliste bayésien et est utilisé pour les tâches de classification, en particulier dans le traitement de texte. Il s'agit de l'une des variantes des classificateurs de Bayes naïfs, qui partent du principe que les caractéristiques représentent des nombres, tels que le nombre d'occurrences de mots dans un texte.



Principes du Classificateur Multinomial Naive Bayes :



Approche Bayésienne : MNB suit également l'approche bayésienne de la classification, en utilisant le théorème de Bayes pour calculer la probabilité qu'un objet appartienne à chaque classe. Hypothèse d'une Distribution Multinomiale : L'hypothèse principale de MNB est que les caractéristiques représentent des nombres, tels que le nombre d'occurrences de mots dans un texte, et qu'elles suivent une distribution multinomiale. Cette hypothèse est souvent valable pour les données textuelles. Estimation des Paramètres : Le modèle MNB est formé sur l'ensemble des données d'apprentissage en calculant les paramètres de la distribution pour chaque caractéristique au sein de chaque classe.

Avantages du Classificateur Multinomial Naive Bayes :



Efficacité dans le Traitement du Texte : MNB donne de bons résultats dans les tâches liées à l'analyse de données textuelles, telles que la classification de textes ou le filtrage de spams, grâce à l'hypothèse du nombre de caractéristiques.

Simplicité et Rapidité de Formation : Comme les autres classificateurs de Bayes naïfs, MNB est un algorithme simple qui s'entraîne rapidement, même sur de grands volumes de données textuelles.

Limites du Classificateur Multinomial Naive Bayes :



Hypothèse Naïve : L'hypothèse d'une distribution multinomiale des caractéristiques peut être trop simpliste et inexacte pour les données réelles, en particulier lorsque les caractéristiques ont des structures complexes.

Incapacité à Tenir Compte de l'Ordre des Mots : MNB ne tient pas compte de l'ordre des mots dans le texte, ce qui peut être important dans certaines tâches d'analyse de texte.

Sensibilité aux Mots Rares : MNB peut être sensible aux mots rares, et un nombre insuffisant d'occurrences peut réduire la précision de la classification.

Le Classificateur Multinomial Naive Bayes est une méthode utile pour les tâches d'analyse de texte, en particulier lorsque les caractéristiques sont liées au nombre, comme le nombre de mots dans le texte. Il est largement utilisé dans le traitement du langage naturel (NLP) pour la classification des textes, la catégorisation des documents et d'autres analyses de texte.





2.19.1. Code de Création du Modèle de Classificateur Multinomial Naive Bayes (MNB)

Ce code démontre le processus d'entraînement d'un modèle de Classificateur Multinomial Naive Bayes (MNB) sur le jeu de données Iris, l'exportant au format ONNX, et effectuant la classification en utilisant le modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_MultinomialNaiveBayesClassifier.py # The code demonstrates the process of training Multinomial Naive Bayes (MNB) Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Multinomial Naive Bayes (MNB) Classifier model mnb_model = MultinomialNB() # train the model on the entire dataset mnb_model.fit(X, y) # predict classes for the entire dataset y_pred = mnb_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Multinomial Naive Bayes (MNB) Classifier model:" , accuracy) # display the classification report print ("

Classification Report:

", classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(mnb_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "mnb_classifier_iris.onnx" with open(onnx_filename, "wb ") as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename} " ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 } . Name: {input_tensor.name} , Data Type: {input_tensor.type} , Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print (f"{i + 1 } . Name: {output_tensor.name} , Data Type: {output_tensor.type} , Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Multinomial Naive Bayes (MNB) Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of Multinomial Naive Bayes (MNB) Classifier model: 0.9533333333333334

Python Classification Report:

Python precision recall f1-score support

Python 0 1.00 1.00 1.00 50

Python 1 0.94 0.92 0.93 50

Python 2 0.92 0.94 0.93 50

Python accuracy 0.95 150

Python macro avg 0.95 0.95 0.95 150

Python weighted avg 0.95 0.95 0.95 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\mnb_classifier_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of Multinomial Naive Bayes (MNB) Classifier model in ONNX format: 0.9533333333333334







2.19.2. Code MQL5 pour Travailler avec le Modèle de Classificateur Multinomial Naive Bayes (MNB)

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "mnb_classifier_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "MultinomialNaiveBayesClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier sample= 69 FAILED [ class = 2 , true class = 1 ] features=( 6.20 , 2.20 , 4.50 , 1.50 ] Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier sample= 71 FAILED [ class = 2 , true class = 1 ] features=( 5.90 , 3.20 , 4.80 , 1.80 ] Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier sample= 73 FAILED [ class = 2 , true class = 1 ] features=( 6.30 , 2.50 , 4.90 , 1.50 ] Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier sample= 84 FAILED [ class = 2 , true class = 1 ] features=( 6.00 , 2.70 , 5.10 , 1.60 ] Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier sample= 130 FAILED [ class = 1 , true class = 2 ] features=( 7.20 , 3.00 , 5.80 , 1.60 ] Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier sample= 132 FAILED [ class = 1 , true class = 2 ] features=( 7.90 , 3.80 , 6.40 , 2.00 ] Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier sample= 134 FAILED [ class = 1 , true class = 2 ] features=( 6.30 , 2.80 , 5.10 , 1.50 ] Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier correct results: 95.33 % Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model=MultinomialNaiveBayesClassifier all samples accuracy= 0.953333 Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model:MultinomialNaiveBayesClassifier FAILED [ class = 2 , true class = 1 ] features=( 6.30 , 2.50 , 4.90 , 1.50 ) Iris_MultinomialNaiveBayesClassifier (EURUSD,H1) model=MultinomialNaiveBayesClassifier batch test accuracy= 0.000000

La précision du modèle ONNX exporté sur l'ensemble du jeu de données Iris est de 95,33%, ce qui correspond à la précision du modèle original.







2.19.3. Représentation ONNX du Classificateur Multinomial Naive Bayes (MNB)





Figure 33. Représentation ONNX du Classificateur Multinomial Naive Bayes (MNB) dans Netron







2.20. Classificateur Complement Naive Bayes (CNB)

Le Classificateur Complement Naive Bayes (CNB) est une variante du Classificateur Naive Bayes qui a été spécialement conçue pour fonctionner avec des données déséquilibrées, où une classe peut être significativement plus répandue que l'autre. Ce classificateur adapte la méthode classique des Bayes naïfs pour traiter le déséquilibre des classes.



Principes du Classificateur Complement Naive Bayes :



Approche Bayésienne : Comme les autres classificateurs bayésiens, le CNB suit l'approche bayésienne de la classification et utilise le théorème de Bayes pour calculer la probabilité qu'un objet appartienne à chaque classe. Remédier au Déséquilibre des Classes : L'objectif premier du CNB est de corriger le déséquilibre des classes. Au lieu de prendre en compte la probabilité des caractéristiques de la classe, comme le fait la méthode standard de Bayes naïf, CNB tente de prendre en compte la probabilité des caractéristiques extérieures à la classe. Cela est particulièrement utile lorsqu'une classe est nettement moins représentée que l'autre. Estimation des Paramètres : Le modèle CNB est formé sur l'ensemble des données d'apprentissage en calculant les paramètres de la distribution pour chaque caractéristique en dehors de la classe.

Avantages du Classificateur Complement Naive Bayes :



Adaptation aux Données Déséquilibrées : Le CNB donne de bons résultats dans les tâches de classification avec des données déséquilibrées, où les classes ont des fréquences différentes.

Simplicité et Rapidité de Formation : Comme les autres classificateurs de Bayes naïfs, CNB est un algorithme simple qui s'entraîne rapidement, même sur de grands volumes de données.

Limites du Classificateur Complement Naive Bayes :



Sensibilité au Choix du Paramètre de Régularisation : Comme dans d'autres méthodes bayésiennes, la sélection de la bonne valeur pour le paramètre de régularisation peut nécessiter un réglage et une évaluation.

Hypothèse Naïve : Comme les autres classificateurs de Bayes naïfs, le CNB suppose l'indépendance des caractéristiques, ce qui peut s'avérer trop simpliste pour certaines tâches.

Le Classificateur Complement Naive Bayes est un bon choix pour les tâches de classification avec des données déséquilibrées, en particulier lorsqu'une classe est nettement moins représentée que l'autre. Elle peut être particulièrement utile dans les tâches de classification de textes où les mots peuvent être fortement déséquilibrés entre les classes, comme l'analyse des sentiments ou le filtrage des spams.





2.20.1. Code pour la Création du Modèle de Classification Complement Naive Bayes (CNB)

Ce code démontre le processus d'entraînement d'un modèle de Classificateur Complement Naive Bayes (CNB) sur le jeu de données Iris, l'exportant au format ONNX, et effectuant la classification en utilisant le modèle ONNX. Il évalue également la précision du modèle original et du modèle ONNX.



# Iris_CNBClassifier.py # The code demonstrates the process of training Complement Naive Bayes (CNB) Classifier model on the Iris dataset, exporting it to ONNX format, and making predictions using the ONNX model. # It also evaluates the accuracy of both the original model and the ONNX model. # Copyright 2023, MetaQuotes Ltd. # https://www.mql5.com # import necessary libraries from sklearn import datasets from sklearn.naive_bayes import ComplementNB from sklearn.metrics import accuracy_score, classification_report from skl2onnx import convert_sklearn from skl2onnx.common.data_types import FloatTensorType import onnxruntime as ort import numpy as np from sys import argv # define the path for saving the model data_path = argv[ 0 ] last_index = data_path.rfind( "\\" ) + 1 data_path = data_path[ 0 :last_index] # load the Iris dataset iris = datasets.load_iris() X = iris.data y = iris.target # create a Complement Naive Bayes (CNB) Classifier model cnb_model = ComplementNB() # train the model on the entire dataset cnb_model.fit(X, y) # predict classes for the entire dataset y_pred = cnb_model.predict(X) # evaluate the model's accuracy accuracy = accuracy_score(y, y_pred) print ( "Accuracy of Complement Naive Bayes (CNB) Classifier model:" , accuracy) # display the classification report print ( "

Classification Report:

" , classification_report(y, y_pred)) # define the input data type initial_type = [( 'float_input' , FloatTensorType([None, X.shape[ 1 ]]))] # export the model to ONNX format with float data type onnx_model = convert_sklearn(cnb_model, initial_types=initial_type, target_opset= 12 ) # save the model to a file onnx_filename = data_path + "cnb_classifier_iris.onnx" with open(onnx_filename, "wb" ) as f: f.write(onnx_model.SerializeToString()) # print model path print ( f"Model saved to {onnx_filename} " ) # load the ONNX model and make predictions onnx_session = ort.InferenceSession(onnx_filename) input_name = onnx_session.get_inputs()[ 0 ].name output_name = onnx_session.get_outputs()[ 0 ].name # display information about input tensors in ONNX print ( "

Information about input tensors in ONNX:" ) for i, input_tensor in enumerate(onnx_session.get_inputs()): print ( f" {i + 1 }. Name: {input_tensor.name}, Data Type: {input_tensor.type}, Shape: {input_tensor.shape} " ) # display information about output tensors in ONNX print ( "

Information about output tensors in ONNX:" ) for i, output_tensor in enumerate(onnx_session.get_outputs()): print ( f" {i + 1 }. Name: {output_tensor.name}, Data Type: {output_tensor.type}, Shape: {output_tensor.shape} " ) # convert data to floating-point format (float32) X_float32 = X.astype(np.float32) # predict classes for the entire dataset using ONNX y_pred_onnx = onnx_session.run([output_name], {input_name: X_float32})[ 0 ] # evaluate the accuracy of the ONNX model accuracy_onnx = accuracy_score(y, y_pred_onnx) print ( "

Accuracy of Complement Naive Bayes (CNB) Classifier model in ONNX format:" , accuracy_onnx)

Python Accuracy of Complement Naive Bayes (CNB) Classifier model: 0.6666666666666666

Python Classification Report:

Python precision recall f1-score support

Python 0 0.96 1.00 0.98 50

Python 1 0.00 0.00 0.00 50

Python 2 0.51 1.00 0.68 50

Python accuracy 0.67 150

Python macro avg 0.49 0.67 0.55 150

Python weighted avg 0.49 0.67 0.55 150

Python Model saved to C:\Users\user\AppData\Roaming\MetaQuotes\Terminal\D0E8209F77C8CF37AD8BF550E51FF075\MQL5\Scripts\cnb_classifier_iris.onnx

Python Information about input tensors in ONNX:

Python 1. Name: float_input, Data Type: tensor(float), Shape: [None, 4]

Python Information about output tensors in ONNX:

Python 1. Nom : output_label, Type de Données : tensor(int64), Forme : [None]

Python 2. Name: output_probability, Data Type: seq(map(int64,tensor(float))), Shape: []

Python Accuracy of Complement Naive Bayes (CNB) Classifier model in ONNX format: 0.6666666666666666







2.20.2. Code MQL5 pour Travailler avec le Modèle de Classificateur Complement Naive Bayes (CNB)

#property copyright "Copyright 2023, MetaQuotes Ltd." #property link "https://www.mql5.com" #property version "1.00" #include "iris.mqh" #resource "cnb_classifier_iris.onnx" as const uchar ExtModel[]; bool TestSamples( long model, float &input_data[][ 4 ], int &model_classes_id[]) { ulong batch_size=input_data.Range( 0 ); if (batch_size== 0 ) return ( false ); ArrayResize (model_classes_id,( int )batch_size); float output_data[]; struct Map { ulong key[]; float value[]; } output_data_map[]; bool res= ArrayResize (output_data,( int )batch_size)==batch_size; if (res) { ulong input_shape[]= {batch_size,input_data.Range( 1 )}; OnnxSetInputShape (model, 0 ,input_shape); ulong output_shape1[]= {batch_size}; ulong output_shape2[]= {batch_size}; OnnxSetOutputShape (model, 0 ,output_shape1); OnnxSetOutputShape (model, 1 ,output_shape2); res= OnnxRun (model, 0 ,input_data,output_data,output_data_map); if (res) { ulong output_keys[]; float output_values[]; for ( uint n= 0 ; n<output_data_map.Size(); n++) { int model_class_id=- 1 ; int max_idx=- 1 ; float max_value=- 1 ; ArrayCopy (output_keys,output_data_map[n].key); ArrayCopy (output_values,output_data_map[n].value); for ( int k= 0 ; k< ArraySize (output_values); k++) { if (k== 0 ) { max_idx= 0 ; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } else { if (output_values[k]>max_value) { max_idx=k; max_value=output_values[max_idx]; model_class_id=( int )output_keys[max_idx]; } } } model_classes_id[n]=model_class_id; } } } return (res); } bool TestAllIrisDataset( const long model, const string model_name, double &model_accuracy) { sIRISsample iris_samples[]; PrepareIrisDataset(iris_samples); int total_samples= ArraySize (iris_samples); if (total_samples== 0 ) { Print ( "iris dataset not prepared" ); return ( false ); } for ( int k= 0 ; k<total_samples; k++) { } int model_output_classes_id[]; int correct_results= 0 ; for ( int k= 0 ; k<total_samples; k++) { float iris_sample_input_data[ 1 ][ 4 ]; iris_sample_input_data[ 0 ][ 0 ]=( float )iris_samples[k].features[ 0 ]; iris_sample_input_data[ 0 ][ 1 ]=( float )iris_samples[k].features[ 1 ]; iris_sample_input_data[ 0 ][ 2 ]=( float )iris_samples[k].features[ 2 ]; iris_sample_input_data[ 0 ][ 3 ]=( float )iris_samples[k].features[ 3 ]; bool res=TestSamples(model,iris_sample_input_data,model_output_classes_id); if (res) { if (model_output_classes_id[ 0 ]==iris_samples[k].class_id) { correct_results++; } else { PrintFormat ( "model:%s sample=%d FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f]" ,model_name,iris_samples[k].sample_id,model_output_classes_id[ 0 ],iris_samples[k].class_id,iris_samples[k].features[ 0 ],iris_samples[k].features[ 1 ],iris_samples[k].features[ 2 ],iris_samples[k].features[ 3 ]); } } } model_accuracy= 1.0 *correct_results/total_samples; PrintFormat ( "model:%s correct results: %.2f%%" ,model_name, 100 *model_accuracy); return ( true ); } bool TestBatchExecution( const long model, const string model_name, double &model_accuracy) { model_accuracy= 0 ; int model_output_classes_id[]; int correct_results= 0 ; int total_results= 0 ; bool res= false ; float input_data_batch3[ 3 ][ 4 ]= { { 5.1 f, 3.5 f, 1.4 f, 0.2 f}, { 6.3 f, 2.5 f, 4.9 f, 1.5 f}, { 6.3 f, 2.7 f, 4.9 f, 1.8 f} }; int correct_classes_batch3[ 3 ]= { 0 , 1 , 2 }; res=TestSamples(model,input_data_batch3,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch3[j]) correct_results++; else { PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch3[j],input_data_batch3[j][ 0 ],input_data_batch3[j][ 1 ],input_data_batch3[j][ 2 ],input_data_batch3[j][ 3 ]); } total_results++; } } else return ( false ); float input_data_batch10[ 10 ][ 4 ]= { { 5.5 f, 3.5 f, 1.3 f, 0.2 f}, { 4.9 f, 3.1 f, 1.5 f, 0.1 f}, { 4.4 f, 3.0 f, 1.3 f, 0.2 f}, { 5.0 f, 3.3 f, 1.4 f, 0.2 f}, { 7.0 f, 3.2 f, 4.7 f, 1.4 f}, { 6.4 f, 3.2 f, 4.5 f, 1.5 f}, { 6.3 f, 3.3 f, 6.0 f, 2.5 f}, { 5.8 f, 2.7 f, 5.1 f, 1.9 f}, { 7.1 f, 3.0 f, 5.9 f, 2.1 f}, { 6.3 f, 2.9 f, 5.6 f, 1.8 f} }; int correct_classes_batch10[ 10 ]= { 0 , 0 , 0 , 0 , 1 , 1 , 2 , 2 , 2 , 2 }; res=TestSamples(model,input_data_batch10,model_output_classes_id); if (res) { for ( int j= 0 ; j< ArraySize (model_output_classes_id); j++) { if (model_output_classes_id[j]==correct_classes_batch10[j]) correct_results++; else { double f1=input_data_batch10[j][ 0 ]; double f2=input_data_batch10[j][ 1 ]; double f3=input_data_batch10[j][ 2 ]; double f4=input_data_batch10[j][ 3 ]; PrintFormat ( "model:%s FAILED [class=%d, true class=%d] features=(%.2f,%.2f,%.2f,%.2f)" ,model_name,model_output_classes_id[j],correct_classes_batch10[j],input_data_batch10[j][ 0 ],input_data_batch10[j][ 1 ],input_data_batch10[j][ 2 ],input_data_batch10[j][ 3 ]); } total_results++; } } else return ( false ); model_accuracy=correct_results/total_results; return (res); } int OnStart ( void ) { string model_name= "CNBClassifier" ; long model= OnnxCreateFromBuffer (ExtModel, ONNX_DEFAULT ); if (model== INVALID_HANDLE ) { PrintFormat ( "model_name=%s OnnxCreate error %d for" ,model_name, GetLastError ()); } else { double model_accuracy= 0 ; if (TestAllIrisDataset(model,model_name,model_accuracy)) PrintFormat ( "model=%s all samples accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); if (TestBatchExecution(model,model_name,model_accuracy)) PrintFormat ( "model=%s batch test accuracy=%f" ,model_name,model_accuracy); else PrintFormat ( "error in testing model=%s " ,model_name); OnnxRelease (model); } return ( 0 ); }

Sortie :