Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques) - page 7

 
TheXpert:

Comment peuvent-ils être discrets si vous travaillez avec des incréments relatifs ?

Et la deuxième question : quel est le nombre de caractères ?


Et nous les discréditons. Il existe deux schémas principaux : les quantiles (rendant le PDF égal) et l'espacement égal (le PDF est très similaire au résultat sur les données brutes).

Le nombre de caractères est fixé par le chercheur.

 
Mathemat: Et pour moi, dans cette tâche, TI est avant tout un outil d'exploration des données. Ce qu'il faut faire avec ces données est une autre question. L'important est que nous voyons quelque chose qui n'est pas visible à l'œil nu. Et de quelles autres sciences parlez-vous ?

J'ouvre dans le paquet STATISTIQUES l'onglet "data mining" - environ 20 noms de sections et de procédures séparées. Tout cela est parfaitement conforme aux manuels et aux monographies dans ce domaine, mais rien sur les TI pour l'exploration de données.

 
alexeymosc:
De toute évidence, il semble que dans notre interprétation du processus, il s'agisse de valeurs discrètes des rendements.

Si vous ne faites pas intervenir les "significations économiques et autres", alors de quels processus parlons-nous ? Un processus est un phénomène "physique", il a des causes et des conséquences. Par exemple, le processus de la chute d'une pomme sur la tête de Newton. Dans l'application aux marchés, le processus d'achat et de vente. Où se situe tout cela sur le marché ?

Point suivant. Le ter.ver, sur lequel se fonde le ter.inf, exige l'indépendance des événements en question, ou des symboles. Sinon, l'utilisation de ces appareils mathématiques est incorrecte. A quel endroit l'indépendance est-elle posée ? Supposons que, dans une intention spéculative, j'achète des actions (je parle du marché réel, pas de la maison de courtage), et qu'un retour se produise dans les prix. Après un certain temps, j'ai décidé de vendre ces actions et un autre retour s'est produit. Ces deux événements sont assez clairement liés l'un à l'autre par l'intermédiaire de moi et de mes intentions spéculatives. Comme il y a beaucoup d'imbéciles comme moi sur le marché, et qu'ils achètent et vendent tous de la même manière, tous les rendements s'avèrent être liés - dépendants. Alors pourquoi essayez-vous d'appliquer un appareil mathématique à des événements dépendants à partir d'événements indépendants ? Est-ce correct ?

Sur ce point, tout est loin d'être évident.

 
faa1947:

J'ouvre dans le paquet STATISTIQUES l'onglet "data mining" - environ 20 noms de sections et de procédures individuelles. Tout cela est parfaitement conforme aux manuels et monographies du domaine, mais rien sur l'informatique pour l'extraction de données.


Il s'agit d'une faille dans les statistiques. Je l'utilise moi-même, d'ailleurs.
 
alexeymosc:

Et nous les discréditons. Il existe deux schémas principaux : les quantiles (rendant le PDF égal) et l'espacement égal (le PDF est très similaire au résultat sur les données brutes).

Le nombre de caractères est fixé par le chercheur.

C'est-à-dire que si nous ne connaissons pas l'alphabet du marché, inventons-en un nous-mêmes, et c'est ce que nous étudierons.

Je peux me tromper, bien sûr, et cela ne m'arrive pas souvent, mais cette approche ne me semble pas bonne.

 
HideYourRichess:

C'est-à-dire que si nous ne connaissons pas l'alphabet du marché, inventons-le nous-mêmes et étudions-le exactement.

Je peux me tromper, bien sûr, et cela ne m'arrive pas souvent, mais cette approche ne me semble pas bonne.


Vous voyez, je ne veux pas discuter et je n'aime pas ça, mais c'est ce que les chercheurs font pour les variables continues, ils les discrétisent. Il n'y a pas d'autre solution, l'alternative étant de ne pas appliquer du tout TI aux variables continues.

La manière de le faire est un sujet distinct. Il existe une méthodologie pour déterminer le nombre de caractères d'un alphabet par l'analyse de la distribution des valeurs continues (appelée Fenêtres de Parzen - règles de google...), mais je ne l'ai pas utilisée dans ce cas et je pense que j'ai un peu perdu.

 
Vous ne semblez pas du tout avoir compris ce dont vous parliez. Eh bien, bonne chance.
 
HideYourRichess:
Vous ne semblez pas du tout avoir compris ce dont vous parliez. Eh bien, bonne chance.

Je comprends votre raisonnement sur l'indépendance des incréments. Je ne suis pas sûr d'être tout à fait d'accord. Je consulterais également Mathemat à ce sujet.
 
HideYourRichess:

Si vous ne faites pas intervenir les "significations économiques et autres", alors de quels processus parlons-nous ? Un processus est un phénomène "physique", il a des causes et des conséquences. Par exemple, le processus de la chute d'une pomme sur la tête de Newton. Dans l'application aux marchés, le processus d'achat et de vente. Où se trouve le marché ?

Point suivant. Le ter.ver, sur lequel se fonde le ter.inf., exige l'indépendance des événements en question, ou des symboles. Sinon, l'utilisation de ces appareils mathématiques est incorrecte. Où est l'indépendance inhérente ? Supposons que, dans une intention spéculative, j'achète des actions (je parle du marché réel, pas de la maison de courtage), et qu'un retour se produise dans les prix. Après un certain temps, j'ai décidé de vendre ces actions et un autre retour s'est produit. Ces deux événements sont assez clairement liés l'un à l'autre par l'intermédiaire de moi et de mes impulsions spéculatives. Comme il y a beaucoup d'imbéciles comme moi sur le marché, et qu'ils achètent et vendent tous de la même manière, tous les rendements s'avèrent être liés - dépendants. Alors pourquoi essayez-vous d'appliquer un appareil mathématique à des événements dépendants à partir d'événements indépendants ? Est-ce correct ?

Sur ce point, tout est loin d'être évident.


Dans ce cas, l'indépendance n'est pas requise, comme je le comprends, mais fait précisément l'objet d'une évaluation.
 
De nombreux exemples d'application de TI, en russe, concernent l'analyse des alphabets du russe et d'autres langues, ainsi que l'analyse des mots et des phrases (séquences de mots). Et tous ces caractères ne sont pas statistiquement indépendants a priori, et par ces exemples on estime l'information mutuelle, une valeur qui montre le degré de dépendance. L'indépendance a priori des valeurs étudiées n'est donc pas une condition préalable à l'application correcte de TI.
Raison: