Statistiques de dépendance entre guillemets (théorie de l'information, corrélation et autres méthodes de sélection de caractéristiques) - page 10

 

Vous parlez d'un autre type de dépendance.

Comment "a" dépend-il de "b" en dehors de tout texte ? Ce n'est pas le cas, c'est-à-dire que vous ne pouvez pas obtenir "a" à partir d'autres caractères.

Et si on dépendait de 1, 2, 3, 4, 5, 6 ? De toute évidence, ce n'est pas un ensemble très approprié pour l'alphabet, quelle que soit l'étiquette qu'on lui donne.

N'est-ce pas ?

 
TheXpert:

Vous parlez d'un autre type de dépendance.

Comment "a" dépend-il de "b" en dehors de tout texte ? Ce n'est pas le cas, c'est-à-dire que vous ne pouvez pas obtenir "a" à partir d'autres caractères.

Et si on dépendait de 1, 2, 3, 4, 5, 6 ? De toute évidence, ce n'est pas un ensemble très approprié pour l'alphabet, quelle que soit l'étiquette qu'on lui donne.

N'est-ce pas ?

Pourquoi pas ? Le système numérique hexadécimal. C'est un alphabet normal - aussi bon que le binaire :)

Et les lettres russes Y, Y, Y peuvent être dérivées d'autres lettres.

 
Avals:

Et les lettres russes yu, ya, yo peuvent être dérivées d'autres lettres.

Pas des lettres, mais des sons :)

Ou c'est comme cette blague ? "Quelle langue russe simple - le mot "yosh" s'écrit avec deux lettres !"

 
TheXpert:

Pas des lettres, mais des sons :)

Ou c'est comme cette blague ? "Quelle simplicité de la langue russe - le mot "yosh" s'écrit en deux lettres !"

Eh bien, ne râle pas))). Il existe également des exemples dans d'autres langues où un caractère est remplacé par plusieurs, c'est-à-dire qu'un caractère peut être dérivé des autres. Je ne comprends pas bien le principe de cette démarche. Et de toute façon, comment déterminer si c'est le bon alphabet ou pas ?
 

Je suis un peu confus aussi, mais quelque chose me dit que HideYourRichess a raison.

La comparaison avec un système numérique n'est probablement pas tout à fait juste. Un nombre peut être représenté par un seul chiffre, alors que les citations ont de nombreuses représentations, c'est-à-dire qu'un symbole peut être exprimé par un nombre énorme (infini pour être plus exact) de variantes par l'intermédiaire d'autres symboles, à savoir

a == tsdrmiikepi == fsrpl == mflncp == javlpor == fwlfrmilfpf == .

Ce n'est pas bien, imho.

 

Messieurs, j'ai vu un article de chercheurs allemands qui va dans le même sens que le sujet. Je le posterai quand je l'aurai trouvé. C'est-à-dire que je ne propose rien de nouveau, tout a déjà été étudié depuis au moins 10 ans.

Il y a un chercheur Battiti (vous pouvez rechercher l'article par les mots Mutual Information Feature Selection). Il est le père de la méthodologie de sélection des variables à l'aide de l'information mutuelle. Le camarade y travaille avec différentes sources de données expérimentales, en particulier, avec des données sur l'activité solaire (c'est généralement une source de valeurs populaire). Et les résultats confirment l'utilité des statistiques I (X,Y) pour le pronostic. Je vais devoir me documenter sur la façon dont il discrédite les valeurs aléatoires et crée un alphabet. Personne ne semble s'être encore préoccupé de la théorie (comme les anciens de la région).

 

Qu'est-ce que le système de numérotation a à voir avec ça, TheXpert? Je ne comprends pas pourquoi la conversation s'est orientée vers les systèmes numériques.

Honnêtement, je ne vois aucun des arguments de HideYourRichess qui entrave de quelque manière que ce soit l'application de TI aux citations.

 
Mathemat:

Qu'est-ce que le système de numérotation a à voir avec ça, TheXpert? Je ne comprends pas pourquoi la conversation s'est déplacée vers les systèmes numériques.

Pas un retournement de situation, juste une question d'opinion. Qu'est-ce qui ne va pas avec les chiffres comme alphabet ?

Honnêtement, je ne vois aucun des arguments de HideYourRichess qui entrave de quelque manière que ce soit l'application de TI aux citations.

Choix de l'alphabet.

______

Taki, je préférerais probablement le lire.

 
TheXpert:

Je suis un peu confus aussi, mais quelque chose me dit que HideYourRichess a raison.

La comparaison avec un système numérique n'est probablement pas tout à fait correcte. Un nombre est représenté par un seul chiffre, tandis que les guillemets sont représentés par de nombreuses variantes, c'est-à-dire qu'un symbole peut être exprimé par un nombre énorme (infini pour être plus exact) de variantes par l'intermédiaire d'autres symboles.

a == tsdrmiikepi == fsrpl == mflncp == yawlpor == fwlfrmilfpf == .

Pas bon, imho.


écrivez le mot "Désordre" dans différentes langues et c'est la même chose :) et même le même alphabet peut donner des exemples de synonymes, ou de mots obsolètes

s.w. Un nombre peut aussi être représenté d'un nombre infini de façons, selon le calcul, qui est en fait un alphabet.

L'alphabet est une notion, inventée par l'homme pour répertorier un grand nombre d'objets et de phénomènes avec un nombre plus restreint de caractères. Bien sûr, les caractères doivent être un ensemble discret. Il n'y a pas d'autres exigences strictes pour cela - c'est une question de convivialité.

 
Mathemat:

Mathemat:

HideYourRichess, si vous pensez que tout le problème est dû à la série de Bernoulli ou à la loi des grands nombres, vous avez tout faux.

Je ne le pense pas, je le sais pour un fait.

Ça fait cinq ! J'en veux deux !
HideYourRichess: Ne comprenez-vous pas que nous parlons ici d'une séquence d'événements indépendants ?

De quels événements indépendants parlez-vous ? Sur une séquence de caractères alphabétiques de la source ? Non, ils ne sont pas nécessairement indépendants, cela vous a déjà été expliqué. Un texte littéraire russe ordinaire est une séquence de lettres dépendantes. S'ils étaient indépendants, les textes littéraires seraient beaucoup plus mal compressés par l'archiveur qu'ils ne le sont réellement. Prenez un texte littéraire, mélangez-le et comparez les résultats de l'archivage de l'original et du texte mélangé.

Ou pensez-vous que les ensembles source et récepteur sont des variables indépendantes ?

La notion d'entropie de l'information a été introduite par Shannon pour les caractères indépendants. Si vous ne me croyez pas, consultez un dictionnaire universitaire. Je ne discuterai plus avec vous sur ce sujet. Vous ne pouvez pas calculer l'entropie d'information pour le marché, car vous ne connaissez pas l'alphabet, vous ne connaissez pas la fréquence des symboles, et l'indépendance des symboles est également inconnue (mais nous savons que les actions des participants au marché sont très dépendantes).

La question suivante, l'entropie conditionnelle, est exactement le cas lorsqu'il existe des dépendances entre les caractères de l'alphabet original. Cette chose n'est pas la même que l'entropie de l'information, qui a été discutée.

Je ne comprends pas à quelles conclusions vous conduit l'exemple de l'archiveur, mais je dirai ceci. La tâche de l'archiviste est de traduire l'entropie conditionnelle en entropie informationnelle. C'est-à-dire créer un alphabet limité parfaitement défini, dont les caractères, dans la séquence résultante, seraient aussi indépendants que possible. Si vous mélangez la structure ordonnée d'un texte littéraire au niveau des lettres, il est évident que ces séquences de lettres seront brisées et que la compression se détériorera. A tel point qu'un ensemble de lettres complètement aléatoire ne peut plus être compressé. Et alors ? Qu'est-ce que ça a à voir avec ça ?

Raison: