Statistiche di dipendenza nelle citazioni (teoria dell'informazione, correlazione e altri metodi di selezione delle caratteristiche) - pagina 10

 

Parliamo di un diverso tipo di dipendenza.

In che modo "a" dipende da "b" al di fuori di qualsiasi testo? Non lo fa, cioè non si può ottenere "a" da altri caratteri.

E se dipendesse da, diciamo, 1, 2, 3, 4, 5, 6? Ovviamente, non è un set molto appropriato per l'alfabeto, comunque lo si etichetti.

Non è così?

 
TheXpert:

Parliamo di un diverso tipo di dipendenza.

In che modo "a" dipende da "b" al di fuori di qualsiasi testo? Non lo fa, cioè non si può ottenere "a" da altri caratteri.

E se dipendesse da, diciamo, 1, 2, 3, 4, 5, 6? Ovviamente, non è un set molto appropriato per l'alfabeto, non importa come lo etichettate.

Non è così?

Perché no? Il sistema numerico esadecimale. È un alfabeto normale - buono come quello binario :)

E le lettere russe Y, Y, Y possono essere derivate da altre lettere.

 
Avals:

E le lettere russe yu, ya, yo possono essere derivate da altre lettere.

Non lettere, ma suoni :)

O è come quella barzelletta? "Che semplice lingua russa: la parola "yosh" si scrive con due lettere!".

 
TheXpert:

Non lettere, ma suoni :)

O è come quella barzelletta? "Che semplice lingua russa - la parola "yosh" si scrive con due lettere!".

beh, non fare la stronza))). Ci sono anche esempi in altre lingue dove un carattere è sostituito da diversi, cioè un carattere può essere derivato dagli altri. Non capisco bene il principio di questo. E comunque, come si fa a determinare se è l'alfabeto giusto o no?
 

Anche io sono un po' confuso, ma qualcosa mi dice che HideYourRichess ha ragione.

Il paragone con un sistema di numeri probabilmente non è del tutto corretto. Un numero può essere rappresentato da un solo numero, mentre le citazioni hanno molte rappresentazioni, cioè un simbolo può essere espresso da un numero enorme (infinito per essere più precisi) di varianti attraverso altri simboli, cioè

a == tsdrmiikepi == fsrpl == mflncp == javlpor == fwlfrmilfpf == .

Non è giusto, imho.

 

Signori, ho visto un articolo di ricercatori tedeschi proprio nel filone dell'argomento. Lo posterò quando lo troverò. Cioè, non propongo niente di nuovo, tutto è già stato studiato da almeno 10 anni.

C'è un ricercatore Battiti (potete cercare l'articolo con le parole Mutual Information Feature Selection). È il padre della metodologia di selezione delle variabili con l'aiuto dell'informazione reciproca. Lì il compagno lavora con diverse fonti di dati sperimentali, in particolare, con i dati sull'attività solare (è generalmente una fonte popolare di valori). E i risultati confermano l'utilità della statistica I (X,Y) per la prognosi. Dovrò documentarmi su come discretizza i valori casuali lì e crea un alfabetico. Nessuno sembra essersi ancora preoccupato tanto della teoria (come i veterani locali).

 

Cosa c'entra il sistema dei numeri, TheXpert? Non capisco perché la conversazione si sia rivolta ai sistemi numerici.

Onestamente, non vedo nessuno degli argomenti di HideYourRichess che in qualche modo interferisca con l'applicazione di TI alle citazioni.

 
Mathemat:

Cosa c'entra il sistema dei numeri, TheXpert? Non capisco perché la conversazione si sia spostata sui sistemi numerici.

Non è un salto mortale, è solo una questione di opinione. Cosa c'è di sbagliato nei numeri come alfabeto?

Onestamente, non vedo nessuno degli argomenti di HideYourRichess che in qualche modo interferisca con l'applicazione di TI alle citazioni.

Scelta dell'alfabeto.

______

Taki probabilmente preferirei leggerlo.

 
TheXpert:

Anche io sono un po' confuso, ma qualcosa mi dice che HideYourRichess ha ragione.

Il paragone con un sistema di numeri probabilmente non è del tutto corretto. Un numero è rappresentato da un solo numero, mentre le virgolette sono rappresentate da molte varianti, cioè un simbolo può essere espresso da un numero enorme (infinito per essere più precisi) di varianti attraverso altri simboli, cioè

a == tsdrmiikepi == fsrpl == mflncp == yawlpor == fwlfrmilfpf == .

Non va bene, imho.


scrivere la parola "Disordine" in diverse lingue e lo stesso è vero :) e anche lo stesso alfabeto può dare esempi di sinonimi, o parole obsolete

s.w. Un numero può anche essere rappresentato in un numero infinito di modi, a seconda del calcolo, che è in realtà un alfabeto.

L'alfabeto è una cosa fittizia - inventata dall'uomo per elencare un gran numero di oggetti e fenomeni con un numero minore di caratteri. Naturalmente, i personaggi devono essere un insieme discreto. Non ci sono altri requisiti rigorosi per questo - è una questione di usabilità.

 
Mathemat:

Mathemat:

HideYourRichess, se pensi che l'intera questione sia dovuta alla serie di Bernoulli o alla legge dei grandi numeri, ti sbagli di grosso.

Non lo penso, lo so per certo.

Sono cinque! Ne voglio due!
HideYourRichess: Non capite che stiamo parlando di una sequenza di eventi indipendenti?

Di quali eventi indipendenti sta parlando? Su una sequenza di caratteri alfabetici della fonte? No, non sono necessariamente indipendenti, ti è già stato spiegato. Un testo letterario russo ordinario è una sequenza di lettere dipendenti. Se fossero indipendenti, i testi letterari sarebbero molto più compressi dall'archivista di quanto lo siano realmente. Prendete un testo letterario e mischiatelo e confrontate i risultati dell'archiviazione dell'originale e del mischiato.

O pensi che gli insiemi di sorgenti e ricevitori siano variabili indipendenti?

La nozione di entropia dell'informazione è stata introdotta da Shannon per i caratteri indipendenti. Se non mi credete, consultate un dizionario accademico. Non voglio più discutere con voi su questo argomento. Non si può calcolare l'entropia dell'informazione per il mercato, perché non si conosce l'alfabeto, non si conosce la frequenza dei simboli, e anche l'indipendenza dei simboli è sconosciuta (ma sappiamo che le azioni dei partecipanti al mercato sono molto dipendenti).

La prossima questione, l'entropia condizionale, è solo il caso in cui ci sono dipendenze tra i caratteri dell'alfabeto originale. Questa cosa non è la stessa dell'entropia dell'informazione, che è stata discussa.

Non capisco a quali conclusioni vi porta l'esempio dell'archivista, ma vi dirò questo. Il compito dell'archivista è quello di tradurre l'entropia condizionale in entropia informativa. Cioè creare un alfabeto limitato perfettamente definito, i cui caratteri, nella sequenza risultante, sarebbero il più possibile indipendenti. Se si mescola la struttura ordinata di un testo letterario a livello delle lettere, è ovvio che quelle sequenze di lettere verrebbero interrotte e la compressione si deteriorerebbe. Al punto che un insieme di lettere completamente casuale non può più essere compresso. E allora? Cosa c'entra questo?

Motivazione: