引用における依存性統計（情報理論、相関などの特徴選択法）

TheXpert 2011.09.05 14:01 #91

異なる種類の依存について話す。

a "が "b "に依存するのは、どのようなテキストの外側なのでしょうか？それはない、つまり他の文字から「a」を得ることはできない。

1、2、3、4、5、6と言った具合に依存するのはどうでしょうか？明らかに、どうラベルを貼っても、アルファベットのセットとしてはあまり適切ではありません。

そうでしょう？

Avals 2011.09.05 14:11 #92

TheXpert:

異なる種類の依存について話す。

a "が "b "に依存するのは、どのようなテキストの外側なのでしょうか？それはない、つまり他の文字から「a」を得ることはできない。

1、2、3、4、5、6と言った具合に依存するのはどうでしょうか？明らかに、どうラベルを貼っても、アルファベットにふさわしいセットとは言えません。

そうでしょう？

なぜダメなのか？16進数表記。普通のアルファベットで、バイナリ並みです :)

そして、ロシア語のY、Y、Yは、他の文字から派生することもある。

TheXpert 2011.09.05 14:15 #93

Avals:

そして、ロシア語の文字yu, ya, yoは、他の文字から派生することができる。

文字ではなく、音で :)

それとも、あのジョークみたいなものですか？"なんとシンプルなロシア語--"yosh "という単語は2文字で綴られている！"

Avals 2011.09.05 14:56 #94

TheXpert:

文字ではなく、音で :)

それとも、あのジョークみたいなものですか？"なんとシンプルなロシア語。"yosh "は2文字で綴るのです！"

まあ、愚痴るなよ))。また、他の言語でも、1つの文字が複数の文字に置き換わる、つまり1つの文字が他の文字から派生する例がある。ただ、その原理がよくわからないんです。それにしても、正しいアルファベットかどうか、どうやって判断するのでしょうか？

TheXpert 2011.09.05 15:10 #95

私も少し混乱していますが、何かHideYourRichessが 正しいような気がします。.

数的体系との比較は、ちょっと違うかもしれませんね。数字は1つの数字で表現できるが、引用文は多くの表現がある。つまり、1つの記号は他の記号を介して膨大な（正確には無限）数の変形で表現できる、つまり

a == tsdrmiikepi == fsrpl == mflncp == javlporpor == fwlfrmilfpf == .

それはおかしい、イミフだ。

Alexey Burnakov 2011.09.05 15:16 #96

皆さん、ちょうどこの話題の流れで、ドイツの研究者の論文を見ました。見つけたら載せますね。つまり、私は新しいことを提案するのではなく、すべて少なくとも10年以上前から研究されてきたことなのです。

Battitiという研究者がいます（Mutual Information Feature Selectionという単語で記事を検索できます）。相互情報の助けを借りて変数を選択する方法論の生みの親である。特に、太陽活動に関するデータ（これは一般的によく使われる値のソースである）を使った、さまざまな実験データのソースを使った研究がある。そして、その結果は、予後予測におけるI（X,Y）統計の有用性を裏付けるものであった。そこでランダムな値を離散化し、アルファベットを作成する方法を読み解く必要がありますね。まだ誰もそんなに理論にこだわっていないようです（地元の古参の方とか）。

Sceptic Philozoff 2011.09.05 15:21 #97

TheXpert さん、番号制度はどうなっているのでしょうか？なぜ、話が数字系になったのか理解できない。

正直、HideYourRichessさんの 主張には、TIを引用に適用することを何ら妨げるものはないと思います。

TheXpert 2011.09.05 15:30 #98

Mathemat:

TheXpert さん、番号制度はどうなっているのでしょうか？なぜ、数字系に話が移っているのか理解できない。

フリップではなく、単なる意見の相違です。数字がアルファベットで何が悪い？

正直、HideYourRichessさんの 主張には、TIを引用に適用することを何ら妨げるものはないと思います。

アルファベットの選択

______

瀧私はむしろ読みたいかも。

Avals 2011.09.05 15:49 #99

TheXpert:

私もちょっと戸惑いましたが、何かHideYourRichess さんの言うとおりですね。

数字系との比較は、ちょっと正しくないかもしれませんね。数字は単一の数字で表されるが、引用符は多くの変種によって表される。つまり、ある記号は他の記号を介して膨大な（より正確には無限）数の変種によって表現できる、すなわち

a == tsdrmiikepi == fsrpl == mflncp == yawlporpor == fwlfrmilfpf == .

イマイチ、イマイチ。

また、同じアルファベットでも、同義語や死語の例を挙げることができます。

s.w. 数はまた、微積分によって無限の表現が可能であり、それは実はアルファベットなのである。

アルファベットは、人間が、より少ない文字数で多くの物や現象を列挙するために考案した観念的なものである。もちろん、キャラクターは離散集合でなければならない。それ以外に厳しい条件はなく、使い勝手の良さが問われるのです。

Hide 2011.09.05 15:50 #100

Mathemat:

数学：

HideYourRichess さん、もしあなたがベルヌーイの級数や大数の法則で全体のテリトリーが決まると思っているなら、それは大間違いです。

思うのではなく、事実として知っているのです。

これで5人目！？2つ欲しい!

HideYourRichess: あなたは、私たちがそこで独立した一連の出来事について話していることを理解していないのでしょうか？

どのような独立したイベントのことをおっしゃっているのですか？ソースからのアルファベット文字列について？いや、必ずしも独立しているわけではないことは、すでに説明したとおりです。通常のロシア語文学のテキストは、依存文字列である。もしこれらが独立していたら、文学的なテキストはアーカイバによって実際よりもずっとひどい圧縮をされてしまうでしょう。文学的なテキストをシャッフルして、オリジナルとシャッフルしたものをアーカイブした結果を比較します。

それとも、音源と受信機のアンサンブルは独立変数だと考えているのでしょうか？

情報エントロピーという概念は、シャノンによって独立した文字に対して導入されたものである。信じられないなら、学問的な辞書を引いてみてください。この件に関しては、もう反論はしません。アルファベットがわからない、記号の頻度がわからない、記号の独立性もわからない（しかし、市場参加者の行動は非常に依存性が高いことがわかっている）ので、市場の情報エントロピーを計算することはできない。

次の問題である条件付きエントロピーは、まさに元のアルファベットの文字間に依存性がある場合である。このことは、議論された情報エントロピーとは別物である。

アーカイバーの例からどのような結論に至るのか理解できませんが、これだけは言っておきます。アーカイバーの仕事は、条件付エントロピーを情報付エントロピーに変換することである。つまり、完全に定義された限定アルファベットを作り、そこから得られる文字列は、可能な限り独立したものとすることだ。文学的な文章の秩序構造を文字レベルで混ぜてしまうと、当然その文字配列は崩れ、圧縮率が悪くなってしまいます。完全にランダムな文字の集合は、もはや圧縮できない程度に。それがどうした？それがどうしたんだ？

引用における依存性統計（情報理論、相関などの特徴選択法） - ページ 10