記事"機械学習モデルの評価と変数の選択"についてのディスカッション

Yury Reshetov 2015.10.30 06:01 #11

Alexey Oreshkin:

......と、そこでだ......。そんな人たちと話しても面白くない。

相互に、つまり、まだウォズを持っている怠け者とのコミュニケーションに興味はない。なぜなら、彼らはすべてのトピックを駆け巡り、わめき散らし、「何もうまくいかない」はずだという偏狭な意見を押し付けることしかできないからだ。それよりも、根拠のない意見ではなく、個人的な経験に基づいて「ワゴンを正しい方向にシフトさせる」という問題に対する解決策を提示してくれる人たちとのコミュニケーションの方がずっと面白い。

Vladimir 2015.10.31 17:08 #12

記事は興味深い。著者の努力に感謝する。説明されている方法を具体的な例で実証するのは良いことだと思う。そのような例として、2四半期先のS&P500を予測することを提案したい。私は長い間これをやっており、その結果については別のスレッドで議論している。インプットを選択し、正規化する独自の方法論を持っている。すべてそこに書いてある。1960年以降のすべての四半期経済データのファイルを、あなたや他の皆さんに差し上げます。同じ期間のS&P500の四半期平均も提供できる。

タスク

1.入力データを選択する。経済データだけでなく、S&P500価格シリーズ自体のすべての既知の指標からも選択できます。

2.データを正規化する。

3.1960年から1999年までのS&P500の四半期値を予測するモデルを作成し、訓練します。学習履歴の開始は任意である。

4.学習履歴の外側、2000 年から今日までの区間でのモデルの振る舞いを示します。

5.訓練区間とその外側における、2四半期先の予測誤差を示す。正規化データでの誤差は以下のように計算されます：

Err = SQRT { SUM(予測[i] - 実測値[i])^2 / SUM(実測値[i])^2}。

この方法で予測誤差を計算することは、深い意味を持つ。一般的に受け入れられているモデル誤差の計算方法は、RMSに基づいています：

RMS_model_error = SUM(Prediction[i] - Real Value[i])^2

平凡な予測は、予測変数の正規化されていない値が、その最後の既知の値に等しいという仮定に基づきます。最後の既知値に関して正規化されたとき，些細な予測は単純に0である．

RMS_ trivial = SUM(0 - 実測値[i])^2 = SUM(実測値[i])^2。

予測誤差 Err を計算するための提案された式は、単純に比率 SCO_model/SCO_basic の平方根である。もしErr > 1であれば、構築されたモデルは些細な予測よりも悪いということになります。

私の提案にご興味があれば、経済指標と S&P500の表をここに掲載します。モデルの詳細、データの正規化、データの選択には興味はない。私が興味があるのは、2000年から今日までの未学習区間の予測結果である（実際の値と予測値のグラフと、私の計算式Errによって計算された予測誤差）。

СанСаныч Фоменко 2015.10.31 18:51 #13

Vladimir:

記事は興味深い。著者の努力に感謝する。説明されている方法を具体的な例で実証するのは良いことだと思う。そのような例として、2四半期先のS&P500を予測することを提案したい。私は長い間これをやっており、その結果については別のスレッドで議論している。インプットを選択し、正規化する独自の方法論を持っている。すべてそこに書いてある。1960年以降のすべての四半期経済データのファイルを、あなたや他の皆さんに差し上げます。同じ期間のS&P500の四半期平均も提供できる。

タスク

1.入力データを選択する。経済データだけでなく、S&P500価格シリーズ自体のすべての既知の指標からも選択できます。

2.データを正規化する。

3.1960年から1999年までのS&P500の四半期値を予測するモデルを作成し、訓練します。学習履歴の開始は任意である。

4.学習履歴の外側、2000 年から今日までの区間でのモデルの振る舞いを示します。

5.訓練区間とその外側における、2四半期先の予測誤差を示す。正規化データでの誤差は以下のように計算されます：

Err = SQRT { SUM(予測[i] - 実測値[i])^2 / SUM(実測値[i])^2}。

この方法で予測誤差を計算することは、深い意味を持つ。一般的に受け入れられているモデル誤差の計算方法は、RMSに基づいています：

RMS_model_error = SUM(Prediction[i] - Real Value[i])^2

平凡な予測は、予測変数の正規化されていない値が、その最後の既知の値に等しいという仮定に基づきます。最後の既知値に関して正規化されたとき，些細な予測は単純に0である．

RMS_ trivial = SUM(0 - 実測値[i])^2 = SUM(実測値[i])^2。

予測誤差 Err を計算するための提案された式は、単純に比率 SCO_model/SCO_basic の平方根である。もしErr > 1であれば、構築されたモデルは些細な予測よりも悪いということになります。

私の提案にご興味があれば、経済指標とS&P500の表をここに掲載します。モデルの詳細、データの正規化、データの選択には興味はない。私が興味があるのは、2000年から今日までの未訓練のセクションの予測結果（実際の値と予測値のグラフ、そして私の計算式Errによって計算された予測誤差）です。

つまり、ある値が信頼区間を指定して予測されます。

私はこのような予測の取引における実用的な価値を理解していません。その理由はこうだ。

ターミナルは売買注文に対応している。これは純粋に名目上の変数で、定性的な値を取ります。

指値注文もあることを思い出してほしい。しかし、それらも買い/売り注文に基づいている。

買い/売りの代わりに値を予測すると、予測誤差が予測された変数の最後の値をカバーすることができ、買い/売り注文のタイプを決定することができないことが判明しました。

追記機械学習の回帰モデルは、経済学の分野では、ほとんどの企業で、例えば、販売量の予測に広く使われている。為替市場では、為替リスクをヘッジする際に使用されます（通貨はコンポーネント、ルーブルは売上）。しかし、トレーディングでは？

Vladimir 2015.10.31 19:47 #14

СанСаныч Фоменко:

つまり、ある値が信頼区間とともに予測される。

このような予測の取引における実用的な価値が理解できない。その理由はこうだ。

ターミナルは売買注文に対応している。これは純粋に名目上の変数で、定性的な値を取ります。

指値注文もあることを思い出してほしい。しかし、それらも買い/売り注文に基づいている。

買い/売りの代わりに値を予測すると、予測誤差が予測された変数の最後の値をカバーすることができ、買い/売り注文のタイプを決定することができないことが判明しました。

追記機械学習の回帰モデルは、経済学の分野では、ほとんどの企業で、例えば、販売量の予測に広く使われている。為替市場では、為替リスクをヘッジする際に使用されます（通貨はコンポーネント、ルーブルは売上）。しかし、トレーディングでは？

アウトプットのシグナルが売買である場合、この記事に従ってインプットの重要性や適合性をどのように評価するのだろうか？モデルの成功をどのように定量化するのか？利益に基づいて？ドローダウンに基づいて？PF？私はこのようなモデルをここで何度も見てきた。インプットとモデルを評価するターゲット機能として取引指標を選択することは、正しいインプットとモデルを選択する代わりに、作成者が成功を測定するさまざまな方法で化学反応を開始し、EAs-overseers/slivatorsで終わるという事実をはらんでいます。自己欺瞞のための創造的な機会がたくさんある。

СанСаныч Фоменко 2015.10.31 20:59 #15

Vladimir:
出力のシグナルが買いか売りだとしたら、この記事に従ってインプットの重要性や適合性をどのように評価するのか？モデルの成功をどのように定量化するのか？利益に基づいて？ドローダウン？PF？私はこのようなモデルをここで何度も見てきた。インプットとモデルを評価するターゲット機能として取引指標を選択することは、正しいインプットとモデルを選択する代わりに、作成者が成功を測定するさまざまな方法で化学反応を開始し、EAs-overseers/slivatorsで終わるという事実をはらんでいます。自己欺瞞のための創造的な機会がたくさんある。

回帰には推定値があり、分類には推定値がある。

分類モデルのパフォーマンスを評価する最も明白な方法は、事実と予測クラスが一致する割合（売買が正しく予測される割合）である。この論文では、分類モデルのパフォーマンスを評価するために、より有益な方法を用いている。ツールが使用されているだけでなく、ツールが指定されている。

PS.

ROCが最も一般的である。

СанСаныч Фоменко 2015.10.31 21:00 #16

Yury Reshetov:

回帰をどこで見ましたか？この記事はバイナリ分類を扱っています：

私はウラジミールにこう答えた。

Vladimir 2015.11.01 04:58 #17

СанСаныч Фоменко:

回帰はそれ自身の推定値を持ち，分類はそれ自身の推定値を持つ．

分類モデルの性能を評価する最も明白な方法は、事実クラスと予測クラスのマッチングのパーセンテージ（売買を正しく予測したパーセンテージ）である。この論文では、分類モデルの性能を評価するために、より有益な方法を用いている。ツールが使用されているだけでなく、ツールも指定されている。

PS.

ROCが最も一般的です。

分類というのは、バーを買い、売り、ホールドに分類することですよね？このような分類は矛盾しているので、原理的に間違っています。例えば、あるバーを買い（BUY）と分類し、その後価格が下落しても、利益が出るまでドローダウンを我慢すべきだったので、シグナルは正しかったと主張することができます。同じバーでも、価格が下降したから売りと分類することもできます。同じバーでも、そのバーの後の価格が、予想される利益よりも小さい値幅で変動した場合は、HOLDに分類されます。つまり、曖昧さが生じるのです。このような分類では、たとえば、どの程度のドローダウンを許容するか、利益を得るまでどの程度待つか、利益目標は何か、セッションの終了時に何をするか（月曜日を待つか）などの条件を追加する必要があります。

このバーで予想される値動きの方向によってバーを分類する方がはるかに簡単です。前述のS&P500の予測の例では、2四半期先までの定量的な値動きを予測する代わりに、値動きの方向を予測することに限定することができます。そうすれば曖昧さがなくなり、誤差は値動きの方向を推測した場合の正答率として計算できる。

上記の私の提案はまだ有効だが、ここの記事を書いている人たちは、具体的な例でこれらのツールを実証する代わりに、いくつかのツールを使うための方法やガイドラインを説明し続けるように思える。これらはすべて理論であり、お金は記事や本を書くことによって得られるのであって、これらのツールを取引で使うことによって得られるのではない。記事の実際的な有用性に関する議論は、ここでも目新しいものではない。

СанСаныч Фоменко 2015.11.01 07:56 #18

Vladimir:

分類というのは、バーを買い、売り、ホールドに分類することですよね？このような分類は矛盾しているので、原理的に間違っています。例えば、あるバーを買いと分類し、その後価格が下落しても、利益が出るまでドローダウンを我慢すべきだったので、シグナルは正しかったと主張することができます。同じバーでも、価格が下降したから売りと分類することもできます。同じバーでも、そのバーの後の価格が、予想される利益よりも小さい値幅で変動した場合は、HOLDに分類されます。つまり、曖昧さが生じるのです。このような分類では、たとえば、どの程度のドローダウンを許容するか、利益を得るまでどの程度待つか、利益目標は何か、セッションの終了時に何をするか（月曜日を待つか）などの条件を追加する必要があります。

このバーで予想される値動きの方向によってバーを分類する方がはるかに簡単です。前述のS&P500の予測の例では、2四半期先の値動きを定量的に予測する代わりに、値動きの方向を予測することに限定することができます。そうすれば曖昧さがなくなり、誤差は値動きの方向を推測した場合の正答率として計算できる。

上記の私の提案はまだ有効だが、ここの記事を書いている人たちは、具体的な例でこれらのツールを実証する代わりに、いくつかのツールを使うための方法やガイドラインを説明し続けるように思える。これらはすべて理論であり、お金は記事や本を書くことによって得られるのであって、これらのツールを取引で使うことによって得られるのではない。記事の実際的な有用性に関する議論は、ここでは目新しいものではない。

1.子供の頃に本や記事の読み方を教わっていれば、私や記事の著者が書いていることとあなたが書いていることが同じことだと理解できたはずだ。

2.子どもの頃に他人を尊重する習慣が身についていれば、「のぞき見」なんて書いたり書いたりすることは許されなかっただろう。

頑張って読解力を身につけてください。

Vladimir Perervenko 2015.11.01 09:43 #19

Vladimir:

分類というのは、バーを買い、売り、ホールドに分類することですよね？このような分類は矛盾しているので、原理的に間違っています。例えば、あるバーを買いと分類し、その後に価格が下がったとしても、利益が出るまでドローダウンを我慢すべきだったので、シグナルは正しかったと主張することができます。同じバーでも、価格が下降したから売りと分類することもできます。同じバーでも、そのバーの後の価格が、予想される利益よりも小さい値幅で変動した場合は、HOLDに分類されます。つまり、曖昧さが生じるのです。このような分類では、たとえば、どの程度のドローダウンを許容するか、利益を得るまでどの程度待つか、利益目標は何か、セッションの終了時に何をするか（月曜日を待つか）などの条件を追加する必要があります。

このバーで予想される値動きの方向によってバーを分類する方がはるかに簡単です。前述のS&P500の予測の例では、2四半期先までの定量的な値動きを予測する代わりに、値動きの方向を予測することに限定することができます。そうすれば曖昧さがなくなり、誤差は値動きの方向を推測した場合の正答率として計算できる。

上記の私の提案はまだ有効だが、ここの記事を書いている人たちは、具体的な例でこれらのツールを実証する代わりに、いくつかのツールを使うための方法やガイドラインを説明し続けるように思える。これらはすべて理論であり、お金は記事や本を書くことによって得られるのであって、これらのツールを取引で使うことによって得られるのではない。記事の実用的有用性に関する議論は、ここでも目新しいものではない。

まず、クラシフィケーションの定義が幼稚園レベルである。そして、不確実性が生まれるという事実が語られ（！）、いつものように「お金があるアパートの鍵はどこにあるのか」で終わる。

もっと理論的なトレーニングが必要だ。勉強して、勉強して、また勉強して．勉強して、勉強して、また勉強して．

そして、もっと控えめに。

PS。Freelanceにプロポーズしなさい。本物の製品を手に入れろ。

Yury Reshetov 2015.11.01 13:53 #20

СанСаныч Фоменко:
私はウラジミールに答えていた。

失礼しました。

記事"機械学習モデルの評価と変数の選択"についてのディスカッション - ページ 2