記事"人工知能を用いたTDシーケンシャル(トーマス デマークのシーケンシャル)"についてのディスカッション - ページ 6

 
Mihail Marchukajtes:

私は50レコードでモデルを構築し、次の50または100%のトレーニング間隔でのモデルの結果に興味があった。手数を増やさずにモデルを構築するレコード数を増やすと、汎化能力は低下する。汎化能力は低下する。したがって、サンプルの長さを調整することで、汎化のレベルを許容可能な65%まで下げることが可能です。市場でお金を稼ぐのに十分であると言うなら、トレーニングサンプルのサイズははるかに高くなり、そのようなモデルははるかに長く動作しますが、汎化のレベルが90%のモデルよりもはるかに悪くなります。このようなモデル(65%)に適切なMMと資金管理を適用すれば、大金を稼ぐことができます。

すでに言ったように、50のサンプルから学ぶことはできません。非常にノイズの多い直前の1分間のデータには、市場行動のすべてのニュアンスに関する情報は含まれていません。

あなたが「汎化」をどのように考えているのか知りませんが、 精度を 計算するのはまだ疑問です。アルゴリズムはもっと高く、ノンプログラマーでも読むことができる。 モデルが推測した回数を数え、サンプル数で割る。

 
toxic:

魚はいるが、そのようなデータはない。低頻度のデータでは、価格はすべてを考慮に入れている。純粋な市場データ(出来高価格、デルタなど)では何も得られない。価格はニュースや新しい情報にほぼ完全に、数分以内に適応する 情報拡散が市場の主な非効率性だ。あとは簡単に言えば、インサイダー情報に過ぎない。いつ、なぜ、人形がトレンドを作り出し、いつ止まるかわからない。

あなたが喧嘩をしていると想像してください。喧嘩で成功するかどうかは、相手の打撃をどう予測するか、相手の動き始めをどう予測するか、相手の姿勢や動き始めを見て適切な回避行動を取るか、相手の防御の非効率性を見て攻撃を仕掛けるかにかかっています。

現在、投機はすべて自動化されており、情報の拡散に基づくもの(静的、イベントアービトラージなど)はすべてHFTで あり、それは必ずしも超HFT 、いくつかのMMのように、より「アルゴ・スキャルピング」(ポジションを保有する平均時間は1分前後、あるいは10分前後)に近いですが、私たちは数時間や数日の話をしているわけではありません、価格には情報はありません、すべてが古くなっています。

しかし、一般的に、理論的には、それは数時間、さらには数日を予測することが可能であるが、市場データによってだけでなく、それは世界中の人間の活動のパラメータの数千を監視する必要があり、特に大企業との関係では、我々は、天候、どこでも輸送量、インターネット上の人々の社会的活動、特にtnを投げる必要があります。「例えば、宇宙から工場を監視し、生産量、搬入量、搬出量を調べていると聞いたことがある。)これはインサイダーとの境界線上にあるが、捕まらないことは泥棒ではない))))。そして、これらすべては、優秀なアナリストのチームによって符号の形に加工される必要がある。また、クールなファンダメンタル・フォーキャスターのチームや、オープン予測からのデータ収集とその分析も必要である。一般的に、中堅銀行でさえ、そのすべてを実現し、本番さながらのクオリティに仕上げるだけのリソースはないだろう。また、統計的に信頼できる将来の価格を予測することは不可能であり、これは「赤に賭けて2倍」のためのおとぎ話である。)


しかし、マーケット・ペアは前提条件を形成するものであり、その一例として「シークエンス」というシグナルを考えてみよう。というより、エラーではなかったのだ。シグナルが出た瞬間、市場は本当に上昇していた。そうすれば、エラーになり、よくなる。ミスをできるだけ少なくするのが仕事だ。)というわけで、結局のところ、自分のデータを最適化するのはどうだろうか?
 
Mihail Marchukajtes:

では結局、データを最適化するのはどうだろう?

150サンプル。おっ。

よし、今夜実行しよう。

 
toxic:

私はすでに言ったが、50のサンプルから学ぶことはできない。直前1分間の非常にノイズの多いデータには、市場行動のすべてのニュアンスに関する情報は含まれていない。

あなたが「汎化」をどのように考えているのか知りませんが、 精度を 計算するのはまだ疑問です。アルゴリズムはより高度で、ノンプログラマーでも読むことができる。 モデルが推測した回数を数え、サンプル数で割ります。


ちなみに、インジケーターコードを整理していた最初のころは、4つのパラメーターがあるので、どのシグナルが何回あったかをカウントしていました(そして、すべてうまくいきました)。しかし、0と1の数が等しいときにシグナルをカウントすることは可能です。つまり、1が2つ足りない場合、それを足すのだ(セパレーターのこと)。さて、モデルを得て、それがトレーニング・サンプルでどのように機能するかを実演してみるが、そのためにはゼロと1の同じ量のデータを取る必要がある。もう少し後で、マシンがカウントする。トレーニングファイルについては、11列と750行に変換することができます。そのようなファイルの方が便利でしょうか?
 
Mihail Marchukajtes:

ちなみに、インジケーターのコードを整理していた当初は、4つのパラメーターがあるため、どのシグナルがいくつあるのかを履歴でカウントしていました(そして、すべてうまくいきました)。しかし、0と1の数が等しいときにシグナルをカウントすることは可能です。つまり、1が2つ足りない場合、それを足すのだ(セパレーターのこと)。さて、モデルを得て、それがトレーニング・サンプルでどのように機能するかを実演してみるが、そのためには、0と1の同じ量のデータを取る必要がある。もう少し後で、マシンがカウントする。トレーニングファイルについては、11列と750行に変換することができます。そのようなファイルの方が便利でしょうか?


11列と750行は確かに良いです、多分クロスバリデーションで何かが一緒に来るだろう...

一般的には、低周波の日付とそのチップとターゲティングと、異なるセットをレイアウトし、何が公共のためではない場合は、プライベートメッセージですることができ、私はすぐに私はそれの情報の 欠如の主題に "洗練された "によって確信されたように、私は深く低周波を掘っていなかったことを告白するので、あなたは私の心を変更した場合、私は感謝され、それは市場の私の理解を回すだろう、私はそれがありそうもないと考えていますが、私はそれの準備ができています。

 

同じデータですが、収集方法が違います。

さて、私はまだもうひとつ仮説を持っている。(ところで、あなたのお名前は? ニックネームで呼ぶのは普通ではないので)だけでなく、ウィザードからも。彼はこの業界では古株で、まだNShでやりとりしていたのを覚えている。

ファイル:
 

別のトピックについて議論したいと思います。ポイントは、最適化の過程でモデルが得られ、何回か最適化した後に、例えば5つのモデル(例として)のセットが得られるということです。多項式の次数と多項式の再トレーニングの効果について話しています。誤差最小化のグラフです。では、その話をしましょう。

つまり、オプティマイザーの仕事は、近似の次数が最小の多項式次元で最大になるようなモデルを構築することです。つまり、出力に対する近似度が最大になるような多項式を作るが、次数は多くならないようにすることである。ここで、オプティマイザーがそのような多項式の作り方を知っていて、データの最適化を繰り返すと、収束とオーバートレーニングの境界線上にある特定の領域に常に入ると想像してみよう。これが小さな領域だと想像してみよう。しかし、何度そこに到達しても、オーバートレーニングではなく、充足領域に入るモデルが常に得られる(できる限り模式的に描いた)。つまり、専門家の意見に従って、まさにうまくいくモデルを選択することになる。ということは、将来的に通用するモデルを選択する方法があるのかもしれない。

図は、トレーニングが完了し、十分な領域を示している、主なものは、オーバートレーニングではありません。


001. Вводная лекция - К.В. Воронцов
001. Вводная лекция - К.В. Воронцов
  • 2014.12.22
  • www.youtube.com
Курс "Машинное обучение" является одним из основных курсов Школы, поэтому он является обязательным для всех студентов ШАД. Лектор: Константин Вячеславович Во...
 
驚くべきは、これだけの数のプルソモトロフがいるのに、会話をサポートする人が誰もいないことだ。AWOOOOO人々....この話題には毒と魔法使いしかいないのか...。信じられない...。
 
Mihail Marchukajtes:

同じデータですが、収集方法が違います。

さて、私はまだもうひとつ仮説を持っている。(ところで、あなたのお名前は? ニックネームで呼ぶのは普通ではないので)だけでなく、ウィザードからも。彼はこの業界では古株で、まだNSHでやりとりしていたのを覚えている。

まあ、一般的には、驚くべきことに、最初のデータセット - アルファの少しが含まれています、あなたはあまりにも気にしない場合は、ランダム50%以上約3〜4%、つまり、理論的には、サンプルの数が大きいと5〜6%まですることができます絞り出すことができ、ポンジ取引コストを考えると、原則として数時間、数日間としてVERY NOT BAD。うーん...興味深い、興味深い...どれだけの情報があるのか、誰かがチェックするのも悪くないだろう。

もちろん、ターゲティングが正しければ、ターゲティングに過去のリターニーや価格がなければの話である。例えば、pt-n,...,pt-1,ptの価格でインデックスが作られた場合、ターゲットはサインが作られた価格を「見る」べきではなく、例えばターゲットは次のリターンのサイン((pt+2-pt+1)/pt+1)とすることができます。Sign()が、ターゲットが((pt+1-pt)/pt).Sign())になる場合、画像は "ぼやける "モデルの非現実的なパフォーマンスを得るでしょう、偽の"聖杯"、それは考慮に入れることが重要です。


2つ目のデータセット(長い方)は全く良くありません、あなたはそれを奇妙に引き伸ばし、いくつかの特徴を他の特徴にシフトしています)))。

 
toxic:

まあ、一般的には、驚くべきことに、最初のデータセット - あなたがあまりにも気にしない場合は、アルファの少しが含まれており、ランダムに50%を上回る約3〜4%、つまり、理論的には、より多くのサンプルで5〜6%まですることができます絞り出すことができ、ポンジ取引コストを考えると、原則として数時間、数日間として非常に悪いことではありません。うーん...興味深い、興味深い...どれだけの情報があるのか、誰かがチェックするのも悪くないだろう。

これはもちろん、ターゲティングが正しい場合、ターゲティングに過去のリターニーや価格が含まれていない場合の話である。例えば、価格pt-n,...,pt-1,ptでインデックスを構築した場合、ターゲットはサインが構築された価格を「見る」べきではなく、例えばターゲットは次のリターンのサイン((pt+2-pt+1)/pt+1)とすることができます。Sign()が、ターゲットが((pt+1-pt)/pt).Sign())になる場合、画像は "ぼやける "モデルの非現実的なパフォーマンスを得るでしょう、偽の "聖杯"、それは考慮に入れることが重要です。


2つ目のデータセット(長い方)は全く良くありません、あなたはそれを奇妙に引き伸ばし、いくつかの特徴を他の特徴にシフトしています)))。


はい、私の出力は先を見ています。データ収集の純度については心配しないでください。

それは15分のデータだった。

2つ目は、列を行にして11個にして、出力を掛け合わせただけだ。シグナルが出たら、1つのシグナルに対して11個の列を5回提出することが判明した。このレベルなら委員会を組織することもできる。自分用にこんなファイルも作ってみた。マシンが空き次第、回してみようと思う。