Reinforcement Learning (RL) is a computational approach to goal-directed learning performed by an agent that interacts with a typically stochastic environment which the agent has incomplete information about. RL aims to automate how the agent makes decisions to achieve a long-term objective by learning the value of states and actions from a...
そう、「私のサンプルの計算スクリプトをRで作って くれませんか?実験によって最適なサンプルサイズが明らかになるはずです。"と書いたが、これはすでに行われたことに対する返答である。
先に私は「...」と書いた。そして、あなたはどのようにダイナミクスを観察し、どのように実現することを提案するのですか?「ここで私が質問したのは,ダイナミクスにおける予測変数の推定の実装,つまり,あるウィンドウによる規則的な推定についてであり,それが新しいサンプルごとのウィンドウなのか,nサンプルごとのウィンドウなのかは明らかではありません.もしそうしているのであれば,私には理解できませんでした.
あなたが投稿したコードは素晴らしいのですが、私にはそれが具体的に何をしているのか、本質的に何を証明しているのか理解するのが難しいので、追加の質問を始めました。グラフのある2つの写真は何を意味しているのですか?
スライディング・ウィンドウでは、モデルを再学習し、特徴の重要性を調べます。ウィンドウ。
...
また、R-kaで利用可能なもののおそらく5%は、すべての好みに合うように、 さまざまな特徴セレクタが 用意されています。
効果的な推定を得るために、ウィンドウサイズをフローティングにする。そして、定期的な手動再トレーニングは、それ自体がスライディングウィンドウです!-- もし独自の再トレーニングのスケジュールがあれば、自動化も可能です。しかし、繰り返すが、ウインドウのサイズも変動する。
...
どう違うの?- それはまだアルゴリズム的には常に(!)特徴マッピングに行き着く、あなたがそれを呼びたいものは何でも、...。ただ、独自のニュアンスと独自の応用分野があるだけだ。
たとえ誰もがそれを相関関係と呼びたくないとしても
私は予測者と教師の相関という概念に依存しています。"連関 "は相関関係でもなければ、ほとんどすべてのMOEモデルのフィッティングから予測因子の "重要性 "でもない。
caret link - 同じClassification and Regression Training - 些細なMOとして、同じPython用sklearn。
ただ、MOは確率論的モデル(既存の確率分布に基づく)だけでなく、決定論的モデルや動的モデルも構築するために作られた...しかし、確率の一般化の基礎は常に(!)統計学(とその相関関係)である。そうでなければ、偏った(!)推定値を得ることになる。つまり、あなたのモデルは、あなたのターゲットではなく、何か別のものを(ランダムに)モデル化していることになる。
争いを止め、一つの目標のために団結するためにはどうすればいいのか?
素晴らしい質問だ!
---
買い手が多いのか、売り手が多いのかを認識する必要がある。
しかし、唯一の問題は、価格が下がれば、買い手が増えることだ!
caret link - 同じ分類と回帰トレーニング - 些細な手口として、Python用の同じsklearn。
もっと注意深く読めば、作り話をする必要はない。
このスクリプトは、2つの異なるアルゴリズムを使って、スライディング・ウィンドウ内の予測変数の重要度を計算します 。あなたが尋ねたように
Forrestは、特定のアルゴリズムにおける予測変数の使用頻度を与えるので、ターゲットに関連しない予測変数に高い重要度を与えやすい。
もっと注意深く読んで、でっち上げをしないように。
caretが実際にそのように綴られているなら、もっと注意深く読むことはできない。
フォレストは、特定のアルゴリズムにおける予測変数の使用頻度を与えるので、ターゲットに関連しない予測変数を高く重要視しやすい。
繰り返すが、既製のフィッシュセレクタは何十種類もあり、誰もがターゲットとのつながりを探している。
生存分析を応用するヒントを見たような気がします。この方向で何か面白いものはありますか?私は、ブレイクダウン時間を、ストップがトリガーされる前の取引中に希望する方向に価格が最大に動いた値に置き換えることに関連するいくつかのアイデアを持っています。基本的なアイデアは、ランダムな放浪のためにあるべき行動からの逸脱を探すことです。ちなみにこの分野では、matstat(例えばCox回帰)やMOの応用も非常に発達しています。
... ウィンドウ・サイズもフローティング・ウィンドウ・サイズです。
MLは、(おそらくランダム化された)ポリシーを用いた 環境とモデルの相互作用によってデータが生成されるRLコンテキストにおいて、明確な課題に直面する。
つまり、まず現在の環境をモデル化し、その環境におけるFsと対応する振る舞いをモデル化しなければならない、つまりアクタは状態を持たなければならない -- これは新しいウィンドウ(別名、フローティングウィンドウサイズを考慮したもの)に切り替えるための基礎であり、したがって新しい環境ポリシーとその中でのアクタの対応する/新しい振る舞いに切り替えるための基礎である ...一般的には、ディープ強化学習の 方が適しているでしょう。
例えば、ゲーム理論(行為者と環境との相互作用)と情報理論 (行為者の反応と環境の反応に対する情報の接線、すなわち新しい環境条件の形成、別名結果)があります。- ところで、私は サンサニッチ・フォメンコが 情報理論という 用語で何を意味して いるのか理解できなかった。それとも、彼の論文がまた誤読 されているのだろうか?
p.s.私自身はこの例を検証したことはないのだが...。
キャレットが本当にその略なのかどうか、これ以上注意することはない。
つまり、 caret PACKAGEの一部である特定の関数を指定して いるのです。
私の理解では、あなたはRを知らない。それなら、なぜこのスレッドやMO全般で時間を浪費しているのですか?
Rをマスターしていなければ、MOの議論は無意味です。