記事「Numbaを使用したPythonの高速取引ストラテジーテスター」についてのディスカッション - ページ 3

 
Maxim Dmitrievsky #:

記事のように基本モデルを強く再トレーニング。ビフォー・アフターの2バージョン:

sl/tpではなく、meta_labels(trade/not trade)による入力を最適化:

ノイズによる最適化のように見える
 
Ivan Butko #:
ノイズの最適化

ボラティリティ・レンジによる最適化。どこで取引し、どこで取引しないか。

 
Maxim Dmitrievsky #:

ボラティリティ・レンジによる最適化。

このパラメータはどのように計算されるのか?

どこで取引し、どこで取引しないか。

検索されるボラティリティ値は1つの区間ですか、それとも複数の区間ですか?

 
fxsaber #:

このパラメータはどのように計算されるのですか?

ボラティリティ値の間隔は1つですか、それとも複数の間隔が検索されるのですか?

固定幅の1つの区間。つまり、インターバルの境界を最適化します。

そして、MT5のオプティマイザーのように、最良のバリアントを持つ配列が保存され、選択することができます。

最小取引回数のフィルターもあります。

 

統計学に詳しい人がいれば、どちらが優れているかが問題となる:

  • チャート上にn個のパラメータを持つTSの最適化
  • 基本的な再学習モデル(ある一般化された取引ベース)を構築し、それがロバストである区間を探索する。
  • どちらの選択肢もカーブフィッティング
 
Maxim Dmitrievsky #:

統計に精通した専門家がいるのであれば、どちらが優れているかが問題となる:

  • チャート上にn個のパラメータを持つTSの最適化
  • 基本的な再学習モデル(ある一般化された取引ベース)を構築し、それがロバストである区間を探索する。
  • どちらの選択肢もカーブフィッティング

クロードの反応他のモデルは率直に言って反応が悪かった(gpt-o1を除いて、私はそれを持っていない):

数理統計学の観点から、両方のアプローチを分析してみましょう:


1.n個のパラメータによる最適化:

- 長所:

* 最適なパラメータを直接探索できる。

* 特定の制約を設定できる

- 短所

* nが大きい場合の "次元の呪い "の問題

* オーバートレーニングのリスクが高い

* 結果の検証が困難


2.過剰訓練されたモデルを構築し、その後ロバストな区間を探索する:

- 長所:

* 安定したパターンの理解が深まる。

* 本当に安定した依存関係を識別する能力

* より信頼性の高い結果の検証

- マイナス点

* ロバスト性の基準を定義することが困難

* 重要な非線形相互作用を見逃すリスク


Matstatの観点からは、以下の理由から2番目のアプローチが望ましい:


1.統計的有意性:

- 発見されたパターンの統計的有意性をよりよく評価できる。

- 仮説検定法を適用する機会を与える


2.結果の弾力性:

- ロバスト区間は、定義上、市場環境の変化に対してより弾力的である。

- データ・スヌーピング・バイアスのリスクを低減する。


3.一般性:

- Лучше работает principle of parsimony ([бритва Оккама](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0))

- 本当に有効なパターンを発見する確率が高い


4.過学習を制御する:

- モデル構築フェーズと安定領域抽出フェーズへの明示的分離

- Возможность применения [кросс-валидации](https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%BE%D1%81%D1%81-%D0%B2%D0%B0%D0%BB%D0%B8%D0%B4%D0%B0%D1%86%D0%B8%D1%8F)


一般的に、2番目のアプローチは、より厳密な方法論を必要とするものの、より科学的に健全であり、統計的推測の原則により沿っている。

 
アレクセイ・ニコラエフはいい題材になるだろうね。)
 
Maxim Dmitrievsky #:

オーバーフィットモデルの構築とロバスト区間の探索

引用符が、パターンを含む小さな区間とノイズを含む大きな区間から構成されているとしよう。それらすべてを一緒にトレーニングすることは、非常に弱いパターン検出である。そのため、後でこれらの区間を見つけたとしても、そこにはクソみたいなモデルが存在することになります。


ですから、最初に区間を探し、それを使ってトレーニングする方が良いのです。これが3番目のオプションです。

 
fxsaber #:

引用符が、パターンを持つ小さな区間とノイズの大きな区間から構成されているとしよう。それらをまとめてトレーニングしても、規則性の検出は非常に弱い。そのため、後でこれらの区間を見つけたとしても、そこにはクソみたいなパターンが存在することになる。

なるほど、なかなか理にかなっている)
 
Maxim Dmitrievsky #:

クロードからの返信

matstatの観点からは、2番目のアプローチが望ましい。

合理性」については多くの議論がある。と聞くことすら思いつかないだろう。