トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Alexander_K2 2019.01.29 18:31 #12791

私は、クサンクサニッチ（Fa）の親戚には、疑う余地のない2人の人物がいると考えている。1）怒った投資家に捕まった息子のアリョーシェンカ、2）祖父の創作物を読んだ人に億万長者を約束する孫のケシャ、などなど。

混同しないようにお願いします

Aleksey Vyazmikin 2019.01.29 19:47 #12792

StarCraft 2のゲームプロフェッショナルによる興味深い意見です。特に最後の試合での不正行為について。大企業がこのような見世物を企画するのは、主にマーケティングのためであることを忘れてはならない。このイベントのために、日中に彼らの株を買うのが正解だろう。

Forester 2019.01.30 08:21 #12793

もし興味があれば、並べ替えによる重要度表と実際の予測変数の除去による重要度表を比較することができます。

ブルートフォースによる予測変数の重要度(1削除による) 特徴量、絶対値、関連値 * 100 1) 17 0.01097643069603077 99 2) 30 0.006790004907923086 61 3) 61 0.004684715336508855 42 4) 2 -0.0002692516957934765 -2 5) 59 -0.0006465367565449825 -5 6) 34 -0.0006503517167333328 -5 7) 5 -0.001340840857516234 -12 8) 41 -0.001504570905518282 -13 9) 15 -0.001971414359495396 -17 10) 49 -0.002008411960897655 -18 11) 6 -0.002027305543154334 -18 12) 55 -0.002292162160081906 -20 13) 47 -0.002398304141661728 -21 14) 29 -0.003010337993465118 -27 15) 51 -0.004160368206123241 -37 16) 45 -0.004454751375256194 -40 17) 31 -0.004888451443569572 -44 18) 0 -0.00493201061731692 -44 19) 48 -0.005610904510929521 -51 20) 3 -0.005764515487066274 -52 21) 57 -0.005965409431599886 -54 22) 10 -0.006056332510674986 -55 23) 35 -0.006367565963429744 -58 24) 58 -0.006638024809636447 -60 25) 43 -0.007371220115761079 -67 26) 9 -0.007420288551508419 -67 27) 21 -0.007838972444520739 -71 28) 4 -0.007840269966254226 -71 29) 44 -0.008004942292835771 -72 30) 16 -0.008290498838290847 -75 31) 36 -0.008995332552560964 -81 32) 50 -0.009024243316015798 -82 33) 27 -0.009105675807931257 -82 34) 24 -0.01027361001595535 -93 35) 7 -0.01052719088846928 -95 36) 26 -0.01082406611271462 -98 37) 18 -0.01155880619525071 -105 38) 60 -0.01156309946744785 -105 39) 56 -0.01203862169736691 -109 40) 1 -0.01203862169736691 -109 41) 25 -0.0122272134638268 -111 42) 38 -0.01241174339783128 -113 43) 62 -0.01249635462233889 -113 44) 28 -0.01266702047388507 -115 45) 11 -0.01359028620740281 -123 46) 39 -0.01404126970316556 -127 47) 20 -0.01439737068264699 -131 48) 52 -0.01439756725211659 -131 49) 42 -0.01444571512808378 -131 50) 22 -0.01551886866180208 -141 51) 33 -0.01615798882405024 -147 52) 12 -0.01905830020505599 -173 53) 14 -0.01926462731981513 -175 54) 37 -0.01995084300903066 -181 55) 40 -0.020510512124551 -186 56) 19 -0.021415509666178 -195 57) 63 -0.02151966963894812 -196 58) 54 -0.02355949029687353 -214 59) 64 -0.02507021252693609 -228 60) 32 -0.02702794503628224 -246 61) 8 -0.02803580711831312 -255 62) 13 -0.03090123190409769 -281 63) 46 -0.03344678821960098 -304 64) 53 -0.03558721250407129 -324 65) 23 -0.04407219798162174 -401	パーミュテーション法による予測変数の重要度 0) 0.043401, 絶対値, 関連値 * 100 1) 55 0.04340158682225395 99 2) 61 0.02562763893643727 59 3) 58 0.02546470705535522 58 4) 56 0.02529445125891924 58 5) 59 0.02513377163594621 57 6) 57 0.02208166602125552 50 7) 64 0.02019285632774162 46 8) 60 0.0160907362360114 37 9) 43 0.0125324616278514 28 10) 35 0.01239249171969528 28 11) 13 0.01233138008911674 28 12) 24 0.01170363669371338 26 13) 62 0.01162424331038356 26 14) 63 0.01149019906346291 26 15) 45 0.01127777161657609 25 16) 34 0.01085020622422195 24 17) 46 0.01061844113396632 24 18) 20 0.01007598993178244 23 19) 2 0.009874770749918993 22 20) 19 0.00973881761283335 22 21) 1 0.009100774421598679 20 22) 32 0.009027289557555301 20 23) 9 0.008970631365350451 20 24) 54 0.00802484531062575 18 25) 8 0.007874015748031482 18 26) 53 0.007388216046985141 17 27) 41 0.006952887365763216 16 28) 12 0.0065631543248105 15 29) 21 0.006511968996697037 15 30) 31 0.006445981174562854 14 31) 30 0.005790682414698156 13 32) 42 0.005742446472030011 13 33) 22 0.003590654957257189 8 34) 4 0.003590358440616087 8 35) 38 0.00350243104857792 8 36) 10 0.00350243104857792 8 37) 29 0.003392223030944636 7 38) 5 0.003253553701826867 7 39) 52 0.003019071994331074 6 40) 11 0.002622140078149371 6 41) 15 0.001506974549529611 3 42) 49 0.001178236999850979 2 43) 27 0.000646877104963639 1 44) 23 0.0001088642328799794 0 45) 0 -0.0007427642973199949 -1 46) 36 -0.0008086747680855211 -1 47) 18 -0.001719116017552688 -3 48) 16 -0.003868408494392753 -8 49) 7 -0.004264601904658535 -9 50) 25 -0.004436590312574581 -10 51) 44 -0.004549722466056144 -10 52) 17 -0.005094229165450173 -11 53) 33 -0.007112771718937178 -16 54) 50 -0.008009653155771651 -18 55) 6 -0.008725562553674474 -20 56) 26 -0.01000190433609049 -23 57) 47 -0.01158648521535965 -26 58) 3 -0.01809942562041326 -41 59) 51 -0.01843159353630121 -42 60) 39 -0.02375369534904158 -54 61) 40 -0.02659139305699997 -61 62) 37 -0.02970174182772609 -68 63) 48 -0.031083105562031 -71 64) 14 -0.03323633066169551 -76 65) 28 -0.03952723165321592 -91

ブルートフォースによる予測変数の重要度(1削除による)
特徴量、絶対値、関連値 * 100
1) 17 0.01097643069603077 99
2) 30 0.006790004907923086 61
3) 61 0.004684715336508855 42
4) 2 -0.0002692516957934765 -2
5) 59 -0.0006465367565449825 -5
6) 34 -0.0006503517167333328 -5
7) 5 -0.001340840857516234 -12
8) 41 -0.001504570905518282 -13
9) 15 -0.001971414359495396 -17
10) 49 -0.002008411960897655 -18
11) 6 -0.002027305543154334 -18
12) 55 -0.002292162160081906 -20
13) 47 -0.002398304141661728 -21
14) 29 -0.003010337993465118 -27
15) 51 -0.004160368206123241 -37
16) 45 -0.004454751375256194 -40
17) 31 -0.004888451443569572 -44
18) 0 -0.00493201061731692 -44
19) 48 -0.005610904510929521 -51
20) 3 -0.005764515487066274 -52
21) 57 -0.005965409431599886 -54
22) 10 -0.006056332510674986 -55
23) 35 -0.006367565963429744 -58
24) 58 -0.006638024809636447 -60
25) 43 -0.007371220115761079 -67
26) 9 -0.007420288551508419 -67
27) 21 -0.007838972444520739 -71
28) 4 -0.007840269966254226 -71
29) 44 -0.008004942292835771 -72
30) 16 -0.008290498838290847 -75
31) 36 -0.008995332552560964 -81
32) 50 -0.009024243316015798 -82
33) 27 -0.009105675807931257 -82
34) 24 -0.01027361001595535 -93
35) 7 -0.01052719088846928 -95
36) 26 -0.01082406611271462 -98
37) 18 -0.01155880619525071 -105
38) 60 -0.01156309946744785 -105
39) 56 -0.01203862169736691 -109
40) 1 -0.01203862169736691 -109
41) 25 -0.0122272134638268 -111
42) 38 -0.01241174339783128 -113
43) 62 -0.01249635462233889 -113
44) 28 -0.01266702047388507 -115
45) 11 -0.01359028620740281 -123
46) 39 -0.01404126970316556 -127
47) 20 -0.01439737068264699 -131
48) 52 -0.01439756725211659 -131
49) 42 -0.01444571512808378 -131
50) 22 -0.01551886866180208 -141
51) 33 -0.01615798882405024 -147
52) 12 -0.01905830020505599 -173
53) 14 -0.01926462731981513 -175
54) 37 -0.01995084300903066 -181
55) 40 -0.020510512124551 -186
56) 19 -0.021415509666178 -195
57) 63 -0.02151966963894812 -196
58) 54 -0.02355949029687353 -214
59) 64 -0.02507021252693609 -228
60) 32 -0.02702794503628224 -246
61) 8 -0.02803580711831312 -255
62) 13 -0.03090123190409769 -281
63) 46 -0.03344678821960098 -304
64) 53 -0.03558721250407129 -324
65) 23 -0.04407219798162174 -401

パーミュテーション法による予測変数の重要度
0) 0.043401, 絶対値, 関連値 * 100
1) 55 0.04340158682225395 99
2) 61 0.02562763893643727 59
3) 58 0.02546470705535522 58
4) 56 0.02529445125891924 58
5) 59 0.02513377163594621 57
6) 57 0.02208166602125552 50
7) 64 0.02019285632774162 46
8) 60 0.0160907362360114 37
9) 43 0.0125324616278514 28
10) 35 0.01239249171969528 28
11) 13 0.01233138008911674 28
12) 24 0.01170363669371338 26
13) 62 0.01162424331038356 26
14) 63 0.01149019906346291 26
15) 45 0.01127777161657609 25
16) 34 0.01085020622422195 24
17) 46 0.01061844113396632 24
18) 20 0.01007598993178244 23
19) 2 0.009874770749918993 22
20) 19 0.00973881761283335 22
21) 1 0.009100774421598679 20
22) 32 0.009027289557555301 20
23) 9 0.008970631365350451 20
24) 54 0.00802484531062575 18
25) 8 0.007874015748031482 18
26) 53 0.007388216046985141 17
27) 41 0.006952887365763216 16
28) 12 0.0065631543248105 15
29) 21 0.006511968996697037 15
30) 31 0.006445981174562854 14
31) 30 0.005790682414698156 13
32) 42 0.005742446472030011 13
33) 22 0.003590654957257189 8
34) 4 0.003590358440616087 8
35) 38 0.00350243104857792 8
36) 10 0.00350243104857792 8
37) 29 0.003392223030944636 7
38) 5 0.003253553701826867 7
39) 52 0.003019071994331074 6
40) 11 0.002622140078149371 6
41) 15 0.001506974549529611 3
42) 49 0.001178236999850979 2
43) 27 0.000646877104963639 1
44) 23 0.0001088642328799794 0
45) 0 -0.0007427642973199949 -1
46) 36 -0.0008086747680855211 -1
47) 18 -0.001719116017552688 -3
48) 16 -0.003868408494392753 -8
49) 7 -0.004264601904658535 -9
50) 25 -0.004436590312574581 -10
51) 44 -0.004549722466056144 -10
52) 17 -0.005094229165450173 -11
53) 33 -0.007112771718937178 -16
54) 50 -0.008009653155771651 -18
55) 6 -0.008725562553674474 -20
56) 26 -0.01000190433609049 -23
57) 47 -0.01158648521535965 -26
58) 3 -0.01809942562041326 -41
59) 51 -0.01843159353630121 -42
60) 39 -0.02375369534904158 -54
61) 40 -0.02659139305699997 -61
62) 37 -0.02970174182772609 -68
63) 48 -0.031083105562031 -71
64) 14 -0.03323633066169551 -76
65) 28 -0.03952723165321592 -91

並べ替えにより，最初の10行は，予測変数を削除すると誤差が2-6%悪化することを示し，列挙の最初の10は0.1-0.2%だけである．これは，実際には木は常に，ほぼ同じ分離がある別の予測変数を見つけることになる（主に削除する予測変数と相関するものが原因だが，以前削除した場合でも何かが見つかるだろう）．

興味深いことに、予測変数の約半数は、実際に除去した場合、負の重要性を示し、すなわち、除去した場合、木の誤差が減少し、すなわち、明らかにノイズであることがわかる。しかし、最もノイズの多いものは0.5％しか悪化していません。
そして、重要度の順番が全く似ていないということは、やはりノイズの多い予測因子を列挙して選別した方が良いという考えに至ります。

Machine learning in trading: The interaction of markets. PREDICT time period

Maxim Dmitrievsky 2019.01.30 09:31 #12794

光と熱ではなく、何らかのベンチマークや既知の例と比較する必要があるからでしょう。

+スピードはとても重要です。alglibにはimportが組み込まれていないので、今はpermutationが最適だと思います（brute force methodをいろいろ試してみました）。

Aleksey Vyazmikin 2019.01.30 10:00 #12795

エリブラリウス

並べ替えによって，最初の10行は，予測変数を削除すると誤差が2-6%悪化することを示し，列挙の最初の10は-0.1-0.2%だけである．なぜなら，実際には木は常にほぼ同じ分離がある別の予測変数を見つけるからだ（主に削除した予測変数との相関によるが，以前にそれらを削除しても，何かを見つけるだろう）．

なぜ総合誤差が必要なのか、平衡バイナリーサンプルがあるのか？私はどちらかというと、クラス1の精度を上げる方法を探す方に傾いています。

Forester 2019.01.30 10:21 #12796

アレクセイ・ヴャジミキン

なぜ共通誤差が必要なのか、平衡二値サンプリングはあるのか？

よくある間違いは、葉っぱの一枚一枚ではなく、木・森です。

アレクセイ・ヴャジミキン

私はどちらかというと、クラス1の精度を上げる方法を探す方に傾いています。

私もです)

Forester 2019.01.30 10:23 #12797

マキシム・ドミトリエフスキー

光と熱ではなく、何らかのベンチマークや既知の例と比較する必要があるからでしょう。

+スピードはとても重要です。alglibにはimportが組み込まれていないので、今はシャッフリングが最適だと思います（ブルートフォース方式をいろいろ試してみました）。

オーバーキル（削除/追加1）は、他のすべてのメソッドと比較するベンチマークとなるものです。でも、長いですね、確かに。でも、せめて5％でもプラスになるのなら、待ちたいと思います。

Forester 2019.01.30 10:30 #12798

もうひとつ、順列を使った小さな実験です。
同じ木に対して異なる実行をすると、並べ換えのランダム性により、重要度の順序も変化する

Aleksey Vyazmikin 2019.01.30 10:44 #12799

エリブラリウス
もうひとつ、順列を使ったちょっとした実験です。
同じ木に対して異なる処理を行った場合、順列のランダム性により、重要度の順序も変化する

ここではっきりさせたいのですが、並べ替え法の結果を、トレーニングしたサンプルとテストしたサンプルのどちらで検証するのでしょうか？

ノイズは、トレーニング以外のサンプルでは全く効かなくなるものだと理解しています。ただ、単一の予測因子ではなく、関係性・リーブスが重要だと思います。つまり、2つの可能性があります。予測器がゴミなのか、それとも正しく使われていないだけなのか、つまり、葉っぱがゴミなのかです。

Forester 2019.01.30 10:56 #12800

アレクセイ・ヴャジミキン

ここではっきりさせたいのですが、並べ替え法の結果を、トレーニングしたサンプルとテストしたサンプルのどちらで検証するのでしょうか？

ノイズは、トレーニング以外のサンプルでは全く効かなくなるものだと理解しています。ただ、単一の予測因子ではなく、関係性・リーブスが重要だと思います。つまり、2つの可能性があります。予測器がゴミなのか、それとも正しく使用されていないだけなのか、つまり葉っぱがゴミなのかです。

学習のほうは、木は訓練されていないので。過剰に訓練された木では、テスト木もノイズを記憶してしまうので、テスト木にする必要があります。
訓練されていない木では、それは問題ではありません。
しかし、サンプルの大きさは重要です。大きければ大きいほど、代表的なものです。そして、私のトレーニングプロットは3倍も大きくなっています。

---------

https://www.mql5.com/ru/blogs/post/723619 チュートリアルによると、大きな代表サンプルを使用すると、クラス間のバランス調整が不要になり、時間的なランダム性が減少します。これを訓練されていない木に移した。
しかし、私が間違っているかもしれませんし、テストプロットで予測変数の有意性を確認する必要があります。

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015там есть несколько страниц посвященных этой теме. Вот итоговая:Отмеченный...

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 1280