記事「独自のLLMをEAに統合する(第5部):LLMを使った取引戦略の開発とテスト(III) - アダプタチューニング」についてのディスカッション

 

新しい記事「独自のLLMをEAに統合する(第5部):LLMを使った取引戦略の開発とテスト(III) - アダプタチューニング」はパブリッシュされました:

今日の人工知能の急速な発展に伴い、言語モデル(LLM)は人工知能の重要な部分となっています。私たちは、強力なLLMをアルゴリズム取引に統合する方法を考える必要があります。ほとんどの人にとって、これらの強力なモデルをニーズに応じてファインチューニングし、ローカルに展開して、アルゴリズム取引に適用することは困難です。本連載では、この目標を達成するために段階的なアプローチをとっていきます。

前回の記事では、LoRA法を使用してGPT-2の事前学習済みモデルをファインチューニングする方法を紹介し、学習のオーバーヘッド、推論のオーバーヘッド、モデルのパフォーマンスなど、いくつかの側面から完全にファインチューニングされたモデルと比較しました。

今回は、アダプタチューニングという手法を使ってGPT-2事前学習済みモデルのファインチューニング(微調整)をおこない、これまで紹介してきた手法と比較します。もちろん、ファインチューニング手法は日々進化しており、新しい手法が次々と登場しています。そのため、今後もすべての手法を個別に取り上げることはしません。すべての方法を再現していては、読者の皆さんも読み続けるのが大変でしょう。したがって、本連載では基本的なファインチューニング手法に絞って紹介しています(たとえば、LoRAチューニングはすでに紹介済みであり、そこから派生したQLoRAチューニングなどについては深入りしません)。

つまり、本記事が大規模言語モデルのファインチューニングに関する最後の記事となります。他の手法に挑戦したい方は、本連載で紹介したファインチューニングの考え方を参考に、別の手法に応用して探求を続けてみてください。次回からは、ファインチューニングしたモデルをEA開発に応用し、取引戦略の構築やバックテストに焦点を移していきます。

以下は、比較のための図表による視覚化です。

pre  cp


作者: Yuqiang Pan

 

なぜダウンサンプリングの直後に元の入力サイズにアップサンプリングする必要があるのか?レイヤーの説明は同じに見えますが(オーバーフィッティングを防ぐためのドロップアウト)、もしデータが同じ機能を持つ小さいコンテナにうまく収まるのであれば、後方アップサンプリングは過剰で無駄に見えます(少なくとも、変換から新しい情報を得ることはありません)。

追記英語から(少なくとも)ロシア語への投稿の自動翻訳は馬鹿げているように見えるので、元の投稿を読んでください。