なぜダウンサンプリングの直後に元の入力サイズにアップサンプリングする必要があるのか?レイヤーの説明は同じに見えますが(オーバーフィッティングを防ぐためのドロップアウト)、もしデータが同じ機能を持つ小さいコンテナにうまく収まるのであれば、後方アップサンプリングは過剰で無駄に見えます(少なくとも、変換から新しい情報を得ることはありません)。
追記英語から(少なくとも)ロシア語への投稿の自動翻訳は馬鹿げているように見えるので、元の投稿を読んでください。
取引の機会を逃しています。
- 無料取引アプリ
- 8千を超えるシグナルをコピー
- 金融ニュースで金融マーケットを探索
新しい記事「独自のLLMをEAに統合する(第5部):LLMを使った取引戦略の開発とテスト(III) - アダプタチューニング」はパブリッシュされました:
前回の記事では、LoRA法を使用してGPT-2の事前学習済みモデルをファインチューニングする方法を紹介し、学習のオーバーヘッド、推論のオーバーヘッド、モデルのパフォーマンスなど、いくつかの側面から完全にファインチューニングされたモデルと比較しました。
今回は、アダプタチューニングという手法を使ってGPT-2事前学習済みモデルのファインチューニング(微調整)をおこない、これまで紹介してきた手法と比較します。もちろん、ファインチューニング手法は日々進化しており、新しい手法が次々と登場しています。そのため、今後もすべての手法を個別に取り上げることはしません。すべての方法を再現していては、読者の皆さんも読み続けるのが大変でしょう。したがって、本連載では基本的なファインチューニング手法に絞って紹介しています(たとえば、LoRAチューニングはすでに紹介済みであり、そこから派生したQLoRAチューニングなどについては深入りしません)。
つまり、本記事が大規模言語モデルのファインチューニングに関する最後の記事となります。他の手法に挑戦したい方は、本連載で紹介したファインチューニングの考え方を参考に、別の手法に応用して探求を続けてみてください。次回からは、ファインチューニングしたモデルをEA開発に応用し、取引戦略の構築やバックテストに焦点を移していきます。
以下は、比較のための図表による視覚化です。
作者: Yuqiang Pan