記事「取引におけるニューラルネットワーク:Adam-mini最適化によるメモリ消費量の削減」についてのディスカッション

 

新しい記事「取引におけるニューラルネットワーク:Adam-mini最適化によるメモリ消費量の削減」はパブリッシュされました:

モデルの訓練と収束プロセスの効率を向上させるためのアプローチの1つが、最適化手法の改良です。Adam-miniは、従来のAdamアルゴリズムを改良し、より効率的な適応型最適化を実現することを目的とした手法です。

ニューラルネットワークについて学び始めたとき、モデルパラメータを最適化するためのさまざまなアプローチについて説明しました。実際の作業においても、状況に応じた異なる手法が用いられますが、最もよく使用されるのは、各モデルパラメータに対して適応的に最適な学習率を調整できるAdam法です。しかし、この適応性にはトレードオフがあります。Adamアルゴリズムは、各パラメータに対して1次モーメント推定値と2次モーメント推定値を維持する必要があり、それに伴いメモリ使用量が増加します。このメモリ消費は、大規模モデルの訓練時に深刻な問題を引き起こします。特に、高いメモリ要求を持つアルゴリズムは、計算負荷をCPUにオフロードする必要があり、これがレイテンシの増加を招き、訓練プロセスの速度低下につながることがよくあります。こうした課題を踏まえ、新しい最適化手法の開発や、既存技術の改善がますます重要になっています。  

2024年7月に公開された論文「Adam-mini:Use Fewer Learning Rates To Gain More」稿では有望な解決策が提案されました。著者は、メモリ消費を抑えつつ、従来のAdamと同等のパフォーマンスを維持する修正手法を導入しました。Adam-miniと呼ばれるこの新しいオプティマイザーは、モデルパラメータをブロックに分割し、ブロックごとに1つの学習率を割り当てることで、次のような利点を提供します。

  • 軽量Adam-miniは、Adamで使用される学習率の数を大幅に削減し、メモリ消費を45~50%削減します。
  • 効率:リソース使用量が少ないにもかかわらず、Adam-miniは標準のAdamと同等かそれ以上のパフォーマンスを実現します。


    作者: Dmitriy Gizlyk

     
    Studieを実行すると、UpdateWeightsAdamMini: 5109の実行エラーが発生します。
     
    ezequiel moya #:
    Studyを実行すると、実行カーネルUpdateWeightsAdamMini: 5109のエラーが発生します。

    こんにちは、実行ログと使用しているモデルのアーキテクチャを投稿できますか?

     

    こんにちは、Studio Encode と Study の録画をお送りします。アーキテクチャーについては、スタディーのローソク足の本数が12本で、そのデータが11本であることを除けば、ご提示いただいたものとほぼ同じです。また、出力レイヤーには4つのパラメータしかありません。

    ファイル:
    20240804.log  23 kb
     
    Dmitry Gizlyk #:

    おつかれさまでした、使用したモデルの実施登録と構造を公表していただけますか?

    こんにちは、スタジオエンコードとスタディの録音をお送りします。アーキテクチャについては、研究のローソク足の数が12本で、そのデータが11本であることを除けば、あなたが提示したものとほぼ同じです。また、出力レイヤーには4つのパラメータしかありません。
    ファイル:
    20240804.log  23 kb