統計学輪講 第11回

日時 2025年07月01日(火)
14時55分 ~ 15時45分
場所 経済学部新棟3階第3教室 および Zoom
講演者 今井 翔太 (経済M2)
演題 特徴学習のもとでの2層ニューラルネットワークの汎化誤差の逐次的な解析。
概要

ニューラルネットワークの学習過程において、各タイムステップにおける汎化誤差を理論的に厳密に評価することは、一般には困難である。しかし、ネットワークの幅や入力次元、データ数などを無限大に発散させる高次元漸近解析の枠組みにおいては、これが可能となる場合がある。本研究では、2層ニューラルネットワークを対象とし、このような高次元設定に基づいて理論解析を行う。

2層ニューラルネットワークは、1層目が入力から有用な特徴を抽出し、2層目がそれを用いて予測を行う構造を持つ。従来の研究では、1層目のパラメータを1回だけ更新し、その後2層目をリッジ回帰によりclosed-formで一括的に最適化する設定が主に用いられてきた([1]、[2])。このアプローチでは、1層目が有用な特徴を捉えられる状況(特徴学習)を扱えるものの、2層目の更新過程のダイナミクスを解析できず、また正則化そのものの有無が結果に与える影響を検討することも困難であるという問題がある。

本研究では、1層目を1回だけ更新した上で、そのもとで2層目を複数回更新するという設定を導入し、2層目の学習ダイナミクスを明示的にモデル化する。これにより、1層目が有用な特徴を獲得しているという前提のもとでのより現実的な学習過程の理解が可能となる。この設定において、教師モデルや活性化関数、学習率といった要素によって学習の挙動が変化すること、さらに特定の条件下ではearly stoppingが正則化と類似した効果を持つことを理論的に示す。

[1]Ba, Jimmy, et al. "High-dimensional asymptotics of feature learning: How one gradient step improves the representation." Advances in Neural Information Processing Systems 35 (2022): 37932-37946.

[2]Moniri, Behrad, et al. "A theory of non-linear feature learning with one gradient step in two-layer neural networks." arXiv preprint arXiv:2310.07891 (2023).