t_wの輪郭

Feedlyでフォローするボタン
LLMAttentionALiBi
『作業記憶の発達的特性が言語獲得の臨界期を形成する』あれ『Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation』

あれ

2025/7/25 10:49:00

作業記憶はワーキングメモリーのこと?


発達的特性とは何?


言語獲得の「臨界期」とは何?
→言語獲得が特に効率的に進む時期のこと


LLMの「作業記憶」ってつまり何?コンテキスト長?
→ 研究ではAttention with Linear Biases (ALiBi)を用いて距離の大きいクエリとキーのペアのスコアを抑制することで作業記憶の制限としている
→→ まだちょっとよくわからん……



「人間の言語獲得における臨界期仮説を支持する重要な間接証拠となる」
LLMと人間を同一視しても大丈夫なのかな



LLMは多くの評価指標において人間と同等の性能を達するために人間と比較して3〜4桁多いデータ量を必要とすることが指摘されている[1]

3〜4ということで、本当に大量のデータが必要なんだな。その分、データ量を減らせる技術的な余地があるはず。もし必要なデータ量を減らすことができれば、データを用意するのも楽になるし、学習も早くなるはず。


幼児の認知的な制約(例: 短期記憶の容量や注意の範囲)がむしろ言語学習に有利に働くとされる Newport の Less is more 仮説 [4] がある

非直感的な結果だ。直感的には制約がないほうがより学習できるに思えるが、そうではないらしい。どんな仕組みでそうなっているかが気になるところ。
「制約があるほうが良い」というのは構造化プログラミングでもそうなっている(gotoを制約した)し、発想法でも「制約があるほうがよい」という言説もある。そうした共通点から「制約があるほうが良い」というところについて一般に適用できる知見が抽出できないだろうか?


そういえば「LLMは簡単なデータから学習する」というのを以前見たが、この研究結果との関連づけはできるだろうか?


人間(成人)の作業記憶が制限されたら、再び言語獲得が容易になる?



容認可能な文と不可能な文をそれぞれモデルに入力し,前者により高い確率が付与されたペアの割合を計算することで文法性判断スコアを得る.

このベンチマークの方法良いな。ChatGPTに何点か聞く手法よりも工学的な感じがする。
あ、これがperplexityという指標なのか。知らなかった……
全部これでいいじゃんと思うんだけど、他のベンチマークでわざわざChatGPTを使うことがあるのはなんでだろう。


単に記憶制限を設けるだけでは効果がなく,指数関数的緩和が重要であることを示している
なぜ線形増加ではなく指数関数的増加が効果的であるのかという疑問が残る

難しい文法は簡単な文法を獲得してから学習したほうが効率が良いからだろうか?
学習データの量の分布とかとの関係も気になる。


次に読みたい: