t_wの輪郭

『作業記憶の発達的特性が言語獲得の臨界期を形成する』perplexity Elastic Weight Consolidation 『Overcoming catastrophic forgetting in neural networks』Attention with Linear Biases 『Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation』『BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language』

あれ

2025/7/25 10:49:00

作業記憶はワーキングメモリーのこと？

発達的特性とは何？

言語獲得の「臨界期」とは何？
→言語獲得が特に効率的に進む時期のこと

LLMの「作業記憶」ってつまり何？コンテキスト長？
→ 研究ではAttention with Linear Biases (ALiBi)を用いて距離の大きいクエリとキーのペアのスコアを抑制することで作業記憶の制限としている
→→ まだちょっとよくわからん……

「人間の言語獲得における臨界期仮説を支持する重要な間接証拠となる」
LLMと人間を同一視しても大丈夫なのかな

LLMは多くの評価指標において人間と同等の性能を達するために人間と比較して3〜4桁多いデータ量を必要とすることが指摘されている[1]

3〜4桁ということで、本当に大量のデータが必要なんだな。その分、データ量を減らせる技術的な余地があるはず。もし必要なデータ量を減らすことができれば、データを用意するのも楽になるし、学習も早くなるはず。

幼児の認知的な制約（例: 短期記憶の容量や注意の範囲）がむしろ言語学習に有利に働くとされる Newport の Less is more 仮説 [4] がある

非直感的な結果だ。直感的には制約がないほうがより学習できるに思えるが、そうではないらしい。どんな仕組みでそうなっているかが気になるところ。
「制約があるほうが良い」というのは構造化プログラミングでもそうなっている（gotoを制約した）し、発想法でも「制約があるほうがよい」という言説もある。そうした共通点から「制約があるほうが良い」というところについて一般に適用できる知見が抽出できないだろうか？

そういえば「LLMは簡単なデータから学習する」というのを以前見たが、この研究結果との関連づけはできるだろうか？

人間（成人）の作業記憶が制限されたら、再び言語獲得が容易になる？

容認可能な文と不可能な文をそれぞれモデルに入力し，前者により高い確率が付与されたペアの割合を計算することで文法性判断スコアを得る．

このベンチマークの方法良いな。ChatGPTに何点か聞く手法よりも工学的な感じがする。
あ、これがperplexityという指標なのか。知らなかった……
全部これでいいじゃんと思うんだけど、他のベンチマークでわざわざChatGPTを使うことがあるのはなんでだろう。

単に記憶制限を設けるだけでは効果がなく，指数関数的緩和が重要であることを示している
なぜ線形増加ではなく指数関数的増加が効果的であるのかという疑問が残る

難しい文法は簡単な文法を獲得してから学習したほうが効率が良いからだろうか？
学習データの量の分布とかとの関係も気になる。

次に読みたい：

『Overcoming catastrophic forgetting in neural networks』
- Catastrophic Forgettingについての論文
『BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language』
- RoBERTaを用いた先行研究およびZorroについての論文
『Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation』
- Attention with Linear Biasesについての論文

あれ

論文 Attention with Linear Biases

『Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation』

2025/7/25 10:46:00

『作業記憶の発達的特性が言語獲得の臨界期を形成する』あれ『[2108.12409] Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation』

論文言語処理学会第31回年次大会表彰論文発達的特性言語獲得作業記憶 Elastic Weight Consolidation Attention with Linear Biases 『Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation』『BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language』

『作業記憶の発達的特性が言語獲得の臨界期を形成する』

2025/7/25 9:12:00

https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/B4-6.pdf

あれ『BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language』