t_wの輪郭

Feedlyでフォローするボタン
loraDrag-and-Drop LLMs『【最先端】新たな知識を一瞬で学習するAI【DnD】 - YouTube』

あれ

2025/7/25 9:47:00

畳み込みでパラメーター生成!?


まずLoRAでΔWが出る
はえー


パラメーター生成器が作ったΔW'を使う
パラメーター生成器はΔW-ΔW'を最小化するように学習する
学習にはMSEを使う

すげー
なんでそれで上手く性能が出るのかが不思議だ

公開されているモデルのbaseモデルとinstructionモデルの差分からΔWを作ることができるかな?


最初のLoRAはどれぐらいの量のデータを使うんだろう?


A100GPUで1秒未満でパラメーター生成
常識推論は0.11秒で生成

いややっぱ速いな
LoRAの何パーセントの時間だろう?

Finetuningで1200秒かけて55%の正解率
DnDは0.1秒で51%の正解率
12,000倍高速

すっげ
エンドの端末でオンライン学習とかできないかな?
というかプロンプトを投げられた後に学習できるのでは?
RAGの代わりに使える?


いくつかのパターンを試した結果、生成器への入力はプロンプトのみで十分であることを発見

便利すぎる。
謎の特性だ。
教師データがある場合にはそれを入れても良いんだろうか?
教師データがある場合とない場合で精度の変化はあるのかな?



In-Context Learning

なんだこれ。後で調べよう。


基板モデルのサイズを1.5Bから7Bにスケールアップさせた場合でも、DnDは一貫して学習元のLoRAの性能を上回る

さすがに良すぎて嘘くさいぞ
「学習元のLoRA」の学習データってDnDと比べて少量なのか?だったら納得がいくかも?





「オッケー」が面白いけど散らかるな

あれ