強化学習
2021/3/3 0:42:00
Direct Preference Optimization
AIに食わせるデータがなくなってきたら、強化学習が来そう
人間の評価によって人間が作れる以上のものを作るのじゃ〜
単なる人間の模倣から、人間からの評価を最大化する学習への転換はありそうな気がする
AIの守破離でござるよ
強化学習においては学習が進むにつれて探索優先から活用優先に変わっていくのが定石とされている。しかし、レコメンドシステムにおいては活用優先から探索優先に変わっていくのがいいかもしれない。利用者の飽きを防止できる。