t_wの輪郭

Feedlyでフォローするボタン
学習強化Reinforcement LearningきょうかがくしゅうRL
退屈嫌いAIサンクションマルチエージェント強化学習あれ強化学習によって脳内麻薬が出る音楽を自動生成オフライン強化学習gitのdiffでコード生成AIを強化学習あれ活用と探索Exploration & ExploitationDPOQ学習あれあれ強化学習強化学習するUIRLSlimebot VolleyballOpenAI GymPolicy Gradient『強化学習アルゴリズム整理 - joeの日記』Actor-CriticMCTSDQN

MCTS

2024/11/1 12:57:00

DQN

2024/11/1 12:56:00

DPO

2024/3/10 13:46:00

Direct Preference Optimization

あれ

2023/6/10 20:02:00

AIに食わせるデータがなくなってきたら、強化学習が来そう

人間の評価によって人間が作れる以上のものを作るのじゃ〜


単なる人間の模倣から、人間からの評価を最大化する学習への転換はありそうな気がする
AIの守破離でござるよ

あれ

2021/3/3 1:04:00

推薦が無視されたときに、負の報酬を与えると探索的になる。

あれ

2021/3/3 0:46:00

強化学習においては学習が進むにつれて探索優先から活用優先に変わっていくのが定石とされている。しかし、レコメンドシステムにおいては活用優先から探索優先に変わっていくのがいいかもしれない。利用者の飽きを防止できる。