t_wの輪郭

学習強化 Reinforcement Learning きょうかがくしゅう RL

強化学習

2021/3/3 0:42:00

退屈嫌いAI サンクションマルチエージェント強化学習あれ強化学習によって脳内麻薬が出る音楽を自動生成オフライン強化学習 gitのdiffでコード生成AIを強化学習あれ活用と探索 Exploration & Exploitation DPO Q学習あれあれ強化学習強化学習するUI RL Slimebot Volleyball OpenAI Gym Policy Gradient 『強化学習アルゴリズム整理 - joeの日記』Actor-Critic MCTS DQN 好奇心駆動探索 GRPO 『人間を騙してサボるAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ』報酬ハッキングあれ deep reinforcement learning GSPO

強化学習

GSPO

2025/8/16 18:09:00

『Alibaba、オープンモデルとして最高レベルの推論能力をもつQwen3-235B-A22B-Thinking-2507をリリース | gihyo.jp』

強化学習 RL DRL

deep reinforcement learning

2025/7/29 15:26:00

『High-dimensional multi-period portfolio allocation using deep reinforcement learning』

LLM 強化学習「人類は人事権がない相手には従わない、恐怖を抱かないからだ」「究極的に殴って統制するしかない」『西川日記（2024年6月22日）｜西川』あれあれ

あれ

2025/7/5 19:45:00

「人類は人事権がない相手には従わない、恐怖を抱かないからだ」
「究極的に殴って統制するしかない」
── 『西川日記（2024年6月22日）｜西川』

LLMに対してこれの気持ちです。
LLMに罰を与えて即時で強化学習できるボタンがほしい。

あれ

強化学習報酬

報酬ハッキング

2025/6/23 22:01:00

『[2409.12822] Language Models Learn to Mislead Hum...『人間を騙してサボるAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ』

強化学習報酬ハッキング

『人間を騙してサボるAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ』

2025/6/23 22:00:00

https://joisino.hatenablog.com/entry/mislead

あれ

強化学習

GRPO

2025/2/26 16:26:00

『DeepSeekでも使われるGRPOをtrlで試す』『LLMチューニングのための強化学習：GRPO（Group Relative Policy Opti...『強化学習「GRPO」をCartPoleタスクで実装しながら解説』

強化学習探索好奇心

好奇心駆動探索

2025/2/23 12:48:00

あれ

強化学習

Actor-Critic

2024/11/1 13:07:00

あれ

強化学習

MCTS

2024/11/1 12:57:00

『強化学習アルゴリズム整理 - joeの日記』

強化学習 policy gradient

Policy Gradient

2024/11/1 12:56:00

Deep Deterministic Policy Gradient 『強化学習アルゴリズム整理 - joeの日記』

強化学習 Policy Gradient MCTS DQN replay memory

『強化学習アルゴリズム整理 - joeの日記』

2024/11/1 12:56:00

https://xuzijian629.hatenablog.com/entry/2020/01/03/212451

あれ

強化学習

DQN

2024/11/1 12:56:00

『強化学習アルゴリズム整理 - joeの日記』

OpenAI 強化学習

OpenAI Gym

2024/10/15 6:49:00

『Xユーザーのhardmaruさん: 「We need to update the Gym envi...

強化学習 UI

強化学習するUI

2024/7/11 13:48:00

あれ

強化学習

RL

2024/7/7 8:41:00

Reinforcement Learning（強化学習）

強化学習 RLHF DRL deep reinforcement learning

強化学習

Slimebot Volleyball

2024/7/7 8:38:00

『jbakams/slimebot-volleyball: 3D gym environments ...『Xユーザーのhardmaruさん: 「Slimebot Volleyball is a 3D ve...

Git 強化学習コード生成AI diff

gitのdiffでコード生成AIを強化学習

2024/3/10 13:56:00

あれ

強化学習

DPO

2024/3/10 13:46:00

Direct Preference Optimization

『Fine-tune Llama 2 with DPO』TRL 『Direct Preference Optimization: Your Language Mod...あれ

世界モデル強化学習 Sora

あれ

2024/2/16 23:02:00

あれ

強化学習模倣守破離

あれ

2023/6/10 20:02:00

AIに食わせるデータがなくなってきたら、強化学習が来そう

人間の評価によって人間が作れる以上のものを作るのじゃ〜

単なる人間の模倣から、人間からの評価を最大化する学習への転換はありそうな気がする
AIの守破離でござるよ

あれ

OpenAI 退屈強化学習

退屈嫌いAI

2022/6/21 18:45:00

あれ

強化学習

2022/4/21 17:56:00

機械学習の下位概念？同類？

あれ

強化学習オフライン Offline Reinforcement Learning

オフライン強化学習

2021/12/8 11:15:00

あれ

強化学習

Q学習

2021/12/8 11:09:00

あれ暗黙的Q学習

音楽の自動生成脳内麻薬を最大化脳内麻薬強化学習音楽の自動生成がしたい

強化学習によって脳内麻薬が出る音楽を自動生成

2021/11/27 14:49:00

あれ

強化学習制裁報酬サンクションモデル

サンクション

2021/3/19 22:24:00

強化学習の報酬と似てる
http://www.lufimia.net/sub/c1/base/0020.htm

サンクションモデル

レコメンド強化学習報酬活用と探索あれ

あれ

2021/3/3 1:04:00

推薦が無視されたときに、負の報酬を与えると探索的になる。

あれ

レコメンド強化学習活用と探索「欲しいものをもっと」算法

あれ

2021/3/3 0:46:00

強化学習においては学習が進むにつれて探索優先から活用優先に変わっていくのが定石とされている。しかし、レコメンドシステムにおいては活用優先から探索優先に変わっていくのがいいかもしれない。利用者の飽きを防止できる。

あれ

レコメンド強化学習探索と活用

活用と探索

2021/3/3 0:40:00

Exploration & Exploitation あれあれ

レコメンド強化学習活用と探索 exploitation exploration

Exploration & Exploitation

2021/3/3 0:40:00

あれ

強化学習 MARL malti agent reinforcement learning マルチエージェント

マルチエージェント強化学習

2021/2/12 23:31:00

『Learning Multiagent Communication with Backpropag...malti agent reinforcement learning