#Ppo の記事一覧 | PokeResearch

ポケモンカードゲームのAIコンペを題材に、強化学習を用いた対戦エージェントの設計と実装の要点を解説する記事。 MDP化した盤面状態・行動空間の定義、報酬設計、そしてドメイン知識の取り込みが重要とされる。 PPO・AlphaZero系のアルゴリズム、自己対戦によるエージェントの進化が解説される。