伟大的博弈

注册

 

发新话题 回复该主题

浙大提出会打德扑的自我博弈AI,还会 [复制链接]

1#

选自arXiv

作者:LiZhang、WeiWang、ShijianLi、GangPan

机器之心编译

人工智能已在围棋这样的完美信息游戏上实现了远超人类的水平,但在信息未完全披露的多人对战游戏上还无法战胜人类。近年来,OpenAI和DeepMind在DOTA2和星际争霸2上的尝试都难言成功。近日,来自浙江大学的研究人员提出了一种新方法,结合蒙特卡洛树搜索和NFSP,大大提高了在信息不完整的大规模零和游戏上的表现。

面对信息不完整的环境,浙大的研究人员提出了异步神经虚拟自我对弈(ANFSP)方法,让AI学会在多个虚拟环境中进行「自我博弈」,从而生成最优决策。他们的方法在德州扑克和多人FPS射击游戏中均取得了不错表现。

随着深度强化学习的快速发展,AI已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问题是,它们很少从理论和量化的角度考虑对其训练和结果进行评估,因此效果难以保证。

博弈论是研究现实世界竞赛中人类行为模式的基石。该理论主要研究智能体如何通过竞争与合作实现其利益最大化并度量决策的质量。它已经成为计算机科学中一个颇具吸引力的研究任务。名为「算法博弈论」的交互研究课题已经确立,并随着人工智能的发展受到越来越多的

分享 转发
TOP
发新话题 回复该主题