商务服务
蒙特卡洛树搜索(MCTS)日记1
2024-12-17 02:57

        自2006年两篇MCTS论文的发布[1,2],人们认识到MCTS在棋类博弈游戏的巨大前景。特别是2016年谷歌推出的AlphaGo击败世界冠军李世石,引发人们对ai的巨大热情。而AlphaGo是采用了神经学习与MCTS结合的框架,造就了这个产物。

        monte carlo tree search(MCTS)是将蒙特卡洛模拟与树搜索结合起来的算法,是应用于树表示的解空间中寻找决策的算法。MCTS的思路是

第一步,根据先验知识设定的价值评估函数(可能没有,选择出当前决策树还能拓展孩子的最大价值节点。初始化时,价值为0

第二步,为选出的最大节点添加一个孩子(这一步思路很简单,但如果你要写代码就知道多麻烦了

第三步,从该孩子表示的状态进行模拟推演直到游戏结束

第四步,将游戏输赢的信息反馈回孩子及其所有直系祖先。

此阶段需要根据价值公式选出最大节点,显然这个价值公式,是MCTS算法的关键。2006年kocisis等人根据UCB提出了UCT公式Upper Confidence Bound Apply To Tree,这一经典式子可以说是发展至今。严格的说,价值公式评估的是动作(边)而不是状态(节点,但对于不需要精通MCTS的人来说,动作和状态可以认为是一一对应的,即节点等同于边。接下来我会给出关于状态和动作的价值公式,初学者只需理解一个即可。

        其中,S(state)表示节点价值,表示该节点之前多次模拟的平均价值(比如可以是模拟赢的次数除以模拟次数,N是该节点的双亲节点的模拟次数,是该节点的模拟次数(刚拓展的节点初始为0,C是一个超参数起到调节探索和利用的作用。

        其中a表示动作,A(s)是在状态s下的所有可用动作的集合,Q(s,a)是动作a在状态s下运行至今的平均价值,N(s)是状态s至今的被访问次数,N(s,a)是动作a在状态s下的被访问次数。常数C控制探索和利用的平衡。

        上图节点里,分子表示赢的次数,分母表示模拟次数,箭头旁的是根据UCT求出的值,其中C取根号2。

        此阶段需要对选出的最大节点添加孩子,这要求选出的节点还可以添加孩子,即未完全拓展的节点。在一般的MCTS(不与其他方法结合)下添加孩子,只需从满足实际情况的多个动作中随机选一个即可。比如节点A可以拓展十个孩子,但目前只有一个,拓展A时只需从剩余9个随机选择即可。

        这个阶段可以说是MCTS的精髓,不论是MCTS与其他方法结合产生的威力,还是相比以前方法的突破,关键在于这个阶段。不妨将此阶段,MCTS模拟游戏进行的策略叫模拟策略(不是官方术语,最初的MCTS使用的模拟策略是服从均匀分布的随机模拟。比如从节点A开始模拟,节点的可能策略有a,b,c。那么节点A选择a的概率是三分之一,选择a后生成的新节点选择a的概率也是三分之一。模拟过程的每个节点都采用统一的模拟策略——选择a/b/c的概率都是三分之一。

        最后根据模拟对局的胜负判断节点A的好坏,这种根据多次随机试验逼近现实的思想即蒙特卡洛思想,起源于统计物理学,用来估计难以计算的积分。接下来,我会提出我仍在思考的问题抛砖引玉

        1. 如果决策树的宽度是较大的(一个节点可以有很多孩子,那么均匀的从多个孩子做出选择,是否浪费了时间在一些坏的动作上?由此引发的思考是,模拟策略可不可以动态调整,或者根据先验知识,建立一个不均匀的概率分布来加快模拟效率

        2. 如果决策树的深度很大,是否每次模拟都要进行到树的叶子才能算完成呢?如果加入了时间或者深度限制,那么如何评估此次模拟的“胜负”?比如模拟围棋,模拟到分出胜负的前几步,此时用什么指标表示此次模拟的胜负;如果模拟必须要分出胜负,有没有加快模拟的方法,或者说减少内存消耗的方法?毕竟模拟深度很大的话,对内存来说也是一个挑战。

        根据模拟信息,将相应评价传回开始模拟的节点,及其所有直系祖先(他父亲,他爷爷,他太爷爷等)。比如模拟对局赢了,就把表示赢的数据传回去。设节点A模拟了10次,赢了6次,那么节点A的信息里有模拟次数:10,胜场:6,平均价值:0.6(设平均价值=胜场除以总场数)。

        虽然MCTS的使用至今已经近二十年了,但由于理论上没有做到定性定量的分析MCTS。目前MCTS还没有官方的、权威的定义和相关术语,之前所讨论到的也只是MCTS体系里最经典、最早的一种。它相比于已经定义了的方法来说,更像是一种技巧,利用随机试验近似目标的技巧。MCTS的四阶段也不总是泾渭分明,所以,如果你在学习MCTS时也感到有些困惑,不必担心。另外,MCTS后续会有一个更出名的使用技巧,即与神经网络的结合(AlphaGo)。日记2我会谈论,MCST的新伙伴以及新的前景。

你可能感兴趣的文献

        [1] 朱良双,王静文,李媛.基于UCT搜索算法的点格棋博弈系统研究[J].智能计算机与应用,2021,11(02):129-131.

        下文的第三章

        Sylvain Gelly, Levente Kocsis,. The grand challenge of computer Go: Monte Carlo tree search and extensions. Commun. ACM 55, 3 (March 2012), 106–113. https://doi.org/10.1145/2093548.2093574 

参考文献

        1. Kocsis, L., Szepesvári, C. (2006). Bandit based Monte-Carlo Planning.  https://doi.org/10.1007/11871842_29

        2. Rémi Coulom. Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search. 5th International Conference on Computer and Games, May 2006, Turin, Italy. ffinria-00116992f

        3. 蒙特卡洛树搜索(Monte Carlo Tree Search)揭秘-CSDN博客 https://blog.csdn.net/fearlesslpp/article/details/134342648

    以上就是本篇文章【蒙特卡洛树搜索(MCTS)日记1】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/8807.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
GPRS模块设计_今日gsm模块和gprs模块设计教程
摘要:GPRS模块设计,今日gsm模块和gprs模块设计教程,新片场素材小编成菲慕GPRS模块设计,今日gsm模块和gprs模块设计教程相关内容
浙大博士创立的酷态科,一年快速从零登上充电类目头部
“做品牌的难度可能比较高,但我觉得价值是更大的。”两年前,陈玮萌生了做自有品牌的打算。他创立的南京酷科电子科技有限公司,
90年代最上镜港姐重返母校极受欢迎,晒流利英语表现亲民零架子
现年53岁的樊亦敏在1991年港姐中夺得“最上镜小姐”,近年凭《爱·回家之开心速递》“白天娥(三太)”一角成功入屋,更在《万千
小红书个人怎么开店卖货?作者:小果 时间:2025-01-26 阅读:4852
小红书个人店铺开设全攻略一、注册启航,实名认证筑基础要在小红书这片潮流热土上开启你的店铺之旅,首先需完成账号注册,并进行
群邑蔚迈小红书营销解决方案 融入用户生活形成完整闭环
原标题:群邑蔚迈小红书营销解决方案 融入用户生活形成完整闭环2024年10月,群邑中国与小红书在年度合作会议上共同深化了双方的JB
2024年12月时政热点
点击蓝字信阳人事考试早知道公考到格正 上岸有保证国内新闻:1.国家统计局服务业调查中心、中国物流与采购联合会11月30日发布数据
如何实现从抖音引流到微信
么如何实现从抖音引流到微信呢?这里提供几个参考的办法给大家。1,私信品牌、商家、自媒体、KOL等都可以通过私信的方式与抖音的
稳稳赚钱的逆回购,年化7%了
来源:雪球App,作者: 简七理财,(https://xueqiu.com/5517873136/320898474) 晚上好,一起看看本周发生了哪些大事吧~ 希望
热点前瞻 ,洞察小红书过年新叙事
​​ 年关将至,大家的年终总结也告一段落了,让千瓜陪伴大家一同摸鱼探索,看看小红书的春节又整出什么新花活。 年味”撩"人
怎么入驻京东自营?2023新版京东自营入驻条件费用标准及相关规则
京东自营店占京东商城总销售额的5%,但其销售额占京东商城总销售额的70%左右。可以看出,京东自营店的销售实力,意识到京东自营