吉祥坊手机官网

首页 > 正文

星际2玩家们,你们很快就会在天梯上为DeepMind的论文做贡献了

www.martialartssummerprogram.com2019-07-25
吉祥坊官方平台

0×251C

雷锋人工智能技术评论:昨晚,暴雪和DeepMind发布了一条消息,DeepMind的Star2人工智能“AlphaStar”很快将出现在Star2欧洲服务器上的1v1阶梯式竞争中。人类玩家不仅有机会与他们比赛和玩标准游戏,而且结果也会影响他们自己的阶梯分数以及正常比赛。

星际2实验

众所周知,DeepMind最喜欢的强化学习人工智能的研究过程是在游戏环境中探索技术。在新技术的帮助下,代理可以从历史数据中学习,从自我游戏中学习,然后与人类大师竞争,评估人工智能的水平。范莉、李世石、柯杰等都以优异的成绩成为“人工智能测试高级工程师”。

0×251d

DeepMind在对AlphaStar的研究中继续遵循这一思路,但这次他们更大胆地将大量不同级别的普通玩家纳入到人工智能性能评估中。比赛的最终结果将写在阿尔法斯塔研究项目的论文中,并提交给期刊。这是暴雪和DeepMind联合把人工智能送上梯子的最重要原因。

进入星际争霸2游戏后,参与1v1阶梯比赛的玩家可能会在1v1游戏设置为允许访问DeepMind(DeepMind选择加入)后遇到AlphaStar。为了控制所有比赛尽可能接近正常的人类1v1阶梯比赛,并减少不同比赛之间的差异,AlphaStar将随机匹配一些球员的阶梯比赛,AI将保持匿名游戏,匹配玩家和星际争霸2无法知道哪些游戏有? AlphaStar参与其中。然而,在设置允许访问AI之后,我相信玩家会立即开始期待匹配AI对手,并且在游戏开始后不久,他们可能会发现他们的对手有一些异常。

99be0cfb77ffc7299fff03df880c34af.gif

1月份,AlphaStar将建立大量工人并迅速建立资源优势(超过16或18?人类专业人员)

250dbc871ff6c16ded2657920a3c833e.gif

在1月份的比赛中,AlphaStar?控制两名潜行者逃脱黑血限制

今年1月,AlphaStar与人类职业球员进行了比赛并?〉昧送耆氖だS氲笔钡陌姹鞠啾龋飧龈蟮牟馐缘腁lphaStar版本经历了一些变化,其中一些显然对人类有益:

1月版可以直接读取地图上的所有可见内容,而不需要使用操作来切换视角。这一次,您需要自己控制视角。就像人类一样,你只能观察视野中的单位,而你只能在视野中移动单位。

1月版仅使用Protoss。这次,AlphaStar将使用所有三场比赛:Terran,Zerg和Protoss;

1月版在操作方面没有明显的性能限制。这一次,在咨询了人类专业人士之后,AlphaStar的平均每秒操作次数,平均每分钟操作次数(APM),瞬时最大APM等等都受到了更严格的限制,与人类相比降低了操作优势。

参与测试的AlphaStar从人类游戏重播和自我竞争中吸取了教训,没有从人类的游戏中学到东西,AlphaStar的表现在整个测试期间保持不变,没有经过培训;结果可以直接反映出来吗? DeepMind目前的技术水平如何?另一方面,作为AlphaStar技术解决方案的一个亮点,参与测试的AlphaStar也将成为AlphaStar联盟中的不同个体(见下文),与之匹配的不同AlphaStar个体可能很奇怪。游戏性能。

AlphaStar技术特点

今年1月,当DeepMind首次公布AlphaStar和人类职业玩家的成果时,雷锋网络AI技术评论与DeepMind的官方博客结合,报道了AlphaStar的技术特点。在这里,我们总结了AlphaStar的技术特征如下:(详见文章)

模型结构 - AlphaStar使用长序列建模模型。模型从游戏界面接收的数据是这些单元的单元和属性的列表。在神经网络计算之后,输出在游戏中执行的指令。这个神经网络的基础是Transformer网络,它结合了深度LSTM网络核心,自动回归策略标题和指针网络,以及集中评分基准。

300ba2904a603cae912a8900f1b45d46.png

AlphaStar联盟中的个人形成了明显的战略分布

培训策略 - AlphaStar首先在高水平的人类竞赛基础上进行有监督的学习培训(模仿学习),然后进行自我游戏。在自我游戏的过程中,使用了群体强化学习的想法:AlphaStar自我游戏过程总是同时记录和更新网络的多个不同版本,维持一个名为AlphaStar联盟的组; AlphaStar联盟中的不同网络有不同的战斗。策略,学习目标等,保持了团队的多样性,整个团队的游戏学习保证了持续稳定的性能提升,而新版本不会“忘记”如何击败最早的版本。

培训结果输出 - 当需要输出网络作为最终培训结果时,使用AlphaStar联盟中的Nash分布进行抽样,您可以获得已发现的各种策略的综合最佳解决方案。

计算需求 - 为了支持AlphaStar的大量不同版本? Agent的战斗和更新,DeepMind已经构建了一个大规模可扩展的分布式培训环境,使用最新的Google? TPUv3。 AlphaStar联盟?的自我竞争培训过程耗时14天,每个AlphaStarTM代理使用16个TPU,最终达到每个代理200年的游戏时间。训练后的模型已准备好在单个消费者GPU上运行。

运行统计 - 在1月版本中,AlphaStarTM的平均APM为280,峰值APM超过1000,平均延迟为350毫秒;感兴趣区域的速度约为每分钟30次。

在AlphaStar测试的大型动作空间中的长序列建模和小组强化学习的训练策略都是积极的技术探索,以提高强化学习算法的上限和处理复杂环境的长期任务。我们期待尽快看到DeepMind的论文,很快就会发现基于强化学习的决策系统已经发展得更加成熟。当然,喜欢“星际争霸2”的读者可以准备为DeepMind的这篇论文贡献自己的力量!

雷锋网人工智能技术评论报告。

热门浏览
热门排行榜
热门标签
日期归档