从信息学霸到神级科学家最新章节第74章训练开始_从信息学霸到神级科学家阅读流畅

看众人还没完全搞明白，钱峰顿时有点急了，他手都快指到屏幕里去了：时间差分法啊，这是一个隐式的时间差分啊。

你们看这个评论家网络，是用每局的胜负来训练的，而它的输出却连到了行动者网络的每一个时间步上，用来训练行动者网络。

这就像是行动者的每一步棋，都有一个老师告诉他这一步让他的胜率是提高了还是下降了，以及具体是提高下降了多少。

这样的话，再也不需要通过蒙特卡洛法，下完一整局棋再收集一次很高方差的数据了，而是每一步棋，都能对围棋程序做一次迭代训练。

最外层的循环是每下一盘棋训练一次评论家，而内层循环是每一步棋，都根据评论家的指导，训练一次行动者。

其他教授顿时恍然大悟，这个想法...似乎真的可行！

惊讶之余又有些感慨，江铭真的是不断创造奇迹的信息学新星。

竟然真的在众目睽睽之下，基于策略梯度算法之上又有了新的突破。

后生可畏，后生可畏啊！

，文森特感叹：华国金陵大学真的是捡到宝了。

只是今天上午听瑞秋的报告，提到了两个模型对抗训练的方式，突然产生的灵感...，江铭不好意思地解释道。

然而他的话，几位教授只当耳旁风，听听就罢了，根本不会信。

这个算法，和上午瑞秋的生成式对抗网络完全不同，那个算法虽然分成两个模型，但是还是各自训练的。

而江铭，则是将其中一个评论家网络的输出结果，作为梯度，反向传播在行动网络的每一个时间步下，其构思之精巧简直叹为观止。

开始训练吧，我已经迫不及待地想看结果了。

你的计算资源够用吗，不如直接用我们实验室的资源。

文森特不愧是麻省的高级研究员，做事雷厉风行，立马掏出一张纸条，写上了几行数字。

这是我们实验室服务器的IP地址和端口号，这个是一个临时的用户权限密码，你直接连上去用。

如果可以的话，争取这两天就把模型训练出来，测试一下。

江铭接过纸条，礼貌感谢了一下文森特教授。

他还真有点缺计算资源，昨天的训练让他意识到，围棋程序的训练的确需要大量计算资源。

尤其他这次设计的算法框架，江铭直接命名为行动者-评论家框架，虽然提高了训练效率，但是对计算资源的需求可一点不少。

甚至由于两个网络中的数值传递，涉及了更多的地址移动操作，对CPU的性能要求更高。

围棋么...，钱峰思索片刻，道：最近樱花国好像就有一个围棋的世界大赛吧，我去联系一下，也许能安排一个人机大战也说不定。

他作为NIPS的主编，还是在社会各界人脉广泛，自作主张地帮江铭的围棋程序找起了对手。

几个信息学顶尖教授的能量可想而知，很快便安排好了这一切。

他们简直比江铭还要对这个算法有信心，都迫不及待地想在这次的开会的短短一周内就能看到结果。

江铭无奈，一番操作连上了麻省的计算服务器，开始了训练... ... 接下的半天里，江铭穿梭于主会场和几个研讨会分会场。

时间表上但凡他感兴趣的工作，都会去会场听一听报告，许多研究员的创新点子让江铭感到很受启发。

当然，即使是听报告，江铭也会每隔一个小时就打开笔记本，查看一下围棋程序的训练情况。

在他加入了全新的算法框架之后，仅仅训练了三个小时，就看到指标有了变化！

虽然由于使用的是自我对弈方式的原因，胜率仍然在50%上下浮动，但是他注意到评论家网络的方差正在逐渐降低，而行动者网络的动作分布也开始区域集中。

极文学