报名 | 国庆深度强化学习实战特训营

摘要: 强化学习被 DeepMind 的科学家认为是通往通用智能的必经之路。

11-08 22:19 首页 机器之心

人工智能有望在工业、技术和数字革命层面带来前所未有的社会变革。能够进行感测、归因和操作的机器将加快众多领域内大规模问题的解决,这些领域包括科学、金融、医学和教育,进而增强人类的能力,并帮助我们实现更远、更快的发展。受到摩尔定律和海量数据的推动,人工智能成为了当今众多技术创新的核心。


强化学习,是目前DeepMind的主攻方向,被DeepMind的科学家认为是通往通用智能(General AI)的必经之路。


普林斯顿大学助理教授王梦迪认为强化学习是人工智能的未来。


当强化学习与深度学习结合,深度强化学习技术,铸就了围棋上帝AlphaGO,帮助OpenAI在Dota比赛中碾压人类顶级玩家。强化学习在金融、游戏AI、机器人等领域有着广阔的应用前景。掌握深度强化学习技术的工程师,腾讯、网易的游戏AI部门、以及大型金融机构的急缺人才,在其职业发展道路中,无疑先人一步。



第一期线下课程现场


探灵教育科技在8月、9月已经成功举办两期强化学习入门进阶培训课程,受到学员一致好评。服务的学员来自卡内基梅隆大学(CMU)、中国科学院、微软亚洲研究院、北京邮电大学、解放军理工大学、海军航空工程学院、军事医学科学院、中国电子科技集团、北京交通大学、思科、口袋科技、途牛等多家院校和企业。根据学员的反馈以及我们最新的教研成果,我们进一步对课程进行了升级、完善。国庆期间,特别推出为期五天的强化学习特训营活动,通过五天的理论讲解以及编程实战,帮助大家全面、系统的了解、掌握强化学习技术。


面向对象


强化学习的小白、初学者、自己已有一定基础但是没有建立系统知识体系的以及其他对于强化学习感兴趣的人士。有一定的微积分、线性代数、概率论基础,有python编程基础。学员上课需要自带电脑。


课程安排

第一天:授课老师 Traffas


1.  什么是强化学习以及强化学习的方法汇总?

强化学习可以让AlphaGo无需人类的指导,自己‘左右互搏’,就能悟到更佳出奇制胜的围棋技巧;可以让机器人的行动不再需要人类繁杂的编程,自己就可以适应所处的环境。为什么强化学习有如此神奇的功能?到底什么是强化学习?本课将为你娓娓道来....

2.  强化学习领域的基础概念。

解锁强化学习领域的术语。介绍增强学习可以解决的问题。介绍Bellman Equation原理,介绍RL和动态规划的异同点。介绍传统的tubular based  RL。

3.介绍安装Python2.7+Anconda+jupyter Notebook

4.  动手编写第一个增强学习的python 程序(30分钟),找到玩老虎机的最优策略。

5.基于蒙特卡罗强化学习介绍、同策略、异策略强化学习算法介绍。

6. 答疑、交流。


第二天 授课老师 Traffas


1、  强化学习算法实践,基于强化学习玩21点游戏以及grid world游戏。

2、  强化学习时间差分算法。介绍同策略Q-learning强化学习方法以及异策略Sara算法。比较和蒙特卡洛算法异同点。介绍eligibility Tree以及TD(lamda)算法。

3、  Gym环境构建以及强化学习算法实现。包括Gym环境的安装、测试,Gym环境关键函数讲解以及如何创建自定义Gym环境。

4、  学员动手实践

5、  老师答疑、交流。


第三天 授课老师 Traffas


1、DQN详解

DQN是深度强化学习中的强大武器,Deep Mind团队就是利用DQN技术使得计算机在Atari电子游戏中的表现超过了人类的顶级玩家。同时,我们会讲解DQN的变种Double DQN、Prioritized Replay,Dual DQN。

2、实践准备

介绍深度神经网络DNN以及RNN.。Keras安装,动手设计RNN网络,解决分类问题。

3、深度强化学习实战,亲自动手编写一个可以打败游戏高手的AI。

4、Bug调试、老师答疑、指导、交流。


第四天 授课老师 郭宪


1、策略梯度方法:

教学内容包括: 策略梯度方法介绍, 似然率策略梯度推导及重要性采样视角推导,似然率策略梯度的直观理解, 常见的策略表示,常见的减小方差的方法:引入基函数法,修改估计值函数法

2、编程实践课:基于tensorflow和gym实现小车倒立摆系统、乒乓球游戏

3、TRPO 方法介绍及推导:具体包括替代回报函数的构建,单调的改进策略,TRPO 实用算法介绍,共轭梯度法搜索可行方向,PPO 方法,基于 python 的 TRPO 方法实现

4、编程指导、交流、答疑。


第五天:主讲老师:郭宪


1、AC方法,具体内容包括随机策略与确定性策略比较、 随机策略 AC 的方法、确定性策略梯度方法、DDPG 方法及实现、A3C 方法讲解、基于 python 的 DDPG 方法实现。

2、AC方法及DDPG、A3C实现。

3、逆向强化学习介绍,包括逆向强化学习分类、学徒学习、 MMP 方法、结构化分类方法、  神经逆向强化学习、最大熵逆向强化学习、相对熵逆向强化学习、深度逆向强化学习。

4、编程指导、答疑、交流。


课程咨询、报名,请扫描海报中二维码,咨询课程秘书,或者联系QQ:339197723,注明国庆课程报名咨询



讲师介绍


郭宪,南开大学计算机与控制工程学院博士后。2009 年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于 2016 年 1 月获得工学博士学位,期间在国内外知名杂志和会议发表论文数 10 篇。2016 年以来,郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。郭博士于 2017 年 3 月开始在知乎专栏强化学习知识大讲堂,其深入浅出的讲解收到广大知友一致好评。即将出版《强化学习深入浅出完全教程》一书。

知乎专栏链接: https://zhuanlan.zhihu.com/sharerl


Traffas,于2014年7月在瑞典皇家理工学院获得硕士学位,曾在瑞典Accedo公司做程序开发,现在在香港理工大学计算机系攻读博士学位,任研究助理。Traffas的研究方向为机器学习、增强学习。目前已发表六篇论文,其中包括中国计算机学会(CCF)推荐的B类论文1篇,C类会议论文1篇.


活动说明

1.授课时间地点:10.2-10.6日   


2.北京海淀区(具体地点另行通知)


3.招生人数:精品小班制,上限30人,报名15人以上开班。


4.学费:7999  早鸟票7499(9.24日之前)


5.报名时预付订金即可,在课程现场补齐剩余票款。普通票预付:1499元 ; 早鸟票预付:999。


6.活动说明:凡报名参加本次国庆特训营的学员,一年之内可以免费参加两次由我公司主办的为期两天的线下课程(价值5999元),后续我们会陆续推出强化学习、深度学习、机器学习等线下课。


7.票价不包含交通住宿费,主办方可以协助有住宿需求的学员拼房。


8.购票后如有其它原因无法参加本次课程,可凭票参加下期课程。


9.如有问题,请加客服微信:机器之心小助手II(syncedai2)。


点击「阅读原文」立即预定课程。


首页 - 机器之心 的更多文章: