课程简介: 课程强调从零开始,动手操作;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解强化学习的模型理论和代码实践,梳理强化学习的技术框架,从根本上解决如何使用模型、优化模型的问题;每次课中,首先阐述算法理论和少量公式推导,然后使用真实和模拟数据,进行数据挖掘、机器学习、深度学习、强化学习的数据分析、特征选择、调参和结果比较。 课程目标: 通过课程学习,可以理解强化学习的思维方式和关键技术;了解强化学习在当前工业界的落地应用;能够根据数据分布选择合适的算法模型并书写代码,初步胜任使用Python进行强化学习等工作。 课程特点: 课程重视代码实践,使用讲师在工业界10余年的实际经历组织内容,进行强化学习模型的落地应用。虽然课程坚持推导公式,但更重视强化学习的原理与实操;将实际工作中遇到的行业应用和痛点做最直观切实的展示;重视算法模型的同时,更强调实际问题中应该如何模型选择、特征选择和调参。 讲授者在科学院做科研,同时在多家企业任职首席或顾问,有丰富的工业经验,能够保证听者尽快了解数据挖掘、机器学习、深度学习的本质和实践应用。 讲师介绍: 邹伟,睿客邦创始人、华东建筑设计研究总院研究员、山东交通学院客座教授、南昌航空大学双师型教师、中国软件行业协会专家委员、上海市计划生育科学研究所特聘专家、天津大学创业导师、中国医药教育协会老年运动与健康分会学术委员;领导睿客邦与全国二十多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域。 课程大纲: 第一章:强化学习概述 1.强化学习的定义和原理 2.智能体的组成 3.强化学习和其他机器学习的关系 4.强化学习的分类 5.强化学习的研究方法 6.强化学习的重点概念 第二章:马尔可夫决策过程 1.马尔可夫性 2.马尔可夫过程 3.马尔可夫决策过程 4.贝尔曼期望方程 5.贝尔曼最优方程 6.最优策略 第三章:动态规划 1.动态规划基本思想 2.策略评估 3.策略改进 4.策略迭代算法 5.值迭代算法 代码和案例实践:网格世界寻宝 6.网格世界环境描述 7.策略迭代算法运行流程 8.值迭代算法运行流程 9.核心代码演示 10.算法小结 第四章:蒙特卡罗 1.蒙特卡罗核心思想 2.蒙特卡罗评估 3.增量式方法 4.蒙特卡罗控制 5.在线策略/离线策略 6.在线策略蒙特卡罗算法 7.重要性采样离线策略蒙特卡罗算法 8.加权重要性采样离线策略蒙特卡罗算法 代码和案例实践: “十点半”游戏 9.游戏介绍及环境描述 10.在线策略蒙特卡罗算法运行流程 11.加权重要性采样离线策略蒙特卡罗算法运行流程 12.核心代码演示 13.算法小结 第五章:时序差分 1.时序差分简介、TD目标值 / TD 误差 2.DP/MC/TD对比 3.在线策略TD:Sarsa算法 4.离线策略TD:Q-learning算法 代码和案例实践:带陷阱的网格世界寻宝 5.环境描述 6.Sarsa算法运行流程 7.Q-learning算法运行流程 8.核心代码演示 9.算法小结 第六章:资格迹 1.前向视角/后向视角 2.多步TD 3.前向TD(λ)算法 4.后向TD(λ)算法 5.前向Sarsa(λ)算法 6.后向Sarsa(λ)算法 7.前向Watkins’s Q(λ)算法 8.后向Watkins’s Q(λ)算法 代码和案例实践:风格子世界 9.环境描述 10.后向Sarsa (λ) 算法运行流程 11.后向Watkins’s Q(λ)算法运行流程 12.核心代码演示 13.算法小结 第七章:值函数逼近 1.表格型强化学习/函数近似型强化学习 2.线性逼近/非线性逼近 3.增量法 4.值函数逼近-Sarsa算法 5.批量法 6.值函数逼近-Q-learning算法 7.人工神经网络(卷积、池化、全连接) 8.DQN方法 9.Double DQN方法 10.Dueling DQN方法 代码和案例实践:飞翔的小鸟 11.游戏简介及环境描述 12.DQN算法运行流程 13.核心代码演示 14.算法小结 第八章:随机策略梯度 1.随机策略梯度简介 2.策略梯度优缺点 3.策略梯度方法分类 4.随机策略梯度定理 5.REINFORCE方法 6.带基线的REINFORCE方法 代码和案例实践:小车上山 7.游戏简介及环境描述 8.REINFORCE算法运行流程 9.核心代码演示 10.算法小结 第九章: Actor-Critic及变种 1.AC与带基线 REINFORCE的不同 2.在线策略AC方法 3.离线策略AC方法 4.兼容性近似函数定理 5.A2C方法 6.异步方法简介及核心思想 7.异步 Q-learning 方法 8.异步 Sarsa 方法 9.异步 n步 Q-learning方法 10.A3C方法 代码和案例实践:小车倒立摆 11.游戏简介及环境描述 12.AC算法运行流程 13.核心代码演示 14.算法小结 代码和案例实践:钟摆 15.游戏简介及环境描述 16.A3C算法运行流程 17.核心代码演示 18.算法小结 第十章:确定性策略梯度 1.确定性策略 2.随机策略梯度的缺陷 3.确定性策略梯度定理 4.在线策略确定性AC方法 5.离线策略确定性AC方法 6.兼容性近似函数定理 7.DDPG方法 代码和案例实践:钟摆 8.游戏简介及环境描述 9.DDPG算法运行流程 10.核心代码演示 11.算法小结 第十一章:学习与规划 12.有模型方法和无模型方法 13.模型拟合 14.Dyna框架 15.Dyna-Q算法 16.Dyna-Q+ 17.优先级扫描的Dyna-Q 18.Dyna-2算法 代码和案例实践:迷宫寻宝 19.游戏简介及环境描述 20.Dyna-Q算法运行流程 21.核心代码演示 22.算法小结 第十二章:探索与利用 1.探索-利用困境 2.多臂赌博机问题 3.朴素探索 4.乐观初始值估计 5.置信区间上界 6.概率匹配 7.信息价值 代码和案例实践:多臂赌博机游戏 8.游戏简介及环境描述 9.算法运行流程(ε-贪心算法 、 UCB1 、汤普森采样) 10.核心代码演示 11.算法小结 第十三章:博弈强化学习 12.博弈及博弈树 13.极大极小搜索 14.Alpha-Beta 搜 索 15.蒙特卡罗树搜索 16.AlphaGo基本原理 17.AlphaGo神经网络 18.AlphaGo蒙特卡罗树搜索 19.AlphaGo的整体思路 20.AlphaGo Zero下棋原理 21.AlphaGo Zero的网络结构 22.AlphaGo Zero的蒙特卡罗树搜索 23.AlphaGo Zero总结 24.AlphaZero 代码和案例实践:五子棋 25.游戏简介及环境描述 26.算法运行流程(MCTS算法和 MCTS+神经网络算法) 27.核心代码演示 28.算法小结 授课时间: 课程将于2020年7月25日开课,课程持续时间大约为15周 新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取100元固定收费+300元暂存学费,学习圆满则全额奖励返还给学员! 本门课程本来打算完全免费,某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动,为了防止一些朋友在学习途中半途而废,浪费了讲师的付出,为此我们计划模仿某些健身课程,使用“逆向收费”的方法。 在报名时每位报名者收取400元,其中100元为固定 收费,另外300是暂存学费,即如果学员能完成全部课程要求,包括完成全部的书面和互动作业,则300元全款退回。如果学员未能坚持到完全所有的学习计划任务,则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力! 授课方式: 1、 学习方式:老师发布教学资料、教材,幻灯片和视频,学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。 2、 学习作业:老师每周布置书面及互动作业,学员需按时按质完成作业。 3、 老师辅导:根据作业批改中发现的问题,针对性给予辅导,帮助大家掌握知识。 4、 结业测验:通过测验,完成学业。 您是否对此课程还有疑问,那么请 点击进入 FAQ,您的问题将基本得到解答 咨询QQ: 2222010006 (上班时间在线) 技术热点、 行业资讯,培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想!欢迎关注!
打开微信,使用扫一扫功能,即刻关注炼数成金官方微信账户,不容错过的精彩,期待您的体验!!! |