中图网

>

人工智能

中外学者论AI强化学习

作者：柯良军、王小强

出版社：清华大学出版社出版时间：2017-12-01

开本：其他页数： 177

本类榜单：计算机/网络销量榜

中图价:¥33.8(4.9折) 定价 ~~¥69.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满39元免运费

?新疆、西藏除外

温馨提示：5折以下图书主要为出版社尾货，大部分为全新（有塑封/无塑封），个别图书品相8-9成新、切口
有划线标记、光盘等附件不全详细品相说明>>

本类五星书更多>

>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥38.8¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥49.3¥69
>
第一行代码Android

第一行代码Android

¥58.4¥99
>
深度学习

深度学习

¥92.4¥168
>
Unreal Engine 4蓝图完全学习教程

Unreal Engine 4蓝图完全学习教程

¥72.2¥168
>
深入理解计算机系统-原书第3版

深入理解计算机系统-原书第3版

¥104.3¥139
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

¥21¥49.9

商品详情
商品评论(0条)

中图价:¥33.8 加入购物车

版权信息
本书特色
内容简介
目录
作者简介

中外学者论AI强化学习版权信息

ISBN：9787302532408
条形码：9787302532408 ; 978-7-302-53240-8
装帧：平装-胶订
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
人工智能

中外学者论AI强化学习本书特色

本书介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼近理论的强化学习及深度强化学习等。本书以教学为目标进行选材，力求阐述严谨、重点突出、深入浅出，以便于教学与自学。本书面向所有对强化学习感兴趣的读者，可作为高等学校理工科高年级本科生、研究生强化学习课程教材或参考书。

中外学者论AI强化学习内容简介

本书介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼近理论的强化学习及深度强化学习等。本书以教学为目标进行选材，力求阐述严谨、重点突出、深入浅出，以便于教学与自学。本书面向所有对强化学习感兴趣的读者，可作为高等学校理工科高年级本科生、研究生强化学习课程教材或参考书。

中外学者论AI强化学习目录

第 1章绪论. 1 1.1引言 . 1 1.2解决复杂问题的朴素思想 . 3 1.2.1数学建模与优化 4 1.2.2采样和估计 . 4 1.2.3逼近 . 5 1.2.4迭代 . 5 1.3强化学习简史 . 7 1.4本书主要内容及结构 . 7 1.5小结 . 8 1.6习题 . 9
参考文献 9 第 2章基础知识 .10 2.1运筹学简明基础 .10 2.1.1无约束非线性规划优化方法 11 2.1.2 KKT条件 .13 2.1.3凸规划的性质 13 2.2概率与统计简明基础 14 2.2.1概率论基本概念 .14 2.2.2概率论的收敛定理 16 2.2.3统计学的基本概念 17 2.2.4*大似然估计法 .17 2.2.5估计量的优良性评估 18 2.2.6采样与随机模拟 .19 2.2.7 Monte Carlo方法简介 .20 2.2.8重要采样法 21
2.3小结 22 2.4习题 23
参考文献 .23 第
**一篇
基于于模模型型的的强强化化学学习一篇基
于模型的强化学习第 3章多摇臂问题26 3.1动作值方法 27 3.2非平稳多摇臂问题 28 3.3 UCB动作选择 .29 3.4梯度摇臂算法 30 3.5习题 30
参考文献 .30 第 4章 Markov决策过程 .31 4.1定义和记号 31 4.2有限 Markov决策过程 .32 4.3 Bellman方程 .33 4.4*优策略 .35 4.5小结 38 4.6习题 38
参考文献 .39 第 5章动态规划 .40 5.1策略评估 .40 5.2策略改进 .41 5.3策略迭代 .42 5.4值迭代 44 5.5异步动态规划 45 5.6收敛性证明 46 5.7小结 47 5.8习题 47 参考文献 .47 第
第二二篇
基于于采采样估计计的的强强化化学学习二篇基
于采样
-估
计的强化学习第 6章策略评估 .50 6.1基于 Monte Carlo方法的策略评估 50 6.1.1同策略 Monte Carlo策略评估 .51 6.1.2异策略 Monte Carlo策略评估 .53 6.2基于时序差分方法的策略评估 .55 6.3 n步预测 .60 6.4小结 63 6.5习题 63
参考文献 .64 第 7章策略控制 .65 7.1同策略 Monte Carlo控制 .65 7.2同策略时序差分学习 67 7.3异策略学习 69 7.4基于 TD(λ)的策略控制 71 7.5实例 72 7.5.1问题介绍 .73 7.5.2 MDP模型的要素 .73 7.5.3策略评估 .74 7.5.4策略控制 .74 7.6小结 75 7.7习题 75
参考文献 .75 第 8章学习与规划的整合76 8.1模型和规划 76 8.2 Dyna：整合规划、动作和学习 .77 8.3几个概念 .79 8.4在决策关头的规划 80 8.4.1启发式算法 80 8.4.2 rollout算法 .81 8.4.3 Monte Carlo树搜索 .81 8.5小结 82
8.6习题 83
参考文献 .83 第
第三三篇
基于于逼逼近近理理论论的的强强化化学学习三篇基
于逼近理论的强化学习第 9章值函数逼近86 9.1基于随机梯度下降法的值函数逼近 87 9.2基于随机梯度下降法的 Q-值函数逼近 90 9.3批处理 92 9.3.1线性*小二乘值函数逼近 92 9.3.2线性*小二乘 Q-值函数逼近 .93 9.4小结 94 9.5习题 94
参考文献 .94 第 10章策略逼近 .95 10.1策略梯度法 95 10.1.1*优参数问题的目标函数 96 10.1.2策略梯度 97 10.1.3梯度计算 97 10.1.4 REINFORCE算法 .99 10.2方差减少方法 .99 10.2.1利用一个评论 .99 10.2.2利用基准线 101 10.3小结 104 10.4习题 104
参考文献 . 105 第 11章信赖域策略优化 . 106 11.1预备知识 . 107 11.2单调改进一般性随机策略的方法 109 11.3参数化策略的优化 110 11.4基于采样的目标和约束估计 . 111 11.5实用算法 . 113 11.6小结 114 11.7习题 114
参考文献 . 114 第
第四四篇
深度度强强化化学学习四篇深
度强化学习第 12章深度学习 . 116 12.1神经网络基础 . 116 12.1.1神经网络解决问题的基本流程 117 12.1.2激活函数 117 12.1.3损失函数 119 12.1.4优化算法 120 12.2典型深度神经网络结构 . 123 12.2.1深度的作用 123 12.2.2卷积神经网络 . 124 12.2.3循环神经网络 . 125
参考文献 . 127 第 13章深度 Q-网络 128 13.1 DQN原理 . 129 13.1.1预处理 . 129 13.1.2网络结构 130 13.1.3算法 131 13.1.4深度 Q-网络的训练算法 . 132 13.1.5算法详细说明 . 132 13.2 DQN实例 . 133 13.2.1 Atari 2600游戏介绍 . 133 13.2.2 DQN算法的实现 133 13.3小结 142 13.4习题 142
参考文献 . 142 第 14章深度确定性策略梯度. 144 14.1 DDPG算法介绍 144 14.1.1 DDPG算法的发展介绍 . 144 14.1.2 DDPG算法的原理解析 . 145
14.2 DDPG算法的实现 . 147 14.2.1 Mujoco的安装及使用 . 147 14.2.2 DDPG算法的实现解析 . 149 14.2.3 DDPG算法的训练和测试 . 153
参考文献 . 154 第 15章多智能体强化学习 155 15.1多智能体强化学习介绍 . 155 15.1.1多智能体强化学习的发展简述 155 15.1.2随机博弈 156 15.1.3纳什 Q-学习 . 157 15.2平均场多智能体强化学习原理 . 158 15.2.1平均场近似理论 158 15.2.2平均场多智能体强化学习算法 161 15.3平均场多智能体实验 . 163 15.3.1 MAgent平台 163 15.3.2混合合作-竞争的战斗游戏介绍 . 165 15.3.3 MF-Q和 MF-AC算法的实现解析 . 167 15.3.4战斗游戏的训练与测试 171
参考文献 . 176

展开全部

中外学者论AI强化学习作者简介

柯良军，西安交通大学电信学院自动化系教授、博士生导师。2008年获西安交通大学工学博士学位。2011年10至2012年10月在英国University of Essex访问学习。研究方向为复杂系统建模与优化，尤其是无人智能系统与城市交通系统的建模与优化。在IEEE Transaction on Cybernetics, Omega, European Journal of Operational Research等重要刊物发表论文30余篇，其中SCI检索论文20余篇，出版学术专著1部。担任《IEEE Transactions on Evolutionary Computation》、《IEEE Transaction on Cybernetics》、《 European Journal of Operational Research》、CEC等国际重要期刊和会议的审稿人。先后主持国家自然科学基金等10余项科研课题。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
巴金－再思录
巴金－再思录
巴金
¥15.2~~¥46.0~~
>
推拿
推拿
毕飞宇
¥12.2~~¥32.0~~
>
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
施英巍
¥17.6~~¥55.0~~
>
姑妈的宝刀
姑妈的宝刀
莫言
¥9.6~~¥30.0~~
>
伯纳黛特,你要去哪(2021新版)
伯纳黛特,你要去哪(2021新版)
[美] 玛利亚·森普尔著，何雨珈译
¥15.9~~¥49.8~~
>
山海经
山海经
林非
¥22.7~~¥68.0~~
>
经典常谈
经典常谈
朱自清
¥17.1~~¥39.8~~
>
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
易竹贤
¥9.9~~¥23.0~~