中图网

>

计算机理论

深度强化学习算法与实践:基于PyTorch的实现

作者：张校捷

出版社：电子工业出版社出版时间：2022-02-01

开本： 16开 页数： 256

本类榜单：计算机/网络销量榜

中图价:¥76.7(7.1折) 定价 ~~¥108.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满39元免运费

?新疆、西藏除外

本类五星书更多>

>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥38.8¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥49.3¥69
>
第一行代码Android

第一行代码Android

¥58.4¥99
>
深度学习

深度学习

¥92.4¥168
>
Unreal Engine 4蓝图完全学习教程

Unreal Engine 4蓝图完全学习教程

¥72.2¥168
>
深入理解计算机系统-原书第3版

深入理解计算机系统-原书第3版

¥104.3¥139
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

¥21¥49.9

商品详情
商品评论(0条)

中图价:¥76.7 加入购物车

版权信息
本书特色
内容简介
目录
作者简介

深度强化学习算法与实践:基于PyTorch的实现版权信息

ISBN：9787121429729
条形码：9787121429729 ; 978-7-121-42972-9
装帧：80g胶版纸
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
计算机理论

深度强化学习算法与实践:基于PyTorch的实现本书特色

1. 理论结合实践，从*基础的知识开始，深入算法本质 2. 介绍各种强化学习环境及其使用方法 3. 利用PyTorch动态计算图的特点构造深度学习算法 4. 涵盖各种强化学习算法，包括基于价值函数和基于策略的强化学习算法 5. 介绍强化学习在不同领域的应用，如何根据具体情况选择不同的强化学习算法

深度强化学习算法与实践:基于PyTorch的实现内容简介

本书从强化学习的基础知识出发，结合PyTorch深度学习框架，介绍深度强化学习算法各种模型的相关算法原理和基于PyTorch的代码实现。作为一本介绍深度强化学习知识的相关图书，本书介绍了常用的强化学习环境，基于价值网络的强化学习算法和基于策略梯度的强化学习算法，以及一些常用的比较流行的深度强化学习算法（如蒙特卡洛树搜索）等。另外，还介绍了深度强化学习算法在实际问题中的一些应用。

深度强化学习算法与实践:基于PyTorch的实现目录

第1章强化学习简介 1
1．1 强化学习的历史 1
1．1．1 人工智能的历史 1
1．1．2 强化学习和人工智能的关系 4
1．2 强化学习基本概念 8
1．2．1 智能体相关概念 8
1．2．2 马尔可夫决策过程 9
1．2．3 动作价值函数和状态-动作价值函数 11
1．3 强化学习算法的分类 12
1．3．1 基于模型的（Model-Based）和无模型的（Model-Free） 13
1．3．2 基于策略的（Policy-Based）和基于价值的（Value-Based） 13
1．3．3 在线（On-policy）算法和离线（Off-policy）算法 13
1．4 深度强化学习基本概念 14
1．5 强化学习的优缺点 15
1．6 蒙特卡洛梯度估计 15
1．7 总结 19
第2章深入了解强化学习 20
2．1 强化学习基本要素 20
2．1．1 马尔可夫决策过程和回溯图 20
2．1．2 贪心策略和*优策略 22
2．1．3 *优策略的迭代算法 24
2．2 强化学习的探索和利用 26
2．3 策略迭代和价值迭代 32
2．3．1 策略迭代 32
2．3．2 价值迭代 33
2．4 贝尔曼方程及其应用 35
2．5 总结 37
第3章强化学习环境 38
3．1 简单的强化学习环境 39
3．1．1 网格世界（Grid World） 39
3．1．2 多臂赌博机（Multi-armed Bandit） 40
3．1．3 井字棋（Tic-Tac-Toe） 40
3．2 OpenAI Gym环境 47
3．2．1 Gym环境的安装和基本接口 47
3．2．2 Gym的经典控制环境 50
3．2．3 Gym的Atari强化学习环境 53
3．2．4 Gym的MuJoCo环境 55
3．2．5 自定义Gym强化学习环境 57
3．3 DeepMind Lab强化学习环境 60
3．4 其他强化学习环境 63
3．4．1 PySC2 强化学习环境 63
3．4．2 OpenSpiel强化学习环境 66
3．5 深度强化学习框架简介 68
3．5．1 Dopamine框架 68
3．5．1 ReAgent框架 70
3．6 总结 71
第4章深度Q函数强化学习算法 72
4．1 经典深度Q网络算法（DQN） 72
4．1．1 DQN算法理论背景 73
4．1．2 DQN模型结构 75
4．1．3 DQN模型的输入 78
4．1．4 DQN模型的训练 80
4．1．5 结合DQN算法的采样和模型的训练 82
4．2 双网络Q学习算法（Double Q-Learning） 84
4．2．1 算法原理 84
4．2．2 算法实现 86
4．2．3 算法效果 88
4．3 优先经验回放（Prioritized Experience Replay） 89
4．3．1 算法原理 89
4．3．2 算法实现 92
4．3．3 算法效果 95
4．4 竞争DQN算法（Duel DQN） 96
4．4．1 算法原理 98
4．4．2 算法实现 99
4．4．3 算法效果 102
4．5 分布形式的DQN算法（Distributional DQN） 103
4．5．1 分类DQN模型 103
4．5．2 分类DQN模型算法实现 106
4．5．3 分类DQN模型算法效果 110
4．5．4 分位数回归DQN模型 111
4．5．5 分位数回归DQN模型算法实现 112
4．5．6 分位数回归DQN模型算法效果 115
4．5．7 分类DQN模型小结 116
4．6 彩虹算法（Rainbow） 117
4．6．1 彩虹算法对DQN的优化 117
4．6．2 彩虹算法的部分实现 120
4．6．3 彩虹算法的模型效果 125
4．7 总结 128
第5章策略梯度强化学习算法 129
5．1 经典策略梯度算法（VPG） 130
5．1．1 算法原理 130
5．1．2 基于离散动作空间算法的模型实现 132
5．1．3 基于离散动作空间算法的运行结果 137
5．1．4 基于连续动作空间算法的实现 138
5．1．5 基于连续动作空间算法的运行结果 143
5．1．6 小结 144
5．2 优势演员-评论家算法（A2C和A3C） 145
5．2．1 算法原理 145
5．2．2 泛化优势估计（Generalized Advantage Estimation） 147
5．2．3 熵正则化方法 149
5．2．4 优势演员-评论家算法的实现（离散动作空间） 149
5．2．5 优势演员-评论家算法运行效果（离散动作空间） 158
5．2．6 算法实现（连续动作空间） 158
5．2．7 运行效果（连续动作空间） 160
5．2．8 异步优势演员-评论家算法的实现 160
5．2．9 异步优势演员-评论家算法的效果 164
5．3 置信区间策略优化算法 165
5．3．1 算法原理 166
5．3．2 近端策略优化算法的实现 172
5．3．3 近端策略优化算法的效果（离散动作空间） 174
5．4 克罗内克分解近似置信区间算法（ACKTR） 175
5．4．1 算法原理 175
5．4．2 算法实现 179
5．4．3 算法效果 183
5．5 软演员-评论家算法（SAC） 184
5．5．1 算法的基本原理 184
5．5．2 算法的实现（连续动作空间） 186
5．5．3 算法的效果（连续动作空间） 193
5．6 总结 194
第6章其他强化学习算法 195
6．1 噪声网络（Noisy Networks） 195
6．1．1 噪声网络的原理 195
6．1．2 噪声网络的实现 197
6．1．3 噪声网络的效果 201
6．2 深度确定性策略梯度算法（DDPG） 203
6．2．1 算法原理 203
6．2．2 算法实现 205
6．2．3 算法效果 209
6．3 双延迟深度确定性策略梯度算法（TD3） 210
6．3．1 算法原理 210
6．3．2 算法实现 211
6．3．3 算法效果 213
6．4 蒙特卡洛树搜索（MCTS） 214
6．4．1 算法原理 214
6．4．2 算法的基本步骤 215
6．4．3 算法使用的模型 219
6．4．4 算法的博弈树表示 221
6．4．5 算法的搜索执行过程 222
6．5 总结 225
第7章深度强化学习在实践中的应用 226
7．1 神经网络结构搜索（NAS） 226
7．1．1 算法原理 226
7．1．2 算法效果 229
7．1．3 总结 230
7．2 超分辨率模型（SRGAN） 230
7．2．1 算法原理 231
7．2．2 总结 232
7．3 序列生成模型（SeqGAN） 233
7．3．1 算法原理 233
7．3．2 总结 235
7．4 基于深度强化学习的推荐系统 235
7．4．1 推荐系统的强化学习环境构建 236
7．4．2 推荐系统的强化学习算法 237
7．4．3 总结 238
7．5 基于深度强化学习的交易系统 239
7．5．1 算法原理 239
7．5．2 总结 241
7．6 总结 241
附录A 本书使用的数学符号 242
参考文献 244

展开全部

深度强化学习算法与实践:基于PyTorch的实现作者简介

张校捷，Shopee资深机器学习工程师，负责推荐系统的算法实现和优化。目前主要使用的技术栈是深度学习框架后端的C/C++/CUDA，以及深度学习框架前端的Python。熟悉主流的深度学习框架，如PyTorch和TensorFlow，同时熟悉计算机视觉、自然语言处理和推荐系统方面的深度学习算法。作者曾多次作为专题演讲嘉宾，受邀参加Google、PyCon和CSDN主办的技术大会。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
中国人在乌苏里边疆区:历史与人类学概述
中国人在乌苏里边疆区:历史与人类学概述
[苏]阿尔谢尼耶夫著，刘宇译
¥35.5~~¥48.0~~
>
随园食单
随园食单
袁枚
¥15.4~~¥48.0~~
>
山海经
山海经
林非
¥17.7~~¥68.0~~
>
月亮虎
月亮虎
[英] 佩内洛普·莱夫利著，郭国良译
¥14.4~~¥48.0~~
>
诗经-先民的歌唱
诗经-先民的歌唱
裴溥言
¥13.5~~¥39.8~~
>
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
施英巍
¥17.6~~¥55.0~~
>
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
易竹贤
¥9.9~~¥23.0~~
>
我与地坛
我与地坛
史铁生
¥27.2~~¥28.0~~