-
>
中医基础理论
-
>
高校军事课教程
-
>
思想道德与法治(2021年版)
-
>
毛泽东思想和中国特色社会主义理论体系概论(2021年版)
-
>
中医内科学·全国中医药行业高等教育“十四五”规划教材
-
>
中医诊断学--新世纪第五版
-
>
中药学·全国中医药行业高等教育“十四五”规划教材
阿尔法零对最优模型预测自适应控制的启示 版权信息
- ISBN:9787302660361
- 条形码:9787302660361 ; 978-7-302-66036-1
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 所属分类:>
阿尔法零对最优模型预测自适应控制的启示 本书特色
本书的目的是提出并构建近似动态规划和强化学习的理论框架。这一框架以两个算法为中心,这两个算法在很大程度上彼此独立地设计出来并通过牛顿法的有力机制融洽地合作使用。本书是原作者在美国亚利桑那州立大学讲课过程中完成。课程视频和课件可从作者网站下载。
阿尔法零对最优模型预测自适应控制的启示 内容简介
大致内容:**章,从阿尔法零的很好性能出发,深入解读其背后着实不易的成长历程,揭示其数学模型。第二章,从确定性和随机动态规划问题入手,介绍决策问题的数学模型。第三章,从抽象视角回顾纷繁复杂的强化学习算法,揭示值函数近似与滚动改进的重要作用。第四章,从经典的线性二次型**控制问题入手,分析从阿尔法零的成功中学到的经验。第五章,分别从鲁棒、自适应、模型预测控制等问题入手,分析值函数近似与滚动改进对算法性能的提升潜力。第六章,从离散优化的视角审视阿尔法零的成功经验。第七章,总结全书。适合作为本领域研究者作为学术专著阅读,也适合作为研究生和本科生作为参考书使用。
阿尔法零对最优模型预测自适应控制的启示 目录
1.1 离线训练和策略迭代 3
1.2 在线学习与值空间近似——截断滚动 4
1.3 阿尔法零的经验 6
1.4 强化学习的一种新概念框架 8
1.5 注释与参考文献 9
第 2 章 确定性和随机的动态规划 13
2.1 无限时段上的*优控制 14
2.2 值空间近似 18
2.3 注释与参考文献 . 21
第 3 章 强化学习的抽象视角 22
3.1 贝尔曼算子 23
3.2 值空间近似和牛顿法 28
3.3 稳定域 32
3.4 策略迭代、滚动和牛顿法 36
3.5 在线对弈对于离线训练过程有多敏感? 41
3.6 何不直接训练策略网络并在使用时摒弃在线对弈呢? 43
3.7 多智能体问题和多智能体滚动 44
3.8 在线简化策略迭代 47
3.9 例外情形 52
3.10 注释与参考文献 57
第 4 章 线性二次型情形——例证 59
4.1 *优解 60
4.2 稳定线性策略的费用函数 61
4.3 值迭代 63
4.4 单步和多步前瞻——牛顿步的解释 64
4.5 灵敏度问题 67
4.6 滚动和策略迭代 . 69
4.7 截断滚动——前瞻长度问题 71
4.8 线性二次型问题中的例外行为 73
4.9 注释与参考文献 . 74
第 5 章 自适应和模型预测控制 75
5.1 具有未知参数的系统——鲁棒和 PID 控制 76
5.2 值空间近似、滚动和自适应控制 . 78
5.3 值空间近似、滚动和模型预测控制 81
5.4 末端费用近似——稳定性问题 83
5.5 注释与参考文献 . 87
第 6 章 有限时段确定性问题——离散优化 88
6.1 确定性离散空间有限时段问题 89
6.2 一般离散优化问题 92
6.3 值空间近似 95
6.4 离散优化的滚动算法 98
6.5 采用多步前瞻的滚动——截断滚动 111
6.6 约束形式的滚动算法 114
6.7 使用部分可观马尔可夫决策问题模型滚动的自适应控制 124
6.8 极小化极大控制的滚动 . 130
6.9 小阶段费用与长时段——连续时间滚动 136
6.10 结语 142
附录 A 不动点问题的牛顿法 145
A.1 可微不动点问题的牛顿法 145
A.2 无须贝尔曼算子可微性的牛顿法 148
参考文献 152
阿尔法零对最优模型预测自适应控制的启示 作者简介
贾庆山,清华大学长聘教授。主要研究信息物理融合能源系统的优化理论与方法。发表四十篇IEEE汇刊论文。获得2009年国家自然科学奖二等奖、2018年国家自然科学奖二等奖、2020年自然科学奖二等奖,多次获得国际期刊、国际会议最佳论文奖。担任IEEE Internet of Things Activity Board委员、IEEE控制系统协会Board of Governors委员、IEEE控制系统协会北京分会主席、IEEE机器人与自动化协会智能建筑专业委员会副主席、IFAC智慧城市控制专业委员会主席。曾任IEEE控制系统协会离散事件系统专业委员会主席。担任中国自动化学会第十一届控制理论专业委员会委员兼副秘书长,中国自动化学会第一届工业控制系统信息安全专业委员会委员。
- >
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
¥17.4¥58.0 - >
烟与镜
烟与镜
¥17.3¥48.0 - >
二体千字文
二体千字文
¥21.6¥40.0 - >
我从未如此眷恋人间
我从未如此眷恋人间
¥17.5¥49.8 - >
诗经-先民的歌唱
诗经-先民的歌唱
¥18.7¥39.8 - >
中国人在乌苏里边疆区:历史与人类学概述
中国人在乌苏里边疆区:历史与人类学概述
¥25.0¥48.0 - >
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
¥9.3¥19.0 - >
回忆爱玛侬
回忆爱玛侬
¥9.8¥32.8