��ǿ��ѧϰ��Ż��Ʒ��/��ʿ��Ŀ�

��ߣ��

��磺��ѧ��ʱ�䣺2022-09-01

�� 16�� ҳ�� 151

��񵥣��/��

�� ͼ ��:¥73.5(7.5��) �� ~~¥98.0~~ ��¼��ɿ��Ա��

��빺�ﳵ �ղ�

�˷�6Ԫ��39Ԫ��˷�

?�½��س��

��>

>
��ս�в�5000��(��)

��ս�в�5000��(��)

¥38.8¥88
>
��ܲ��.��ʵ��֮·

��ܲ��.��ʵ��֮·

¥49.3¥69
>
��һ�д��Android

��һ�д��Android

¥58.4¥99
>
��ѧϰ

��ѧϰ

¥92.4¥168
>
Unreal Engine 4��ͼ��ȫѧϰ�̳�

Unreal Engine 4��ͼ��ȫѧϰ�̳�

¥72.2¥168
>
��ϵͳ-ԭ��3��

��ϵͳ-ԭ��3��

¥104.3¥139
>
Word/Excel PPT 2013�칫Ӧ�ô��ŵ��ͨ-(��1DVD.��Ƶ��ѧ+�칫ģ��+PDF��)

Word/Excel PPT 2013�칫Ӧ�ô��ŵ��ͨ-(��1DVD.��Ƶ��ѧ+�칫ģ��+PDF��)

¥21¥49.9

��Ʒ��
��Ʒ��(0��)

��ͼ��:¥73.5 ��빺�ﳵ

��Ȩ��Ϣ
��ݼ��
Ŀ¼
��ѡ

��ǿ��ѧϰ��Ż��Ʒ��/��ʿ��Ŀ� ��Ȩ��Ϣ

ISBN��9787030728692
��룺9787030728692 ; 978-7-03-072869-2
װ֡��һ�㽺��ֽ
��
��
��ࣺ
��/��
>
��

��ǿ��ѧϰ��Ż��Ʒ��/��ʿ��Ŀ� ��ݼ��

��߽��Ż��ۡ��ۺͿ��۷��о��ϵͳ�ؽ��Ӧ�Ż��е�ǿ��ѧϰ��Ʒ��ֿ��ѧϰ�㷨��Ժ�ѧϰ��бջ�ϵͳ��ȶ��ԣ��ص��˻��Ż��Ʒ��³��⡢��ҷ��Ͳ��⡢��ֲ�ʽЭͬ��⡢�¼��Ъ��Ż��⣬��ϵͳ��Ż�� ע��۷��ֽ�Ϲ��ʵ��󣬿ɹ��Զ��ƹ��Ŀ��Ա��̼��Ա��Լ��ߵ�ԺУ�Զ��Ӧ��ѧ��רҵ�ĸ��꼶��о��ͽ�ʦ�о��ο��

��ǿ��ѧϰ��Ż��Ʒ��/��ʿ��Ŀ� Ŀ¼

Ŀ¼
��ʿ��Ŀ⡱��
ǰ��
��˵��
��1�� 1
1.1 �ſ�� 1
1.1.1 ��ɢʱ�䶯̬ϵͳ��*�ſ�� 1
1.1.2 ��ʱ�䶯̬ϵͳ��*�ſ�� 2
1.2 ǿ��ѧϰ��Ӧ��̬�滮 3
1.2.1 ��Ӧ��̬�滮��ۻ��ԭ�� 3
1.2.2 ��Ӧ��̬�滮��۷�չ��״ 5
1.3 ΢�ֲ�� 7
1.4 ��ϵͳ��Эͬ�� 9
1.5 �¼�� 10
��2�� ɢʱ�䲻ȷ��ϵͳ��³��Ʒ�� 13
2.1 �� 13
2.2 �� 14
2.3 ��ڴ��￨�ٷ��̵�³��Ʒ�� 16
2.4 ͬ��ǿ��ѧϰ�㷨 21
2.4.1 ��ģ�͵�ͬ��ǿ��ѧϰ 21
2.4.2 ��̽��ͬ��ǿ��ѧϰ 22
2.5 ��ǿ��ѧϰ 24
2.5.1 ��ģ�͵��ǿ��ѧϰ 24
2.5.2 ��̽��ǿ��ѧϰ 26
2.5.3 ��ģ�͵��ǿ��ѧϰ 27
2.6 ��о� 29
2.7 С�� 35
��3�� ɢϵͳ��Ͳ��ⷽ�� 37
3.1 �� 37
3.2 �� 38
3.2.1 ��Ͳ�� 38
3.2.2 ��ϴ��￨�ٷ�� 39
3.3 ��ģ�͵��Ӧ��̬�滮 44
3.3.1 ͬ��ǿ��ѧϰ�㷨 44
3.3.2 ��ǿ��ѧϰ�㷨 46
3.4 ��ģ��Ӧ��̬�滮 51
3.5 ��о� 54
3.5.1 ��һ��ߵ��ǿ��ѧϰ�㷨 55
3.5.2 ��ͬ��ǿ��ѧϰ�㷨 56
3.5.3 ʵ��ǿ��ѧϰ�㷨 57
3.6 С�� 61
��4�� ʱ�䶯̬ϵͳ��Ͳ��ǿ��ѧϰ�� 62
4.1 �� 62
4.2 �� 63
4.2.1 ��˥��ϵ��ķ��Ͳ��ĵ��ϴ��￨�ٷ�� 64
4.2.2 ��߲��Ե��㷨 65
4.3 ��ֵ��㷨 66
4.3.1 ��ֵ��㷨 66
4.3.2 ��˥��ϵ��ĵȼۻ��ֵ�� 69
4.4 ��۷�� 70
4.4.1 ��ֵ��㷨��Է�� 70
4.4.2 ��ֵ��㷨��ȶ��Է�� 71
4.4.3 ��ֵ��㷨��Է�� 73
4.5 ��о� 76
4.6 С�� 80
��5�� Q ѧϰ��Ъ��Ʒ�� 81
5.1 �� 81
5.2 �� 82
5.2.1 ʱ�䴥��*�ſ�� 82
5.2.2 ��Ъ�� 83
5.3 ��̬��Ъ�� 84
5.3.1 ��ģ�͵ľ�̬�¼�� 84
5.3.2 ��ݵľ�̬�¼�� 85
5.4 ��Q ѧϰ��Ъ�� 89
5.5 ��о� 94
5.6 С�� 95
��6�� һ��칹��ϵͳ��ģ�Ͳο��ֲ�ʽ��Ʒ�� 96
6.1 �� 96
6.2 �� 98
6.3 �ֲ�ʽ��Ӧ�۲�� 99
6.4 �ֲ�ʽ*��ģ�Ͳο�� 105
6.4.1 �� 105
6.4.2 ��α�� 105
6.4.3 ��δ��￨�ٷ��̺�*�� 107
6.4.4 ��δ��￨�ٷ��̵��ȶ��Է�� 108
6.5 ��ȫ�ֲ�ʽ*��ģ�Ͳο��Ӧ�� 109
6.6 ��ǿ��ѧϰ��ȫ�ֲ�ʽ��Ӧ*�Ű�� 110
6.6.1 ��ģ�͵�ǿ��ѧϰ��Ʒ�� 110
6.6.2 ��ݵ�ǿ��ѧϰ��Ʒ�� 111
6.7 ��о� 114
6.8 С�� 118
��7�� ϵͳ��¼��Ʒ�� 119
7.1 �� 119
7.2 �� 120
7.3 ʱ�䴥�� 121
7.4 �¼��ֲ�ʽ�� 122
7.4.1 �¼�� 122
7.4.2 �¼��ƵĿ��Է�� 125
7.5 ��ǿ��ѧϰ 129
7.6 ��о� 131
7.7 С�� 133
�ο�� 134
�� 153
��ͼ

չ��ȫ��

��ǿ��ѧϰ��Ż��Ʒ��/��ʿ��Ŀ� ��ѡ

��1�� 1.1 �ſ�� ſ��ִ��۵ĺ��ģ��Դ�ڿ��۵ķ�չ[1��2]��ſ��Ƶĵ��Թ��׿��׷�ݵ�20��40��ά��(Wiener)��Ŀ��(Cybernetics)[3]��20��50��Ǯѧɭ��ר�� Engineering Cybernetics��һ��ƶ��ſ��۵ķ�չ[4]��1960��Ī˹��ٿ��**��Զ��ϻ�(International Federation of Automatic Control��IFAC)�ϣ��ѧ�ҿ��(Kalman)��(Bellman)��ѧ��ǽ�(Pontryagin)��ˡ��ϵͳ��һ��ۡ�(On the General Theory of Control Systems)��̬�滮��͡��ſ��ۡ��ı��棬��ſ��۷�չ��̱�� ſ��Ȿ��Ǵ�Լ��Ż��⣬��һ��Լ��(��ϵͳ�Ķ�̬��̻��)��Ѱ��ŷ��ƣ�ʹ��ָ��ȡ��ֵ��ڽ��ſ��ѧ��ҪΪ��ַ�[5]��ָ��Ϊ��ƺ��ķ��ͨ��Է��ֵ�õ��ſ��ơ��ַ��Ƽ�Ϊ��ļ��ǰ��£�ֻ��ڿ��벻��Ƶ��[6]��Ȼ��ʵ��У��ޣ��Ƽ�Ϊ�ռ��ʹ�ñ�ַ��Ӧ��ܵ��˺ܴ��ơ��ѧ��ǽ��ſ��Ϊ��Լ��ķǾ��ѧ��⣬��Առ�Լ��ı��⣬��˼��ֵԭ��[7]��ſ��ⷢչ�е��һ��ۻ�ʯ��ѧ�ұ��о��༶��߹��Ż��ԭ��[8]��⣬��̬�滮��ھ��ù��ȡ��̼��ȷ��õ��˹㷺��Ӧ�ã��ſ��Ч�ֶΡ� 1.1.1 ��ɢʱ�䶯̬ϵͳ��ſ�� ʽ(1-1)��ɢʱ�䶯̬ϵͳ�� (1-1) ��У��ϵͳ��״̬��ϵͳ�ĳ�ʼ״̬Ϊx0��ϵͳ�Ŀ��Ʊ��ſ��Ŀ��Ʒ��ƣ�ʹ��ʽ(1-2)��ָ��ȡ�ü�Сֵ�� (1-2) ��У�ͨ��Ϊ�ر��(reward function)[9��10]�� ϵͳ(1-1)�Ķ༶��Ż��Ϊͼ1-1��ϵͳ�ӳ�ʼ״̬ x0��ʱ�� iʱ��ϵͳ��״̬Ϊ xi��ʱʩ�ӿ�� ui��ϵͳ��ʽ(1-1)��״̬��¡� ͼ1-1�༶��Ż�� kʱ�̣�� u��Ϊ״̬�ĺ�� uxk��ָ�� Jxk��ʾΪ״̬ xk�ĺ�� k+1ʱ�̣��ָ��Ա�ʾΪ(k+1) ��֮��Ĺ�ϵΪ (1-3) ��ʽ��Ϊ��̡��ݱ��ԭ��ָ��[9]�� (1-4) ��ſ��ƿ��Ա�ʾΪ (1-5) ��ʽ(1-3)��ʽ(1-4)��ʽ(1-5)��Կ��ָ�� Jxk�Ϳ��Ʋ��֮��Ĺ�ϵ��ǶԿ��Ʋ�� u��ܵ��ۣ��ֱ��Ӱ��ܵĴ�С��ʽ(1-5)��֪��ſ��Ʋ�� ukҲ��ָ�ꡣ 1.1.2 ��ʱ�䶯̬ϵͳ��ſ�� ʽ(1-6)��ʱ�䶯̬ϵͳ�� (1-6) ��У��ϵͳ��״̬��ϵͳ�ĳ�ʼ״̬Ϊͳ�Ŀ��롣�ſ��Ŀ��Ʒ��ƣ�ʹ��µ��ָ��ȡ�ü�Сֵ�� (1-7) ��У�Ϊ�ر�� ʱ�䶯̬ϵͳ(ʽ(1-6))��ָ��(ʽ(1-7))�ſ��Ž��ĳ��ɹ��ܶ�-�ſɱ�-��(Hamilton-Jacobi-Bellman��HJB)��[10-12]�� tʱ�̵��ָ��Ϊ��Һ͵�ƫ��ڣ��ſ��ƺ��ָ��㣺 (1-8) ��У��u��ʾ��Ƽ�� HJB��̿�֪��ʱ�䶯̬ϵͳ��ſ��չ��Ϊ�� HJB��(ʽ(1-8))��Ȼ�� HJB��̱��һ��ƫ΢�ַ��̣��÷��̵��Ƚ��ѡ��⣬��ɢʱ�䶯̬ϵͳ��Զ��ſ��ƽ��⡣��Ϊ��ɢʱ�䶯̬ϵͳ�Ǹ��ʽ(1-1)��״̬��£��Ǹ��ʽ(1-5)�� kʱ��ſ�� uxk��(k+1) ��ϵ��ͳ��̬�滮��һ��ȱ�ݣ��ν�ġ�ά��ѡ��[13]��ԣ��ͳ��̬�滮��С��ģϵͳ��ſ��⡣��Ӧ/��ƶ�̬�滮(adaptive/ approximate dynamic programming)��Ϊһ��ſ��Ľ��ⷽ��Ч�ؽ��ͳ��̬�滮��ڵ��⡣ 1.2 ǿ��ѧϰ��Ӧ��̬�滮 1.2.1 ��Ӧ��̬�滮��ۻ��ԭ�� Ӧ��̬�滮�Ļ��ԭ��ú��ƽṹ(��)��ƽ��䶯̬�滮�е��ָ�꺯��Ӷ��ƽ��ָ��ſ��[14-27]��Ӧ��̬�滮�Ľṹ��ͼ1-2��ʾ[18-20]�� Ӧ��̬�滮�㷨��Ҫ��ɣ��̬ϵͳ��硣��ʵ��Ӧ��У�ÿ��ֵ�ʵ��ִ�С��ϵͳģ��δ֪ʱ��ͨ��ϵͳģ�ͽ��б�ʶ��ϵͳ�Ŀ��Ʋ��ԣ�ͨ��ڶ��Ĳ��ﵽ�ƽ��ſ��Ʋ��Ե�Ŀ�ģ��۶��ɵĿ��Ʋ��ԡ��ͬ�ڴ�ͳ�ķ��Ʒ��ͼ1-2��絽��ǿ�ź��ǶԶ��Ʋ��Ե��۽��һ�ź��ָ��Ż��ơ��Ҫָ��Ĳ��Ż�Ŀ��֮��Ĳ��Ż��Ŀ��ʹ��㱴��(ʽ(1-3))��ϣ��Ż��Ŀ��С��[28]�� ͼ1-2 ��Ӧ��̬�滮�ṹ ��Ӧ��̬�滮�У��ʵ�ֲ��硣��ľ��ѧϰ��ֱ�Ϊֵ��㷨�Ͳ��Ե��㷨[9��20-22]��ֵ��㷨�Ͳ��Ե��㷨��ͼ1-3��ʾ��ͼ�п��Կ��Ӧ��̬�滮�ĵ��㷨��ɣ��ۺͲ��ԸĽ��ֱ��Ӧ��Ͷ��Ȩֵ��¡��⣬�ھ��Ķ�̬�滮��У��ǰʱ�̵��ſ��δ��ʱ��״̬��ֵ��ַ��Բ��Ӧ�á�Ȼ��Ӧ��̬�滮�㷨��ԣ�ÿ��ֵĲ��ʵʱ��У��Ӷ��ߵ��Ż��ջ�ϵͳ��ܡ� ͼ1-3 ֵ��㷨�Ͳ��Ե��㷨��ͼ 1.2.2 ��Ӧ��̬�滮��۷�չ��״ ��Ӧ��̬�滮��˹��ܡ��ѧϰ�Ϳ��ƿ�ѧ��Դ�ͳ��ſ��Ϊ��ں��ǿ��ѧϰ(reinforcement learning)[29-32]��Ӧ��(adaptive critic design)[28]��ƽ�[33]��Ӧ��[34��35]��ۺͷ��ڵ��ϵͳ[23-27]��ܵ��[36-38]��ˮ��[39��40]��ͨ��[41]�ȹ��̼��Ź㷺��Ӧ�ã�Ϊ��ģ��ӷ��ϵͳ�Ż��ṩ��Ч��;�� ѧϰ���ලѧϰ��Ǽලѧϰ��ǿ��ѧϰ��ֻ��ѧϰģʽ��Ӧ��̬�滮��ǿ��ѧϰ��е��ϵ[30��31��42]��Widrow��״��Ӧ��ƽṹ��ˡ��硱�ĸ��ͨ��Ľ��ͷ��źţ��һ��Ż��[43]��Werbos��ú��ƽṹ��źţ��ִ��ķ��ṹ��Ϊ��Ӧ��ơ�[44]�� ƶ��ܿ��Ʒ��ķ�չ[45-49]��Werbos��ƣ��γ��ˡ��ʽ��̬�滮��(heuristic dynamic programming)��ʽ��̬�滮��(dual heuristic dynamic programming)��Լ��Ʋ��۲��ԣ��ʽ��̬�滮��(action dependent heuristic dynamic programming)�͡��ʽ�滮��(action dependent dual heuristic dynamic programming)�Ŀ��ϵͳ�ṹ��춨��Ӧ��̬�滮�Ļ��[50]��ڴ˻��ϣ� Prokhorov�� Wunsch��Ӧ��۽ṹ��ȫ�ֶ��ʽ�滮��(generalized dual heuristic programming)�Լ��ȫ�ֶ��ʽ�滮��(action dependent generalized dual heuristic programming)��˼��磬ͬʱ�ƽ��ָ�꺯��ݶȣ��߿��ƾ��Ⱥ��ѧϰ��ٶ�[28]��Ϊ�˷��Ӧ��̬�滮��У� Si�� Wang��˻��ģ�͵��ʽ��̬�滮�ṹ[51]��Ni��ģ�Ͷ��ʽ�滮�ṹ[52]��Padhi�Ƚ�һ��Ӧ��̬�滮��ṹ��˵�һ��Ӧ��[53]��ҵõ��˳ɹ�Ӧ��[51��54]��޵õ��ѧ�ĺκ��ڡ��ۻ��ơ��Ļ��ϣ��ˡ��ο��硱��Ƶ��ѧϰ�㷨��һ��Ӧ��̬�滮�Ľṹ[55]�� Ӧ��̬�滮��о��Ҫ��ṹ��Ż��ͼ򻯡��ܶ�ѧ��Ӧ��̬�滮��ɵıջ�ϵͳ��ȶ��Է��˴��20��60�� Howard��Զ༶��⣬��ֵ��Ͳ��Ե��㷨��Ϊ��Ӧ��̬�滮��ȶ��Ժ��Ե�֤��ṩ��ۻ��[56]��20��80��ĩ��90�� Sutton�Ƚ��ؿ��޷��(Monte Carlo method)�Ͷ�̬�滮��ۣ��ˡ�ʱ��ѧϰ��ǿ��ѧϰ��һ��[29��31]��20��90��ĩ��ʡ��ѧԺ(Massachusetts Institute of Technology��MIT)�� Bertsekas��÷��֤��ֵ��Ͳ��Ե��[9��57��58]�� ڿ��ƿ�ѧ��Ӧ��̬�滮�ڶ�̬ϵͳ��ſ��ųɹ��Ӧ�á� Murray��**��ϸ�֤��˲��Ե��㷨��Լ��ջ�ϵͳ��ȶ��[59]��Abu-Khalaf�� Lewis��Կ��ֵ��޵��ʱ�䶯̬ϵͳ��Ӧ��̬�滮��Ե��֤��˸��㷨�ıջ��ȶ��[60]��Vrabie��ʱ�䶯̬ϵͳ��һ�ֽ��ģ��Ϣ�Ĳ��Ե��㷨[61]�� Ӧ��ڿ��ϡ��ַ��ص��ǲ��ڱ��ض��ѧģ�ͣ��òɼ��ı��ϵͳ��ݣ��п��ƣ��֤�ջ�ϵͳ��ȶ��Ժ�³��[62-64]��ͨ��ѧ�ĺ��ģ�Ͳο��Ӧ��(model reference adaptive control��MRAC)[65-67]��һ�ֵ��͵��Ʒ��Ӧ��̬�滮��㷨��棬�ܶ�ѧ��˴��Ļ��о��ŦԼ��ѧ��ƽ��Ŷӽ��ǿ��ѧϰ�е��Է��һ��[68]��ڴ˻��ϣ� Modares�Ƚ��Ӧ��̬�滮��Ӧ��ڸ��ٿ��[69]�� H�޿��[70]��Song�Ƚ��Ӧ��̬�滮��Ӧ��ڲ�ȷ��ϵͳ��״̬��[71]�ͷ��΢�ֲ��[72]��ڲ�ȷ��ϵͳ��³��⣬��Ӧ��̬�滮��Ҳ��ųɹ��Ӧ�á��ѧ�Ż��ڵ��õݹ��ϵͳģ�͵ı�ʶ��ϵͳģ�͵ı�ʶ��硢��Ȩֵ

��Ʒ��(0��)

д�� ׬��

��ۡ��

��Ƽ�