中图网

>

计算机理论

多模态深度学习技术基础

作者：冯方向、王小捷

出版社：清华大学出版社出版时间：2023-09-01

开本：其他页数： 256

本类榜单：计算机/网络销量榜

中图价:¥74.3(7.5折) 定价 ~~¥99.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满39元免运费

?新疆、西藏除外

本类五星书更多>

>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥38.8¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥49.3¥69
>
第一行代码Android

第一行代码Android

¥58.4¥99
>
深度学习

深度学习

¥92.4¥168
>
Unreal Engine 4蓝图完全学习教程

Unreal Engine 4蓝图完全学习教程

¥72.2¥168
>
深入理解计算机系统-原书第3版

深入理解计算机系统-原书第3版

¥104.3¥139
>
Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

Word/Excel PPT 2013办公应用从入门到精通-(附赠1DVD.含语音视频教学+办公模板+PDF电子书)

¥21¥49.9

商品详情
商品评论(0条)

中图价:¥74.3 加入购物车

版权信息
本书特色
内容简介
目录
作者简介

多模态深度学习技术基础版权信息

ISBN：9787302637479
条形码：9787302637479 ; 978-7-302-63747-9
装帧：平装-胶订
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
计算机理论

多模态深度学习技术基础本书特色

● 全书分为初识多模态信息处理、单模态深度学习表示技术、多模态深度学习基础技术、多模态预训练技术四个单元，涵盖多模态表示、对齐、融合、转换和预训练技术。
● 提供四个完整的实战案例，分别对应多模态表示、对齐、融合和转换这四个基础技术，把多模态深度学习技术融入实践中，加深学生对技术的理解和掌握。提供案例的Jupyter Notebook文件，支持教师一键讲解。
● 可作为高等院校相关专业的教材，也可作为教辅资料，还可作为学习多模态深度学习技术的参考书。

多模态深度学习技术基础内容简介

内容上，本书力求系统地介绍基于深度学习的图文多模态信息处理技术，侧重介绍*通用、*基础的技术，覆盖了多模态表示、对齐、融合和转换等四大关键技术。同时也介绍了多模态信息处理领域的**发展前沿——多模态预训练模型。此外，为了让读者可以实践这些多模态深度学习技术，本书提供了四个完整的实战案例，分别对应多模态表示、对齐、融合和转换这四个关键技术。具体而言，本书的内容分为四个部分：初识多模态信息处理、单模态表示、多模态信息处理的关键技术、多模态预训练模型。 **部分包括两个章节：第1章介绍多模态信息的基本概念、难点、使用深度学习方法的动机、多模态信息处理的关键技术以及这些技术的发展历史，第2章介绍若干同时涉及图像和文本的多模态热门研究任务。第二部分包括两个章节：第3和4章分别介绍了多模态信息处理中常用的文本表示和图像表示方法。第三部分包括四个章节：第5、6、7、8章分别介绍面向特定任务的多模态表示、对齐、融合和转换这四个关键技术，且每一章都提供了一个可运行的完整的实战案例。第四部分包括一个章节：第9章介绍综合使用上述关键技术，并以学习通用多模态表示为目标的多模态预训练模型。

多模态深度学习技术基础目录

第1章绪论 1
1.1 多模态信息处理的概念 1
1.2 多模态信息处理的难点 2
1.3 使用深度学习技术的动机 3
1.4 多模态信息处理的基础技术 4
1.4.1 表示技术 4
1.4.2 对齐技术 4
1.4.3 融合技术 5
1.4.4 转换技术 5
1.5 多模态深度学习技术的发展历史 5
1.6 小结 8
1.7 习题 9
第2章多模态任务 10
2.1 图文跨模态检索 10
2.1.1 数据集 11
2.1.2 评测指标 12
2.2 图像描述 13
2.2.1 数据集 14
2.2.2 评测指标 14
2.3 视觉问答 19
2.3.1 数据集 20
2.3.2 评测指标 23
2.4 文本生成图像 23
2.4.1 数据集 24
2.4.2 评测指标 25
2.5 指称表达 27
2.5.1 数据集 29
2.5.2 评测指标 30
2.6 小结 31
2.7 习题 31
第3章文本表示 32
3.1 基于词嵌入的静态词表示 33
3.1.1 Word2vec 33
3.1.2 GloVe 35
3.2 基于循环神经网络的动态词表示 36
3.2.1 循环神经网络基础 36
3.2.2 现代循环神经网络 37
3.2.3 动态词表示和整体表示 40
3.3 基于注意力的预训练语言模型表示 42
3.3.1 自注意力 43
3.3.2 transformer编码器 46
3.3.3 BERT 47
3.3.4 BERT词表示和整体表示 49
3.4 小结 50
3.5 习题 50
第4章图像表示 51
4.1 基于卷积神经网络的整体表示和网格表示 53
4.1.1 卷积神经网络基础 53
4.1.2 现代卷积神经网络 54
4.1.3 整体表示和网格表示 55
4.2 基于目标检测模型的区域表示 57
4.2.1 基于深度学习的目标检测基础 57
4.2.2 区域表示 58
4.3 基于视觉transformer的整体表示和块表示 59
4.3.1 使用自注意力代替卷积 59
4.3.2 视觉transformer 60
4.3.3 整体表示和块表示 61
4.4 基于自编码器的压缩表示 62
4.4.1 量化自编码器：VQ-VAE 62
4.4.2 量化生成对抗网络：VQGAN 64
4.4.3 变分生成对抗网络：KLGAN 67
4.4.4 压缩表示 67
4.5 小结 68
4.6 习题 68
第5章多模态表示 69
5.1 共享表示 71
5.1.1 多模态深度自编码器 72
5.1.2 多模态深度生成模型 73
5.2 对应表示 79
5.2.1 基于重构损失的方法 80
5.2.2 基于排序损失的方法 81
5.2.3 基于对抗损失的方法 84
5.3 实战案例：基于对应表示的跨模态检索 85
5.3.1 跨模态检索技术简介 85
5.3.2 模型训练流程 86
5.3.3 读取数据 87
5.3.4 定义模型 95
5.3.5 定义损失函数 99
5.3.6 选择优化方法 100
5.3.7 评估指标 101
5.3.8 训练模型 103
5.4 小结 107
5.5 习题 107
第6章多模态对齐 109
6.1 基于注意力的方法 110
6.1.1 交叉注意力 110
6.1.2 基于交叉注意力的图文对齐和相关性计算 112
6.2 基于图神经网络的方法 115
6.2.1 图神经网络基础 115
6.2.2 单模态表示提取 120
6.2.3 单模态图表示学习 120
6.2.4 多模态图对齐 122
6.3 实战案例：基于交叉注意力的跨模态检索 123
6.3.1 读取数据 123
6.3.2 定义模型 129
6.3.3 定义损失函数 131
6.3.4 选择优化方法 137
6.3.5 评估指标 137
6.3.6 训练模型 140
6.4 小结 143
6.5 习题 144
第7章多模态融合 145
7.1 基于双线性融合的方法 146
7.1.1 多模态低秩双线性池化 147
7.1.2 多模态因子双线性池化 148
7.1.3 多模态Tucker融合 149
7.2 基于注意力的方法 150
7.2.1 基于交叉注意力的基础方法 150
7.2.2 基于多步交叉注意力的方法 151
7.2.3 基于交叉transformer编码器的方法 152
7.3 实战案例：基于MFB的视觉问答 153
7.3.1 视觉问答技术简介 153
7.3.2 读取数据 154
7.3.3 定义模型 165
7.3.4 定义损失函数 170
7.3.5 选择优化方法 170
7.3.6 选择评估指标 171
7.3.7 训练模型 171
7.4 小结 175
7.5 习题 175
第8章多模态转换 177
8.1 基于编解码框架的方法 178
8.1.1 基于循环神经网络的编解码模型 179
8.1.2 基于注意力的编解码模型 181
8.1.3 基于transformer的编解码模型 183
8.2 基于生成对抗网络的方法 185
8.2.1 基于条件生成对抗网络的基本方法 185
8.2.2 基于多阶段生成网络的方法 187
8.2.3 基于注意力生成网络的方法 191
8.3 实战案例：基于注意力的图像描述 193
8.3.1 图像描述技术简介 193
8.3.2 读取数据 194
8.3.3 定义模型 195
8.3.4 定义损失函数 203
8.3.5 选择优化方法 204
8.3.6 选择评估指标 204
8.3.7 训练模型 206
8.4 小结 209
8.5 习题 210
第9章多模态预训练 211
9.1 总体框架 211
9.2 预训练数据集 212
9.3 模型结构 213
9.3.1 基于编码器的模型 214
9.3.2 基于编解码框架的模型 215
9.4 预训练任务 216
9.4.1 掩码语言模型 216
9.4.2 掩码视觉模型 216
9.4.3 图像文本匹配 217
9.4.4 跨模态对比学习 217
9.5 下游任务 217
9.5.1 视觉常识推理 217
9.5.2 视觉语言推理 218
9.5.3 视觉蕴含 218
9.6 典型模型 218
9.6.1 基于融合编码器的双流模型：LXMERT 218
9.6.2 基于融合编码器的单流模型：ViLT 220
9.6.3 基于双编码器的模型：CLIP 222
9.6.4 基于编解码框架的模型：OFA 223
9.7 小结 226
9.8 习题 226
参考文献 227

展开全部

多模态深度学习技术基础作者简介

王小捷，北京邮电大学人工智能学院教授，智能科学与技术中心主任，中国人工智能学会自然语言理解专委会主任，教育部人工智能领域教学资源及新型教材建设专家组成员、自然语言处理领域首席专家。主要研究方向为自然语言处理与多模态计算，已发表学术论文300余篇。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
[古希腊] 伊索著，陈韵如译
¥9.3~~¥19.0~~
>
有舍有得是人生
有舍有得是人生
梁实秋
¥17.1~~¥45.0~~
>
大红狗在马戏团-大红狗克里弗-助人
大红狗在马戏团-大红狗克里弗-助人
[美] 诺尔曼·伯德韦尔著，杜可名译
¥3.5~~¥10.0~~
>
小考拉的故事-套装共3册
小考拉的故事-套装共3册
[澳] 多萝西·沃尔著，崔育平译
¥36.7~~¥68.0~~
>
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
周作人著，止庵校订
¥6.9~~¥16.0~~
>
月亮与六便士
月亮与六便士
毛姆
¥18.1~~¥42.0~~
>
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
施英巍
¥17.6~~¥55.0~~
>
朝闻道
朝闻道
刘慈欣
¥8.8~~¥23.8~~

本类畅销

”互联网+“时代计算机算法的应用及其实践研究

崔迪著

¥19.9~~¥59~~
微服务设计

纽曼

¥52.8~~¥69~~
图说深度学习:用可视化方法理解复杂概念

[美]安德鲁·格拉斯纳

¥109~~¥188~~
计算机基础

体育运动学校《计算机基础》教材编写组　编

¥17.2~~¥31~~
改变未来的九大算法

[美]约翰·麦考密克

¥50~~¥68~~
生成式AI入门与AWS实战

[美] 克里斯·弗雷格利（Chris

¥77.8~~¥99.8~~

多模态深度学习技术基础

多模态深度学习技术基础版权信息

多模态深度学习技术基础本书特色

多模态深度学习技术基础内容简介

多模态深度学习技术基础目录

多模态深度学习技术基础作者简介

伊索寓言-世界文学名著典藏-全译本

有舍有得是人生

大红狗在马戏团-大红狗克里弗-助人

小考拉的故事-套装共3册

苦雨斋序跋文-周作人自编集

月亮与六便士

【精装绘本】画给孩子的中国神话

朝闻道

”互联网+“时代计算机算法的应用及其实践研究

微服务设计

图说深度学习:用可视化方法理解复杂概念

计算机基础

改变未来的九大算法

生成式AI入门与AWS实战

俄罗斯书简

房思琪的初恋乐园

上海滩的贾斯汀·比伯

百年梦忆:梁实秋人生自述

陶潜和樱子

人间草木

多模态深度学习技术基础

多模态深度学习技术基础 版权信息

多模态深度学习技术基础 本书特色

多模态深度学习技术基础 内容简介

多模态深度学习技术基础 目录

多模态深度学习技术基础 作者简介

多模态深度学习技术基础版权信息

多模态深度学习技术基础本书特色

多模态深度学习技术基础内容简介

多模态深度学习技术基础目录

多模态深度学习技术基础作者简介