书馨卡帮你省薪 2024个人购书报告 2024中图网年度报告
欢迎光临中图网 请 | 注册
> >
大数据知识工程

大数据知识工程

出版社:科学出版社出版时间:2022-12-01
开本: B5 页数: 236
中 图 价:¥96.6(7.0折) 定价  ¥138.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

大数据知识工程 版权信息

  • ISBN:9787030731654
  • 条形码:9787030731654 ; 978-7-03-073165-4
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

大数据知识工程 本书特色

该书对大数据知识工程的概论、挑战、知识表示、知识获取、知识推理展开详细介绍,提出大数据知识工程在智慧教育、税收风险、网络舆情三大领域的典型应用,并引出大数据知识工程方向的一些未来研究热点。

大数据知识工程 内容简介

实际工程问题的求解往往涉及跨领域、跨模态的海量碎片化知识,这些知识不能仅靠专家提供,而需要从环境中动态学习和融合生成。知识工程旨在研究计算机对知识的获取、表征和处理。随着UGC模式的兴起,一种新的知识工程范式—大数据知识工程应运而生。和早期的专家系统相比,大数据知识工程实现了以文本、小规模、静态、人工方式的专家知识计算机表示,到多模态、大规模、动态不确定环境下知识的自动获取与表征的跨越式发展。本书对大数据知识工程的概论、挑战、知识表示、知识获取、知识推理展开详细介绍,提出大数据知识工程在智慧教育、税收风险、网络舆情三大领域的典型应用,并引出大数据知识工程方向的一些未来研究热点。

大数据知识工程 目录

目录
前言
第1章 绪论 1
1.1 知识工程发展历程 1
1.2 大数据知识工程概述 3
1.2.1 产生背景 3
1.2.2 基本概念 4
1.2.3 与传统知识工程的区别 5
1.3 与新一代人工智能的关系 6
1.3.1 新一代人工智能的特点 6
1.3.2 大数据知识工程是共性技术 7
1.4 本书的组织结构 7
1.5 本章小结 8
参考文献 9
第2章 挑战与科学问题 11
2.1 “三跨”特点 11
2.2 散、杂、乱三个挑战 12
2.3 研究框架与科学问题 16
2.4 本章小结 18
参考文献 18
第3章 知识表示 21
3.1 研究现状与趋势 21
3.2 传统的知识表示方法 23
3.3 知识图谱 26
3.3.1 知识图谱的定义 26
3.3.2 知识图谱的分类 26
3.3.3 知识图谱的存储 28
3.4 事件图谱 29
3.4.1 事件图谱的定义 30
3.4.2 事件图谱的数据模型 31
3.4.3 常见事件图谱 32
3.5 知识森林 33
3.5.1 知识森林的提出背景 33
3.5.2 知识森林的定义 34
3.5.3 知识森林的存储模型 37
3.6 本章小结 39
参考文献 39
第4章 知识获取与融合 42
4.1 研究现状与趋势 42
4.1.1 研究现状 42
4.1.2 挑战与发展趋势 44
4.2 知识图谱自动构建 45
4.2.1 三元组知识抽取 45
4.2.2 三元组知识融合 49
4.3 逻辑公式抽取 50
4.3.1 逻辑公式的形式化定义 51
4.3.2 基于统计量的抽取方法 52
4.3.3 基于矩阵序列的抽取方法 54
4.3.4 基于关系路径的抽取方法 56
4.3.5 挑战与展望 57
4.4 知识森林自动构建 57
4.4.1 主题分面树生成 58
4.4.2 文本碎片知识装配 61
4.4.3 认知关系挖掘 63
4.4.4 知识森林可视化 67
4.5 本章小结 70
参考文献 71
第5章 知识表征学习 75
5.1 研究现状与趋势 75
5.1.1 研究现状 76
5.1.2 挑战与发展趋势 78
5.2 知识图谱表征学习 79
5.2.1 直推式学习 79
5.2.2 归纳式学习 82
5.3 异构图表征学习 84
5.3.1 浅层异质信息网络表征学习 85
5.3.2 深层异质信息网络表征学习 87
5.3.3 挑战与发展趋势 91
5.4 逻辑公式表征学习 92
5.4.1 基于序列的方法 93
5.4.2 基于树结构的方法 93
5.4.3 基于图结构的方法 95
5.4.4 挑战与发展趋势 97
5.5 本章小结 98
参考文献 98
第6章 知识推理 102
6.1 研究现状与趋势 102
6.1.1 基本概念 102
6.1.2 研究现状 103
6.1.3 挑战与发展趋势 106
6.2 带有记忆的推理模型 106
6.2.1 记忆机制在推理中的作用 107
6.2.2 神经图灵机 107
6.2.3 可微神经计算机 111
6.2.4 记忆模型总结 114
6.3 符号化分层递阶学习模型 115
6.3.1 SHiL模型 115
6.3.2 SHiL模型构建方法 116
6.3.3 复杂数据系统的层次划分和介区域识别 117
6.3.4 符号化可微编程的介区域控制机制 118
6.3.5 跨界区域推理路径生成 121
6.4 知识检索 124
6.4.1 基本概念 124
6.4.2 典型知识检索方法 126
6.4.3 知识检索中的why-not问题 130
6.4.4 挑战与发展趋势 132
6.5 智能问答 133
6.5.1 自然语言问答 133
6.5.2 视觉问答 137
6.5.3 教科书式问答 140
6.5.4 问题生成 145
6.6 本章小结 150
参考文献 150
第7章 典型应用 154
7.1 知识森林个性化导学 154
7.1.1 知识森林导航学习系统 155
7.1.2 知识森林AR交互学习 158
7.1.3 应用示范 161
7.2 智能化税务治理 163
7.2.1 税收知识库构建 163
7.2.2 税收优惠计算 171
7.2.3 偷逃骗税风险智能识别 176
7.3 网络舆情的智能监控 179
7.3.1 舆情网络的定义和构建 180
7.3.2 舆情网络应用分析 181
7.4 本章小结 185
参考文献 185
第8章 未来研究方向 186
8.1 复杂大数据知识获取 186
8.1.1 视觉知识 186
8.1.2 常识知识 191
8.1.3 知识增殖与量质转化 196
8.2 知识引导+数据驱动的混合学习 198
8.2.1 可微编程 199
8.2.2 反事实推理 203
8.2.3 可解释机器学习 208
8.3 脑启发的知识编码与记忆 212
8.3.1 双过程理论启发的认知图谱 212
8.3.2 海马体理论启发的知识记忆与推理 214
8.4 本章小结 217
参考文献 217
第9章 结语 222
致谢 224
展开全部

大数据知识工程 节选

第1章 绪论 互联网和大数据的发展为知识工程提供了广阔的应用场景,各类大规模开放性应用所需要的跨域知识很容易超出传统知识工程构建的知识边界。传统知识工程难以适应互联网时代的大规模开放性应用的需求,大数据知识工程应运而生。大数据知识工程将突破传统知识工程在知识获取及知识应用方面的瓶颈,从而可以应对现实世界开放性和复杂性给知识工程带来的巨大挑战。 1.1 知识工程发展历程 知识(knowledge)指某个对象的理论或实践认知,柏拉图称之为“被相信的真理”。知识一般是易于理解的结构化信息,常用于解决问题或决策支持。知识是人工智能的动力[1],与算力、数据、算法等构成了人工智能基础[2]。在计算机领域,传统机器学习通过大量样本进行训练,目前已经遇到发展瓶颈。通过本体库、知识图谱等先验知识去赋能机器学习,可降低机器学习对训练样本的依赖,增强机器学习的泛化能力,是连接主义和符号主义融合发展的新方向。 知识工程(knowledge engineering)是一门以知识为研究对象的新兴学科,核心思想是通过知识的获取、表征和推理来求解应用问题的原理与方法[3]。知识工程是美国斯坦福大学计算机科学家Feigenbaum在1977年第五届国际人工智能大会上提出的概念,其目的是将人类或专家的知识输入到计算机中,并建立推理机制,让机器也能拥有知识,并能进行计算和推理,解决实际问题。知识工程将具体智能系统研究中的共性关键技术抽出来,作为知识工程的核心内容,使其成为指导研制各类具体智能系统的一般性方法和基础性工具,成为一门具有方法论意义的科学。知识工程主要包括以下三个方面:①知识表示。研究知识形式化描述相关的方法和技术,实现计算机可以合理高效地存贮知识,并方便知识的计算和推理。②知识获取与融合。研究从系统外部获得的知识,并与现有知识库融合的方法和技术,包括对外部数据的知识化及不同来源知识的融合。③知识推理(knowledge reasoning)应用。研究知识的组织、计算和推理的方法与技术,实现实际工程问题的求解或决策支持。 传统知识工程构建的系统通常被称为专家系统(expert system)。专家系统指具有专门知识和经验的计算机智能系统[4],一般采用知识表示和知识推理技术来求解通常由领域专家才能解决的复杂问题。如图1.1所示,专家系统一般由知识库与推理引擎两部分组成,它根据一个或者多个领域专家提供的知识和经验,通过模拟专家的思维过程,进行主动推理和判断,并解决实际工程问题。 图1.1 专家系统的基本结构 专家系统在二十世纪七八十年代蓬勃发展,成为人工智能的一个重要分支。Durkin[5]和Waterman[6]对成功应用于不同领域的大量专家系统进行了汇总分析,涉及化学、电子、工程、地质、管理、医药、过程控制、军事等领域。Waterman发现,将近200个专家系统中,大部分应用于医学诊断领域。Durkin发现,专家系统新兴的应用领域是商业和制造业,占总应用的60%。图1.2给出二十世纪5个著名的专家系统。 图1.2 二十世纪5个著名的专家系统 (1)**个成功的专家系统DENDRAL[7]:1968年问世,用来辅助解析有机化合物的结构。Feigenbaum基于DENDRAL总结专家系统所采用的理论及方法,并提出“知识工程”这一概念。 (2)医疗专家系统MYCIN[8]:基于规则的专家系统,使用反向链接(backward chaining)进行推理以诊断传染性的血液病。它可以根据患者的体重推荐药物,还以一种便捷、用户友好的方式为医生提供治疗建议。其性能相当于人类专家水平,并高于初级医生的水平。 (3)地质专家系统PROSPECTOR[9]:1978年由斯坦福国际研究所研发,因发现一个钼矿而闻名于世。它将规则和语义网络(semantic network)合并到一个结构中,以表示专家知识,并使用包含一千多条规则的领域知识。有9位专家为该系统提供了专业知识。 (4)医疗专家系统CADUCEUS[10]:20世纪70年代中期开始开发,成熟于80年代中期,构建了一个庞大的知识库,被认为是“知识*密集的专家系统”,是MYCIN的扩展,可以诊断1000多种疾病。 (5)康复指导专家系统SMH.PAL[11]:相关论文发表于1994年,是一个用于评估失能学生康复过程的专家系统。 以专家系统为代表的传统知识工程在二十世纪七八十年代解决了很多实际工程问题,并在医疗诊断、商业、制造业等领域取得了巨大成功。但是传统知识工程是一种典型的、自上而下的设计思路,严重依赖领域专家和知识工程师(knowledge engineer),不仅需要领域专家把自己的知识表达出来,还需要知识工程师把专家表达的知识转换成计算机能够处理的形式。这使得专家系统适合规则明确、边界清晰、应用封闭的应用场景且仅能解决玩具问题(toy problem)[12],难以适用于智能答疑、无人驾驶等开放、复杂推理场景。传统知识工程面临两个主要困难: (1)知识获取瓶颈。知识的规模难以保证,隐性知识、过程知识等难以表达,质量受领域专家个人经验影响很大,知识更新难。例如,如何表达经验丰富的教师指导学生用了哪些知识或经验。不同专家可能存在主观性,如指导具有特定兴趣、情感、知识背景的学生,大部分依赖教师的主观性。 (2)知识应用瓶颈。很多应用,尤其是很多开放性应用很容易超出预先设定的知识边界。还有很多应用需要常识的支撑,而常识定义难、表示难。传统知识工程难以处理异常、超范围等场景。 虽然知识工程解决问题的思路极具前瞻性,但传统知识工程终因无法克服人工构建成本太高、知识获取困难、海量规则组合爆炸等弊端,而难以适应互联网时代大规模开放应用的需求。在经历了二十世纪七八十年代的黄金期后,传统知识工程逐渐没落。为此,学术界和工业界的知识工程研究者试图寻找新的解决方案。 1.2 大数据知识工程概述 1.2.1 产生背景 信息技术革命持续进行,数据继续向更大规模、更多连接的方向发展。在此背景下,1998年万维网之父Tim Berners-Lee提出语义网(semantic web),其核心是通过将万维网上的文档转化为计算机所能理解的语义,使互联网成为信息交换媒介。语义网可以直接向机器提供能用于程序处理的知识,然而语义网是一个比较宏观的设想,需要“自顶向下”的设计,很难落地。学者将目光转移到数据本身上来,提出了链接数据(linked data)的概念[13]。链接数据希望数据不仅发布于语义网中,更需要建立起自身数据之间的链接,从而形成一张巨大的链接数据网。**个大规模开放域链接数据是DBpedia[14],类似的还有Freebase[15]、Wikidata[16]、Yago[17]等。其中DBpedia有400多万个实体,48293种属性关系,10亿个事实三元组。Freebase有4000万个实体,上万种属性关系,24多亿个事实三元组。谷歌收购Freebase后以Freebase为基础构建了一个大规模知识库“知识图谱”,并将知识图谱定义为描述真实世界中存在的各种实体及关系,进而构建了基于知识图谱的智能Web搜索引擎。随后,知识图谱在精准推荐、风险识别、医疗诊断等领域得到广泛应用。 知识图谱可为机器智能提供先验知识。机器想要认知语言、理解语言,需要背景知识的支持。知识图谱富含大量的实体及概念间的关系,可以作为背景知识来支撑机器理解自然语言。通过知识图谱等先验的知识去赋能机器学习,可以降低机器学习对样本的依赖,增强机器学习的能力。例如,现在的深度学习常因缺少可解释性受人诟病,而知识图谱中包含的概念、属性、关系是天然可用作可解释性的。 互联网的发展为知识工程的发展提供了丰富的土壤,知识规模的量变带来了知识效用的质变。知识图谱作为一种海量的知识组织方式,可为知识工程的大规模知识表示提供支撑,极大扩展了知识工程所使用知识的规模,宣告了知识工程进入了一个新的发展时期。 1.2.2 基本概念 大数据(big data)指无法在一定时间范围内用常规算法或方法进行采集、管理和处理的数据集合[18]。Sch?nberger在《大数据时代》中指出大数据不用随机分析法(抽样调查),而用所有数据进行分析处理[19]。一般认为大数据具有5V特点:volume(大量)、velocity(高速)、variety(多样)、value(价值)、veracity(真实性)。随着大数据时代的到来,以专家系统为代表的传统知识工程,面临人工成本过高、专家经验局限等困境。同时大数据导致跨域跨源、场景动态、规则事先未知的问题,需要新的知识获取、表示及推理技术。 大数据知识工程指利用知识工程的思想和方法,从大数据中获取、验证,表征其中蕴含的知识,并基于这些知识进行推理和应用,形成解决大数据背景下实际工程问题的专家系统[20]。基于海量数据清洗、大规模并行计算、群智计算等大数据技术,大数据技术使得大规模获取知识成为可能,解决了传统知识工程的知识获取瓶颈问题,即利用大数据算法实现数据驱动的大规模知识自动获取与融合。 大数据知识工程是教育、政务、金融、医疗等各领域面临的共性需求。例如,在线教育中,面临着如何将来自在线课程、百度百科等跨媒体资源转化为结构化知识,进而支持个性化导学的需求。又例如,我国自1994年实施金税工程以来,积累了工商、税务、海关等数万亿税收历史数据,只有将其转化为可推理计算的结构化知识库,才能实现偷逃骗税的智能识别。在大数据背景下,人工根本无能为力。 通过上述典型应用场景分析发现,碎片化是大数据知识工程的共性问题,具有数据跨源、知识跨域、表示跨媒体的特点,从中凝练出碎片知识融合科学问题,面临散、杂、乱的难题挑战。散是指碎片知识空间分散、关联稀疏、内容片面;杂表现为模态多样、良莠不齐;乱表现为碎片知识跨域交叉、线索凌乱。针对散、杂、乱的难题挑战,传统的知识表示方法、获取与融合方法、推理应用方法都无法适用,因而需要新的理论与技术。 1.2.3 与传统知识工程的区别 大数据知识工程将大数据转化为人类可理解,而且机器可表示、可计算的结构化知识库/知识图谱,让机器也能拥有知识,并进行推理应用。其来源可以是用户生成的含有大量噪声的内容,也可能是物联网传感器生成的内容。传统知识工程则是将人类或专家的知识表示到计算机中,并建立推理机制,进行计算和推理。和传统知识工程相比,大数据知识工程在知识的表征方式、获取融合、推理应用三个方面实现拓展和创新。表1.1给出传统知识工程和大数据知识工程的对比分析。大数据知识工程获取途径中的众包与群智获取知识指互联网上的海量用户通过在线数据编辑器构建大规模知识,典型的是Wikidata[16]。2022年2月共有527万注册用户为该知识库贡献了近10亿个数据项 ,数据项每天还在增加。 表1.1 传统知识工程和大数据知识工程的对比分析 传统知识工程与大数据知识工程在表征方式、获取融合、推理应用三方面的差异导致两者适用场景不同:传统知识工程适合于场景静态、规则明确、边界确定的问题,如五子棋、国际象棋;大数据知识工程适合于场景动态、规则事先未知、边界未知、多领域知识混合的问题。例如,在线学习、偷逃骗税等都属于场景动态、问题求解前不知道有哪些规则、需要融合多个领域知识才能求解的问题。 从技术上,在大数据背景下,针对碎片知识散、杂、乱的难题挑战,需要解决碎片知识融合这一核心科学问题。对这一问题,传统的专家系统、机器学习理论都无法解决。 1.3 与新一代人工智能的关系 1.3.1 新一代人工智能的特点 人工智能这一概念在1956年美国达特茅斯学院的学术会议上首次被提出,目的是研究或开发用于模拟并扩展人类智能的理论

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服