-
>
心灵元气社
-
>
县中的孩子 中国县域教育生态
-
>
(精)人类的明天(八品)
-
>
厌女(增订本)
-
>
这样学习才高效/杨慧琴
-
>
心理学经典文丛:女性心理学
-
>
中国文化5000年
思考的本质:杜威论逻辑思维
¥12.7¥39.8守护正义:西方司法之路
¥27.4¥38.0中国的佛教
¥43.5¥69.0社会生活、社会态度和观念意识:以全国六省市调查为例
¥35.9¥49.8语文符号学
¥12.2¥38.0
海量网络学术文献自动分类研究 版权信息
- ISBN:9787010148472
- 条形码:9787010148472 ; 978-7-01-014847-2
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>
海量网络学术文献自动分类研究 内容简介
本书针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开探讨。深入研究了海量网络学术文献处理技术,比较分析了适合网络文献自动获取及并行处理的工具;设计了基于Heritrix与Hadoop平台的海量网络学术文献获取及并行处理模型和基于WordNet与SUMO本体集成的语义驱动自动文档分类模型;梳理了本体以及本体集成理论、方法和工具;开发了海量网络学术文献并行获取和自动分类原型系统。
海量网络学术文献自动分类研究 目录
绪论
**章 网络爬虫
**节 网络爬虫
一、开源网络爬虫工具
二、爬虫工具比较分析
第二节 Hadoop平台
一、Hadoop与其他系统的比较
二、Hadoop项目及结构
三、Hadoop分布式文件系统
四、MapReduce编程模型
五、Hadoop平台搭建
第二章 海量网络学术文献获取及并行处理模型
**节 网络学术文献的主要来源及常用文件格式
一、网络学术文献的主要来源及特点
二、网络学术文献的常用文件格式
第二节 网络学术文献自动获取实验
一、实验环境
二、实验平台搭建
第三节 网络学术文献资源获取
一、网络学术文献获取方案
二、种子站点的选择
三、抓取任务的配置
四、文件类型和大小过滤
五、网络学术文献获取实验结果
第四节 网络学术文献资源判定
第五节 网络学术文献并行处理
一、数据预处理
二、并行处理
第六节 MapReduce任务优化
一、任务调度
二、任务数量
三、Combine函数
四、文件压缩
五、重用JVM
六、网络学术文献并行处理模块实验结果
第三章 本体集成
**节 本体研究
一、本体概念
二、本体基本构成要素
三、本体类型
四、本体表示语言
第二节 本体库研究
一、国内外主要本体库
二、本体库比较分析
第三节 本体集成基本过程
第四节 本体集成工具
一、工具介绍
二、工具比较与分析
第五节 本体集成方法
一、基于形式概念分析(FCA)的本体集成方法
二、基于范畴论的本体集成方法
三、基于RDFS图闭包的本体集成方法
第四章 基于语义驱动文本自动分类研究
**节 文档自动分类基本理论
一、文档自动分类基本概念
二、文档自动分类基本流程
三、文档自动分类性能评价指标
第二节 基于语义驱动文档自动分类概念
第三节 基于语义驱动文档自动分类实现基础
第四节 基于语义驱动文档自动分类方法模型
一、词向量空间构建
二、语义向量空间构建
第五章 基于本体集成的文档语义分类模型
**节 SUMO和WordNet本体库概述
一、WordNet本体库
二、SUMO本体库
第二节 WordNet与SUMO本体库映射机制研究
一、映射动机
二、映射模型
三、映射实例
四、映射效果及应用分析
第三节 基于WordNet与SUMO本体集成文档语义分类模型设计与实现
一、实验平台构建
二、实验数据集及方法
三、集成本体库构建
四、词向量空间到概念向量空间的映射
五、概念向量空间通用化
六、分类模型训练与测试过程描述
七、实验评估指标
八、实验及结果分析
第六章 海量网络学术文献自动分类系统
**节 海量网络学术文献自动分类系统
一、开发环境
二、海量网络学术文献自动获取模块
三、海量网络学术文献词一文档矩阵处理模块
四、本体集成模块
五、基于语义驱动的分类模块
第二节 海量网络学术文献自动分类系统实现
一、系统主要技术及标准
二、系统功能
第七章 总结及展望
**节 总结
第二节 展望
附录A
附录B
附录C
附录D
参考文献
索引
后记
海量网络学术文献自动分类研究 节选
《海量网络学术文献自动分类研究》: HDFS中的块是一个抽象概念,作为分布式文件系统,HDFS被设计用来处理大文件,使用抽象块会带来很多好处。**个好处是,一个文件可以大于网络中任意一个磁盘的容量,文件的分块不需要存储在同一个磁盘上,可以利用集群上的任意一个磁盘;第二个好处是,使用抽象块而不是文件,作为操作单元,可简化存储子系统。简化存储子系统是所有系统的追求,但对于故障种类繁多的分布式系统来说尤为重要,存储子系统控制的是块,简化了存储管理。HDFS的块大小是固定的,这样就简化了存储系统的管理,特别是元数据信息可以和文件块内容分开存储;第三个好处是,块有利于提供容错和实用性而做的复制操作,在HDFS中为了处理节点故障,默认将副本数设定为3份,分别存储在集群的不同节点上。当一个块损坏时,系统会通过名称节点获取元数据信息,在另外的机器上读取一个副本并进行存储。文件块副本数可以根据需要进行配置,比如在有些应用中,可能会为操作频率较高的文件块,设置较高的副本数量以提高集群的吞吐量。 2.名称节点与数据节点 HDFS体系结构中有两类节点:名称节点(NameNode)和数据节点(DataNode)。在Hadoop集群中,一般会有一个名称节点和多个数据节点,名称节点管理集群中的任务调度,数据节点是具体任务的执行节点。名称节点通过远程过程调用接口,支持文件系统命名空间中文件和目录的打开、关闭和重命名等操作,决定数据块和数据节点的映射关系。名称节点负责维护文件系统的命名空间和客户端的文件访问,从名称节点中可以获得所有文件每个块所在的数据节点,这些信息不是永久保存的,名称节点会在每次启动系统时动态地自动重建这些信息。当运行任务时,客户端通过名称节点获取元数据信息,和数据节点进行交互以访问整个文件系统。 ……
海量网络学术文献自动分类研究 作者简介
王效岳,男,1961年生,工学博士,教授,山东理工大学科技信息研究所所长。中国图书馆学会高等学校图书馆分会委员,山东省科技情报学会副理事长,山东省图书馆学会常务理事。研究方向为数据挖掘与信息处理技术。主编及参编学术著作6部,省部级课题6项、厅局级课题10余项,发表学术论文80余篇,其中被EI、CSSCI索引30余篇。授权发明专利3项。获省科技进步3等奖l项,厅局级科技进步2等奖2项、3等奖3项。白如江,男,1979年生,管理学博士,副研究馆员,山东理工大学图书馆数字资源部主任。研究领域包括文本数据挖掘、自然语言处理、信息检索技术、高科技战略情报研究等。主持国家社科青年基金项目l项,教育部人文社会科学青年基金项目等省部级课题多项。
- >
伯纳黛特,你要去哪(2021新版)
伯纳黛特,你要去哪(2021新版)
¥15.9¥49.8 - >
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
¥17.6¥55.0 - >
我与地坛
我与地坛
¥27.2¥28.0 - >
姑妈的宝刀
姑妈的宝刀
¥9.0¥30.0 - >
人文阅读与收藏·良友文学丛书:一天的工作
人文阅读与收藏·良友文学丛书:一天的工作
¥14.7¥45.8 - >
小考拉的故事-套装共3册
小考拉的故事-套装共3册
¥36.7¥68.0 - >
山海经
山海经
¥17.7¥68.0 - >
巴金-再思录
巴金-再思录
¥14.7¥46.0
-
钱基博讲古籍版本
¥8.8¥18 -
中国古书编例史
¥33.2¥65 -
中国的类书.政书和丛书
¥9.4¥13 -
文献学专题史略
¥15¥28 -
中国图书史十讲-插图本
¥21.8¥68 -
中华书局有限公司近代中国的学术与藏书
¥77.4¥86