中图网

>

社会学

大数据丛书文本挖掘

作者：[美]迈克尔8226;W.贝瑞（M

出版社：机械工业出版社出版时间：2018-11-01

开本： 16开 页数： 167

读者评分：5分1条评论

本类榜单：社会科学销量榜

中图价:¥30.9(6.3折) 定价 ~~¥49.0~~ 登录后可看到会员价

暂时缺货收藏

运费6元，满39元免运费

?新疆、西藏除外

本类五星书更多>

>
心灵元气社

心灵元气社

¥48.9¥69.8
>
县中的孩子中国县域教育生态

县中的孩子中国县域教育生态

¥63.5¥88
>
(精)人类的明天(八品)

(精)人类的明天(八品)

¥40.5¥88
>
厌女（增订本）

厌女（增订本）

¥34.3¥66
>
这样学习才高效/杨慧琴

这样学习才高效/杨慧琴

¥36.4¥59
>
心理学经典文丛:女性心理学

心理学经典文丛:女性心理学

¥23¥68.8
>
中国文化5000年

中国文化5000年

¥19.7¥58

商品详情
商品评论(1条)

中图价:¥30.9 暂时缺货

版权信息
内容简介
目录

大数据丛书文本挖掘版权信息

ISBN：9787111570509
条形码：9787111570509 ; 978-7-111-57050-9
装帧：简裝本
册数：暂无
重量：暂无
所属分类：
社会科学
>
社会学

大数据丛书文本挖掘内容简介

本书呈现了文本挖掘领域优选的算法，同时从学术界和产业界的角度介绍了文本挖掘。本书涉及的业界学者跨越多个国家，来自多个机构: 大学､企业和政府实验室。本书介绍了文本挖掘在多个领域中的自动文本分析和挖掘计算模型，这些领域包括: 机器学习､知识发现､自然语言处理和信息检索等。本书适合作为人工智能､机器学习和自然语言处理等领域相关人员的教科书和参考书。同时，也适合研究人员和从业人员阅读。

大数据丛书文本挖掘目录

译者序

原书序

1 章独立文档的关键词的自动提取 1

1. 1 简介 1

1. 1. 1 关键词提取方法 1

1. 2 快速自动关键词提取 3

1. 2. 1 候选关键词 3

1. 2. 2 关键词得分 4

1. 2. 3 邻接关键词 5

1. 2. 4 提取关键词 5

1. 3 基准评估 6

1. 3. 1 准确率和召回率评估 6

1. 3. 2 效率评估 7

1. 4 停用词列表生成 9

1. 5 新闻消息的评估 12

1. 5. 1 MPQA 语料库 12

1. 5. 2 从新闻消息中提取关键词 12

1. 6 总结 15

参考文献 16

2 章利用数学方法进行多语言文档聚类 17

2. 1 简介 17

2. 2 背景 17

2. 3 实验设置 18

2. 4 多语言LSA 20

2. 5 Tucker1 方法 21

2. 6 PARAFAC2 方法 23

2. 7 词对齐的LSA 24

2. 8 潜在形态语义分析(LMSA) 26

2. 9 词对齐的LMSA 27

2. 10 对技术和结果的讨论 27

参考文献 29

3 章使用机器学习算法对基于内容的垃圾邮件进行分类 31

3. 1 简介 31

3. 2 机器学习算法 32

3. 2. 1 朴素贝叶斯 33

3. 2. 2 LogitBoost 33

3. 2. 3 支持向量机 34

3. 2. 4 增广的潜在语义索引空间 35

3. 2. 5 径向基函数网络 36

3. 3 数据预处理 37

3. 3. 1 特征选择 37

3. 3. 2 信息表示 39

3. 4 邮件分类的评估 39

3. 5 实验 40

3. 5. 1 使用PU1 的实验 40

3. 5. 2 使用ZH1 的实验 42

3. 6 分类器特点 43

3. 7 结束语 45

参考文献 45

4 章利用非负矩阵分解研究邮件分类问题 47

4. 1 简介 47

4. 1. 1 相关工作 48

4. 1. 2 概要 49

4. 2 研究背景 49

4. 2. 1 非负矩阵分解 49

4. 2. 2 计算NMF 的算法 50

4. 2. 3 数据集 52

4. 2. 4 解释 52

4. 3 基于特征排序的NMF 初始化 54

4. 3. 1 特征子集选择 54

4. 3. 2 FS 初始化 55

4. 4 基于NMF 的分类方法 57

4. 4. 1 使用基础特征分类 58

4. 4. 2 基于NMF 的一般化LSI 59

4. 5 结束语 65

参考文献 66

5 章使用k￣均值算法进行约束聚类 68

5. 1 简介 68

5. 2 表示法和古典k￣均值算法 69

5. 3 具有布莱格曼散度的k￣均值约束聚类算法 70

5. 3. 1 具有“不能链接” 约束关系的二次k￣均值聚类 70

5. 3. 2 “必须链接” 约束关系的移除 73

5. 3. 3 使用布莱格曼散度进行聚类 75

5. 4 smoka 类型约束聚类 77

5. 5 球形k￣均值约束聚类 79

5. 5. 1 仅有“不能链接” 约束关系的球形k￣均值聚类算法 80

5. 5. 2 具有“不能链接” 和“必须链接” 约束关系的球形k￣均值聚类 82

5. 6 数值实验 83

5. 6. 1 二次k￣均值聚类 84

5. 6. 2 球形k￣均值聚类 85

5. 7 总结 85

参考文献 86

6 章文本可视化技术的研究 88

6. 1 文本分析的可视化 88

6. 2 标签云图 89

6. 3 著作权及其变更的追踪 90

6. 4 数据探索和novel 模式的探索 91

6. 5 情绪追踪 92

6. 6 可视化分析和FutureLens 94

6. 7 场景发现 94

6. 7. 1 场景 94

6. 7. 2 评估策略 95

6. 8 早期版本 95

6. 9 FutureLens 的特征 96

6. 10 场景发现举例: 生态恐怖主义 97

6. 11 场景发现举例: 毒品走私 101

6. 12 未来的工作 103

参考文献 104

7 章新颖性挖掘的自适应阈值设置 106

7. 1 简介 106

7. 2 新颖性挖掘中的自适应阈值设置 107

7. 2. 1 背景 107

7. 2. 2 动机 108

7. 2. 3 基于高斯分布的自适应阈值设置 108

7. 2. 4 实现过程中的问题 112

7. 3 实验研究 113

7. 3. 1 数据集 113

7. 3. 2 加工实例 113

7. 3. 3 实验及结果 116

7. 4 总结 120

参考文献 121

8 章文本挖掘与网络犯罪 122

8. 1 简介 122

8. 2 网络欺凌和网络捕食研究的现状 123

8. 2. 1 获取即时通信和在线聊天 124

8. 2. 2 当前用于分析的收集 124

8. 2. 3 对即时通信和在线聊天的分析 125

8. 2. 4 网络捕食检测 125

8. 2. 5 网络欺凌检测 129

8. 2. 6 法律问题 130

8. 3 监控聊天的商业软件 131

8. 4 结论与未来的方向 132

参考文献 133

9 章文本流中的事件和发展趋势 136

9. 1 引言 136

9. 2 文本流 138

9. 3 特征提取和数据还原 138

9. 4 事件监测 139

9. 5 趋势检测 142

9. 6 事件和趋势描述 143

9. 7 相关讨论 147

9. 8 总结 147

参考文献 148

10 章在LDA 主题模型中嵌入语义 150

10. 1 简介 150

10. 2 背景 150

10. 2. 1 向量空间模型 151

10. 2. 2 潜在语义分析 151

10. 2. 3 概率潜在语义分析 151

10. 3 潜在狄利克雷分配 152

10. 3. 1 图模型和生成过程 153

10. 3. 2 后验推断 153

10. 3. 3 在线潜在狄利克雷分配(OLDA) 154

10. 3. 4 算例分析 156

10. 4 在维基百科中嵌入外部语义 158

10. 4. 1 相关维基百科文章 158

10. 4. 2 维基百科影响的主题模型 158

10. 5 数据驱动语义的嵌入 159

10. 5. 1 数据驱动语义嵌入的生成过程 159

10. 5. 2 嵌入数据驱动语义的OLDA 算法 160

10. 5. 3 实验设计 161

10. 5. 4 实验结果 163

10. 6 相关工作 166

10. 7 结论与未来工作 166

参考文献 166

展开全部

商品评论(1条)

写书评赚书币

主题：搞活动买的搞活动买的
设计装帧可以
2019/7/23 12:38:58
0 0
三星会员
读者:wan***(购买过本书)

书友推荐

>
史学评论
史学评论
杨玉圣
¥23.5~~¥42.0~~
>
朝闻道
朝闻道
刘慈欣
¥8.8~~¥23.8~~
>
我从未如此眷恋人间
我从未如此眷恋人间
史铁生/汪曾祺
¥32.4~~¥49.8~~
>
龙榆生：词曲概论/大家小书
龙榆生：词曲概论/大家小书
龙榆生
¥13.0~~¥24.0~~
>
莉莉和章鱼
莉莉和章鱼
[美]史蒂文·罗利著，祝文亭译
¥13.4~~¥42.0~~
>
中国人在乌苏里边疆区:历史与人类学概述
中国人在乌苏里边疆区:历史与人类学概述
[苏]阿尔谢尼耶夫著，刘宇译
¥35.5~~¥48.0~~
>
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
[英] 达尔文著，朱邦芊译
¥6.3~~¥14.0~~
>
姑妈的宝刀
姑妈的宝刀
莫言
¥9.0~~¥30.0~~