书馨卡帮你省薪
欢迎光临中图网 请 | 注册
> >>
基于PYSPARK的高级数据分析

基于PYSPARK的高级数据分析

出版社:中国电力出版社出版时间:2024-10-01
开本: 16开 页数: 256
中 图 价:¥46.0(5.9折) 定价  ¥78.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

基于PYSPARK的高级数据分析 版权信息

基于PYSPARK的高级数据分析 本书特色

编辑推荐
时至今日产生的数据量已经达到令人惊人的地步,而且还在不断增长。Apache Spark已经成为分析大数据的实际工具,并且也是数据科学工具箱的关键部分。本书针对Spark*z新版本进行了更新,将Spark、统计方法和真实数据集结合在一起,教你如何运用 PySpark、Spark Python API和Spark编程中的其他*z佳实践来解决分析问题。
数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介绍了Spark生态系统,然后深入研究将常用技术(包括分类、聚类、协同过滤和异常检测)应用于以下的领域:基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。
如果你对机器学习和统计学有基本的了解,并且能够使用Python进行编程,那么本书将帮助你开始进行大规模的数据分析。

基于PYSPARK的高级数据分析 内容简介

本书的主要内容有:熟悉Spark的编程模型和生态系统。学习数据科学的一般方法。检查分析大型公共数据集执行步骤的完整性。发现哪些机器学习工具对特定问题有帮助。探索可适应多种用途的代码。

基于PYSPARK的高级数据分析 目录

目录前言 1第1 章 大数据分析 711 使用大数据 812 Apache Spark 和PySpark10121 组件 10122 PySpark 12123 生态系统 1313 Spark 30 1414 PySpark 处理数据科学问题 1515 本章小结16第2 章 PySpark 数据分析简介 1721 Spark 架构 1922 安装PySpark 21目录前言 1第1 章 大数据分析 711 使用大数据 812 Apache Spark 和PySpark10121 组件 10122 PySpark 12123 生态系统 1313 Spark 30 1414 PySpark 处理数据科学问题 1515 本章小结16第2 章 PySpark 数据分析简介 1721 Spark 架构 1922 安装PySpark 2123 设置我们的数据 2424 使用DataFrame API 分析数据 3125 DataFrames 的快速汇总统计 3526 DataFrame 的透视和重塑 3727 关联DataFrame 并选择特征4028 评分和模型评估 4229 本章小结44第3 章 音乐推荐和音频编码器的数据集 4731 设置数据4832 我们对推荐系统的要求 5133 数据准备5534 构建**个模型 5835 算法筛查推荐 6236 推荐质量评估 6437 计算AUC 6638 选择超参数 6839 给出推荐71310 本章小结 72第4 章 使用决策树和决策森林进行预测 7541 决策树和决策森林 7642 准备数据7943 **颗决策树 8444 决策树超参数 9245 调试决策树 9446 重温分类特征 9847 随机森林10248 进行预测10549 本章小结105第5 章 异常检测与K-means 聚类算法 10751 K-means 聚类 10852 识别异常网络流量 10953 初次尝试聚类 11254 选择K 值 11455 利用SparkR 实现可视化 11856 特征归一化 12357 分类变量12458 使用熵(Entropy)标签 12659 聚类实战128510 本章小结 130第6 章 通过LDA、Spark NLP 了解维基百科 13361 隐含狄利克雷分布 13462 获取数据13563 Spark NLP 13764 解析数据13965 使用Spark NLP 准备数据 14166 TF-IDF 14667 计算TF-IDF 14768 创建LDA 模型 14869 本章小结151第7 章 基于出租车行程数据的时空序列数据分析 15371 数据准备155711 将日期格式字符串转换为时间戳 157712 处理无效记录 15972 地理空间分析 161721 介绍GeoJSON 161722 GeoPandas 16373 PySpark 会话化 16674 本章小结170第8 章 金融风险评估 17181 金融术语17282 VaR 的计算方法 173821 方差与协方差 173822 历史模拟法 173823 蒙特卡罗模拟 17483 我们的模型 17484 获取数据17585 准备数据17786 决定因子权重 18087 抽样 18488 试验运行18789 可视化收益分布 191810 本章小结 192第9 章 分析基因组学数据和BDG 项目 19391 从建模中解耦存储 19492 设置ADAM 19793 介绍如何使用ADAM 处理基因组数据 198931 使用ADAM CLI 进行文件格式转换 199932 使用PySpark 和ADAM 采集基因组学数据 20094 预测转录因子结合位点 20695 本章小结212第10 章 基于深入学习和PySpark LSH 的图像相似度检测 215101 PyTorch 216102 准备数据 217103 图像矢量表示的深度学习模型 2191031 图像嵌入 2191032 将图像嵌入导入 PySpark 222104 使用PySpark LSH 进行图像相似搜索 223105 本章小结 228第11 章 使用MLflow 管理机器学习生命周期 229111 机器学习生命周期 229112 MLflow 231113 实验跟踪 232114 管理和服务ML 模型 236115 创建并使用MLflow 项目 239116 本章小结 243
展开全部

基于PYSPARK的高级数据分析 作者简介

Akash Tandon是Looppanel的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。Sandy Ryza是Apache Spark的核心贡献人,领导了Dagster项目的开发。Uri Laserson是Patch Biosciences 的创始人兼首席技术官。曾在Cloudera从事大数据和基因组学的研究。Sean Owen是Apache Spark的核心贡献人和PMC(项目管理委员会)的成员,同时也是Databricks专注于机器学习和数据科学的首席解决方案架构师。Josh Wills是WeaveGrid的软件工程师,也是Slack的前数据工程主管。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服