书馨卡帮你省薪
欢迎光临中图网 请 | 注册
> >
JAVA网络爬虫精解与实践

JAVA网络爬虫精解与实践

作者:张凯 著
出版社:清华大学出版社出版时间:2024-11-01
开本: 其他 页数: 292
中 图 价:¥65.0(7.3折) 定价  ¥89.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

JAVA网络爬虫精解与实践 版权信息

JAVA网络爬虫精解与实践 本书特色

《Java网络爬虫精解与实践》是一本旨在帮助读者使用Java开发高效网络爬虫系统的实用指南。深入剖析开源爬虫框架,掌握Web数据采集、解析和提取,验证码生成和识别,以及分布式网络爬虫架构设计等关键知识。覆盖手机APP通信抓包、逆向分析等技术,掌握基于手机APP的数据采集。*后,搭建完整的招聘领域网络爬虫系统,自动解析招聘信息,与搜索和推荐系统集成。《Java网络爬虫精解与实践》实用性强,提供丰富示例代码,适合IT从业者、开发人员、培训机构及教学使用。无论您是深入学习网络爬虫或初学者,《Java网络爬虫精解与实践》将带您踏上精彩的学习之旅,提升数据爬取和处理能力。

JAVA网络爬虫精解与实践 内容简介

"《Java网络爬虫精解与实践》全面而系统地介绍与网络爬虫程序相关的理论知识,并包含大量的实践操作案例。 《Java网络爬虫精解与实践》共分为 8 章。第 1 章以自动化框架为基础,介绍网络爬虫程序的入门开发实践。第 2 章深入讲解网页内容的处理、解析技术和数据提取方法。第 3 章讨论验证码识别技术以及如何有效绕过验证码的策略。第 4 章涉及网络抓包技术及其对抗策略。第 5 章深入探讨 JavaScript 代码的混淆技术与逆向分析方法。第 6 章专注于移动端应用程序的数据爬取技术及相关逆向分析技术。第 7 章介绍构建分布式网络爬虫系统所需的关键技术。第 8 章通过实战案例,展示分布式网络爬虫系统设计与实现的思路。通过学习本书,读者将显著提升网络爬虫系统的设计与实现能力,并增强对网页代码及移动端应用程序代码的逆向分析水平。 《Java网络爬虫精解与实践》的内容不仅涵盖理论知识,还注重实践操作,适合广大网络爬虫程序开发爱好者阅读。同时,《Java网络爬虫精解与实践》也适合作为培训机构和学校的教学参考用书。"

JAVA网络爬虫精解与实践 目录

第 1 章 网络爬虫开发入门实践 11.1 Java 网络爬虫框架概览11.2 搭建开发环境51.2.1 搭建 Java 开发环境51.2.2 搭建 Selenium 开发环境61.3 简单 Web 爬虫程序示例71.3.1 获取网页内容并打印71.3.2 利用 XPath 获取指定元素81.3.3 单击搜索按钮91.3.4 获取 iframe 元素中的数据 91.3.5 使用更加优雅的等待方式101.3.6 实现屏幕截图121.3.7 执行 JavaScript 脚本121.4 WebDriver 选项配置3第 1 章 网络爬虫开发入门实践 11.1 Java 网络爬虫框架概览11.2 搭建开发环境51.2.1 搭建 Java 开发环境51.2.2 搭建 Selenium 开发环境61.3 简单 Web 爬虫程序示例71.3.1 获取网页内容并打印71.3.2 利用 XPath 获取指定元素81.3.3 单击搜索按钮91.3.4 获取 iframe 元素中的数据 91.3.5 使用更加优雅的等待方式101.3.6 实现屏幕截图121.3.7 执行 JavaScript 脚本121.4 WebDriver 选项配置31.4.1 浏览器通用选项配置131.4.2 Chrome 浏览器特定选项配置 141.4.3 Chrome DevTools Protocol141.5 BrowserMob Proxy 181.6 其他主流 Web 自动化测试框架191.6.1 Puppeteer201.6.2 Playwright201.7 本章小结211.8 本章练习21第 2 章 网页内容解析与提取 242.1 Selenium 元素定位器242.2 基于正则表达式的内容解析与提取272.2.1 正则表达式的基础语法272.2.2 正则表达式的高级应用技巧292.2.3 正则表达式的应用场景312.3 基于 JsonPath 的内容解析与提取342.4 本章小结362.5 本章练习36 IV Java 网络爬虫精解与实践第 3 章 验证码绕过与识别 383.1 验证码介绍383.1.1 基于文本识别的验证码393.1.2 基于图片识别的验证码393.1.3 基于语音识别的验证码403.1.4 基于行为识别的智能验证码403.2 避免 CAPTCHA 验证码触发 403.3 CAPTCHA 验证码生成 423.3.1 文本验证码的生成423.3.2 滑块验证码的生成433.3.3 点选验证码的生成453.4 CAPTCHA 验证码识别 473.4.1 文本验证码识别方案 1 473.4.2 文本验证码识别方案 2 523.4.3 滑块验证码的识别563.4.4 点选验证码的识别593.5 本章小结653.6 本章练习66第 4 章 网络抓包与对抗 674.1 Fiddler 674.1.1 Fiddler 的安装配置与基础功能使用 674.1.2 Fiddler 的高级特性 704.2 Charles734.3 Wireshark 754.4 SSL Pinning 保护机制下的网络数据抓包784.4.1 配置自定义 CA 证书 794.4.2 添加抓包软件证书到系统信任的 CA 证书列表 824.4.3 使用 Hook 技术844.5 JustTrustMe 的工作原理 864.5.1 SSL Pinning 机制的实现864.5.2 JustTrustMe 模块 Hook 操作的实现原理894.6 本章小结904.7 本章练习91第 5 章 JavaScript 逆向分析技术 925.1 常见的反爬虫策略及其应对方案925.1.1 基于访问频率的检查与访问限制925.1.2 基于请求参数和请求头信息的反爬虫技术945.1.3 基于蜜罐机制的反爬虫技术945.1.4 隐藏网页的跳转链接955.2 浏览器指纹识别与修复965.2.1 浏览器指纹识别的工作原理965.2.2 浏览器指纹泄露975.2.3 浏览器指纹泄露修复985.3 JavaScript 代码保护技术985.3.1 JavaScript 代码反调试技术 995.3.2 基于完整性检测的代码保护技术1065.3.3 限制 JavaScript 代码执行环境1115.3.4 JavaScript 代码混淆技术 1115.4 JavaScript 抽象语法树1225.4.1 抽象语法树的结构1235.4.2 抽象语法树的生成过程1245.4.3 操作抽象语法树1265.4.4 操作抽象语法树反混淆基础实践1315.5 JavaScript Hook 技术 1375.6 JavaScript 逆向工程实践1435.6.1 JavaScript 反混淆实战 1435.6.2 JavaScript Hook 技术实战 1565.7 本章小结1605.8 本章练习161第 6 章 App 数据爬取与逆向分析 1626.1 基于抓包分析的 App 数据爬取 1626.2 基于 Appium 自动化框架的 App 数据采集1636.2.1 Appium 简介 1636.2.2 Appium 环境搭建 1646.2.3 Appium 2.x 和 Appium 1.x1666.2.4 移动端 Web 爬虫开发实践1686.2.5 移动端 Native App 爬虫开发实践 1716.2.6 移动端 Hybrid App 爬虫开发实践1736.2.7 Appium 开发环境的常见错误与处理技巧 1756.3 Android 应用程序静态分析 1776.3.1 Android 应用程序基本结构剖析1776.3.2 Android 应用程序构建过程1806.3.3 Smali 代码分析1826.4 Android 应用程序动态分析 1886.4.1 向 Smali 代码中添加 debug 日志 1896.4.2 利用 Frida 框架进行逆向动态分析1916.5 二进制文件逆向分析2076.5.1 利用 objdump 逆向分析2076.5.2 利用 IDA 进行逆向静态分析2086.5.3 利用 IDA 进行动态逆向分析2106.6 加壳与脱壳技术2136.6.1 相关基础知识2146.6.2 加壳技术实现原理2156.6.3 脱壳技术实现原理2176.7 App 逆向分析实战一2216.8 App 逆向分析实战二2256.9 本章小结2286.10 本章练习 228第 7 章 分布式爬虫系统关键技术 2297.1 常用的分布式架构模式2297.1.1 主从模式2297.1.2 自治模式2307.2 任务调度策略2317.2.1 基于数据分区的调度策略2317.2.2 基于资源感知的调度策略2347.2.3 基于优先级的调度策略2357.2.4 基于自定义规则的调度策略2357.3 任务调度器2367.3.1 Quartz2367.3.2 ElasticJob 2387.3.3 XXL-JOB 2397.4 分布式消息队列2407.4.1 应用场景2417.4.2 分布式消息队列的类型2417.5 服务注册与发现242服务注册与发现架构类型2427.6 完全重复内容检测2457.6.1 布隆过滤器2457.6.2 基于哈希指纹的重复性检测2477.7 近似重复内容检测2487.7.1 基于词特征的文本相似度计算算法2487.7.2 基于深度学习的文本相似度计算算法2497.7.3 近似*近邻算法2507.8 本章小结2537.9 本章练习253第 8 章 分布式爬虫系统实战 2548.1 需求分析2548.1.1 功能需求分析2548.1.2 非功能需求分析2558.2 系统设计与实现2558.2.1 总体设计2568.2.2 爬取任务调度模块2578.2.3 反爬虫对抗组件2598.2.4 系统监控模块2618.2.5 重复内容过滤模块2638.2.6 内容相关性识别模块2718.2.7 爬取任务执行模块2738.2.8 系统底层存储设计2798.3 本章小结2818.4 本章练习281
展开全部

JAVA网络爬虫精解与实践 作者简介

张 凯中国科学院大学软件工程专业硕士,研究方向为操作系统虚拟化,毕业后先后供职于微策略、新浪微博,目前供职于粉笔科技,任技术总监职务,担任爬虫平台、内容审核平台等多个重要系统技术负责人。对网络爬虫、高可用架构设计和文本分类领域有着深入研究。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服