书馨卡帮你省薪 2024个人购书报告 2024中图网年度报告
欢迎光临中图网 请 | 注册
> >
AI编程班:PyhonChatGPT网络爬虫从入门到精通

AI编程班:PyhonChatGPT网络爬虫从入门到精通

作者:李杰臣
出版社:北京理工大学出版社出版时间:2024-02-01
开本: 16开 页数: 272
中 图 价:¥53.4(6.0折) 定价  ¥89.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

AI编程班:PyhonChatGPT网络爬虫从入门到精通 版权信息

AI编程班:PyhonChatGPT网络爬虫从入门到精通 本书特色

让零基础小白掌握Python爬虫技术 用ChatGPT自动生成爬虫代码 掌握AI工具在编程中的应用,革新编程方式,改变编程思维

AI编程班:PyhonChatGPT网络爬虫从入门到精通 内容简介

全书共11章,以下是各章的主要内容:
第1章:主要讲解Python编程环境的搭建方法及Python语言的基础语法知识等内容。
第2章:主要讲解AI工具的基本使用方法,以及如何在爬虫编程中利用AI工具解决技术难题和提高开发效率。
第3章:主要讲解如何对网页进行初步分析,包括查看网页源代码、剖析网页的结构、判断网页的类型等,为获取网页源代码并提取数据奠定基础。
第4、5章:分别讲解静态网页和动态网页的爬取,主要内容包括如何使用Requests模块和Selenium模块获取网页源代码,如何使用正则表达式和BeautifulSoup模块从网页源代码中提取所需数据。
第6章:主要讲解如何使用pandas等模块对获取的数据进行清洗、处理和分析,以提高数据的质量,并从数据中提取有价值的信息。
第7章:进一步探索Python网络爬虫的进阶技术,例如,用pandas模块爬取网页表格数据、用数据接口爬取数据、开发带图形用户界面的爬虫程序等。全书共11章,以下是各章的主要内容: 第1章:主要讲解Python编程环境的搭建方法及Python语言的基础语法知识等内容。 第2章:主要讲解AI工具的基本使用方法,以及如何在爬虫编程中利用AI工具解决技术难题和提高开发效率。 第3章:主要讲解如何对网页进行初步分析,包括查看网页源代码、剖析网页的结构、判断网页的类型等,为获取网页源代码并提取数据奠定基础。 第4、5章:分别讲解静态网页和动态网页的爬取,主要内容包括如何使用Requests模块和Selenium模块获取网页源代码,如何使用正则表达式和BeautifulSoup模块从网页源代码中提取所需数据。 第6章:主要讲解如何使用pandas等模块对获取的数据进行清洗、处理和分析,以提高数据的质量,并从数据中提取有价值的信息。 第7章:进一步探索Python网络爬虫的进阶技术,例如,用pandas模块爬取网页表格数据、用数据接口爬取数据、开发带图形用户界面的爬虫程序等。 第8~11章:通过一系列实际应用场景来实践并强化之前所学的知识。这些场景涵盖了财经、社交媒体、电商等多个领域的数据爬取,以及媒体文件的下载。读者将深入体会如何灵活运用爬虫技术解决实际问题,在遇到困难时如何借助AI工具“见招拆招”,从而踏上编程能力的持续自我提升之路。

AI编程班:PyhonChatGPT网络爬虫从入门到精通 目录

第1章 Python入门 1.1 安装Python编程环境 1.2 管理第三方模块 1.3 在代码中导入模块 1.4 测试Python编程环境 1.5 变量的命名和赋值 1.6 Python的基本数据类型:数字、字符串 1.7 Python的基本数据类型:列表、字典 1.8 Python的运算符 1.9 Python的控制语句:if语句 1.10 Python的控制语句:for语句 1.11 Python的控制语句:while语句 1.12 Python的控制语句:try/except语句 1.13 Python控制语句的嵌套 1.14 Python的自定义函数 第2章 AI辅助编程基础 2.1 初识AI工具 2.2 与AI工具对话的基本操作 2.3 设计提示词的原则和技巧 2.4 利用AI工具解读和修改代码 2.5 利用AI工具分析报错信息 2.6 利用AI工具阅读技术文档 第3章 网页的初步分析 3.1 查看网页源代码:右键快捷菜单 3.2 查看网页源代码:开发者工具 3.3 认识常见的HTML标签 3.4 剖析网页的结构 3.5 判断网页的类型 第4章 静态网页的爬取 4.1 用Requests模块获取静态网页的源代码 4.2 正则表达式的基础知识 4.3 分析网页源代码并编写正则表达式 4.4 用正则表达式从网页源代码中提取数据 4.5 CSS选择器的基础知识 4.6 分析网页源代码并编写CSS选择器 4.7 用BeautifulSoup模块从网页源代码中提取数据 4.8 用Requests模块下载文件 4.9 静态网页爬取实战1:单页爬取 4.10 静态网页爬取实战2:多页爬取 第5章 动态网页的爬取 5.1 搭建Selenium模块的运行环境 5.2 用Selenium模块获取网页源代码 5.3 操控浏览器:用XPath定位网页元素 5.4 操控浏览器:用CSS选择器定位网页元素 5.5 操控浏览器:自动向下滚动页面 5.6 操控浏览器:自动下载文件 5.7 操控浏览器:切换标签页 5.8 操控浏览器:切换至标签中的子网页 5.9 操控浏览器:启用无界面模式 5.10 用Requests模块获取动态加载的数据 5.11 使用Cookie模拟登录 5.12 动态网页爬取实战1:单页爬取 5.13 动态网页爬取实战2:多页爬取 第6章 爬虫数据的处理和分析 6.1 pandas模块的基本数据结构:Series 6.2 pandas模块的基本数据结构:DataFrame 6.3 用pandas模块读写数据文件 6.4 DataFrame的常用操作:选取数据 6.5 DataFrame的常用操作:数据的运算、排序和筛选 6.6 爬虫数据清洗:处理缺失值和重复值 6.7 爬虫数据清洗:删除无用的字符 6.8 爬虫数据清洗:转换数据类型 6.9 爬虫数据清洗:补全数据 6.10 爬虫数据分析与可视化 第7章 Python爬虫技术进阶 7.1 用pandas模块爬取网页表格数据 7.2 用数据接口爬取数据 7.3 开发带图形用户界面的爬虫程序 7.4 爬虫程序的打包 7.5 爬虫提速:优化Selenium模块的等待方式 第8章 综合实战:财经数据爬取 8.1 爬取证券日报网的财经新闻 8.2 爬取搜狐的财经要闻 8.3 爬取东方财富网的财务报表 8.4 爬取新浪财经的上市公司盈利能力数据 8.5 批量下载上海证券交易所的问询函 8.6 批量下载东方财富网的研报 第9章 综合实战:社交媒体数据爬取 9.1 爬取百度热搜榜 9.2 爬取新浪微博热搜榜 9.3 爬取好看视频的数据 第10章 综合实战:电商数据爬取 10.1 爬取当当网的图书畅销榜数据 10.2 爬取京东的商品评价 第11章 综合实战:媒体文件下载 11.1 批量下载图片 11.2 批量下载视频
展开全部
商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服