当前位置：网站首页 > 技术文章 > 正文

python爬虫常用工具库总结

ccwgpt 2025-05-14 12:19 22 浏览 0 评论

说起爬虫，大家可能第一时间想到的是python，今天就简单为大家介绍下pyhton常用的一些库。

请求库：实现基础Http操作

urllib:python内置基本库，实现了一系列用于操作url的功能。

requests:基于 urllib 编写的，阻塞式 HTTP 请求库，发出一个请求，一直等待服务器响应后，程序才能进行下一步处理。(
http://cn.python-requests.org/zh_CN/latest/)

selenium:自动化测试工具。一个调用浏览器的 driver，通过这个库你可以直接调用浏览器完成某些操作。(
https://www.seleniumhq.org/)

phantomjs:一个基于webkit的javascript API。（http://phantomjs.org/）

解析库：从网页中提取信息

lxml：支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。(http://lxml.de/)

beautifulsoup4:html 和 XML 的解析,从网页中提取信息，同时拥有强大的API和多样解析方式。(
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/)

pyquery:jQuery 的 Python 实现，能够以 jQuery 的语法来操作解析 HTML 文档，易用性和解析速度都很好。(
https://pythonhosted.org/pyquery/)

数据库：数据存储

mysql(https://dev.mysql.com/downloads/mysql/)

redis(https://redis.io/m)

mongobd(https://www.mongodb.com/)

web框架:

flask:轻量级的 web 服务程序，简单，易用，灵活，主要来做一些 API 服务。做代理时可能会用到。(
http://docs.jinkan.org/docs/flask/)

django:一个 web 服务器框架，提供了一个完整的后台管理，引擎、接口等，使用它可做一个完整网站。(
https://www.djangoproject.com/)

jupyter:能让你非常方便的在数据探索过程中有良好的实时交互效果(http://jupyter.org/)

爬虫框架

scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如 weibo 的页面信息，这个框架就满足不了需求了。

crawley:高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为 JSON、XML 等。

portia:可视化爬取网页内容。

newspaper:提取新闻、文章以及内容分析。

python-goose:java 写的文章提取工具。

cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高

python爬虫框架

上一篇：玛森:Python爬虫书籍推荐
下一篇：30个小时搞定Python网络爬虫(全套详细版)

python爬虫常用工具库总结

相关推荐

取消回复欢迎你发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

(转载)Python爬虫框架Scrapy入门与实践

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

python爬虫常用工具库总结

相关推荐

取消回复欢迎 你 发表评论:

使用cheat engine修改unity游戏（cheat engine教程）

1分钟了解Tableau

(转载)Python爬虫框架Scrapy入门与实践

钉钉打卡虚拟定位赶快点赞收藏吧!

超级硬核的钉钉模拟wifi，定位，远程打卡教程

足不出户便能环游世界!手机发微信朋友圈如何定位到国外?

6米跨度柱子一般多大?框架结构的柱子应该设置多大?

项目使用 Jfrog Artifactory 制品库

.NET 多版本 WinForm 开源控件库 SunnyUI 技术解析与示例代码

美国陆军游骑兵和长程侦察巡逻部队军服图册

取消回复欢迎你发表评论: