百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

扒一扒,爬虫框架你都知道哪些?(爬虫框架 python)

ccwgpt 2024-10-10 04:53 27 浏览 0 评论

Nutch 官网: http://nutch.apache.org/

Nutch是一个成熟的、可生产的Web爬虫程序,用Java编写的开源网络爬虫,适用于分布式文件系统,也可以说Nutch 是一个分布式爬虫框架。

在爬取海量数据的项目上,它无疑是最好的选择。

Nutch 最特色的地方就是搜索,可拔插的索引存在于Apache Solr、Elastic Search、SolrCloud等等,可以自动发现网页超链接,减少很多维护工作,比如检查坏链接,为所有访问过的页面建立拷贝进行搜索,Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页,而Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要下载一个二进制的发行版即可

缺点:

a 不适合精准数据爬取,会将大量时间浪费在计算上,杀鸡焉用牛刀!

b 海量数据存储依赖 hadoop,集群运行时间较慢,耗时长

WebMagic 网址: http://webmagic.io/

简单灵活的Java爬虫框架,提供多线程和分布式支持

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些

  • PageProcessor 负责解析页面,抽取有用信息,以及发现新的链接。需要自己定义。
  • Scheduler 负责管理待抓取的URL,以及一些去重的工作。一般无需自己定制
  • Pipeline 负责抽取结果的处理,包括计算、持久化到文件、数据库等。
  • Downloader 负责从互联网上下载页面,以便后续处理。一般无需自己实现。

Crawler4j

crawler4j是Java实现的开源网络爬虫,轻量级多线程网络爬虫

创建Crawler类,继承 WebCrawler,重写shouldVisitvisit方法

Heritrix

是由Java开发的开源Web爬虫系统,用来获取完整的、精确的站点内容的深度复制

由核心类(core classes)和插件模块(pluggable modules)构成

中央控制器 CrawlController 是核心组件,决定了整个抓取任务的开始与结束

用户在 Heritrix web UI 控制台设置抓取任务后,heritrix首先构造XMLSettingsHandler对象,然后调用CrawlController的构造函数,构造一个CrawlController实例并初始化,这样,CrawlController就具备了运行条件。

此时,只需调用 requestCrawlStart()方法就可以启动线程池和Frontier,以便向线程池中工作线程提供抓取用的URL链接

WebCollector

WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核)

源码中集成了 Jsoup,可进行精准的网页解析。2.x 版本中集成了 selenium,可以处理 JavaScript 生成的数据

WebCollector目前有单机版和Hadoop版(WebCollector-Hadoop),单机版能够处理千万级别的URL,对于大部分的精数据采集任务,这已经足够了

以上框架都是基于JAVA 语言的,下面隆重介绍基于Python语言的框架Scrapy

Scrapy

Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试

入门教程文档: https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

创建一个新的Scrapy项目:

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/
 scrapy.cfg
 tutorial/
 __init__.py
 items.py
 pipelines.py
 settings.py
 spiders/
 __init__.py
 ...	

这些文件分别是

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

结合上一篇帖子里的项目我们全面介绍一下Scrapy:

Scrapy整体架构大致如下:

编写爬虫代码开始--begin!!!

定义 Item

Item 是保存爬取到的数据的容器;其使用方法和python字典类似,

import scrapy
class ItcastItem(scrapy.Item):
 name = scrapy.Field()
 level = scrapy.Field()
 info = scrapy.Field()

爬虫(Spider)

为了创建一个Spider,您必须继承 scrapy.Spider 类, 且定义以下三个属性:

name: 用于区别Spider。名字必须是唯一的。

start_urls: 包含了Spider在启动时进行爬取的url列表。 因此,第一个被获取到的页面将是其中之一。 后续的URL则从初始的URL获取到的数据中提取。

parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

编写item pipeline

每个item pipeline组件都需要调用 process_item(item, spider) 方法,这个方法必须返回一个 Item (或任何继承类)对象, 或是抛出 DropItem 异常,被丢弃的item将不会被之后的pipeline组件所处理

配置文件settings.py

进入项目的根目录,执行下列命令启动spider

scrapy crawl itcast

代码的执行结果上一篇帖子有图片介绍。

有关技术和业务方面的问题欢迎私信讨论,希望大家多多关注!

相关推荐

软件开发接口通信总结(软件开发 接口)

常用的接口通信开发:1.http协议通信:主要通过post,get方式提交,通信较耗时,至少几百毫秒,但是如果采用线程池做,在初次建立连接时,耗时,建立连接后,通信挺快的,十几毫秒可以搞定。httpC...

《哪吒2》中物理知识很多,但无量仙翁喝尿的解释又完美又搞笑~

随着《哪吒2》票房的不断攀升,导演饺子背后的故事不断被挖掘大家发现,学历高的导演就是不一样,高考600多分的导演拍出来的作品里面全是知识点啊,尤其是包含了很多物理知识点。大哪吒的头发为什么是向上的?无...

用毕加索风格打造动画版“头号玩家”

提香·韦切利奥的《乌尔比诺的维纳斯》。桑德罗·波提切利的《维纳斯的诞生》。毕加索的《手里捧着书的女子》。安迪·沃霍尔的《双面猫王》。凡·高的《邮差约瑟鲁林》。马奈的《奥林匹亚》。巴齐耶的《雷诺阿画像》...

《章鱼噼的原罪》开播即好评 诡谲美学何时能突破电视框架?

由「タイザン5」创作的短篇漫画《章鱼噼的原罪》,自2021年底在少年Jump+连载以来,仅用上下两集单行本的体量,便以「幸福表象下的惊悚内核」引爆话题。作品中扭曲的友情叙事与冲击性画面形成强烈反差,单...

妖猫睡猫招财猫,都是怎么“化人”的?

陆颖瑶江户时期的猫常常被当作浮世绘的题材,最初是在美人画的角落里作为美人的可爱宠物而登场,后来被画家拟人化,成为役者画、玩具画等的创作对象,澎湃新闻获悉,日本大阪历史博物馆即将举办“国芳、广重、国贞...

俄媒:俄空投“章鱼”反坦克炮测试坚固性

参考消息网9月15日报道据俄罗斯卫星社莫斯科9月14日报道,俄罗斯国家技术集团公司向卫星社表示,从塔台上投落现代化自行反坦克炮“章鱼”-SDM1,以测试其在伞投期间承受过载的能力。俄罗斯国家技术集团公...

新大众文艺生产模式下的网络热梗(大众文艺是scd吗)

作者:郑绩当二次元向元宇宙进化,ACGN(动画、漫画、游戏、小说)仅成为虚拟空间的某个维度,以“用户”为名的主体开创出新大众文艺生产模式。孕诞的过程如此丝滑,稍不留神,我们已迷走于强烈复杂的数字现实...

安徽业主私人定制188平农村合院,因地制宜建出优质别墅!

理想的生活,不仅要有一座院子、一家人、四季春秋,还要有闲适的时间与知己往来。人生得意须尽欢,一席阔厅,既是茶余饭后阖家相聚的生活主场,也是主人尊崇品味的直观呈现。下面这套农村宅院,一入家门、二赏庭院、...

用数学融智学人力资源模型的核心架构:建立可量化的理论框架

用数学融智学人力资源模型的核心架构建立可量化的理论框架一、潜能开发三阶模型1.潜能探测函数其中:2.认知锻造方程采用1+3倍增算子:其中:二、九五智尊分类模型人才特征空间映射训练优化目标三、实战...

优化作文结构:三种实用框架解析(作文框架梳理)

优化作文结构:三种实用框架解析一、案例启示:结构优化的重要性子涵写作初用“总分总”结构(如诚信主题),但中间部分未细分导致混乱。优化后:1.引论:以商鞅立木为信案例引入,总述诚信为立身之本。2....

农村自建房新宠!半框架结构凭啥这么火?内行人揭开3个扎心真相

最近回老家发现一个怪现象:几乎家家盖新房都爱用"半框架结构"。隔壁王叔家刚完工的二层小楼,外墙红砖还没勾缝,里面的水泥柱子已经支棱起来了。这玩意儿到底有啥魔力?我蹲工地三天,问了十几个...

Apache Log4j高危漏洞,燃爆大厂、燃烧Java开源框架

8分钟阅读.一、背景本周对IT界的Java工程师来说,应该都有一个比较难忘的夜晚。夜半迷迷糊糊接到安全部的电话要求立即、马上升级Log4j的版本,修复安全漏洞。What?来不及…就投入了战斗。尤其大厂...

我的公司信息(我的公司信息英语作文)

软件工程师(平台开发方向)面议福建->厦门本科不限全职职位诱惑:精英团队、福利多样、假期丰富,你会是吉比特的有缘人吗职位描述岗位职责:1、负责游戏平台的功能开发任务;2、搭建游戏...

深入了解 Java Spring:从基础到安全防范

在Java开发的广阔领域中,Spring框架无疑是一颗璀璨的明星。它经历了从传统企业级开发到现代云原生、响应式编程的演变,每个大版本都在配置简化、性能提升、技术集成等方面持续创新。今天,就让我们...

【紧急预警】关于 Apache Log4j 2 任意代码执行漏洞的高危风险通告

概述我中心多家网络威胁数据联盟成员单位近日监测到ApacheLog4j2存在任意代码执行漏洞,经过分析,由于ApacheLog4j2新增的lookup功能未对输入进行严格的判断,存在递归...

取消回复欢迎 发表评论: