Golang实现简单爬虫框架(3)——简单并发版
ccwgpt 2024-10-02 12:05 21 浏览 0 评论
Golang实现简单爬虫框架(3)——简单并发版
在上篇文章Golang实现简单爬虫框架(2)——单任务版爬虫中我们实现了一个简单的单任务版爬虫,对于单任务版爬虫,每次都要请求页面,然后解析数据,然后才能请求下一个页面。整个过程中,获取网页数据速度比较慢,那么我们就把获取数据模块做成并发执行。在项目的基础上,实现多任务并发版爬虫。
项目github地址:github.com/NovemberCho… 回滚到相应记录食用,效果更佳。
1、项目架构
首先我们把但任务版爬虫架构中的Fetcher模块和Parser模块合并成一个Worker模块,然后并发执行Worker模块
然后得到并发版的架构图:
- 在并发版爬虫中,会同时执行多个Worker,每个Worker任务接受一个Request请求,然后请求页面解析数据,输出解析出的Requests和Item
- 因为又很多Request和Worker,所以还需要Scheduler模块,负责对请求任务的调度处理
- Engine模块接受Worker发送的Requests和Items,当前我们先把Items打印出,把解析出的Request发送给调度器
- 其中Engine和Scheduler是一个goroutine,Worker包含多个goroutine,各个模块之间都是用channel进行连接
- 先放上重构后的项目文件结构:
2、Worker实现
我们从engine.go中提取下面功能作为Worker模块,同时把engine.go 更名为simple.go。修改后的simple.go文件请自行调整,或者去github项目源代码回滚查看。
engine/worker.go
package engine import ( "crawler/fetcher" "log" ) // 输入 Request, 返回 ParseResult func worker(request Request) (ParseResult, error) { log.Printf("Fetching %s\n", request.Url) content, err := fetcher.Fetch(request.Url) if err != nil { log.Printf("Fetch error, Url: %s %v\n", request.Url, err) return ParseResult{}, err } return request.ParseFunc(content), nil } 复制代码
对于每一个Worker接受一个请求,然后返回解析出的内容
3、并发引擎Concurrent实现
请大家根据架构图来看,效果会更好。
package engine import "log" // 并发引擎 type ConcurrendEngine struct { Scheduler Scheduler // 任务调度器 WorkerCount int // 任务并发数量 } // 任务调度器 type Scheduler interface { Submit(request Request) // 提交任务 ConfigMasterWorkerChan(chan Request) // 配置初始请求任务 } func (e *ConcurrendEngine) Run(seeds ...Request) { in := make(chan Request) // scheduler的输入 out := make(chan ParseResult) // worker的输出 e.Scheduler.ConfigMasterWorkerChan(in) // 把初始请求提交给scheduler // 创建 goruntine for i := 0; i < e.WorkerCount; i++ { createWorker(in, out) } // engine把请求任务提交给 Scheduler for _, request := range seeds { e.Scheduler.Submit(request) } itemCount := 0 for { // 接受 Worker 的解析结果 result := <-out for _, item := range result.Items { log.Printf("Got item: #%d: %v\n", itemCount, item) itemCount++ } // 然后把 Worker 解析出的 Request 送给 Scheduler for _, request := range result.Requests { e.Scheduler.Submit(request) } } } // 创建任务,调用worker,分发goroutine func createWorker(in chan Request, out chan ParseResult) { go func() { for { request := <-in result, err := worker(request) if err != nil { continue } out <- result } }() } 复制代码
4、任务调度器Scheduler实现
scheduler/scheduler.gopackage scheduler import "crawler/engine" type SimpleScheduler struct { workerChan chan engine.Request } func (s *SimpleScheduler) Submit(request engine.Request) { // 为每一个 Request 创建 goroutine go func() { s.workerChan <- request }() } // 把初始请求发送给 Scheduler func (s *SimpleScheduler) ConfigMasterWorkerChan(in chan engine.Request) { s.workerChan = in } 复制代码
5、main函数
package main import ( "crawler/engine" "crawler/scheduler" "crawler/zhenai/parser" ) func main() { e := engine.ConcurrendEngine{ // 配置爬虫引擎 Scheduler: &scheduler.SimpleScheduler{}, WorkerCount: 50, } e.Run(engine.Request{ // 配置爬虫目标信息 Url: "http://www.zhenai.com/zhenghun", ParseFunc: parser.ParseCityList, }) } 复制代码
6、小结
本次博客我们实现一个最简单的并发版爬虫,调度器源源不断的接受任务,一旦有一个worker空闲,就给其分配任务。这样子有一个缺点,就是我们不知道我们分发出那么多worker的工作情况,对worker的控制力比较弱,所以在下次博客中会用队列来实现任务调度。
如果想获取Google工程师深度讲解go语言视频资源的,可以在评论区留下邮箱。
项目的源代码已经托管到Github上,对于各个版本都有记录,欢迎大家查看,记得给个star,在此先谢谢大家了
相关推荐
- Dubbo最全详解(万字图文总结)
-
大家好,我是mikechen。Dubbo是非常重要的分布式中间件,也是微服务的核心框架,而且大厂也特别喜欢考察Dubbo,下面我就全面来详解Dubbo@mikechen本篇已收于mikechen原创超...
- 探秘Dubbo:RPC框架的奇妙世界
-
探秘Dubbo:RPC框架的奇妙世界大家好啊!今天我要带大家走进一个神奇的编程领域——分布式服务调用。说起分布式系统,很多程序员都头疼不已。但今天咱们不谈那些让人抓狂的网络延迟、负载均衡等问题,而是聚...
- Dubbo分布式服务框架:像调教宠物一样驾驭它
-
Dubbo分布式服务框架:像调教宠物一样驾驭它大家好呀,今天我们来聊聊Dubbo这个分布式服务框架,它就像一只温顺的小猫咪,但有时候也会调皮捣蛋,所以得好好调教一番。别担心,我会用最轻松的方式来帮你搞...
- 深入浅出:Dubbo框架源码分析
-
深入浅出:Dubbo框架源码分析Dubbo是一款由阿里巴巴开源的高性能分布式服务框架,广泛应用于微服务架构中。它为开发者提供了强大的RPC调用能力,使得分布式系统中的服务间通信变得简单高效。本文...
- Dubbo分布式服务框架:从零开始的实战之旅
-
Dubbo分布式服务框架:从零开始的实战之旅Dubbo作为一个高性能的JavaRPC框架,在微服务架构中扮演着重要角色。它能帮助开发者轻松构建分布式系统,实现服务间的高效通信。今天,我们就来一起探索...
- Dubbo分布式服务框架的工作原理:从入门到精通
-
Dubbo分布式服务框架的工作原理:从入门到精通Dubbo是一个高性能的Java分布式服务框架,由阿里巴巴开源。它致力于提供透明化的远程方法调用(RPC),使得开发者能够像调用本地服务一样调用远程服务...
- 框架的本质分析——Dubbo
-
诞生的背景什么背景下诞生了该技术?不论是哪个框架,不会平白无故诞生,不会平白无故的被人所追捧,了解其背景,追根溯源。随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架...
- 2023编导艺考「热点话题」评述框架示例(七个2022热点)
-
2022冬奥会开幕式(1)“旧”文化符号的“新”应用(2)“全媒体”时代的“小人物”(3)“简约”的形式表达“丰富”的内核(4)“新”叙事结构打破“旧”国家形象(5)数字媒介增强受众“在场感”短视频“...
- 84页思考的框架,思维模型的全明星集合,9种经典思维模型
-
分享职场干货,提升能力!为职场精英打造个人知识体系,升职加薪!84页思考的框架如何拿到分享的源文件:请您关注、转发,然后私信本头条号“文米”2个字,按照操作流程,专人负责发送源文件给您。...
- DUSt3R-从任意图像集合中重建3D场景的框架
-
DUSt3R是什么DUSt3R(DenseandUnconstrainedStereo3DReconstruction,密集无约束立体三维重建)是由来自芬兰阿尔托大学和Naver欧洲实验室的...
- 高考数学:一张思维导图掌握集合知识点,真题解析巩固知识
-
一、思维导图二、疑难透析三、题型示例1、已知集合A={1,3},B={x丨mx-3=0},且A∪B=A,则m的取值是()。【解析】分类讨论思想∵AUB=A∴BA(1)当m=0时,B=,符合条件;...
- java集合框架03——ArrayList和源码分析
-
上一章学习了Collection的架构,并阅读了部分源码,这一章开始,我们将对Collection的具体实现进行详细学习。首先学习List。而ArrayList又是List中最为常用的,因此本章先学习...
- Java Collections 工具类集合框架中常用算法解析
-
在软件开发中,算法是非常重要的一部分,它们可以提供高效的数据处理和操作。在Java集合框架中,有几个常用的算法,包括排序算法、二分查找算法、洗牌算法和旋转算法。本文将对这些算法进行详细解析,并写了一些...
- 1.6、Java 异常处理机制与集合框架(List、Set、Map等)
-
在Java编程中,异常处理机制和集合框架是两个非常重要的概念。前者帮助开发者处理程序运行时可能遇到的错误,确保程序能够稳定运行;后者则提供了一种有效的方式来管理和操作数据集合。本文将分别介绍Java中...
- Java集合框架性能优化秘籍
-
Java集合框架性能优化秘籍在Java的世界里,集合框架就像一座巨大的宝库,存储着我们程序的各种数据。然而,随着数据量的增大,如何让这座宝库更高效地运作,就成了我们必须掌握的艺术。今天,我们就来聊聊J...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)