百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Golang实现简单爬虫框架(3)——简单并发版

ccwgpt 2024-10-02 12:05 31 浏览 0 评论

Golang实现简单爬虫框架(3)——简单并发版

在上篇文章Golang实现简单爬虫框架(2)——单任务版爬虫中我们实现了一个简单的单任务版爬虫,对于单任务版爬虫,每次都要请求页面,然后解析数据,然后才能请求下一个页面。整个过程中,获取网页数据速度比较慢,那么我们就把获取数据模块做成并发执行。在项目的基础上,实现多任务并发版爬虫。

项目github地址:github.com/NovemberCho… 回滚到相应记录食用,效果更佳。

1、项目架构

首先我们把但任务版爬虫架构中的Fetcher模块和Parser模块合并成一个Worker模块,然后并发执行Worker模块

然后得到并发版的架构图:

  • 在并发版爬虫中,会同时执行多个Worker,每个Worker任务接受一个Request请求,然后请求页面解析数据,输出解析出的Requests和Item
  • 因为又很多Request和Worker,所以还需要Scheduler模块,负责对请求任务的调度处理
  • Engine模块接受Worker发送的Requests和Items,当前我们先把Items打印出,把解析出的Request发送给调度器
  • 其中Engine和Scheduler是一个goroutine,Worker包含多个goroutine,各个模块之间都是用channel进行连接
  • 先放上重构后的项目文件结构:

2、Worker实现

我们从engine.go中提取下面功能作为Worker模块,同时把engine.go 更名为simple.go。修改后的simple.go文件请自行调整,或者去github项目源代码回滚查看。

engine/worker.go

package engine
import (
	"crawler/fetcher"
	"log"
)
// 输入 Request, 返回 ParseResult
func worker(request Request) (ParseResult, error) {
	log.Printf("Fetching %s\n", request.Url)
	content, err := fetcher.Fetch(request.Url)
	if err != nil {
		log.Printf("Fetch error, Url: %s %v\n", request.Url, err)
		return ParseResult{}, err
	}
	return request.ParseFunc(content), nil
}
复制代码

对于每一个Worker接受一个请求,然后返回解析出的内容

3、并发引擎Concurrent实现

请大家根据架构图来看,效果会更好。

package engine
import "log"
// 并发引擎
type ConcurrendEngine struct {
 Scheduler Scheduler	// 任务调度器
 WorkerCount int			// 任务并发数量
}
// 任务调度器
type Scheduler interface {
 Submit(request Request) // 提交任务
 ConfigMasterWorkerChan(chan Request)	// 配置初始请求任务
}
func (e *ConcurrendEngine) Run(seeds ...Request) {
 in := make(chan Request)			// scheduler的输入
 out := make(chan ParseResult)	// worker的输出
 e.Scheduler.ConfigMasterWorkerChan(in)	// 把初始请求提交给scheduler
 // 创建 goruntine
 for i := 0; i < e.WorkerCount; i++ {
 createWorker(in, out)
 }
 // engine把请求任务提交给 Scheduler
 for _, request := range seeds {
 e.Scheduler.Submit(request)
 }
 itemCount := 0
 for {
 // 接受 Worker 的解析结果
 result := <-out
 for _, item := range result.Items {
 log.Printf("Got item: #%d: %v\n", itemCount, item)
 itemCount++
 }
 // 然后把 Worker 解析出的 Request 送给 Scheduler
 for _, request := range result.Requests {
 e.Scheduler.Submit(request)
 }
 }
}
// 创建任务,调用worker,分发goroutine
func createWorker(in chan Request, out chan ParseResult) {
 go func() {
 for {
 request := <-in
 result, err := worker(request)
 if err != nil {
 continue
 }
 out <- result
 }
 }()
}
复制代码

4、任务调度器Scheduler实现

scheduler/scheduler.gopackage scheduler
import "crawler/engine"
type SimpleScheduler struct {
	workerChan chan engine.Request
}
func (s *SimpleScheduler) Submit(request engine.Request) {
	// 为每一个 Request 创建 goroutine
	go func() {
		s.workerChan <- request
	}()
}
// 把初始请求发送给 Scheduler
func (s *SimpleScheduler) ConfigMasterWorkerChan(in chan engine.Request) {
	s.workerChan = in
}
复制代码

5、main函数

package main
import (
	"crawler/engine"
	"crawler/scheduler"
	"crawler/zhenai/parser"
)
func main() {
	e := engine.ConcurrendEngine{	// 配置爬虫引擎
		Scheduler: &scheduler.SimpleScheduler{},
		WorkerCount: 50,
	}
	e.Run(engine.Request{		// 配置爬虫目标信息
		Url: "http://www.zhenai.com/zhenghun",
		ParseFunc: parser.ParseCityList,
	})
}
复制代码

6、小结

本次博客我们实现一个最简单的并发版爬虫,调度器源源不断的接受任务,一旦有一个worker空闲,就给其分配任务。这样子有一个缺点,就是我们不知道我们分发出那么多worker的工作情况,对worker的控制力比较弱,所以在下次博客中会用队列来实现任务调度。

如果想获取Google工程师深度讲解go语言视频资源的,可以在评论区留下邮箱。

项目的源代码已经托管到Github上,对于各个版本都有记录,欢迎大家查看,记得给个star,在此先谢谢大家了

相关推荐

用Steam启动Epic游戏会更快吗?(epic怎么用steam启动)

Epic商店很香,但也有不少抱怨,其中一条是启动游戏太慢。那么,如果让Steam启动Epic游戏,会不会速度更快?众所周知,Steam可以启动非Steam游戏,方法是在客户端左下方点击“添加游戏”,然...

Docker看这一篇入门就够了(dockerl)

安装DockerLinux:$curl-fsSLhttps://get.docker.com-oget-docker.sh$sudoshget-docker.sh注意:如果安装了旧版...

AYUI 炫丽PC开发UI框架2016年6月15日对外免费开发使用 [1]

2016年6月15日,我AY对外发布AYUI(WPF4.0开发)的UI框架,开发时候,你可以无任何影响的去开发PC电脑上的软件exe程序。AYUI兼容XP操作系统,在Win7/8/8.1/10上都顺利...

别再说C#/C++套壳方案多了!Tauri这“借壳生蛋”你可能没看懂!

浏览器套壳方案,C#和C++有更多,你说的没错,从数量和历史积淀来看,C#和C++确实有不少方式来套壳浏览器,让Web内容在桌面应用里跑起来。但咱们得把这套壳二字掰扯清楚,因为这里面学问可大了!不同的...

OneCode 核心概念解析——Page(页面)

在接触到OneCode最先接触到的就是,Page页面,在低代码引擎中,页面(Page)设计的灵活性是平衡“快速开发”与“复杂需求适配”的关键。以下从架构设计、组件系统、配置能力等维度,解析确...

React是最后的前端框架吗,为什么这么说的?

油管上有一位叫Theo的博主说,React是终极前端框架,为什么这么说呢?让我们来看看其逻辑:这个标题看起来像假的,对吧?React之后明明有无数新框架诞生,凭什么说它是最后一个?我说的“最后一个”不...

面试辅导(二):2025前端面试密码:用3个底层逻辑征服技术官

面试官放下简历,手指在桌上敲了三下:"你上次解决的技术难题,现在回头看有什么不足?"眼前的候选人瞬间僵住——这是上周真实发生在蚂蚁金服终面的场景。2025年的前端战场早已不是框架熟练...

前端新星崛起!Astro框架能否终结React的霸主地位?

引言:当"背着背包的全能选手"遇上"轻装上阵的短跑冠军"如果你是一名前端开发者,2024年的框架之争绝对让你眼花缭乱——一边是React这位"背着全家桶的全能选...

基于函数计算的 BFF 架构(基于函数计算的 bff 架构是什么)

什么是BFFBFF全称是BackendsForFrontends(服务于前端的后端),起源于2015年SamNewman一篇博客文章《Pattern:BackendsFor...

谷歌 Prompt Engineering 白皮书:2025年 AI 提示词工程的 10 个技巧

在AI技术飞速发展的当下,如何更高效地与大语言模型(LLM)沟通,以获取更准确、更有价值的输出,成为了一个备受关注的问题。谷歌最新发布的《PromptEngineering》白皮书,为这一问题提供了...

光的艺术:灯具创意设计(灯光艺术作品展示)

本文转自|艺术与设计微信号|artdesign_org_cn“光”是文明的起源,是思维的开端,同样也是人类睁眼的开始。每个人在出生一刻,便接受了光的照耀和洗礼。远古时候,人们将光奉为神明,用火来...

MoE模型已成新风口,AI基础设施竞速升级

机器之心报道编辑:Panda因为基准测试成绩与实际表现相差较大,近期开源的Llama4系列模型正陷入争议的漩涡之中,但有一点却毫无疑问:MoE(混合专家)定然是未来AI大模型的主流范式之一。...

Meta Spatial SDK重大改进:重塑Horizon OS应用开发格局

由文心大模型生成的文章摘要Meta持续深耕SpatialSDK技术生态,提供开自去年9月正式推出以来,Meta持续深耕其SpatialSDK技术生态,通过一系列重大迭代与功能增强,不断革新H...

&quot;上云&quot;到底是个啥?用&quot;租房&quot;给你讲明白IaaS/PaaS/SaaS的区别

半夜三点被机房报警电话惊醒,顶着黑眼圈排查服务器故障——这是十年前互联网公司运维的日常。而现在,程序员小王正敷着面膜刷剧,因为公司的系统全"搬"到了云上。"部署到云上"...

php宝塔搭建部署thinkphp机械设备响应式企业网站php源码

大家好啊,欢迎来到web测评。本期给大家带来一套php开发的机械设备响应式企业网站php源码,上次是谁要的系统项目啊,帮你找到了,还说不会搭建,让我帮忙录制一期教程,趁着今天有空,简单的录制测试了一下...

取消回复欢迎 发表评论: