百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大数据平台架构简介(大数据平台架构简介怎么写)

ccwgpt 2025-03-14 15:24 43 浏览 0 评论

本文从大数据的整体架构出发,分层介绍了不同组件的应用场景。可以对大数据的初学者提供一定的参考。以下为集群架构图:

大数据架构图

该架构自下而上分为3层,分别是数据采集层数据存储和处理层应用层

下面分层介绍下各层组件的大致用法。

1.数据采集层

数据采集分为了实时采集和批量采集,实时采集主要通过Kafka和Spark Streaming,批量采集则用Datax,Sqoop,Shell和Python脚本完成。

1.1 Datax

目前作为我司主流的批量数据同步工具,主要用于一些逻辑简单的单表数据同步,如 Oracle->MySQL, Oracle->HDFS,MySQL->MySQL,MySQL->HDFS,HDFS->MySQL等。

这里的HDFS都是直接写入到了Hive表的存储路径。

1.2 Sqoop

部分很老的脚本仍在使用,如MySQL->Hive, Oracle->MySQL等,已经基本弃用。

1.3 Python脚本

部分人在用,用Python脚本做一些MySQL之间和Oracle和MySQL之间的数据同步。

1.4 Shell脚本

主要做一些复杂逻辑的数据同步。

如:同步的数据是多张MySQL表Join获得的,或者同步来的数据要写入到Hive分区表(通常会结合Datax,将批量数据写入临时表,然后查询临时表,处理分区字段写入到分区表内)。

1.5 Kafka+Spark Streaming的实时同步

这部分一般是客户端/服务端的用户行为数据,一部分是用户客户端自己上报(如用户的点击),一部分是Flume采集的服务器日志,发送到Kafka,这类数据一般都是实时的。通过Kafka的MirrorMaker把数据镜像到分析环境的Kafka,我们就可以用Spark Streaming应用程序消费,然后落地到HDFS,Hbase,ES等。

二、数据存储和处理层

这一层主要是数据的存储和处理,常用的组件有Hive,Hbase,Spark, ES等。

2.1 Hive

作为传统的数仓工具,存储着各个渠道同步过来的数据,同时也是业务分析人员常用的分析工具。一般业务数据会通过批量同步工具导入到Hive表,用户行为数据则会通过实时采集存储到HDFS,然后再洗成Hive表。

2.2 Hbase

主要两种用途,第一,作为实时计算的中间数据存储,第二,用于存储一些快照数据。

Hbase可以与Hive集成,可以有效利用HBase数据库的存储特性,如行更新和列索引等来更新Hive表。不过这种集成执行Hive查询效率极低。需要权衡考虑使用。

2.3 Spark

部分离线应用会使用Hive on Spark,把Spark作为Hive的一个计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算。该方法可以提高Hive查询的性能,同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择。

实时应用则会通过Spark Streaming结合Hbase做一些逻辑计算,然后将实时计算结果传给下游开发人员。

2.4 ES

存储Spark Streaming实时格式化后的数据,主要用于一些客服,运维人员的数据查证。也可以存储APP等的报错数据,用于异常定位。

三、数据应用层

数据应用层主要是各种报表数据支持,分析报告,接口服务,APP数据支持和违规打击等等。

  • 报表数据支持和分析报告:主要通过Shell脚本+MySQL+Tableau来实现。Shell脚本做各种数据分析,将结果写入MySQL,Tableau再以MySQL数据作为数据源,进行数据展示。
  • 接口服务:主要通过SpringBoot+Hbase组合,开放接口给下游开发人员。
  • APP/活动数据支持:主要通过Spark Streaming+Hbase做数据计算,Kafka作为数据传输通道。
  • 违规打击:主要通过Spark Streaming+MySQL+Hbase+Kafka实现,MySQL用于存储违规打击的规则,Spark Streaming+Hbase用于玩家违规计算,kafka传输违规玩家数据给下游处罚方。

四、最后

这只是一个最常规的大数据架构,一些组件并没有介绍,如负责脚本调度的azkaban,应用协调的zookeeper,集群资源管理的yarn,用于计算的MapReduce,hadoop的图形化截面hue,权限管理的sentry等等。

此外现在比较火的实时数仓也没有涉及(如ClickHouse,Kudu,Flink等等)。

相关推荐

FastUI:用Python构建高性能React应用,告别JavaScript

在现代Web开发中,前后端分离已经成为主流趋势。然而,前端开发往往需要深入掌握JavaScript和各种框架,这对于许多Python开发者来说是一个不小的挑战。今天,我们要介绍一个革命性的UI框架——...

Python + Flet 开发网站的最佳数据库模块组合

对于使用Python和Flet开发网站并需要数据库支持的应用,以下是推荐的模块组合方案。方案一:SQLite+SQLAlchemy(推荐轻量级方案)**适用场景**:中小型应用、单用户或...

前端程序员应该往全栈方向发展吗?还是坚守前端?

这是一个非常经典且重要的问题,几乎每一位走到职业生涯十字路口的前端程序员都会思考。它没有一个绝对的“正确答案”,但我们可以从多个维度来分析,帮你找到最适合你的那条路。简单来说,这不是一个“要不要”的...

Python交互仪表盘工具:Panel 进阶学习路线图

Panel作为Python生态系统中最强大的交互式仪表盘工具之一,其学习曲线既平缓又深远。这里我将为您构建一个系统化的进阶学习框架,包含实战项目和关键学习节点。1.现代化Web集成开发1....

PuePy:将Python带入浏览器的革命性框架

在现代网络开发中,JavaScript无疑是主导地位的编程语言。但最近,随着WebAssembly和PyScript的崛起,Python的使用场景逐渐扩展到了前端开发领域。PuePy应运而生,作为一...

不容易!找到一个python的超简易网站搭建神器

作者:清香客来源:Python技术相信很多学习python的酱友们,大部分和我一样是为了提升工作效率,但是在提升自己的工作效率时,也会想着做同样工作的同事能不能也用上自己写的脚本(视工作环境而定)...

PyWebView:用 Python 构建桌面应用的神器

作为一个Python开发者,我一直希望能找到一种简便的方法来构建桌面应用,而不是去学习诸如Electron这种重度依赖JavaScript的技术栈。就在我为桌面应用开发寻找替代方案时,遇到...

Python Django框架中级教程:深入探索Django的核心功能

在Python的Web开发领域中,Django框架以其强大的功能和高效的开发模式占据着重要地位。对于已经掌握了Django基础的开发者来说,进一步深入学习中级知识能让我们开发出更复杂、更强大的Web应...

【Python程序开发系列】使用Flask实现前后端分离(案例)

这是我的第398篇原创文章。一、引言随着web开发的不断发展,前后端分离已成为越来越流行的架构设计。Flask是一个轻量级的Pythonweb框架,非常适合用于构建API,然后配合前端框...

每天一个Python库:Flask超轻量Web框架,灵活高效!

为什么要学Flask?Flask是一个「微型但强大的」Web框架:极简上手,几行代码即可跑起来灵活扩展,想加啥加啥(RESTful、JWT、数据库…)文档齐全,适合入门API开发或快...

Python个人量化投资系统:后台搭建

独立搞量化系统的程序员最烦啥?重复造权限管理的轮子绝对排前三。技术老手用Python+PearAdminFlask两天搭出量化后台,实测开源框架真能省下80%基础工作量。开源后台框架选对,一人项目...

python后端学什么(python后端好找工作吗)

在当今数字化的时代,Python后端开发成为了众多开发者追逐的热门领域。那么,想要在这个领域崭露头角,我们究竟应该学些什么呢?学习Python后端开发需要掌握全栈技术栈,涵盖从基础语法到分布式...

Motia:重新定义后端与智能体整合的未来平台

在AIagent技术飞速发展的今天,我们拥有了诸如Dify、RAGFlow、LangChain等一系列优秀平台。然而,随着场景复杂度增加,开发者正面临一个共同问题:后端越来越碎片化,Agen...

Python数据校验不再难:Pydantic库的工程化实践指南

在FastAPI框架横扫Python后端开发领域的今天,其默认集成的Pydantic库正成为处理数据验证的黄金标准。这个看似简单的库究竟隐藏着哪些让开发者爱不释手的能力?本文将通过真实项目案例,带您解...

Python Flask 建站框架实操教程(flask框架网页)

下面我将带您从零开始构建一个完整的Flask网站,包含用户认证、数据库操作和前端模板等核心功能。##第一部分:基础项目搭建###1.创建项目环境```bash#创建项目目录mkdirfl...

取消回复欢迎 发表评论: