百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大数据有哪些开源的框架和组件值得我们学习?

ccwgpt 2024-10-08 01:08 30 浏览 0 评论

大数据平台

Hadoop

离线数据的分布式存储和计算基础框架 
分布式存储HDFS
离线计算引擎MapReduce
资源调度Apache YARN

CDH

基于稳定版Hadoop及相关项目最成型的发行版本, 成为企业部署最广泛的大数据系统
可视化的UI界面中方便的管理
配置和监控Hadoop以及其它所有相关组件
简单来说将十几个hadoop开源项目集成在一起

HDP

基于hadoop生态系统开源组件构建的大数据分析平台

集群管理与监控

Cloudera Manager

用于部署和管理CDH集群的软件 
Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维 

文件系统

HDFS

分布式文件系统 

资源调度

YARN

hadoop的资源管理和作业调度系统 

协调框架

Zookeeper

 分布式协调服务,解决分布式数据一致性方案 实现诸如数据发布
订阅、负载均衡、命名、集群管理 master节点管理
 分布式锁和分布式队列

数据存储

Hbase


分布式面向列的NoSQL开源数据库

Cassandra

分布式的混合NoSQL数据库 ,还有C++版本ScyllaDB

MongDB

面向文档的开源分布式数据库

Redis

开源的支持网络,基于内存可持久化日志,key-value数据库,可用于
数据库
缓存
消息中间件

Neo4j

开源高性能的NoSQL图形数据库

数据处理

MapReduce

分布式离线的计算框架
批处理 
日渐被spark和flink取代 

Spark


通用的一站式计算框架
SparkCore批处理
SparkSQL交互式处理
SparkStreaming流处理
Spark Graphx图计算
Spark MLlib机器学习 

Flink


流处理和批处理分布式数据处理框架
 核心是一个流式的数据流执行引擎 类似于Spark
批处理
数据流处理
交互处理
图形处理和机器学习

Storm


分布式实时大数据处理系统
毫秒级别的实时数据处理能力 
实时分析的领导者 

数据查询分析

Hive

基于hadoop的数据仓库,结构化
SparkSQL
处理结构化数据的spark组件
分布式的SQL查询引擎

Impala

实时交互SQL大数据查询引擎

Druid

实时大数据分析引擎

Elastic Search


分布式可扩展的实时搜索和分析引擎,基于Apache Lucene搜索引擎

数据收集

Flume


分布式海量日志采集、聚合和传输系统

Logstash

具有实时管道功能的开源数据收集引擎

数据交换

sqoop

数据迁移工具,用来在不同数据存储软件之间进行数据传输的开源软件

DataX

阿里巴巴开源的离线数据同步工具,用于实现包括关系型数据库(MySQL、Oracle等)
HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步

消息系统

Pulsar

企业级分布式消息系统,有替代Kafka的趋势

Kafka

发布/订阅的消息系统,由Scala写成

RocketMQ

阿里巴巴分布式、队列模型的消息中间件

任务调度

Azkaban

批量工作流任务调度器,将所有正在运行的工作流的状态保存在其内存

Oozie

基于Hadoop的企业级工作流调度框架
将所有正在运行的工作流的状态保存SQL数据库
Cloudeara贡献给Apache的顶级项目

数据治理

Ranger

Hadoop 平台上并提供操作、监控、管理综合数据安全的框架
提供一个集中的管理机制,所有数据权限

Sentry

Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项目

数据可视化

Kibana


用于和 Elasticsearch 一起使用的开源的分析与可视化平台

数据挖掘

Mahout

基于hadoop的机器学习和数据挖掘的一个分布式框架

Spark MLlib

Spark的机器学习库

MADlib

基于SQL的数据库内置的可扩展的机器学习库

云平台技术

AWS S3

一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能
存储和保护各种用例数据

GCP

Google提供的一套云计算服务
注册一个帐号,在分布在全球各地数十个google机房使用所有的基础架构服务

相关推荐

一个基于.Net Core遵循Clean Architecture原则开源架构

今天给大家推荐一个遵循CleanArchitecture原则开源架构。项目简介这是基于Asp.netCore6开发的,遵循CleanArchitecture原则,可以高效、快速地构建基于Ra...

AI写代码翻车无数次,我发现只要提前做好这3步,bug立减80%

写十万行全是bug之后终于找到方法了开发"提示词管理助手"新版本那会儿,我差点被bug整崩溃。刚开始两周,全靠AI改代码架构,结果十万行程序漏洞百出。本来以为AI说没问题就稳了,结果...

OneCode低代码平台的事件驱动设计:架构解析与实践

引言:低代码平台的事件驱动范式在现代软件开发中,事件驱动架构(EDA)已成为构建灵活、松耦合系统的核心范式。OneCode低代码平台通过创新性的注解驱动设计,将事件驱动理念深度融入平台架构,实现了业务...

国内大厂AI插件评测:根据UI图生成Vue前端代码

在IDEA中安装大厂的AI插件,打开ruoyi增强项目:yudao-ui-admin-vue31.CodeBuddy插件登录腾讯的CodeBuddy后,大模型选择deepseek-v3,输入提示语:...

AI+低代码技术揭秘(二):核心架构

本文档介绍了为VTJ低代码平台提供支持的基本架构组件,包括Engine编排层、Provider服务系统、数据模型和代码生成管道。有关UI组件库和widget系统的信息,请参阅UI...

GitDiagram用AI把代码库变成可视化架构图

这是一个名为gitdiagram的开源工具,可将GitHub仓库实时转换为交互式架构图,帮助开发者快速理解代码结构。核心功能一键可视化:替换GitHubURL中的"hub...

30天自制操作系统:第六天:代码架构整理与中断处理

1.拆开bootpack.c文件。根据设计模式将对应的功能封装成独立的文件。2.初始化pic:pic(可编程中断控制器):在设计上,cpu单独只能处理一个中断。而pic是将8个中断信号集合成一个中断...

AI写代码越帮越忙?2025年研究揭露惊人真相

近年来,AI工具如雨后春笋般涌现,许多人开始幻想程序员的未来就是“对着AI说几句话”,就能轻松写出完美的代码。然而,2025年的一项最新研究却颠覆了这一期待,揭示了一个令人意外的结果。研究邀请了16位...

一键理解开源项目:两个自动生成GitHub代码架构图与说明书工具

一、GitDiagram可以一键生成github代码仓库的架构图如果想要可视化github开源项目:https://github.com/luler/reflex_ai_fast,也可以直接把域名替换...

5分钟掌握 c# 网络通讯架构及代码示例

以下是C#网络通讯架构的核心要点及代码示例,按协议类型分类整理:一、TCP协议(可靠连接)1.同步通信//服务器端usingSystem.Net.Sockets;usingTcpListene...

从复杂到优雅:用建造者和责任链重塑代码架构

引用设计模式是软件开发中的重要工具,它为解决常见问题提供了标准化的解决方案,提高了代码的可维护性和可扩展性,提升了开发效率,促进了团队协作,提高了软件质量,并帮助开发者更好地适应需求变化。通过学习和应...

低代码开发当道,我还需要学习LangChain这些框架吗?| IT杂谈

专注LLM深度应用,关注我不迷路前两天有位兄弟问了个问题:当然我很能理解这位朋友的担忧:期望效率最大化,时间用在刀刃上,“不要重新发明轮子”嘛。铺天盖地的AI信息轰炸与概念炒作,很容易让人浮躁与迷茫。...

框架设计并不是简单粗暴地写代码,而是要先弄清逻辑

3.框架设计3.框架设计本节我们要开发一个UI框架,底层以白鹭引擎为例。框架设计的第一步并不是直接撸代码,而是先想清楚设计思想,抽象。一个一个的UI窗口是独立的吗?不是的,...

大佬用 Avalonia 框架开发的 C# 代码 IDE

AvalonStudioAvalonStudio是一个开源的跨平台的开发编辑器(IDE),AvalonStudio的目标是成为一个功能齐全,并且可以让开发者快速使用的IDE,提高开发的生产力。A...

轻量级框架Lagent 仅需20行代码即可构建自己的智能代理

站长之家(ChinaZ.com)8月30日消息:Lagent是一个专注于基于LLM模型的代理开发的轻量级框架。它的设计旨在简化和提高这种模型下代理的开发效率。LLM模型是一种强大的工具,可以...

取消回复欢迎 发表评论: