流式计算框架
- 大数据平台-数据采集和集成技术和工具整理
-
今天谈下大数据平台构建中的数据采集和集成。在最早谈BI或MDM系统的时候,也涉及到数据集成交换的事情,但是一般通过ETL工具或技术就能够完全解决。而在大数据平台构建中,对于数据采集的实时性要求出现变化,对于数据采集集成的类型也出现多样性,这是整个大数据平台采集和集成出现变化的重要原因。首先在这里表面...
- 大数据之Flink-(数据源)Data Source
-
大数据之Flink-(数据源)DataSource前言DataSources是什么呢?就字面意思其实就可以知道:数据来源。Flink做为一款流式计算框架,它可用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时的处理些实时数据流,实时的产生数据流结果,只要数据源源不断的...
- 流式计算的新贵 Kafka Stream设计解析
-
作者|郭俊编辑|江柳KafkaStream背景KafkaStream是什么KafkaStream是ApacheKafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。KafkaStream的特点如下:Kafk...
- 三大步骤、四个要点,构建高效又灵活的用户标签体系
-
本文作者:岳亚雷,TalkingData高级解决方案架构师,专注零售行业CDP(客户数据平台)和智能营销中枢的产品设计及落地,曾负责多家大型零售企业的数智化转型项目,致力于用“数据+算法”驱动客户运营策略、探索业务场景,挖掘客户生命周期价值。企业对用户的运营可分为两大类:主动运营,即企业侧主动去筛选...
- TalkingData岳亚雷:构建标签体系,很多人第一步就走错了
-
本文作者:岳亚雷,TalkingData高级解决方案架构师,专注零售行业CDP(客户数据平台)和智能营销中枢的产品设计及落地,曾负责多家大型零售企业的数智化转型项目,致力于用“数据+算法”驱动客户运营策略、探索业务场景,挖掘客户生命周期价值。企业对用户的运营可分为两大类:主动运营,即企业侧主动去筛选...
- 搭建私有化DataWorks平台 - Part 2 数据同步
-
前言搭建私有化阿里云DataWorks平台需要三个大的维度的功能:数据同步数据开发数据质量数据开发Part1已经讲完了,本文会深入讲解数据同步,数据质量会留在下一篇文章深入讲解。数据同步的核心数据同步是企业拥抱数据中台真正落地的第一步,这一步至关重要。这步核心要解决的事情是:确定围绕着本期数据中台...
- 旷视天元开源MegFlow,推动AI模型快速实现落地应用
-
北京商报讯(记者魏蔚)9月16日,北京商报记者从旷视获悉,旷视开源深度学习框架旷视天元MegEngine近日开源了MegFlow流式计算框架,助力AI算法开发者快速完成AI模型的落地应用。MegFlow是面向计算机视觉应用的流式计算框架,提供了一套可快速完成AI应用部署的视觉解析服务方案。A...
- 大数据计算引擎的发展已经到了第4代,你都掌握了吗?
-
Flink项目是大数据计算领域冉冉升起的一颗新星。大数据计算引擎的发展经历了几个过程,从第1代的MapReduce,到第2代基于有向无环图的Tez,第3代基于内存计算的Spark,再到第4代的Flink。因为Flink可以基于Hadoop进行开发和使用,所以Flink并不会取代Hadoop,而是和H...
- Hadoop YARN 资源调度框架架构与工作原理
-
一、YARN简介ApacheHadoopYARN(YetAnotherResourceNegotiator,另一种资源协调者)是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨...
- 聊一聊流式数据库(流式数据结构)
-
流式数据库的诞生是十多年数据处理和服务演变的结晶。这一演变根植于数据库管理系统、数据处理以及数字时代不断变化的需求的广泛历史之中。为了深入理解这一演变,让我们回顾那些塑造了流式数据库发展的关键历史里程碑。在20世纪末,互联网的兴起和数字数据的爆炸性增长催生了对更具可扩展性和灵活性的数据管理解决方案的...