百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

基于 Doris 构建数仓 ODS 层的具体步骤

ccwgpt 2025-03-10 13:15 29 浏览 0 评论

基于 Doris 构建数仓 ODS 层的具体步骤和操作实例,结合多个技术文档和实践经验整理而成:

一、数据源接入与存储设计

1. 数据源识别与接入方式

  • 数据源类型:通常包括业务数据库(MySQL/Oracle)、日志文件(JSON/CSV)、Kafka 实时流等。
  • 接入工具
    • 实时/增量数据:通过 Flink CDC 或 Kafka + Doris Routine Load 实时同步。
    • 批量数据:使用 Doris 的 Broker Load 或 INSERT INTO SELECT 批量导入。

2. 表结构设计

核心原则

  • 保留原始数据:ODS 层不进行复杂加工,仅存储原始数据。
  • 分区与分桶:按时间分区(如 dt 字段),分桶键选择高频查询字段(如事件类型)。
  • 字段类型优化:根据数据特征选择合适类型(如 VARCHAR(256) 避免空间浪费)。

建表示例(日志数据场景):

CREATE TABLE ods_event_log (
    distinct_id VARCHAR(256) NOT NULL COMMENT '用户ID',
    event VARCHAR(256) COMMENT '事件类型',
    ip VARCHAR(64) COMMENT 'IP地址',
    properties STRING COMMENT 'JSON格式事件属性',
    dt DATE COMMENT '事件日期'
)
ENGINE=OLAP
DUPLICATE KEY(distinct_id, event, dt)
PARTITION BY RANGE(dt) (
    FROM ("2023-01-01") TO ("2025-12-31") INTERVAL 1 DAY
)
DISTRIBUTED BY HASH(event) BUCKETS 8
PROPERTIES (
    "dynamic_partition.enable" = "true",
    "dynamic_partition.time_unit" = "DAY",
    "dynamic_partition.end" = "3"
);

二、数据导入与实时同步

1. Kafka 实时数据接入

通过 Routine Load 实现 Kafka 到 Doris 的持续同步:

CREATE ROUTINE LOAD ods.kafka_to_event_log ON ods_event_log
COLUMNS(
    distinct_id, event, ip, properties, dt,
    _tmp_time = FROM_UNIXTIME(time/1000),  -- 时间戳转换
    dt = DATE(_tmp_time)  -- 动态生成分区字段
)
PROPERTIES (
    "desired_concurrent_number" = "3",
    "max_batch_interval" = "10"
)
FROM KAFKA (
    "kafka_broker_list" = "kafka-host:9092",
    "kafka_topic" = "user_events",
    "property.group.id" = "doris_consumer"
);

2. 全量数据初始化

使用 Broker Load 导入历史数据:

LOAD LABEL ods.init_customer_data (
    DATA INFILE("hdfs://path/customer_data.csv")
    INTO TABLE ods.customer_info
    COLUMNS TERMINATED BY ","
    (customer_id, name, age, dt)
)
WITH BROKER "hdfs_broker"
PROPERTIES (
    "timeout" = "3600"
);

三、数据质量管理

1. 脏数据处理

  • 动态分区兜底:为异常时间数据设置默认分区:
ALTER TABLE ods_event_log ADD PARTITION p_overflow VALUES LESS THAN ("2100-01-01");
  • 字段容错:使用 STRING 类型存储不确定格式的 JSON 字段(如 properties)。

2. 数据校验

  • 数据量核对:通过 SHOW LOAD 查看导入状态,或执行 SELECT COUNT(*) 比对源端与目标端数据量。
  • 监控告警:利用 Doris 的审计日志和 Prometheus 监控导入延迟及错误率。

四、分层策略与优化

1. 全量与增量分离

  • 全量表:存储历史快照,按业务主键分区(如 customer_id)。
  • 增量表:按时间分区(如 dt),通过 WHERE dt >= '2025-03-01' 过滤增量数据。

2. 性能优化

  • 动态分区:自动创建未来 3 天分区,避免手动维护。
  • 前缀索引:将高频查询字段(如 event)放在 Duplicate Key 前列,加速查询。

五、操作实例:从 MySQL 同步到 ODS

  1. 创建 ODS 表
CREATE TABLE ods.order_info (
    order_id BIGINT,
    customer_id BIGINT,
    amount DECIMAL(10,2),
    order_time DATETIME,
    dt DATE
) DUPLICATE KEY(order_id)
PARTITION BY RANGE(dt) (...);
  1. 通过 Flink CDC 实时同步
-- Flink SQL 示例
CREATE TABLE mysql_orders (
    order_id BIGINT,
    ...
) WITH ('connector' = 'mysql-cdc', ...);

CREATE TABLE doris_ods (
    dt = DATE_FORMAT(order_time, 'yyyy-MM-dd'),
    ...
) WITH ('connector' = 'doris', ...);

INSERT INTO doris_ods SELECT * FROM mysql_orders;

总结

ODS 层建设的核心是 轻加工、保原始、重同步,需结合 Doris 的动态分区、Routine Load 等特性实现高效数据接入。实时场景优先选择 Kafka + Flink 链路,批量场景可搭配 Broker Load。数据质量需通过分区兜底、字段容错和监控告警保障。

相关推荐

定时任务工具,《此刻我要...》软件体验

之前果核给大家介绍过一款小众但实用的软件——小说规则下载器,可以把网页里的小说章节按照规则下载到本地,非常适合喜欢阅读小说的朋友。有意思的是,软件作者当时看到果核写的体验内容后,给反推荐到他的帖子里去...

前端定时任务的神库:Node-cron,让你的项目更高效!

在前端开发中,定时任务是一个常见的需求。无论是定时刷新数据、轮询接口,还是发送提醒,都需要一个可靠且灵活的定时任务解决方案。今天,我要向大家介绍一个强大的工具——Node-cron,它不仅能解决定时任...

Shutter Pro!一款多功能定时执行任务工具

这是一款可以在电脑上定时执行多种任务的小工具,使用它可以根据时间,电量等来设定一些定时任务,像定时打开程序、打开文件,定时关机重启,以及定时弹窗提醒等都可以轻松做到。这是个即开即用的小工具,无需安装,...

深度解析 Redis 缓存击穿及解决方案

在当今互联网大厂的后端开发体系中,Redis缓存占据着极为关键的地位。其凭借高性能、丰富的数据类型以及原子性操作等显著优势,助力众多高并发系统从容应对海量用户的访问冲击,已然成为后端开发从业者不可或...

从零搭建体育比分网站完整步骤(比较好的体育比分软件)

搭建一个体育比分网站是一个涉及前端、后端、数据源、部署和维护的完整项目。以下是从零开始搭建的详细流程:一、明确项目需求1.功能需求:实时比分展示(如足球、篮球、网球等)支持多个联赛和赛事历史数据查询比...

告别复杂命令行:GoCron 图形界面让定时任务触手可及

如果你是运维人员或者经常接触一些定时任务的配置,那么你一定希望有一款图形界面来帮助你方便的轻松配置定时任务,而GoCron就是这样一款软件,让你的配置可视化。什么是GoCron从名字你就可以大概猜到,...

Java任务管理框架核心技术解析与分布式高并发实战指南

在当今数字化时代,Java任务管理框架在众多应用场景中发挥着关键作用。随着业务规模的不断扩大,面对分布式高并发的复杂环境,掌握其核心技术并进行实战显得尤为重要。Java任务管理框架的核心技术涵盖多个方...

链表和结构体实现:MCU软件定时器(链表在单片机中的应用)

在一般的嵌入式产品设计中,介于成本、功耗等,所选型的MCU基本都是资源受限的,而里面的定时器的数量更是有限。在我们软件设计中往往有多种定时需求,例如脉冲输出、按键检测、LCD切屏延时等等,我们不可能...

SpringBoot定时任务(springboot定时任务每小时执行一次)

前言在我们开发中,经常碰到在某个时间点去执行某些操作,而我们不能人为的干预执行,这个时候就需要我们使用定时任务去完成该任务,下面我们来介绍下载springBoot中定时任务实现的方式。定时任务实现方式...

定时任务新玩法!systemd timer 完整实战详解

原文链接:「链接」Hello,大家好啊!今天给大家带来一篇使用systemdtimer实现定时任务调度的详细实战文章。相比传统的crontab,systemdtimer更加现代化、结构清晰...

Celery与Django:打造高效DevOps的定时任务与异步处理神器

本文详细介绍了Celery这一强大的异步任务队列系统,以及如何在Django框架中应用它来实现定时任务和异步处理,从而提高运维开发(DevOps)的效率和应用性能。下面我们先认识一下Cele...

订单超时自动取消的7种方案,我用这种!

前言在电商、外卖、票务等系统中,订单超时未支付自动取消是一个常见的需求。这个功能乍一看很简单,甚至很多初学者会觉得:"不就是加个定时器么?"但真到了实际工作中,细节的复杂程度往往会超...

裸机下多任务框架设计与实现(gd32裸机配置lwip 网络ping不通)

在嵌入式系统中,特别是在没有操作系统支持的裸机环境下,实现多任务执行是一个常见的挑战。本文将详细介绍一种基于定时器的多任务框架设计,通过全局时钟和状态机机制,实现任务的非阻塞调度,确保任务执行中不会出...

亿级高性能通知系统构建,小白也能拿来即用

作者介绍赵培龙,采货侠JAVA开发工程师分享概要一、服务划分二、系统设计1、首次消息发送2、重试消息发送三、稳定性的保障1、流量突增2、问题服务的资源隔离3、第三方服务的保护4、中间件的容错5、完善...

运维实战:深度拆解Systemd定时任务原理,90%的人不知道的玩法

运维实战:深度拆解Systemd定时任务原理,90%的人不知道的高效玩法一、Systemd定时任务的核心原理Systemd定时任务是Linux系统中替代传统cron的现代化解决方案,通过...

取消回复欢迎 发表评论: