百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

基于 Doris 构建数仓 ODS 层的具体步骤

ccwgpt 2025-03-10 13:15 41 浏览 0 评论

基于 Doris 构建数仓 ODS 层的具体步骤和操作实例,结合多个技术文档和实践经验整理而成:

一、数据源接入与存储设计

1. 数据源识别与接入方式

  • 数据源类型:通常包括业务数据库(MySQL/Oracle)、日志文件(JSON/CSV)、Kafka 实时流等。
  • 接入工具
    • 实时/增量数据:通过 Flink CDC 或 Kafka + Doris Routine Load 实时同步。
    • 批量数据:使用 Doris 的 Broker Load 或 INSERT INTO SELECT 批量导入。

2. 表结构设计

核心原则

  • 保留原始数据:ODS 层不进行复杂加工,仅存储原始数据。
  • 分区与分桶:按时间分区(如 dt 字段),分桶键选择高频查询字段(如事件类型)。
  • 字段类型优化:根据数据特征选择合适类型(如 VARCHAR(256) 避免空间浪费)。

建表示例(日志数据场景):

CREATE TABLE ods_event_log (
    distinct_id VARCHAR(256) NOT NULL COMMENT '用户ID',
    event VARCHAR(256) COMMENT '事件类型',
    ip VARCHAR(64) COMMENT 'IP地址',
    properties STRING COMMENT 'JSON格式事件属性',
    dt DATE COMMENT '事件日期'
)
ENGINE=OLAP
DUPLICATE KEY(distinct_id, event, dt)
PARTITION BY RANGE(dt) (
    FROM ("2023-01-01") TO ("2025-12-31") INTERVAL 1 DAY
)
DISTRIBUTED BY HASH(event) BUCKETS 8
PROPERTIES (
    "dynamic_partition.enable" = "true",
    "dynamic_partition.time_unit" = "DAY",
    "dynamic_partition.end" = "3"
);

二、数据导入与实时同步

1. Kafka 实时数据接入

通过 Routine Load 实现 Kafka 到 Doris 的持续同步:

CREATE ROUTINE LOAD ods.kafka_to_event_log ON ods_event_log
COLUMNS(
    distinct_id, event, ip, properties, dt,
    _tmp_time = FROM_UNIXTIME(time/1000),  -- 时间戳转换
    dt = DATE(_tmp_time)  -- 动态生成分区字段
)
PROPERTIES (
    "desired_concurrent_number" = "3",
    "max_batch_interval" = "10"
)
FROM KAFKA (
    "kafka_broker_list" = "kafka-host:9092",
    "kafka_topic" = "user_events",
    "property.group.id" = "doris_consumer"
);

2. 全量数据初始化

使用 Broker Load 导入历史数据:

LOAD LABEL ods.init_customer_data (
    DATA INFILE("hdfs://path/customer_data.csv")
    INTO TABLE ods.customer_info
    COLUMNS TERMINATED BY ","
    (customer_id, name, age, dt)
)
WITH BROKER "hdfs_broker"
PROPERTIES (
    "timeout" = "3600"
);

三、数据质量管理

1. 脏数据处理

  • 动态分区兜底:为异常时间数据设置默认分区:
ALTER TABLE ods_event_log ADD PARTITION p_overflow VALUES LESS THAN ("2100-01-01");
  • 字段容错:使用 STRING 类型存储不确定格式的 JSON 字段(如 properties)。

2. 数据校验

  • 数据量核对:通过 SHOW LOAD 查看导入状态,或执行 SELECT COUNT(*) 比对源端与目标端数据量。
  • 监控告警:利用 Doris 的审计日志和 Prometheus 监控导入延迟及错误率。

四、分层策略与优化

1. 全量与增量分离

  • 全量表:存储历史快照,按业务主键分区(如 customer_id)。
  • 增量表:按时间分区(如 dt),通过 WHERE dt >= '2025-03-01' 过滤增量数据。

2. 性能优化

  • 动态分区:自动创建未来 3 天分区,避免手动维护。
  • 前缀索引:将高频查询字段(如 event)放在 Duplicate Key 前列,加速查询。

五、操作实例:从 MySQL 同步到 ODS

  1. 创建 ODS 表
CREATE TABLE ods.order_info (
    order_id BIGINT,
    customer_id BIGINT,
    amount DECIMAL(10,2),
    order_time DATETIME,
    dt DATE
) DUPLICATE KEY(order_id)
PARTITION BY RANGE(dt) (...);
  1. 通过 Flink CDC 实时同步
-- Flink SQL 示例
CREATE TABLE mysql_orders (
    order_id BIGINT,
    ...
) WITH ('connector' = 'mysql-cdc', ...);

CREATE TABLE doris_ods (
    dt = DATE_FORMAT(order_time, 'yyyy-MM-dd'),
    ...
) WITH ('connector' = 'doris', ...);

INSERT INTO doris_ods SELECT * FROM mysql_orders;

总结

ODS 层建设的核心是 轻加工、保原始、重同步,需结合 Doris 的动态分区、Routine Load 等特性实现高效数据接入。实时场景优先选择 Kafka + Flink 链路,批量场景可搭配 Broker Load。数据质量需通过分区兜底、字段容错和监控告警保障。

相关推荐

如何使用PIL生成验证码?(pi验证教程)

web项目中遇到使用验证码的情况有很多,进行介绍下使用PIL生成验证码的方法。安装开始安装PIL的过程确实麻烦各种问题层出不绝,不过不断深入后就没有这方面的困扰了:windows安装:直接安装Pil...

Python必学!3步解锁asyncio异步编程 性能直接狂飙10倍!

还在用传统同步代码被IO阻塞卡到崩溃?别当“代码苦行僧”了!Python的asyncio模块堪称异步编程的“开挂神器”,处理高并发任务就像开了涡轮增压!不管是网络爬虫、API接口开发还是文件批量处理,...

Tornado6+APScheduler/Celery打造并发异步动态定时任务轮询服务

定时任务的典型落地场景在各行业中都很普遍,比如支付系统中,支付过程中因为网络或者其他因素导致出现掉单、卡单的情况,账单变成了“单边账”,这种情况对于支付用户来说,毫无疑问是灾难级别的体验,明明自己付了...

Python学习怎么入门?附真实学习方法

Python技术在企业中应用的越来越广泛,因此企业对于Python方面专业人才的需求也越来越大,那对于之前对Python没有任何了解和接触的人而言,想要从零开始学习并不是一件容易的事情,接下来小U就为...

PySpider框架的使用(pyspider 教程)

PysiderPysider是一个国人用Python编写的、带有强大的WebUI的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。安装pip3inst...

大学计算机专业 学习Python学习路线图(最新版)

这是我刚开始学习python时的一套学习路线,从入门到上手。(不敢说精通,哈哈~)希望对大家有帮助哈~大家需要高清得完整python学习路线可以【文末有获取方式】【文末有获取方式】一、Python入门...

阿里巴巴打造的400集Python视频合集免费学起来,学完万物皆可爬

第一阶段Python入门章节1:Python入门章节2:编程基本概念章节3:序列章节4:控制语句章节5:函数章节6:面向对象编程第二阶段Python深入与提高章节1:异常处理章节2:游戏开发-坦克大...

Nginx Gunicorn在服务器中分别起什么作用

大部分人在gunicorn前面部署一层nginx的时候也的确没有想过为什么,他们只是觉得这样显得他们比较专业,而且幻想着加了一层nginx反向代理之后性能会有提升,恕我直言,请你们带上脑子,一个单纯的...

Python培训怎么学?Python基础技术总结!值得一看

Python培训如今越来越被更多人所接受,相比自学参加Python培训的好处也是显而易见,但Python毕竟属于后端编程开发的主流语言,其知识机构还是比较庞大的,那Python培训怎么学?以及Pyth...

使用Tornado部署Flask项目(tornado async)

Tornado不仅仅是一个WEB框架,也可以是一个WEB服务器。在Tornado中我们可以使用wsgi模块下的WSGIContainer类运行其他WSGI应用如:Fask,Bottle,Djang...

Python Web框架哪个好用?(python3 web框架)

  问:PythonWeb框架哪个好用?  答:  1.Django  Django是Python世界中最出名、最成熟的Web框架。Django功能全面,各模块之间结合紧密,(不讲其他的)Djang...

Vue3.0+Tornado6.1发布订阅模式打造异步非阻塞实时=通信聊天系统

“表达欲”是人类成长史上的强大“源动力”,恩格斯早就直截了当地指出,处在蒙昧时代即低级阶段的人类,“以果实、坚果、根作为食物;音节清晰的语言的产生是这一时期的主要成就”。而在网络时代人们的表达欲往往更...

Python开源项目合集(第三方平台)(python第三方开发工具)

wechat-python-sdk-wechat-python-sdk微信公众平台Python开发包http://wechat-python-sdk.readthedocs.org/,非官方...

IT界10倍高效学习法!用这种方式,一年学完清华大学四年的课程

有没有在某一个瞬间,让你放弃学编程刚开始学python时,我找了几十本国内外的python编程书籍学习后,我还是似懂非懂,那些书里面到处都是抽象的概念,复杂的逻辑,这样的书,对于专业开发者来说,在平常...

如何将Python算法模型注册成Spark UDF函数实现全景模型部署

背景Background对于算法业务团队来说,将训练好的模型部署成服务的业务场景是非常常见的。通常会应用于三个场景:部署到流式程序里,比如风控需要通过流式处理来实时监控。部署到批任务中部署成API服...

取消回复欢迎 发表评论: