数据流向

完整数据链路

① API 采集

通过各平台 Open API 定时拉取广告投放数据。一个平台 API 端点对应一个或多个采集规则,使用配置的密钥鉴权。
活跃规则47
今日拉取1.28M
成功率99.2%
巨量引擎
528K 事件 · 5 账户
腾讯广告
384K 事件 · 3 账户
微信小游戏
215K 事件 · 2 账户
抖音小游戏
189K 事件 · 3 账户
TikTok Ads
152K 事件 · 2 账户

② 事件日志 (GLog)

采集到的原始数据按 GLog 格式写入本地日志文件,按 glibId + podName 分目录存储。每条日志为 JSON 格式,包含 glog_key、事件名、平台标识及完整业务字段。
日志目录/data/glog/{date}/{glibId}/{podName}/
文件格式glog-{date}-{hour}.log
滚动策略按小时滚动
// 示例 GLog 条目 — 巨量引擎广告效果指标
{
  "glog_key": "pt3",
  "glog": {
    "event": "ad_performance_metrics",
    "event_time": "2026-06-12 08:00:00",
    "platform": "4",
    "project_id": "12",
    "ad_id": "12_39_316_176_9_352",
    "third_ad_cost": "0",
    "third_ad_show": "0",
    "third_ad_click": "0",
    "conversion_num": "1",
    "average_conversion_cost": "0"
  }
}

③ Filebeat 采集

Filebeat 监控事件日志目录,实时读取新增日志行并转发至 Kafka 集群。支持多行 JSON 解析、字段丰富和背压控制。
监控路径/data/glog/**/*.log
采集延迟< 200ms
Harvester12
状态运行中

④ Kafka/CLS 消息队列

事件数据进入 Kafka Topic 按事件名分区,同时支持腾讯 CLS 日志服务作为补充通道。Flink 消费者组订阅 Topic 进行实时流处理。Kafka/CLS 作为缓冲层,解耦采集与处理。
Topic{glibId}-pubsdk-server-ad
Partitions12
当前积压2.4K
消费延迟< 500ms

⑤ Flink 实时处理

Flink Job 消费 Kafka/CLS 数据,执行数据清洗和标签计算,输出结构化数据至目标存储。
Job 状态RUNNING
处理速率15K/s
Checkpoint2min
并行度2
数据清洗:数据扁平化,必填字段校验,事件时间过滤,数据去重,按元数据清洗,默认字段填充
标签计算:根据采集的事件生成标签数据用于SQLBuilder

⑥ 数据入库(Doris)

处理后的结构化数据写入 Apache Doris 列式存储引擎,按主键覆盖更新,支持实时 OLAP 查询和报表生成。
目标表t_third_event
入库延迟< 1s
今日写入1.28M 行
引擎Doris