完整数据链路
① API 采集
通过各平台 Open API 定时拉取广告投放数据。一个平台 API 端点对应一个或多个采集规则,使用配置的密钥鉴权。
巨量引擎
528K 事件 · 5 账户
腾讯广告
384K 事件 · 3 账户
微信小游戏
215K 事件 · 2 账户
抖音小游戏
189K 事件 · 3 账户
TikTok Ads
152K 事件 · 2 账户
② 事件日志 (GLog)
采集到的原始数据按 GLog 格式写入本地日志文件,按 glibId + podName 分目录存储。每条日志为 JSON 格式,包含 glog_key、事件名、平台标识及完整业务字段。
// 示例 GLog 条目 — 巨量引擎广告效果指标
{
"glog_key": "pt3",
"glog": {
"event": "ad_performance_metrics",
"event_time": "2026-06-12 08:00:00",
"platform": "4",
"project_id": "12",
"ad_id": "12_39_316_176_9_352",
"third_ad_cost": "0",
"third_ad_show": "0",
"third_ad_click": "0",
"conversion_num": "1",
"average_conversion_cost": "0"
}
}
{
"glog_key": "pt3",
"glog": {
"event": "ad_performance_metrics",
"event_time": "2026-06-12 08:00:00",
"platform": "4",
"project_id": "12",
"ad_id": "12_39_316_176_9_352",
"third_ad_cost": "0",
"third_ad_show": "0",
"third_ad_click": "0",
"conversion_num": "1",
"average_conversion_cost": "0"
}
}
③ Filebeat 采集
Filebeat 监控事件日志目录,实时读取新增日志行并转发至 Kafka 集群。支持多行 JSON 解析、字段丰富和背压控制。
④ Kafka/CLS 消息队列
事件数据进入 Kafka Topic 按事件名分区,同时支持腾讯 CLS 日志服务作为补充通道。Flink 消费者组订阅 Topic 进行实时流处理。Kafka/CLS 作为缓冲层,解耦采集与处理。
⑤ Flink 实时处理
Flink Job 消费 Kafka/CLS 数据,执行数据清洗和标签计算,输出结构化数据至目标存储。
数据清洗:数据扁平化,必填字段校验,事件时间过滤,数据去重,按元数据清洗,默认字段填充
标签计算:根据采集的事件生成标签数据用于SQLBuilder
⑥ 数据入库(Doris)
处理后的结构化数据写入 Apache Doris 列式存储引擎,按主键覆盖更新,支持实时 OLAP 查询和报表生成。