数据流向 — 三方数据采集平台

① API 采集

通过各平台 Open API 定时拉取广告投放数据。一个平台 API 端点对应一个或多个采集规则，使用配置的密钥鉴权。

活跃规则47

今日拉取1.28M

成功率99.2%

巨量引擎

528K 事件 · 5 账户

腾讯广告

384K 事件 · 3 账户

微信小游戏

215K 事件 · 2 账户

抖音小游戏

189K 事件 · 3 账户

TikTok Ads

152K 事件 · 2 账户

② 事件日志 (GLog)

采集到的原始数据按 GLog 格式写入本地日志文件，按 glibId + podName 分目录存储。每条日志为 JSON 格式，包含 glog_key、事件名、平台标识及完整业务字段。

日志目录/data/glog/{date}/{glibId}/{podName}/

文件格式glog-{date}-{hour}.log

滚动策略按小时滚动

// 示例 GLog 条目 — 巨量引擎广告效果指标
{
  "glog_key": "pt3",
  "glog": {
    "event": "ad_performance_metrics",
    "event_time": "2026-06-12 08:00:00",
    "platform": "4",
    "project_id": "12",
    "ad_id": "12_39_316_176_9_352",
    "third_ad_cost": "0",
    "third_ad_show": "0",
    "third_ad_click": "0",
    "conversion_num": "1",
    "average_conversion_cost": "0"
  }
}

③ Filebeat 采集

Filebeat 监控事件日志目录，实时读取新增日志行并转发至 Kafka 集群。支持多行 JSON 解析、字段丰富和背压控制。

监控路径/data/glog/**/*.log

采集延迟< 200ms

Harvester12

状态运行中

④ Kafka/CLS 消息队列

事件数据进入 Kafka Topic 按事件名分区，同时支持腾讯 CLS 日志服务作为补充通道。Flink 消费者组订阅 Topic 进行实时流处理。Kafka/CLS 作为缓冲层，解耦采集与处理。

Topic{glibId}-pubsdk-server-ad

Partitions12

当前积压2.4K

消费延迟< 500ms

⑤ Flink 实时处理

Flink Job 消费 Kafka/CLS 数据，执行数据清洗和标签计算，输出结构化数据至目标存储。

Job 状态RUNNING

处理速率15K/s

Checkpoint2min

并行度2

数据清洗：数据扁平化，必填字段校验，事件时间过滤，数据去重，按元数据清洗，默认字段填充

标签计算：根据采集的事件生成标签数据用于SQLBuilder

⑥ 数据入库(Doris)

处理后的结构化数据写入 Apache Doris 列式存储引擎，按主键覆盖更新，支持实时 OLAP 查询和报表生成。

目标表t_third_event

入库延迟< 1s

今日写入1.28M 行

引擎Doris