data_cleaning/README.md
2021-01-18 10:52:48 +08:00

666 B
Raw Permalink Blame History

data_cleaning

xdata 数据清洗

执行流程

  1. 检查任务开始时间戳和运行状态,防止锁死钉钉报警。
  2. 根据上次游标结束时间戳或传如时间戳 读取 event_{date} 集合,考虑跨集合情况。
  3. 标记任务开始时间戳。
  4. 标记为运行状态。run=1
  5. 清洗数据入库。
  6. 设置本次操作游标。
  7. 标记运行结束。run=0

注意事项

事件时间和入库时间 偏差

eg

事件A时间在 39分57秒发生入库时间在 40分32秒

任务执行时间在 40分0秒清洗30分0秒~40分0秒的数据事件A还未入库造成遗漏。

解决办法已入库时间为游标