xdata 数据清洗
Go to file
2021-01-18 15:13:06 +08:00
db 修改目录结构 2020-12-23 15:06:44 +08:00
model update 2021-01-11 20:12:21 +08:00
script update 2021-01-11 19:43:57 +08:00
task update 2021-01-18 15:13:06 +08:00
utils update 2021-01-15 09:36:04 +08:00
.gitignore edit ignore 2021-01-08 16:21:31 +08:00
config.json update 2021-01-11 19:43:57 +08:00
main.py hook 2021-01-15 10:46:11 +08:00
Pipfile add Pipfile 2021-01-08 16:16:22 +08:00
README.md update 2021-01-18 10:52:48 +08:00
settings.py update 2021-01-14 14:31:07 +08:00

data_cleaning

xdata 数据清洗

执行流程

  1. 检查任务开始时间戳和运行状态,防止锁死钉钉报警。
  2. 根据上次游标结束时间戳或传如时间戳 读取 event_{date} 集合,考虑跨集合情况。
  3. 标记任务开始时间戳。
  4. 标记为运行状态。run=1
  5. 清洗数据入库。
  6. 设置本次操作游标。
  7. 标记运行结束。run=0

注意事项

事件时间和入库时间 偏差

eg

事件A时间在 39分57秒发生入库时间在 40分32秒

任务执行时间在 40分0秒清洗30分0秒~40分0秒的数据事件A还未入库造成遗漏。

解决办法已入库时间为游标