xdata 数据清洗
db | ||
model | ||
script | ||
task | ||
utils | ||
.gitignore | ||
config.json | ||
main.py | ||
Pipfile | ||
README.md | ||
settings.py | ||
test.py |
data_cleaning
xdata 数据清洗
执行流程
- 检查任务开始时间戳和运行状态,防止锁死钉钉报警。
- 根据上次游标结束时间戳或传如时间戳 读取 event_{date} 集合,考虑跨集合情况。
- 标记任务开始时间戳。
- 标记为运行状态。run=1
- 清洗数据入库。
- 设置本次操作游标。
- 标记运行结束。run=0
注意事项
事件时间和入库时间 偏差
eg:
事件A时间在 39分57秒发生;入库时间在 40分32秒;
任务执行时间在 40分0秒,清洗30分0秒~40分0秒的数据,事件A还未入库造成遗漏。
解决办法已入库时间为游标