# data_cleaning xdata 数据清洗 ### 执行流程 1. 检查任务开始时间戳和运行状态,防止锁死钉钉报警。 2. 根据上次游标结束时间戳或传如时间戳 读取 event_{date} 集合,考虑跨集合情况。 3. 标记任务开始时间戳。 4. 标记为运行状态。run=1 5. 清洗数据入库。 6. 设置本次操作游标。 7. 标记运行结束。run=0 ## 注意事项 事件时间和入库时间 偏差 eg: 事件A时间在 39分57秒发生;入库时间在 40分32秒; 任务执行时间在 40分0秒,清洗30分0秒~40分0秒的数据,事件A还未入库造成遗漏。 解决办法已入库时间为游标