时间戳实现增量数据同步


数据同步
1、靠记录中本身的时间戳来增量更新

  分页获取必须排序(时间戳), 排序后也会出错(会出现记录跳过的情况),中途脚本停止更是会出错
  非分页的会出问题,脚本中断更会出问题(时间戳不能保证是从低到高)

  解决方法:

    1、分页条数为1、并排序但效率不高
    2、分页采用每次获取比当前时间戳大的的limit条数,再不断变化时间戳(会有问题)
    3、数据一次性全部取出来排序处理(适用于小数据量情况)

 

2、时间戳存在缓存中,等全部处理完再更新时间戳
  普通分页仍旧会出现记录跳过的情况
  非分页的则不会出现问题(因为时间戳是最后才更新),脚本中断也不会出问题。

 

总结:
1、时间戳存在缓存中
  1、减少计算
  2、最后更新时间戳更不容易出问题,顶多会重复处理

2、每次运行 取缓存中的时间(>=)和脚本当时的时间(<)数据,运行完成后设置当前时间到缓存

 

 


 

 

历史数据的增量同步(不会更改的数据)

1、用自增主键是最完美的,因为主键不会重复

  where id>x order by id asc limit xx

2、时间戳

  错误的示范:where insert_time>lastmax_timestamp order by timestamp  asc limit xx 

  错误1:> 应该是>=, 但是如果用>=,会一直可以取出数据,陷入无限循环中

   错误2: 由于用了limit,limit中的可能有相同时间戳数据,并且前面用的>会丢失数据

 

  正确:where insert_time>lastmax_timestamp and insert_time<=current_timestamp  order by timestamp  asc limit xx 

     不断调整 lastmax_timestamp ,可以每次运行完就把 lastmax_timestamp  存储redis

    对于中间数据会变的,一定不能用  offset,limit(建议放弃这种方式) 

    

    之所以需要 insert_time<=current_timestamp 是因为时间戳可以相同,但主键不会重复

 

    注意:该方式同样适用于时间戳变化中的方式

 

  对于分表的可以在取到为空的时候,可以重新设定时间进行跨表操作

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM