mysqlpump浅谈:mysqlpump并发的最小粒度是库还是表,还是行?
作者:互联网
mysqlpump这个工具网上有大把大把的文章介绍,相信各位都用得炉火纯青。网上的文章都介绍了mysqlpump的一大特色是并发,可是,没有说清楚mysqlpump并发的最小粒度是什么?它是怎么工作原理?现在我就简单研究下,如有错误,还请各位不吝指教!
首先准备环境,来看下:redhat7.5 +mysql5.7.22 源码安装。我们使用test库,里面有12张表,其中tab2和t22这两张表有476万条数据,总共3.6G容量。
废话不多说。我们开始测试:
郑州不孕不育医院:http://jbk.39.net/yiyuanzaixian/zztjyy/
我用了4个并发线程,采取的一致性导出。然后导出的库是test.整个导出很简单。现在问题来了,这4个并发线程是怎么分工合作的呢?哪个线程导出大表tab2?哪个线程导出大表t22?mysqlpump又是如何判断这些数据的呢?其实要回答这些问题,我们需要使用命令show processlist ,以及general_log.
来看下processlist 都记录了啥:
发现总共有6个会话。其中id 2会话是我的登录会话。还有5个会话。读到这里首先会有一个疑问,配置了4个会话,怎么会有5个吗?问题2,貌似只有id 4,5会话在工作,id 3,6,7会话都没有做什么,事情真的是这样吗?
来看下general log
看看这些日志,就可以回答我的问题了:
- 5个线程分工是这样:id7会话是管理线程,其余4个导出线程,所以4+1=5,总共5个线程。
- id 4,5线程分别导出表t22,tab2.
- id 3,6线程不是没有事情干,而是人家也分配了任务,也导出了数据,只不过导出任务瞬间完成了。
-
并行的最小粒度是表,不是库database,也不是行。其实我觉得如果mysqlpump并行再优化,可以到行。比如分配多几个线程导出大表数据,比如分配2线程导出表t22的400万行数据,速度会更快。但是控制更加复杂。
5.管理线程知道分配2个线程导出2个大表,还算挺智能的哦。
不知道各位看明白了没有,没有看明白,思考一下。
现在总结如下:
mysqlpump并发线程会有一个管理线程,然后有N个工作线程。并发导出的时候,管理线程会判断找出大表来,并分配任务。导出数据最小的单位是表。最后一个问题,mysqlpump是怎么做到一致性导出的呢?这个问题留给各位自己思考。
附上mysql做备份主从同步命令:
标签:浅谈,并发,会话,导出,mysqlpump,粒度,线程,id 来源: https://blog.51cto.com/14337146/2404897