根据mysql中的最低ID删除重复的电子邮件地址
作者:互联网
我有一个名为emaildata的表,包含4列emailaddress,domainname,data和id.
emailaddress列应仅包含唯一条目,但有许多重复项.域名和数据列不是唯一的,因此将包含重复项,这很好. id列设置为autoincrement,因此仅包含唯一值.
我的问题是如何摆脱所有具有重复电子邮件地址的行,保持ID最低的行?
应该有大约370,000行,但目前我有906,000行.
我有一个SQL语句,在此之前我使用了类似的表,我试图使其适应这一点但没有成功.
delete T1
from emaildata T1, emaildata T2
where T1.emailaddress = T2.emailaddress
and T1.id > T2.id
以上是基于以下内容适用于另一张表并且工作正常.
delete T1
from email_list_subscribers T1, email_list_subscribers T2
where T1.emailaddress = T2.emailaddress
and T1.subscriberid > T2.subscriberid
我试过在phpmyadmin的远程服务器上对着我的表运行这个,按下GO按钮后,加载栏出现在中间,然后消失就好像正在处理 – 但它永远不会.
我试过通过phpmyadmin在我的家庭服务器(XAMPP)上运行的同一个表重复这个,再次使用HeidiSQL – 与phpmyadmin和Heidi相同的问题似乎崩溃了.
我已经尝试过我在这里看过的其他解决方案,但我似乎得到了相同的“超时”/崩溃问题.我从来没有遇到过在远程服务器上运行的原始语句的问题,因为这是针对数据库的三分之一大小.
任何信息,将不胜感激.
解决方法:
您的查询似乎是正确的.您的问题似乎是性能问题,而不是逻辑问题.您需要确保您的emailaddress和id字段都在数据库中正确编入索引 – 否则接近一百万行,我希望您的查询挂起.
(我猜这个id可能已被编入索引,但不是emailaddress.特别是在表之间进行连接时,如果这些字段中的任何一个没有被索引,那么你将会看到很多全表扫描.)
编辑:
看到您的评论是这种情况,您可以按照http://dev.mysql.com/doc/refman/5.0/en/create-index.html的文档来创建索引.所以类似于:
CREATE INDEX email_index ON emaildata(emailaddress) USING BTREE;
标签:mysql,sql,duplicate-removal,phpmyadmin 来源: https://codeday.me/bug/20190626/1292705.html