首页 > 数据库> > 根据mysql中的最低ID删除重复的电子邮件地址

根据mysql中的最低ID删除重复的电子邮件地址

2019-06-26 11:04:13 作者：互联网

我有一个名为emaildata的表,包含4列emailaddress,domainname,data和id.

emailaddress列应仅包含唯一条目,但有许多重复项.域名和数据列不是唯一的,因此将包含重复项,这很好. id列设置为autoincrement,因此仅包含唯一值.

我的问题是如何摆脱所有具有重复电子邮件地址的行,保持ID最低的行？

应该有大约370,000行,但目前我有906,000行.

我有一个SQL语句,在此之前我使用了类似的表,我试图使其适应这一点但没有成功.

delete T1
from emaildata T1, emaildata T2
where T1.emailaddress = T2.emailaddress
and T1.id > T2.id

以上是基于以下内容适用于另一张表并且工作正常.

delete T1
from email_list_subscribers T1, email_list_subscribers T2
where T1.emailaddress = T2.emailaddress
and T1.subscriberid > T2.subscriberid

我试过在phpmyadmin的远程服务器上对着我的表运行这个,按下GO按钮后,加载栏出现在中间,然后消失就好像正在处理 – 但它永远不会.

我试过通过phpmyadmin在我的家庭服务器(XAMPP)上运行的同一个表重复这个,再次使用HeidiSQL – 与phpmyadmin和Heidi相同的问题似乎崩溃了.

我已经尝试过我在这里看过的其他解决方案,但我似乎得到了相同的“超时”/崩溃问题.我从来没有遇到过在远程服务器上运行的原始语句的问题,因为这是针对数据库的三分之一大小.

任何信息,将不胜感激.

解决方法:

您的查询似乎是正确的.您的问题似乎是性能问题,而不是逻辑问题.您需要确保您的emailaddress和id字段都在数据库中正确编入索引 – 否则接近一百万行,我希望您的查询挂起.

(我猜这个id可能已被编入索引,但不是emailaddress.特别是在表之间进行连接时,如果这些字段中的任何一个没有被索引,那么你将会看到很多全表扫描.)

编辑：

看到您的评论是这种情况,您可以按照http://dev.mysql.com/doc/refman/5.0/en/create-index.html的文档来创建索引.所以类似于：

CREATE INDEX email_index ON emaildata(emailaddress) USING BTREE;

标签：mysql,sql,duplicate-removal,phpmyadmin
来源： https://codeday.me/bug/20190626/1292705.html