MYSQL里有五百萬數(shù)據(jù),但大多是重復(fù)的,真實(shí)的就180萬,于是想怎樣把這些重復(fù)的數(shù)據(jù)搞出來,在網(wǎng)上找了一圈,好多是用NOT IN這樣的代碼,這樣效率很低,自己琢磨組合了一下,找到一個(gè)高效的處理方式,用這個(gè)方式,五百萬數(shù)據(jù),十來分鐘就全部去除重復(fù)了,請(qǐng)各位參考。
目前成都創(chuàng)新互聯(lián)已為上1000+的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)絡(luò)空間、網(wǎng)站運(yùn)營、企業(yè)網(wǎng)站設(shè)計(jì)、吐魯番網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。
第一步:從500萬數(shù)據(jù)表data_content_152里提取出不重復(fù)的字段SFZHM對(duì)應(yīng)的ID字段到TMP3表
1 create table tmp3 as select min(id) as col1 from data_content_152 group by SFZHM;
第二步:創(chuàng)建新表RES
1234 CREATE TABLE `res` (`id` int(11),`sfz` char(20)) ENGINE=MyISAM;
第三步:把TMP3表ID對(duì)應(yīng)到data_content_152里需要提取的數(shù)據(jù)添加到RES表的SFZ字段
1 INSERT INTO res (sfz) SELECT sfzhm FROM data_content_152,tmp3 where data_content_152.id=tmp3.col1
至此,就在MYSQL里實(shí)現(xiàn)了,給數(shù)據(jù)表data_content_152完全刪除重復(fù)數(shù)據(jù),把去重復(fù)后的數(shù)據(jù)導(dǎo)入到RES表。
一張user表 中的name字段,里面有10個(gè)張三。我要只查詢出一個(gè)張三。
SQL: select distinct name from user
如果還要查詢出id
SQL: select distinct name,id from user
SQL :select name from user group by name
group by理解:表里的某一個(gè)字段(比如:name) 當(dāng)出現(xiàn)相同的數(shù)據(jù)時(shí),group by就將這2條數(shù)據(jù)合二為一。name就顯示一條 數(shù)據(jù)了。 但是name達(dá)到合二為一了,這2條數(shù)據(jù)的其他數(shù)據(jù)怎么辦呢? 這時(shí)候需要配合聚合函數(shù)的使用。
where條件:分組前的條件,配合任何關(guān)鍵字使用
Having 條件:分組后的條件 (事后條件) ,只配合group by使用。having條件通常使用聚合函數(shù)
SQL :select deptno,sum(sal) from emp group by deptno having sum(sal) 9000;
SQL: select deptno,count(*) from emp where sal 1000 group by deptno haing sum(sal) 8000
拓展:
聚合函數(shù)定義:聚合函數(shù)對(duì)一組值進(jìn)行計(jì)算并返回單一的值。(以下都屬于聚合函數(shù))
count(*) : 不包括空值。返回對(duì)行數(shù)目的計(jì)數(shù)。計(jì)算出有多少行,多少條數(shù)據(jù)。
count() : 包含空值。返回對(duì)數(shù)目的計(jì)數(shù)。計(jì)算表里有多少行,相當(dāng)于多少條數(shù)據(jù)。
sum() : 求和運(yùn)算
max(); 最大值
min(): 最小值
avg(): 平均值
MySQL 刪除重復(fù)數(shù)據(jù)
有些 MySQL 數(shù)據(jù)表中可能存在重復(fù)的記錄,有些情況我們?cè)试S重復(fù)數(shù)據(jù)的存在,但有時(shí)候我們也需要?jiǎng)h除這些重復(fù)的數(shù)據(jù)。
本章節(jié)我們將為大家介紹如何防止數(shù)據(jù)表出現(xiàn)重復(fù)數(shù)據(jù)及如何刪除數(shù)據(jù)表中的重復(fù)數(shù)據(jù)。
刪除重復(fù)數(shù)據(jù)
如果你想刪除數(shù)據(jù)表中的重復(fù)數(shù)據(jù),你可以使用以下的SQL語句:
from 樹懶學(xué)堂 - 一站式數(shù)據(jù)知識(shí)平臺(tái)
當(dāng)然你也可以在數(shù)據(jù)表中添加 INDEX(索引) 和 PRIMAY KEY(主鍵)這種簡(jiǎn)單的方法來刪除表中的重復(fù)記錄。方法如下:
mysql數(shù)據(jù)表中有多條重復(fù)數(shù)據(jù)記錄,現(xiàn)在想刪除刪除部分重復(fù)數(shù)據(jù),保留最后一條更新或者插入的數(shù)據(jù)。
以學(xué)生表為例,我們創(chuàng)建一個(gè)簡(jiǎn)單的數(shù)據(jù)表來做實(shí)驗(yàn):
往表里面插入一些實(shí)驗(yàn)數(shù)據(jù):
我們可以根據(jù)分組查詢先將重復(fù)數(shù)據(jù)查詢出來,同時(shí)也可以獲取到最后的更新時(shí)間,然后再與原表聯(lián)表查詢小于最大時(shí)間的數(shù)據(jù),將查詢出來的數(shù)據(jù)刪除。
------先來慢慢消化-------
在做刪除前,我們可以先看看有哪些數(shù)據(jù)是有重復(fù)的:
可以看到張三,李四,王五的數(shù)據(jù)是有重復(fù)的,趙六沒有重復(fù),下面我們查找最后更新的記錄。
可以看到,最后更新的數(shù)據(jù)為15:57:46的記錄沒有在結(jié)果中。
可以看到重復(fù)記錄已經(jīng)被清理掉。
假如有兩行記錄是完全一樣的,這個(gè)方法就不可行了,往表里面在跑一次數(shù)據(jù)插入:
執(zhí)行刪除計(jì)劃:
創(chuàng)建一個(gè)臨時(shí)表存放最后插入的一條數(shù)據(jù)(包含重復(fù)與沒有重復(fù)的),然后清空原表,再將臨時(shí)表的數(shù)據(jù)復(fù)制到原表中,最后把臨時(shí)表刪除。
這個(gè)很好理解,相當(dāng)于ctrl+c,ctrl+v的操作,數(shù)據(jù)表如下:
這樣數(shù)據(jù)去重就完成了,需要注意的是, 如果表數(shù)據(jù)量很大,注意在group by 里面的字段建立索引,同時(shí),生產(chǎn)環(huán)境注意好先進(jìn)行數(shù)據(jù)備份操作 。
標(biāo)題名稱:mysql重復(fù)數(shù)據(jù)怎么辦 mysql怎么去重復(fù)
文章URL:http://jinyejixie.com/article34/dodhcse.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供電子商務(wù)、全網(wǎng)營銷推廣、移動(dòng)網(wǎng)站建設(shè)、App開發(fā)、云服務(wù)器、商城網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)