(1)數(shù)據(jù)樣本問題
在進(jìn)行數(shù)據(jù)分析之前可能存在需要抽樣的問題,并且在數(shù)據(jù)量越大的情況下出現(xiàn)抽樣的概率越大。合理的抽樣有助于提高數(shù)據(jù)分析和挖掘的效率,能在保證數(shù)據(jù)質(zhì)量的前提下減少人力和時(shí)間成本,因此抽樣是大數(shù)據(jù)分析和挖掘的必要步驟。數(shù)據(jù)抽樣的方法因人而異,只要能代表全部樣本特征的抽樣方法都可用,因此不存在最好的抽樣方法,只有最適合的抽樣方法。如果抽樣過程中出現(xiàn)問題,會(huì)直接影響后期所有的數(shù)據(jù)工作,惡意的抽樣方法甚至?xí)苯訉?dǎo)致數(shù)據(jù)結(jié)論的錯(cuò)誤。常見的數(shù)據(jù)抽樣問題是抽樣主體不同和抽樣樣本量不同。
(2)數(shù)據(jù)處理問題
數(shù)據(jù)處理指的是在開始分析數(shù)據(jù)之前的清洗工作,通常需要對(duì)樣本進(jìn)行整體數(shù)據(jù)觀察,以確認(rèn)樣本數(shù)量、均值、極值、方差、標(biāo)準(zhǔn)差及數(shù)據(jù)范圍等。數(shù)據(jù)在應(yīng)對(duì)異常情況的處理時(shí)也會(huì)存在故意“說謊”的問題,最常見的異常情況包括極大值和極小值、缺失值、錯(cuò)誤值等。每種異常值的處理方法都不同會(huì)對(duì)數(shù)據(jù)處理結(jié)果產(chǎn)生直接影響,并且異常值的樣本數(shù)量越多,對(duì)數(shù)據(jù)處理結(jié)果的影響就越大。
(3)數(shù)據(jù)分析問題
在數(shù)據(jù)分析和挖掘的過程中,同一種目標(biāo)下都存在多種可供選擇的分析方法與挖掘模型。不同的方法和模型產(chǎn)生的結(jié)果未必相同,尤其是具有定性分析的對(duì)比類分析,所對(duì)照的樣本不同,結(jié)果就不一樣。
網(wǎng)站題目:網(wǎng)站制作淺談網(wǎng)站數(shù)據(jù)處理的欺騙性
當(dāng)前路徑:http://jinyejixie.com/news/124301.html
網(wǎng)站建設(shè)、網(wǎng)絡(luò)推廣公司-創(chuàng)新互聯(lián),是專注品牌與效果的網(wǎng)站制作,網(wǎng)絡(luò)營銷seo公司;服務(wù)項(xiàng)目有網(wǎng)站制作等
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源:
創(chuàng)新互聯(lián)