golang寫爬蟲出現(xiàn)亂碼如何處理?相信有很多人都不太了解,今天小編為了讓大家更加了解Golang,所以給大家總結(jié)了以下內(nèi)容,一起往下看吧。
“專業(yè)、務(wù)實、高效、創(chuàng)新、把客戶的事當成自己的事”是我們每一個人一直以來堅持追求的企業(yè)文化。 創(chuàng)新互聯(lián)是您可以信賴的網(wǎng)站建設(shè)服務(wù)商、專業(yè)的互聯(lián)網(wǎng)服務(wù)提供商! 專注于成都網(wǎng)站設(shè)計、成都網(wǎng)站制作、軟件開發(fā)、設(shè)計服務(wù)業(yè)務(wù)。我們始終堅持以客戶需求為導(dǎo)向,結(jié)合用戶體驗與視覺傳達,提供有針對性的項目解決方案,提供專業(yè)性的建議,創(chuàng)新互聯(lián)建站將不斷地超越自我,追逐市場,引領(lǐng)市場!
golang寫爬蟲亂碼怎么辦
在用golang編寫爬蟲程序時,會碰見編碼格式gb2312的頁面。
網(wǎng)頁頁面上可以看出該頁面字符編碼為gb2312
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
而golang默認是支持UTF-8編碼格式的,這樣直接爬下來的結(jié)果會亂碼。
解決方法:
使用 github.com/axgle/mahonia 這個包可以完成編碼轉(zhuǎn)換、
1、執(zhí)行 go get github.com/axgle/mahonia命令下載此包后,在%gopath%/src目錄下會生產(chǎn)
github.com\axgle\mahonia
2、代碼使用方法
1)導(dǎo)入包
import "github.com/axgle/mahonia"
2)轉(zhuǎn)換函數(shù)
func ConvertToString(src string, srcCode string, tagCode string) string { srcCoder := mahonia.NewDecoder(srcCode) srcResult := srcCoder.ConvertString(src) tagCoder := mahonia.NewDecoder(tagCode) _, cdata, _ := tagCoder.Translate([]byte(srcResult), true) result := string(cdata) return result }
3)在需要字符串轉(zhuǎn)換編碼的位置調(diào)用此函數(shù)
result = ConvertToString(html, "gbk", "utf-8")
關(guān)于golang寫爬蟲出現(xiàn)亂碼如何處理就分享到這里了,希望以上內(nèi)容可以對大家有一定的參考價值,可以學以致用。如果喜歡本篇文章,不妨把它分享出去讓更多的人看到。
文章題目:golang寫爬蟲出現(xiàn)亂碼如何處理
文章源于:http://jinyejixie.com/article30/ipgopo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)、標簽優(yōu)化、定制網(wǎng)站、網(wǎng)站維護、搜索引擎優(yōu)化、品牌網(wǎng)站設(shè)計
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)