這篇文章主要介紹“怎么用Python分析紅樓夢關(guān)鍵詞”,在日常操作中,相信很多人在怎么用Python分析紅樓夢關(guān)鍵詞問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”怎么用Python分析紅樓夢關(guān)鍵詞”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!
10年積累的成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站設(shè)計后付款的網(wǎng)站建設(shè)流程,更有留壩免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
Python工具包準(zhǔn)備
想要完成一個文本的分詞,我們需要分詞工具;而要將分詞統(tǒng)計結(jié)果用詞云圖畫出來,我們需要一個詞云工具:
jieba 是基于Python的中文分詞工具,安裝使用非常方便。
我們使用pip安裝:
wordcloud庫,可以說是python非常優(yōu)秀的詞云展示第三方庫。詞云以詞語為基本單位更加直觀和藝術(shù)的展示文本詞云圖,也叫文字云,是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺化的展現(xiàn),詞云圖過濾掉大量的低頻低質(zhì)的文本信息,使得瀏覽者只要一眼掃過文本就可領(lǐng)略文本的主旨。
效果舉例:
我們使用pip安裝:
文本和圖片準(zhǔn)備
為了讓分詞工具進(jìn)行分析,我們下載紅樓夢小說txt格式。為了方便,我們將紅樓夢文檔放在程序“fenci.py”所在目錄“分詞”下的txt文件夾里面:
像上面的詞云圖的形狀是一個鯨魚,我們需要準(zhǔn)備一個有圖案的背景圖,讓最后的詞云圖貼合背景圖案。
我們選用這張寶玉的美男子畫像圖作為背景圖:
文件保存在程序當(dāng)前文件夾的img目錄下:
在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為StopWords(停用詞)。
但是,由于紅樓夢有很多特殊的用詞,比如“這會子”,"明兒"等等,大家可以選擇自行添加一些停用詞。比如我加了一些詞:
我們把停用詞放在words文件夾下面:
程序運行
我們將最大次數(shù)設(shè)置成500個,為了能讓背景圖案比較明顯:
從結(jié)果看來,寶玉是當(dāng)之無愧的主角。鳳姐,賈母,王夫人等人戲份也不少。由于黛玉和林黛玉被分成了兩個詞,因此顯得戲份很少,大家想想有沒有辦法解決這個問題?另外,我們可以看到“這會子”這個詞出現(xiàn)頻率也不低,從中可以一窺當(dāng)時的方言的感覺。
到此,關(guān)于“怎么用Python分析紅樓夢關(guān)鍵詞”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
分享題目:怎么用Python分析紅樓夢關(guān)鍵詞
網(wǎng)頁鏈接:http://jinyejixie.com/article20/pddhjo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、網(wǎng)站導(dǎo)航、關(guān)鍵詞優(yōu)化、服務(wù)器托管、軟件開發(fā)、搜索引擎優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)