這期內(nèi)容當中小編將會給大家?guī)碛嘘PPython中怎么實現(xiàn)文本分析,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
南山網(wǎng)站建設公司創(chuàng)新互聯(lián)公司,南山網(wǎng)站設計制作,有大型網(wǎng)站制作公司豐富經(jīng)驗。已為南山上千多家提供企業(yè)網(wǎng)站建設服務。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站建設要多少錢,請找那個售后服務好的南山做網(wǎng)站的公司定做!
任務(Task)
人為判斷同義詞很簡單,但用程序來判斷就不簡單了。小愛想到了兩種方式:制作一個同義詞庫;計算所有詞語的相似度,將相似度高于閾值的詞語作為同義詞。
同義詞庫。在網(wǎng)上百度一番,只發(fā)現(xiàn)了一個哈工大的同義詞庫,滿心歡喜地點進去一看,發(fā)現(xiàn)頁面已經(jīng)不存在了,真是欲哭無淚!小愛心想,要不自己制作一個同義詞庫?再仔細一思考其中工作量,算了,還是打消念頭吧,這種方式行不通。
相似度計算。小愛查詢到Python中的synonyms庫提供了計算兩個詞語相似度的方法,結果還較為靠譜,于是就準備采用此種方式了。
行動(Action)
在找了一篇幾百字的文章進行測試之后,小愛發(fā)現(xiàn)這種方式行得通。于是就正式開始運用于公司的文本數(shù)據(jù)了。這時,新的問題又出現(xiàn)了。
公司的客戶反饋數(shù)據(jù)有數(shù)十上百萬條,分詞后的詞語集合在去除停用詞之后也有幾萬個,小愛的代碼在計算相似度的時候卡住了。這個時候小愛才醒悟過來:樣本數(shù)據(jù)分詞的詞語量少,計算量自然少,但隨著詞語數(shù)量的增加,計算量也是呈指數(shù)增長的。
上述就是小編為大家分享的Python中怎么實現(xiàn)文本分析了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
標題名稱:Python中怎么實現(xiàn)文本分析
當前地址:http://jinyejixie.com/article18/jjigdp.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供定制網(wǎng)站、移動網(wǎng)站建設、網(wǎng)站排名、網(wǎng)站內(nèi)鏈、品牌網(wǎng)站設計、網(wǎng)站設計
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)