成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

python怎么實現(xiàn)中文文本分句-創(chuàng)新互聯(lián)

小編給大家分享一下python怎么實現(xiàn)中文文本分句,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

城區(qū)網(wǎng)站建設公司創(chuàng)新互聯(lián)建站,城區(qū)網(wǎng)站設計制作,有大型網(wǎng)站制作公司豐富經(jīng)驗。已為城區(qū)成百上千提供企業(yè)網(wǎng)站建設服務。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站建設要多少錢,請找那個售后服務好的城區(qū)做網(wǎng)站的公司定做!

對于英文文本分句比較簡單,只要根據(jù)終結符"."劃分就好,中文文本分句看似很簡單,但是實現(xiàn)時會遇到很多麻煩,尤其是處理社交媒體數(shù)據(jù)時,會遇到文本格式不規(guī)范等問題。

下面代碼針對一段一段的短文本組成了文檔分句

import re
def cut_sent(infile, outfile):
  cutLineFlag = ["?", "!", "。","…"] #本文使用的終結符,可以修改
  sentenceList = []
  with open(infile, "r", encoding="UTF-8") as file:
    oneSentence = ""
    for line in file:
      if len(oneSentence)!=0:
        sentenceList.append(oneSentence.strip() + "\r")
        oneSentence=""
      # oneSentence = ""
      for word in words:
        if word not in cutLineFlag:
          oneSentence = oneSentence + word
        else:
          oneSentence = oneSentence + word
          if oneSentence.__len__() > 4:
            sentenceList.append(oneSentence.strip() + "\r")
          oneSentence = ""
  with open(outfile, "w", encoding="UTF-8") as resultFile:
    print(sentenceList.__len__())
    resultFile.writelines(sentenceList)

如果段尾3沒有終結符但是換行了,這句話可能會丟失,所有加入如下代碼:

   if len(oneSentence)!=0:
   sentenceList.append(oneSentence.strip() + "\r")
     oneSentence=""

會得到比較好的處理結果

要處理的文本:

自從微信出了三天可見功能,我的朋友圈就越來越冷清越來越冷清越來越冷清,點開都沒什么可看的了。今天我把屏蔽的代購一個一個一個都放出來了,快過年了,熱鬧點
一女性,想DIY矯正門牙縫隙,在家自己制取模型,結果悲劇了,因為用的是石膏,自己無法取出,來我院求助,醫(yī)生廢了九牛二虎之力才搞定……DIY有風險,操作需謹慎!
閨女同學家養(yǎng)了一只鸚鵡,兩只珍珠鳥,一只貓,兩只倉鼠。鸚鵡是老大,珍珠鳥怕它,貓是后進家的,也怕鸚鵡。倉鼠經(jīng)常溜出籠子,據(jù)說貓會把它逮住塞回籠子。

處理后的文本:

自從微信出了三天可見功能,我的朋友圈就越來越冷清越來越冷清越來越冷清,點開都沒什么可看的了。
今天我把屏蔽的代購一個一個一個都放出來了,快過年了,熱鬧點
一女性,想DIY矯正門牙縫隙,在家自己制取模型,結果悲劇了,因為用的是石膏,自己無法取出,來我院求助,醫(yī)生廢了九牛二虎之力才搞定…
DIY有風險,操作需謹慎!
閨女同學家養(yǎng)了一只鸚鵡,兩只珍珠鳥,一只貓,兩只倉鼠。
鸚鵡是老大,珍珠鳥怕它,貓是后進家的,也怕鸚鵡。
倉鼠經(jīng)常溜出籠子,據(jù)說貓會把它逮住塞回籠子。

得到了比較好的分句結果,也不會丟失信息。

以上是“python怎么實現(xiàn)中文文本分句”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

網(wǎng)頁題目:python怎么實現(xiàn)中文文本分句-創(chuàng)新互聯(lián)
網(wǎng)頁路徑:http://jinyejixie.com/article2/dsehoc.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、定制開發(fā)、網(wǎng)站維護、建站公司、全網(wǎng)營銷推廣、營銷型網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設
临猗县| 合水县| 嘉祥县| 瑞丽市| 保定市| 武清区| 金塔县| 咸宁市| 苏尼特右旗| 临高县| 登封市| 如东县| 甘孜县| 仙游县| 望谟县| 辰溪县| 泽普县| 东丰县| 盐源县| 车险| 双峰县| 水富县| 丰镇市| 微山县| 个旧市| 治多县| 科技| 佳木斯市| 昆明市| 信宜市| 垦利县| 栖霞市| 肇源县| 手机| 石渠县| 光山县| 仪陇县| 革吉县| 水城县| 武陟县| 姜堰市|