成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

python中怎么實(shí)現(xiàn)文本單詞提取和詞頻統(tǒng)計(jì)功能-創(chuàng)新互聯(lián)

python中怎么實(shí)現(xiàn)文本單詞提取和詞頻統(tǒng)計(jì)功能,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。

在甌海等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供做網(wǎng)站、成都網(wǎng)站設(shè)計(jì) 網(wǎng)站設(shè)計(jì)制作按需規(guī)劃網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站建設(shè),營(yíng)銷型網(wǎng)站建設(shè),外貿(mào)營(yíng)銷網(wǎng)站建設(shè),甌海網(wǎng)站建設(shè)費(fèi)用合理。

操作:

strip_html(cls, text) 去除html標(biāo)簽

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 獲取詞頻

源碼:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

關(guān)于python中怎么實(shí)現(xiàn)文本單詞提取和詞頻統(tǒng)計(jì)功能問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

文章標(biāo)題:python中怎么實(shí)現(xiàn)文本單詞提取和詞頻統(tǒng)計(jì)功能-創(chuàng)新互聯(lián)
文章源于:http://jinyejixie.com/article22/dhdsjc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信公眾號(hào)、網(wǎng)站營(yíng)銷小程序開(kāi)發(fā)、品牌網(wǎng)站制作、定制網(wǎng)站、面包屑導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化
抚顺县| 商水县| 锡林浩特市| 大余县| 周至县| 手机| 周至县| 汉源县| 无棣县| 翁牛特旗| 长沙县| 枞阳县| 玉龙| 苍溪县| 无锡市| 昭觉县| 界首市| 太白县| 西乌珠穆沁旗| 达拉特旗| 沙坪坝区| 静宁县| 南和县| 新密市| 河源市| 东乡| 滁州市| 静乐县| 克东县| 白沙| 青河县| 长顺县| 榆林市| 双柏县| 和硕县| 长武县| 自贡市| 蓬莱市| 彭水| 长宁县| 三都|