成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

序列標注的BIO標注體系-創(chuàng)新互聯(lián)

1、什么是序列標注
  • 輸入和輸出都是序列
  • 輸入和輸出序列是一一對應(yīng)的
  • 是一種結(jié)構(gòu)化的分類,分類問題的一種推廣
  • 輸出序列用的是BIO標注體系

序列標注是NLP中最基礎(chǔ)的任務(wù),應(yīng)用十分廣泛,如分詞、詞性標注、命名實體識別、關(guān)鍵詞抽取、語義角色標注、槽位抽取等實質(zhì)上都屬于序列標注的范疇

創(chuàng)新互聯(lián)專注于企業(yè)營銷型網(wǎng)站、網(wǎng)站重做改版、定興網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、HTML5建站、成都商城網(wǎng)站開發(fā)、集團公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站建設(shè)、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為定興等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。2、標注體系
  • BIO 三位標注(B-begin, I-inside,O-outside)
    B-X表示實體X的開頭
    I-X表示實體的結(jié)尾
    O表示不屬于任何類型
輸入序列/SATA91511數(shù)
輸出序列B-brandI-brandOB-brandI-brandI-brandI-brandOOOOOOOOB-productI-productI-productI-product
  • BIOES (B-begin, I-inside,O-outside,E-end,S-single)
    B表示實體開頭
    I表示實體內(nèi)部
    O表示非實體
    E表示實體結(jié)尾
    S表示單個字符,其本身就是一個實體
輸入序列/SATA91511數(shù)
輸出序列B-brandE-brandOB-brandI-brandI-brandE-brandOOOOOOOOB-productI-productI-productE-product
  • BMES 四位序列標注法 (B-begin,M-middle,E-end,S-single)
    B表示實體開頭
    M表示實體中間
    E表示實體結(jié)尾
    S表示單個字符,其本身就是一個實體
輸入序列/SATA91511數(shù)
輸出序列BESBMMESSSSSSSSBMME
3、常見的序列標注任務(wù)
  • 中文分詞
  • 詞性標注
  • 命名實體識別
3.1 中文分詞

分詞基本上是所有自然語言處理任務(wù)的基礎(chǔ),目的是讓文本的內(nèi)容變成一個個的單詞或詞組,便于轉(zhuǎn)換為詞向量。

中文分詞與英文分詞的不同:

  1. 中文不像英文那樣有空格作為詞語的界限標志,而且“詞”在中文里本來就是一個很模糊的概念,中文也不具備英文中的字母大小寫等形態(tài)指示
  2. 中文的用字靈活多變,有些詞語在脫離上下文語境的情況下無法判斷是否是命名實體,而且就算是命名實體,當其處在不同的上下文語境下也可能是不同的實體類型
  3. 命名實體存在大量的嵌套現(xiàn)象,如“北京大學第三醫(yī)院”這一組織機構(gòu)名中還嵌套著同樣可以作為組織機構(gòu)名的“北京大學”,這種現(xiàn)象在組織機構(gòu)名中尤其嚴重
  4. 中文里廣泛存在簡化表達現(xiàn)象,如”北醫(yī)三院”、”國科大”,乃至簡化表達構(gòu)成的命名實體,如“國科大橋‘
3.2 詞性標注

對已經(jīng)分詞完成的句子,將句子中的所有詞標記詞性。這里的“詞”對應(yīng)的就是已分詞的詞序列中的詞,節(jié)點的標簽空間為詞性標記空間如{名詞,動詞,形容詞,… .} 。每個詞最終都會打上詞性標簽

詞性標注的難點:

  1. 相對于英文,中文缺少詞語形態(tài)變化,不能從詞的形態(tài)來識別詞性
  2. 一詞多詞性很常見。統(tǒng)計發(fā)現(xiàn),一詞多詞性的概率高達22.5%。而且越常用的詞,多詞性線性越嚴重,比如“研究”既可以是名字也可以是動詞。
  3. 詞性劃分標準不統(tǒng)一。詞類劃分粒度和標記符號等,目前還沒有一個廣泛認可的統(tǒng)一標準。比如LDC詞性標注預(yù)料中,將漢語一級詞性分為33類,而北京大學語料庫則將其劃分為26類。詞類劃分標準和標記符號的不統(tǒng)一,以及分詞規(guī)范的含糊,都給詞性標注帶來了很大的困難。jieba分詞采用了使用較為廣泛的ICTCLAS 漢語詞性標注集規(guī)范。
  4. 未登錄詞問題。和分詞一樣,未登錄詞的詞性也是一個比較大的課題。未登錄詞不能通過查找字典的方式獲取詞性,可以采用HMM隱馬爾科夫模型等基于統(tǒng)計的算法## 命名實體識別
3.3 命名實體識別

NER又稱作專名識別,是自然語言處理中的一項基礎(chǔ)任務(wù),應(yīng)用范圍非常廣泛。命名實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構(gòu)名、日期時間、專有名詞等。

NER系統(tǒng)就是從非結(jié)構(gòu)化的輸入文本中抽取出上述實體,并且可以按照業(yè)務(wù)需求識別出更多類別的實體,比如產(chǎn)品名稱、型號、價格等。因此實體這個概念可以很廣,只要是業(yè)務(wù)需要的特殊文本片段都可以稱為實體。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧

新聞名稱:序列標注的BIO標注體系-創(chuàng)新互聯(lián)
瀏覽地址:http://jinyejixie.com/article6/ccsgig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、App開發(fā)定制開發(fā)、營銷型網(wǎng)站建設(shè)品牌網(wǎng)站制作、ChatGPT

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司
时尚| 文水县| 巩留县| 合水县| 东乌珠穆沁旗| 东至县| 桓仁| 融水| 藁城市| 浙江省| 望谟县| 望谟县| 桐梓县| 清涧县| 郁南县| 湘潭县| 明水县| 启东市| 阜平县| 江口县| 许昌市| 榆社县| 永胜县| 东山县| 永嘉县| 宁夏| 翁牛特旗| 裕民县| 滨海县| 出国| 辽阳县| 图木舒克市| 岗巴县| 凤城市| 邹平县| 水城县| 怀柔区| 三河市| 江北区| 梅州市| 汉川市|