java碼點(diǎn)和代碼單元 java 碼點(diǎn)

Java中代碼點(diǎn)和代碼單元是什么？怎么理解？舉例說明下，它們之間有什么聯(lián)系有什么區(qū)別？為什么代碼點(diǎn)

代碼點(diǎn)就是指javascript型的信息點(diǎn)而代碼單元指普遍的廣泛的jinmk 和gdp信息技術(shù)網(wǎng)

創(chuàng)新互聯(lián)于2013年開始，是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司，擁有項(xiàng)目成都網(wǎng)站制作、做網(wǎng)站網(wǎng)站策劃，項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢想脫穎而出為使命，1280元開州做網(wǎng)站,已為上家服務(wù),為開州各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18980820575

java什么是代碼點(diǎn)和代碼單元

說白了一個(gè)代碼點(diǎn)就是一個(gè)Unicode字符。代碼單元就是代碼點(diǎn)的集合。

字符視圖

要了解字符集標(biāo)準(zhǔn)，您必須能區(qū)分三種不同的字符視圖：

字符集（字符的抽象列表）。

作為帶標(biāo)量值的“代碼點(diǎn)”的字符。

作為編碼數(shù)據(jù)的字符。

字符集（字符的抽象列表）

字符集是各種文字（包括拉丁文、西里爾文、中文、朝鮮語、日語、希伯來語和阿拉伯語）中所包含的字符的一個(gè)抽象列表，由一百多萬個(gè)字符組成。字符集還包括其他符號(hào)，例如音符。

Unicode 和 GB18030 標(biāo)準(zhǔn)都具有字符集。當(dāng)某個(gè)標(biāo)準(zhǔn)添加了新字符時(shí)，為了保持對等，另一個(gè)標(biāo)準(zhǔn)也將添加這些字符。

作為帶標(biāo)量值的“代碼點(diǎn)”的字符

注意這第二個(gè)字符視圖只適用于 Unicode，而不適用于 GB18030。

字符集中的每個(gè)字符都被分配到一個(gè)“代碼點(diǎn)”。每個(gè)代碼點(diǎn)都有一個(gè)特定的數(shù)值，稱為標(biāo)量值。該標(biāo)量值通常用十六進(jìn)制表示。

代碼點(diǎn)存在于“代碼空間”中。代碼空間由許多標(biāo)量值組成，這些值被劃分在兩個(gè)平面中：

基本多語種平面（64k 大?。?/p>

在 Unicode 中，此下平面中的值的十六進(jìn)制表示位于 U+0000 到 U+FFFF 的范圍中。

輔助賀缺多語種平面（16 個(gè) 64k 大小的附加節(jié)）。

在 Unicode 中，此上平面中的值的十六進(jìn)制表示位于 U+10000 到 U+10FFFF 的范圍中。

所有可能的標(biāo)量值的完整代碼空間的大小為 17 * 64k（1,088,000 個(gè)可能值）。

作為編碼數(shù)據(jù)的字符

每個(gè)編碼形式將字符從字符集轉(zhuǎn)換為編碼數(shù)據(jù)。

在 GB18030 中，編碼數(shù)據(jù)直接從字符集派生：標(biāo)量值（作為字符集和編碼數(shù)據(jù)之間的媒介）的概念只適用于 Unicode。

在 Unicode 中，通過向標(biāo)量值應(yīng)用某個(gè)算法來派生編碼數(shù)據(jù)隱遲。

Unicode 定義了三種字符編碼形式：

UTF-8

UTF-16

UTF-32

代碼點(diǎn)和代碼單元

在每種編碼形式禪攜辯中，代碼點(diǎn)被映射到一個(gè)或多個(gè)代碼單元。

注意有關(guān)代碼點(diǎn)的概述，請參見上一節(jié)字符視圖。

“代碼單元”是各個(gè)編碼形式中的單個(gè)單元。代碼單元的大小等效于特定編碼的位數(shù)測量單位：

UTF-8 中的代碼單元由 8 位組成。

UTF-16 中的代碼單元由 16 位組成。

UTF-32 中的代碼單元由 32 位組成。

GB18030 中的代碼單元由 8 位組成。

每個(gè)代碼點(diǎn)中的代碼單元數(shù)

映射到代碼點(diǎn)所需的代碼單元數(shù)根據(jù)編碼形式而有所不同：

UTF-8

在 UTF-8 中，因?yàn)榇a單元較小的緣故，每個(gè)代碼點(diǎn)常常被映射到多個(gè)代碼單元。代碼點(diǎn)將被映射到一個(gè)、兩個(gè)、三個(gè)或四個(gè)代碼單元。

UTF-16

UTF-16 的代碼單元大小是 8 位代碼單元的兩倍。所以，標(biāo)量值小于 U+10000 的代碼點(diǎn)被編碼到單個(gè)代碼單元中。

對于標(biāo)量值大于或等于 U+10000 的代碼點(diǎn)，每個(gè)代碼點(diǎn)需要兩個(gè)代碼單元。在 UTF-16 中，這些代碼單元對有一個(gè)獨(dú)特的術(shù)語：“Unicode 代理對”。

注意下面對 Unicode 代理對的支持進(jìn)行了討論。

UTF-32

UTF-32 中使用的 32 位代碼單元足夠大，每個(gè)代碼點(diǎn)都可編碼為單個(gè)代碼單元。

GB18030

在 GB18030 中，因?yàn)榇a單元較小的緣故，每個(gè)代碼點(diǎn)常常被映射到多個(gè)代碼單元。代碼點(diǎn)將被映射到一個(gè)、兩個(gè)或四個(gè)代碼單元。

對 Unicode 代理對的支持

某些受 Unicode 支持的文字包含代碼點(diǎn)的標(biāo)量值大于或等于 U+10000 的字符。在 UTF-16 中，通過使用代理對來對這些代碼點(diǎn)進(jìn)行編碼。

正確處理 Unicode 代理對非常重要。例如，當(dāng)您在使用 UTF-16 編碼的應(yīng)用程序中處理文本時(shí)，如果要添加、刪除或選擇字符以進(jìn)行剪切、復(fù)制或粘貼操作，文本光標(biāo)必須將每個(gè)代碼點(diǎn)作為單個(gè)文本字符導(dǎo)航。

winhex8位反向字節(jié)的順序

一、char 碼點(diǎn)和代碼單元

在Java Core 卷1中對Char的描述如下

在設(shè)計(jì)Java時(shí)決定采用16位的Unicode字符集....（中間省略）... 現(xiàn)在16位的Char類型已經(jīng)不能滿足描述所有Unicode字符的需要了。

Java為了解決這個(gè)問題的方法是使用蔽派碼點(diǎn)和代碼單元

代碼點(diǎn)（Code Point）：在 Unicode 代碼空間中的一個(gè)值，取值 0x0 至 0x10FFFF，代表一個(gè)字符。

代碼單元（Code Unit）：在具體編碼形式中的最小單位。比如 UTF-16 中一個(gè) code unit 為 16 bits，UTF-8 中一個(gè) code unit 為 8 bits。一個(gè) code point 可能由一個(gè)或多個(gè) code unit(s) 表示。在 U+10000 之前的 code point 可桐并譽(yù)以由一個(gè) UTF-16 code unit 表示，U+10000 及之后的 code point 要由兩個(gè) UTF-16 code units 表示

在Java中，char類型描述了UTF-16編碼中的一個(gè)代碼單元

碼點(diǎn)：就是某個(gè)任意字符在Unicode編碼表中對應(yīng)的代碼值代碼單元：是在計(jì)算機(jī)中用來表示碼點(diǎn)的，大部分碼點(diǎn)只需要一個(gè)代碼單元表示，但是有一些是需要兩個(gè)代碼單元表示的。

不同碼點(diǎn)對應(yīng)的代碼單元數(shù)量可能不同

下面實(shí)際操作體驗(yàn)一番

" " 這個(gè)數(shù)學(xué)符號(hào)碼點(diǎn) 為U+1D546 在 Java中的代碼單元為 U+D835 和U+DD46

String word = "uD835uDD46";

System.out.println("字符為："+word + " String.length(): "+ word.length());

打印結(jié)果如下（String.length()返回的是字符串代碼單元的長度）。

字符為： String.length(): 2

而且char類型無法放下這個(gè)符號(hào)

//char c = ' ';

String word2 = " ";

String firstUnit = Integer.toHexString(word.charAt(0));

String secondUnit = Integer.toHexString(word.charAt(1));

String codePoint = Integer.toHexString(word2.codePointAt(0));

System.out.println("第一個(gè)單元：" + firstUnit + " 第二個(gè)：" + secondUnit + " 碼點(diǎn)：" +codePoint);

打印結(jié)果

第一個(gè)單元：d835 第二個(gè)：dd46 碼點(diǎn)：1d546

二、UTF-16編碼方式

我們來思考UTF-16的設(shè)計(jì)思路：

我們知道Unicode的范圍為0x0~0x10FFFF

首先是0x0~0xFFFF這段區(qū)間，正好16位就可以表示，也兼容，兩全其美

那么超過這個(gè)區(qū)間的怎么辦呢？

也就是0xFFFF~0x10FFFF這段，我們先看這段區(qū)間有多少個(gè)碼位，

0x10FFFF-0xFFFF=0x100000,那么這個(gè)十六進(jìn)制表示的十進(jìn)制也就是：1048576個(gè)碼位

我們既然16位存不下，那肯定就是32位存咯，局段這個(gè)32能理解為什么不？不理解？是因?yàn)橛?jì)算機(jī)只能以2的倍數(shù)拓展，如果不這么設(shè)計(jì)，就沒辦法解析。長短不一，不符合設(shè)計(jì)思路

32位來存這些數(shù)字，那么我們需要怎么存下呢，簡單的思考過后，大家認(rèn)為應(yīng)該分開存儲(chǔ)，也就是將32位分開前16位和后16位，每個(gè)16位各存一半

那么每一半存的就是1024（由來：1024*1024=1048576）,1024代表的是2的10次冪，也就是10位二進(jìn)制數(shù)

這樣就知道了，32位二進(jìn)制數(shù)字中，前后16位中各存10位就夠用了，但是剩余的6位用來干什么呢？

和UTF-8的設(shè)計(jì)一樣，為了讓識(shí)別字符串變得容易（從文本的任意位置開始，均能區(qū)分一個(gè)字符的起始），這里是不是有點(diǎn)兒蒙？

舉個(gè)栗子：

假設(shè)：

0000 0001 代表A

0000 0010 代表B

0000 0001 ，0000 0001 代表 X

0000 0010 ，0000 0001 代表Z

那么 ABXZ就是

0000 0001 ，0000 0010 ， 0000 0001 ，0000 0001 ， 0000 0010，0000 0001

A B X Z

但是讓你從中間開始讀取，當(dāng)你讀到X的時(shí)候，你不知道他是X還是 AB,這樣就很麻煩，你需要設(shè)置標(biāo)志，來讓16位的數(shù)據(jù)的前8或后8不會(huì)和單個(gè)8位的重復(fù)

可以這樣設(shè)計(jì)：

0xxx xxxx 代表0~2^7

11xx xxxx ,10xx xxxx 代表其他的

這樣就能區(qū)分開了，當(dāng)你讀到11開頭的，就代表他是16位的前8，10開頭代表16位的后8

歐了，有了這個(gè)思路，我們就知道怎么設(shè)計(jì)剛才的那個(gè)6位了，當(dāng)然是通過這6位來區(qū)分這16位數(shù)字代表的位置

也就是UTF-16中，表示數(shù)據(jù)有單16位和雙16位（32位）兩種，那么我們設(shè)計(jì)成單16位和32位中的前16位和后16位這三個(gè)16位完全不會(huì)重復(fù)，那么我們就能隨時(shí)讀到一組16位，就能知道他是單16還是前16還是后16

舉個(gè)栗子：

根據(jù)上方信息，要求我們通過前6位來區(qū)分?jǐn)?shù)據(jù)，那么前6位就是2^6=64，也就是開頭數(shù)字的區(qū)間

我們設(shè)定如下：

54開頭的為32位的前16位

55開頭的為32位的后16位

其他開頭的為單16位

這樣我們就能區(qū)分開這三個(gè)16位了，在讀取文檔中的任意位置，都能隨意區(qū)分出間隔咯

那么54開頭的數(shù)據(jù)區(qū)間是多少呢，就是1101 10xx xxxx xxxx，區(qū)間就是D800~DBFF

那么55開頭的數(shù)據(jù)區(qū)間是多少呢，就是1101 11xx xxxx xxxx，區(qū)間就是DC00~DFFF

為了配合UTF-16，Unicode中也將這兩個(gè)區(qū)間屏蔽掉，不允許分配任何字符

下方為比較官方的關(guān)于UTF-16的編碼詳解

參考文獻(xiàn)：

具體編碼方式

Unicode范圍U+10000~U+10FFFF：將Unicode值減去（0x10000），得到20bit長的值。再將Unicode分為高10位和低10位。UTF-16編碼的高位是2 Byte，高10位Unicode范圍為0-0x3FF，將Unicode值加上0XD800，得到高位代理（或稱為前導(dǎo)代理，存儲(chǔ)高位）；低位也是2 Byte，低十位Unicode范圍一樣為0~0x3FF，將Unicode值加上0xDC00,得到低位代理（或稱為后尾代理，存儲(chǔ)低位）

根據(jù)上面的轉(zhuǎn)換方式，我們就能夠?qū)nicode碼根據(jù)UTF-16的編碼方式進(jìn)行轉(zhuǎn)換。下面我們?nèi)匀煌ㄟ^兩個(gè)例子來看下：

U+0020，這個(gè)值的范圍在第一部分，即經(jīng)過UTF-16編碼后，結(jié)果仍然為U+0020，在內(nèi)存中的順序?yàn)?0 20。

U+12345, 這個(gè)值的范圍在第二部分，因此需要先減去0x10000，得到0x02345，拆分成高10位00 0000 1000和低10位11 0100 0101。根據(jù)上面規(guī)則加上特定值后，高位代理值為D808，低位代理值為DF45，最終內(nèi)存中的順序?yàn)镈8 08 DF 45。

Java中碼點(diǎn)是什么意思？

碼點(diǎn)是指一個(gè)編碼表畝銷中的某個(gè)字符對應(yīng)的代碼值。Unicode的碼點(diǎn)分為17個(gè)代碼級(jí)別，第一個(gè)級(jí)別是基本的多語迅念游言級(jí)別，碼點(diǎn)高悉從U+0000——U+FFFF，其余的16個(gè)級(jí)別從U+10000——U+10FFFF，其中包括一些輔助字符。

本文題目：java碼點(diǎn)和代碼單元 java 碼點(diǎn)
轉(zhuǎn)載注明：http://jinyejixie.com/article10/ddpicgo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈、ChatGPT、面包屑導(dǎo)航、網(wǎng)站排名、電子商務(wù)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

java碼點(diǎn)和代碼單元 java 碼點(diǎn)

Java中代碼點(diǎn)和代碼單元是什么？怎么理解？舉例說明下，它們之間有什么聯(lián)系有什么區(qū)別？為什么代碼點(diǎn)

java什么是代碼點(diǎn)和代碼單元

winhex8位反向字節(jié)的順序

Java中碼點(diǎn)是什么意思？

Java中代碼點(diǎn)和代碼單元是什么？怎么理解？舉例說明下，它們之間有什么聯(lián)系有什么區(qū)別？為什么代碼點(diǎn)

Java中碼點(diǎn)是什么意思？