unicode編碼是什么?
unicode編碼是什么?
Unicode是國際組織制定的可以容納世界上所有文字和符號的字符編碼方案。被譯為萬國碼、統一碼或單一碼。能夠使計算機實現跨語言、跨平臺的文本轉換及處理。Unicode用數字0-0x10FFFF來映射這些字符,最多可以容納1114112個字符,或者說有1114112個碼位。碼位就是可以分配給字符的數字。
Unicode也就是統一碼。
統一碼,也叫萬國碼、單一碼(Unicode)是計算機科學領域里的一項業界標準,包括字符集、編碼方案等。Unicode 是為了解決傳統的字符編碼方案的局限而產生的,它為每種語言中的每個字符設定了統一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉換、處理的要求。1990年開始研發,1994年正式發布1.0版本,2020年發布13.0版本。
統一碼的特點:
Unicode計劃使用了17個平面,一共有17*65536=1114112個碼位。在Unicode 5.0.0版本中,已定義的碼位只有238605個,分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定義了兩個各占65534個碼位的專用區(Private Use Area),分別是0xF0000-0xFFFFD和0x100000-0x10FFFD。
平面0也有一個專用區:0xE000-0xF8FF,有6400個碼位。平面0的0xD800-0xDFFF,共2048個碼位,是一個被稱作代理區(Surrogate)的特殊區域,代理區的目的用兩個UTF-16字符表示BMP以外的字符。