2014年計算機三級PC技術要點:字符和文本
(二)漢字的編碼
1.GB2312-80漢字編碼
1981年我國頒布了《信息交換用漢字編碼字符集·基本集》(GB2312-80)。該標準選出6763個常用漢字和682個非漢字字符,為每個字符規定了標準代碼,以供這7445個字符在不同計算機系統之間進行信息交換使用。這個標準所收集的字符及其編碼稱為國際碼,又叫做國際交換碼。
2.BIG5漢字編碼
BIG5漢字編碼是我國臺灣地區計算機系統中使用的漢字編碼字符。它包含了420個圖形符號和13070個漢字(不使用簡化漢字)。
3.漢字的輸入/輸出
(1)漢字的輸入
漢字輸入編碼方法大體分成4類。①數字編碼,這是一類用一串數字來表示漢字的編碼方法,例如電報碼、區位碼等,它們難以記憶,不易推廣。②字音編碼,這是一種基于漢語拼音的編碼方法,簡單易學,適合于非專業人員。缺點是同音字引起的重碼多,需增加選擇操作。③字形編碼,這是將漢字的字形分解歸類而給出的編碼方法,重碼少、輸入速度快,但編碼規則不易掌握,五筆字形法和表形碼就是這類編碼。④形音編碼,它吸取了字音編碼和字形編碼的優點,使編碼規則簡化、重碼減少,但掌握起來也不容易。
漢字輸入編碼與漢字內碼、漢字交換碼完全是不同范疇的概念,不能把它們混淆起來。
(2)漢字的輸出
每一個漢字的字形都必須預先存放在計算機內,一套漢字(例如GB2312國標漢字字符集)的所有字符的形狀描述信息集合在一起稱為字形信息庫,簡稱字庫(font)。不同的字體(如宋體、仿宋、楷體、黑體等)對應著不同的字庫。在輸出每一個漢字的時假,計算機都要先到字庫中去找到它的字形描述信息,然后把字形信息送去輸出。
在計算機內漢字的字形主要有兩種描述的方法:點陣字形和輪廓字形。
Windows中使用的TrueType字庫采用的就是典型的輪廓字形表示方法。點陣字形和輪廓字形這兩種類型的字庫目前都廣泛使用。
(三)通用編碼字符集(UCS)與Unicode
1.通用編碼字符集(UCS)
ISO/IEC10646,即“通用編碼字符集”(Universal Coded Character Set,即UCS),及等同采用該國際標準的中國國家標準GB13000的設計目標,就是實現所有字符在同一字符集中等長編碼、同等使用的真正多文種信息處理。UCS規定了全世界現代書面語言文字所使用的所有字符的標準編碼。
2.Unicode
通用編碼字符集是一個由各種大小字符集組成的編碼體系。能容納足夠多的各種字符集,四字節的編碼(UCS-4)可以安排13億個字符。
但是,四字節的字符編碼太浪費存儲空間了,它也給處理和傳輸帶來了很大不便。因此,在UCS編碼空間中把00組的00平面稱為基本多文種平面(Basic Multilingual Plane,BMP),并規定,當組編碼、平面編碼均為00H時可以省略,因此安排在基本多文種平面上的字符只需要使用兩個字節來表示,這就形成了一個雙字節編碼的字符集,它是UCS的子集,記做UCS-2,又稱做Unicode(統一碼,或聯合碼)。
3.中日韓統一漢字編碼字符集(CJK編碼)
UCS(Unicode)中的表意文字部分采用的是中日韓統一漢字編碼(稱為CJK編碼)。所謂漢字的統一編碼是指,不論國家和地區,不論漢字的字義有無區別,只要字形相同,該漢字就只有一個代碼。
4.GB18030-2000編碼
GB18030-2000編碼標準在原來的GB2312-1980編碼標準和GBK編碼標準的基礎上進行了擴充,增加了四字節部分的編碼。它可以完全映射國際標準ISO10646(UCS)的基本平面和所有輔助平面,共有160多萬個碼位。
(四)文本
1.簡單文本(純文本)
最簡單的文本除了可顯示/打印的ASCII字符(漢字)及“回車”、“換行”、“制表”等用于格式控制的有限幾個ASCII字符之外,幾乎不包含任何其他信息。這種文本常常稱為純文本或ASII文本,文件的后綴名是.txt。
2.豐富格式文本
為了使文本能以整齊、醒目、美觀、大方的形式展現給用戶閱讀,人們需要對純文本進行必要的加工,這個過程稱為文本的格式化,或者稱為排版。經過上述處理后的文本一般稱為“豐富格式文本”(Rich Text Format)。由于屬性標志和控制命令并不統一,因此不同的文本處理軟件得到的豐富格式文本互不兼容。為了便于不同的豐富格式文本能在不同的軟件和系統中互相交換使用,特地提出了一種中間格式,稱為RTF格式,所有在PC機上流行的文字處理軟件,都可以輸入和輸出RTF文件,從而達到了文件交換的目的。
超文本(Hypertext)采用一種網狀結構(非線性結構)來組織信息。采用這種網狀結構,各信息塊很容易按照其內容的關系加以組織。它由若干文本塊(或其他信息)組成,這些文本塊可以是計算機的一個文件或文件的一部分,它們稱為“節點”。每個節點都有若干指向其他節點或從其他節點指向該節點的指針,這些指針稱為“鏈”。每個鏈連接著兩個節點,它是有向的,從一個節點(稱之為源節點)指向另一個節點(稱之為目的節點。鏈的數量與節點的內容有關,有些節點與其他節點有許多關聯,因此它就有許多鏈;有些節點沒有啟程鏈,只能作為目的節點。
節點中的數據不僅可以是文字,而且可以是圖形、圖像、聲音、動畫或動態視頻,這就把超文本的節點推廣到了多媒體的形式,這種基于多媒體信息節點的超文本,有時稱為“超媒體”(Hyˉpermedia)。