信息分類與編碼
為了提高信息的存儲、處理和使用效率,有必要對信息進行科學的分類與編碼。
信息分類
-
定義:信息分類是指將具有某種共同屬性或特征的信息歸並一起,把不具有上述共性的信息區別開來的過程。
-
原則:
- 科學性原則:科學性是信息分類的客觀要求。通常選擇事物或概念(即分類對象)最穩定的本質屬性或特征作為分類的基礎和依據。
- 系統性原則:將選定的事物或概念的屬性或特征按一定排列順序予以系統化,並形成一個合理的分類體系。
- 可擴展性原則:分類體系的建立應滿足事物的不斷發展和變化的需要。在設置分類的類目中,要保證在增加新的事務或概念時,不致打亂已建立的分類系統。
- 兼容性原則:分類應與有關標准協調一致。
- 綜合實用性原則:信息分類應從系統工程的角度出發,放在具體的應用環境中進行考慮。在類目的設置上,既要體現分類體系的相對穩定性、可擴展性,又要方便用戶快速查詢。
-
信息分類的方法
信息分類的基本方法有兩種:線分類法與面分類法。
-
線分類法
- 線分類法也稱等級分類法。線分類法按選定的若干屬性(或特征)將分類對象逐次地分為若干層級,每個層級又分為若干類目。同一分支的同層級類目之間構成並列關系,不同層級類目之間構成隸屬關系。同層級類目互不重復,互不交叉。
- 例如,我國行政區划編碼,是采用線分類法,6位數字碼。第一、二位表示省(自治區、直轄市),第3、4位表示地區(市、州、盟),第5、6位表示縣(市、旗、鎮、區)的名稱。湖北省部分行政區的分類及其編碼如表2-2所示。
- 線分類法的優點是:層次性好,能較好地反映類目之間的邏輯關系。它屬於傳統的習慣分類方式,既符合手工處理信息的傳統習慣,又便於計算機對信息進行處理。
- 線分類法的缺點是:結構彈性差。分類結構一經確定,不易改動,因此,使用線分類法必須考慮到有足夠的后備容量。此外,當線分類層次較多時,將影響數據處理的速度。
-
面分類法
- 面分類法將分類對象按選定的若干個屬性或特征,分成彼此之間互不相關的若干方面(簡稱面),每個面又可分為許多彼此獨立的若干類目。不同“面”內的類目互不重復,互不交叉。使用時,可根據需要將這些面中的類目組合在一起,形成一個復合類目。
- 例如,服裝的分類可以按照服裝所用的材料、男女服裝以及服裝款式等分成幾個面,每個面內又分成若干類目,如表2-3所示。
- 面分類法的主要優點是分類結構具有較大的柔性。分類體系中任何一個“面”內類目的改變,不會影響其他的“面”,易於添加和修改類目。除此以外,面分類適用性比較強,可實現按任意“面”的信息進行檢索,這對計算機信息處理有良好的適應性。
- 面分類的主要缺點在於不能充分利用容量。這是因為在實踐中許多可組配的類目無實用價值。例如,像純毛男式連衣裙這樣的組合類目就無實用意義。
信息編碼
-
編碼是指事物或概念的名稱、屬性、狀態等的符號或記號。計算機的數據處理工作是通過編碼來識別事物與概念的,同時計算機為了高效地對信息進行收集、存貯、加工與檢索等作業,信息的編碼工作是必不可少的。例如,一個企業設計了職工編號、物資編號、設備編號、合同編號、會計科目編號等。這些編碼設計的目的在於識別事物,以及高效率地處理業務。設計編碼的基礎是信息分類,有了合理的分類方案才能設計出科學的、使用方便的、高效率的編碼。
-
信息編碼的功能
- 鑒別。編碼是鑒別信息分類對象的唯一標識。
- 分類。當分類對象按一定屬性分類時,對每一類別設計一個編碼,這時編碼可以作為區分對象類別的標識。這種標識要求結構清晰,毫不含糊。
- 排序。由於編碼所有的符號都具有一定的順序,因而可以方便地按此順序進行排序。
- 專用含義。由於某種需要,當采用一些專用符號代表特定事物或概念時,編碼就提供一定的專用含義,如某些分類對象的技術參數,性能指標等。
-
信息編碼的原則
- 唯一性原則 編碼是人、事、物以及概念的一種唯一性的、不合糊的認定。這是信息編碼最重要的原則,也是編碼最基本的功能。一個編碼只能唯一地標識一個信息分類對象,而一個信息分類對象在一個信息分類編碼標准中也只能有一個唯一的編碼。
- 正確性原則表示信息編碼應當科學、合理,既遵循信息編碼的基本原理,又符合組織的實際情況。既能滿足組織自身的需要,又能滿足組織合作伙伴的特殊要求。既要符合國家的標准或規定,又應該盡可能地遵守國際標准或慣例。
- 可擴展性原則 隨着管理信息的不斷變化,信息編碼不能僅僅考慮當前的信息狀況,而且應該考慮未來的發展狀況和需要。信息編碼應該有足夠的編碼資源,以便滿足不斷增長的對信息編碼的要求,以適應不斷擴充的信息處理的需要。
- 規范性原則 編碼應盡量符合標准化的要求。有國際的、國家的、部門的、行業的標准。編碼時必須符合這些標准的要求。在一個組織(單位、部門)內部,同一種信息分類對象的編碼應該統一。
- 穩定性原則 編碼工作是建立信息管理系統的一項基礎工作。編碼的影響面很大,因而設計編碼應該慎重,一旦批准通過后,必須嚴格執行,輕易不作修改。
-
信息編碼方法
- 順序編碼:順序編碼又稱系列碼。這種編碼方法是將要編碼的對象按一定的規則(如發生的順序、大小的順序等)分配給連續的順序號碼。通常從1開始。例如,一個企業有1000個職工,其職工號可以編成0001、0002、0003、…、1000。順序碼的特點是簡單明了,位數少,易於追加,易於管理。但這種碼沒有邏輯基礎,它本身不能說明任何信息的特征,因而不能用於分類處理等場合。同時追加的部分只能列在最后,刪除則造成空碼。通常,順序碼適合於比較固定的永久性編碼(如大城市編碼等),或者和其他編碼方式配合使用。
- 區間編碼:區間編碼是對編碼對象分區間進行編碼。例如,會計科目編碼用區間碼表示會計科目的性質:101-199表示資產類科目、201-299表示負債類科目、301-399表示所有者權益類科目、401-499表示成本類科、501-599表示損益類科目。這樣,以三個數字按區間編碼來代表某一科目,因而編碼占用的位數不多,而且能表示較多信息,易追加,易插入,但其缺點是處理比較麻煩。
- 字母編碼:字母編碼是用具有特定意義的字母代表某一類項目。例如,用“L”代表來源類科目,“Z”代表占用類科目。商品編碼中用“TV”表示電視機。各種度量單位編碼中用“KG”表示公斤,“m”表示米,“cm”表示厘米等等。這種編碼的特點是可以通過漢語拼音或英語聯想幫助記憶,但其位數較多,處理不便,容易產生重復。例如,中國互聯網的行政區域名編碼SX代表山西省,SN代表陝西省,HB代表湖北省,HE代表河北省等。
- 組合編碼:組合編碼是以上述三種編碼結合使用的編碼方法。常用的有:
- 按位編碼和順序編碼的組合編碼法。例如,職工編碼共5位,前兩位是部門編碼,后3位是個人編碼,而部門編碼及個人編碼均按順序編碼。郵政編碼、身份證號碼、學生學號等編碼方法相似。
- 字母、數字組合的編碼法。是某幾位用字母,某幾位用數據的編碼方法。例如,汽車牌照的編碼、電報電傳的編碼。
- 校驗位:為了保證正確的輸入,可以在原有編碼的右端設計一個校驗位,使它事實上變成編碼的一個組成部分。校驗位通過事先規定的數學方法計算出來。當編碼錄入時,由計算機按同樣的數學方法對輸入的編碼(原編碼部分)數字計算出校驗位,並將它與輸入的校驗位進行比較,以校驗輸入的編碼是否有錯。由校驗位可以發現以下各種錯誤:數字看錯,例如,1看成7;易位錯誤,例如,1234輸入時誤為1324;雙易位錯,例如,26913輸入時誤為21963;隨機錯誤,包括以上兩種或三種綜合性錯誤或其他錯誤。
-
校驗位的計算方法如下:
- 對每位編碼加權。即各位編碼乘以權因子,求出各位之積,再將各位積相加求和。一般權因子的取法有如下幾種:
- 取一個幾何級數,如1、2、4、…。
- 取一個算術級數,如7、6、5、…。
- 都取1。
- 取1、2、1、2、…。
- 取一串質數17、13、7、5、3、…。
- 各位乘積之和取模M的余數R,R即可作為校驗位的值。模一般為11、也可以是10、13等。
例2-2 設原編碼為1 2 3 4 5,用算術級數法確定權因子,試計算其校驗位。 各位分別乘以權:6、5、4、3、2; 得出乘積之和為:(1×6)+(2×5)+(3×4)+(4×3)+(5×2)=50。 對模11求余:50÷11余6,則6為校驗位。 因此,原編碼加上一位校驗位成為1 2 3 4 5 6。 如果將該編碼錄入時,輸入的錯誤編碼為1 2 3 5 5 6,計算機按原來的權重新計算校驗位[(1×6)+(2×5)+(3×4)+(5×3)+(5×2)]÷11,余9。由於計算出的驗位值與輸入的校驗位值不一致,即9≠6,因此該類錯誤可以很容易地捕獲。