以下大多知識參考於《信息組織》---常春
信息組織的定義
信息組織是指通過對雜亂的信息和數據進行分析,利用相應的技術和方法將其組織成有序的系統的方法。
信息組織在生活中的應用隨處可見,例如圖書館圖書的排列,班級學生按成績的排列等。
信息組織的原理和方法
語言學原理
自然語言與檢索語言特征
自然語言:日常使用的語言或口語。
人工語言:在自然語言的基礎上,對自然語言進行一定地規范化。例如展現在書本上的知識為人工語言。
信息檢索語言:具有規范性、唯一性的人工語言,是計算機可理解的語言。
普通用戶一般查詢使用的是自然語言或者不完全規范化的書面語言,此時用專業術語更能精准查詢,如何獲得對應的專業術語?可以從對應的專業術語表或敘詞表、主題詞表。這樣的查詢可以看作以系統為中心的信息檢索,盡量使用計算機能識別的語言;當然現在大多數信息檢索網站都以用戶為中心,直接輸入問題甚至連續輸入相關問題也能得到回答。
概念的先組與后組:例如“黑色” “毛衣”2個詞經過后組可以表達“黑色毛衣”的含義,反之,“黑色毛衣”也能夠作為先組詞切分為“黑色” “毛衣”2個詞。
計算機語言與檢索語言特征
計算語言學的應用:
1.共現或同現:指在一篇文獻中,某兩個單詞或某兩個術語總是一同出現,那么它們之間就可能存在關系。如在一篇文獻中“知識” “共享”總是同時出現,那么它們之間可能存在相關關系或其它關系。
2.詞頻的應用:利用計算機的切詞、分詞軟件,去掉文獻中的停用詞、語氣詞(網絡上可查到停用詞表);去掉一些通用含義的高頻詞,去掉一些低頻詞,抽取重要的科學術語或知識概念。
3.抽詞標引:一篇文章經過計算機切詞、詞頻統計,將文章中的高頻詞作為標引詞(關鍵詞)對這篇文獻進行標引,實現文獻的智能准確檢索。
4.自動分類與自動文摘:自動文摘目前難以達到人工文摘的水平。
檢索語言語法句法特征
自然語言存在一詞多義及多詞一義現象(如蘋果可指水果或蘋果公司,土豆、馬鈴薯是指同一種植物)只適用於人工之間的交流。這時便需要具有唯一性和確定性的檢索語言來幫助。
如何形成檢索語言,需要對詞量、詞類、詞型、詞義進行控制,句法控制以及詞頻控制。例如對文獻進行詞頻統計,一般高詞頻和詞頻為1的詞不做處理,高詞頻的詞一般為“的”“了”等沒有意義的詞,詞頻在20-50次之間的詞一般比較常用。
系統論原理
系統論認為任何系統都是有機的整體,它不是各個部分的機械組合或簡單相加,系統的整體功能是各要素在孤立狀態下無法實現的。
信息檢索系統評價指標:Lancaster的評價指標應用比較廣泛,如其中的查全率、查准率。
查全率:搜索得出的相關文獻數量占系統所有相關文獻數量的比率
查准率:搜索得出的相關文獻數量占搜索得出文獻數量的比率
知識分類原理
知識分類就是對信息的組織一種方式。人類所積累的知識可以按不同領域分類,例如我國將知識分為自然科學、社會科學、哲學和綜合性圖書等,然后再各類下進行更加細致的分類。
概念邏輯原理
信息組織方法
分類組織法
主題組織法:通過揭示信息主題特征並進行序化的組織方法
集成組織法:在多數情況下將多種方法結合起來使用會達到更好的信息組織的效果
信息組織的應用