- 1.知識圖譜的起源與發展
- 2.知識圖譜的繪制方法
- 2.1 文獻計量方法
- 2.2 統計分析方法
- 3.知識圖譜繪制的步驟
- 4.知識圖譜繪制的工具
科學知識圖譜(簡稱知識圖譜)是現實科學知識發展進程與結構關系的一種圖形[1]。其作用是使研究者對學科結構、研究內容、學科關系和研究熱點有清晰的把握,並可預測學科發展前沿和趨勢。但在當前科研數據總量龐大、增長快速、信息含量低、數據種類多樣[2]的背景下,傳統的知識圖譜繪制方法、步驟和工具已經難以應對,急切需要針對大數據環境的科學知識圖譜的繪制的方法及其關鍵技術研究。
1. 知識圖譜的起源與發展
科學知識圖譜以科學知識為計量研究對象,因此屬於科學計量學的范疇。科學知識圖譜的研究最早可以追述到普賴斯開創科學計量學[3]之時。當時普賴斯在數據方程式來表達科學發展規律的基礎上,以曲線形式講科學發展規律繪制為二維圖形是並形成了最初的科學知識圖譜[4]。
科學知識圖譜的另一個演化前身是科學知識地圖。科學知識地圖是一個以二維或者三維空間表現出來的地形和人類活動以及相關特征的地理學概念,而科學知識圖譜是對其的拓展和延伸。它是一個圖像以一定空間形式在一定時間范圍內展現與變化的系統概念,比知識地圖更能揭示知識間的關系和進化規律。
現代科學知識圖譜概念正式提出是2003年在Arthur M. Sackler學術研討會上。而Shiffrin[5],Borner[6]和陳超美[7]等人的貢獻奠定了現代科學知識圖譜(Mapping Science)的研究基礎,之后對其相關研究就如雨后春筍般涌現。我國對於科學知識圖譜的研究是由劉則淵等人[8]於2004年率先引入。
2. 知識圖譜的繪制方法
知識圖譜的繪制需要綜合運用文獻計量、統計分析、數據挖掘、信息可視化、社會網絡分析和信息分析等領域的研究方法,大致可分為文獻計量方法、統計分析方法、數據挖掘方法三大類方法(如圖1所示)。但目前為止還未有對這些方法實現並行化算法實現方面的研究。
2.1 文獻計量方法
科學知識圖譜屬於科學計量學,因此必然文獻計量學的方法,主要包括:
-
引文分析方法
引文分析是利用各種數學、統計學方法和比較、歸納、抽象、概括等邏輯方法,對科學期刊、論文、著者等各種分析對象的引用與被引用現象進行分析,以便揭示其數量特征和內在規律的一種文獻計量分析方法[9]。引文分析大致有三種類型[10]:
- 引文數量研究,主要用於對科學家、出版物和科學機構的定性和定量評估
- 引文結構(網狀或鏈狀關系)研究,主要用於揭示科學的發展與聯系。
- 引文主題(相關性)研究,主要用於揭示科學的結構以及進行信息檢索。
-
共引分析方法。
共引分析是1973年斯莫爾等人就提出把文獻共引分析作為計量文獻之間關系的一種方法。共引(co-citation)又稱被共引,即兩篇文獻同時被一篇或多篇文獻說引用,同時把共同引用這兩篇文獻的文獻數稱為共引強度(或共引頻率),共引強度越大這兩篇文獻關系越密切。在共引圖譜中,點表示文獻,當相關文獻對的共被引強度等於或大於某個閾值時,兩點就被連接起來。共引分析多用於作者共引分析和期刊共引分析。
-
耦合分析方法
與共引分析相對應的是耦合分析。幾篇文獻具有相同的參考文獻就形成了文獻耦合關系。具有相同參考文獻的文獻數稱為耦合強度。耦合分析包括文獻耦合分析、期刊耦合分析、作者耦合分析、學科耦合分析等,分別表示文獻、期刊、作者、學科之間具有主題和內容相似性,可做為相關文獻分析、作者群體分析和科學演化分析等的依據。
- 詞頻分析方法
詞頻分析是是齊普夫定律為理論基礎進行文獻內容分析方法。詞頻分析可分為標題關鍵詞詞頻分析、摘要詞頻分析、內容詞頻分析、引文詞頻分析和混合詞頻分析等。詞頻分析大量應用於科學前沿主題領域和發展趨勢等研究。
- 共詞分析
共詞分析屬於內容分析法的一種。它的原理主要是對一組詞兩兩統計它們在同一篇文獻中出現的次數, 以此為基礎對這些詞進行聚類分析, 生成共詞文獻簇, 進而分析這些詞所代表的學科和主題的結構變化。利用共詞分析法及其相關的可視化方法可以進行深入的主題分析, 系統而直觀地了解學科結構和發展狀況, 並進行學科發展預測。
- 鏈接分析方法
鏈接分析,利用圖計算、拓撲學和文獻計量學等方法,對網絡連接文檔、自身屬性、連接對象、連接網絡等進行分析。鏈接分析涉及文檔包括:頁面、目錄、域名和站點。在理論上,連接分析與文獻計量學中的引文分析有高度的相似[11]。
鏈接分析運用拓撲學知識通過分析鏈接網絡來研究網絡結構,結合社會網絡分析可以分析研究和繪制網絡信息知識圖譜,展示網絡信息、知識分布結構和演化規律等。
2.2 統計分析方法
科學知識圖譜構建實用的統計分析方法主要是多元統計分析[12]。多元統計分析是經典統計學的分支,在多個對象或指標相互關聯的情況下分析其統計規律。“維度降低技術”是多元統計分析的一個特征,從幾何學看這個過程是講高維空間的目標投影到低維空間。主要的其中包括:
-
因子分析(主成分分析)
因子分析是用少數幾個因子來描述許多指標之間的關系,即將較密切的幾個變量歸為同一類,每一類變量成為一個因子,以較少的幾個因子來反應原資料的大部分信息。
-
多維尺度分析(MDS)
通過低維空間展示作者(文獻)之間聯系,並利用平面距離來反映作者(文獻)之間的相似度。多維尺度分析的圖形顯示結果更加直觀和形象,因子分析則更容易確定各個學術群體的邊界和數目,因此需要同時借助因子分析的結果, 進行知識圖譜的繪制。
-
數據挖掘方法
數據挖掘是指從大量的數據中通過算法提取、挖掘未知的、有價值的模式或規律等知識的復雜過程。科學知識圖譜的繪制使用了很多數據挖掘方法,常用的方法有聚類分析、數據可視化和社會網絡分析等。
(1) 聚類分析
聚類分析將物理或抽象的對象集合分成相似的對象類的過程。簇是數據對象的集合,同一個簇中的對象彼此相似,而不同的簇彼此相異[13]。文獻聚類分析是聚類分析技術在引文分析中的具體應用。處理方法是將文獻通過分詞、去停詞等方法轉化為詞向量,並將每個詞條賦予不同的權重,這樣一篇文獻就可以由詞條權重值組成的特征向量來表示,所有文獻將組成了特征向量空間模型,在該模型中使用聚類分析技術進行引文分析。
(2) 數據可視化
數據可視化,也成為信息可視化是指將抽象數據用圖形圖像等可視化形式表示出來,以利於分析數據、發現規律和支持決策。常用的可視化算法有:
-
自組織特征映射網絡SOM(Self-organizaing Feature Map)是一種基於神經網絡的算法,它通過把高維數據映射到低維空間進行聚類,並保持一定的拓撲有序性。
-
尋徑網絡圖譜PFNET(PathFinder Network)是對不同的概念或實體間聯系的相似或差異程度進行評估,應用圖論中原理和方法生成的一類特殊的網狀模型。
(3) 社會網絡分析
社會網絡分析[14](Social Network Analysis)也稱為結構分析,是將社會結構界定為一個網格,這個網格由成員之間的聯系進行連接。社會網絡分析聚焦於成員之間的聯系而非個體特征,並把共同體視為“個體的共同體”,即視為人們在日常生活中所建立、維護並應用的個人關系的網絡。社會網絡分析方法被證明可以成功的研究科學合作網絡和互聯網絡所得到的可視化網絡,並被用於展示科學計量學的合作網絡結構與發展。
3.知識圖譜繪制的步驟
科學知識圖譜繪制過程可分為8個步驟即:
- 樣本數據檢索(對期刊數據WOS、Science Direct或網絡數據庫Google Scholar、CitSeer等)
- 數據預處理(分詞、去停用詞、去重、勘誤等)
- 選擇知識單元(作者、關鍵詞、機構、期刊和文獻)
- 構建單元關系(引文分析、共現分析、共引分析、耦合分析、詞頻分析等)
- 數據標准化(Cosine、Jaccard、Equivalence、Association Strength等)
- 數據分析(因子分析、多維尺度分析、自組織映射圖、尋徑網絡圖譜、聚類分析和潛在語義分析等)7知識可視化(幾何圖、主題河圖、星團圖、沖積圖、地形圖等);8圖譜解讀(歷時分析、突變分析、空間分析、網絡分析、地理分布、瀏覽查詢、放大縮小、過濾關聯等)
傳統知識圖譜繪制過程
目前這8個步驟還都是針對中小型數據集,而且步驟之間多以手工過渡為主,缺少對海量文獻數據處理過程和全自動完成知識圖譜繪制方面的研究。
4. 知識圖譜繪制的工具
-
SPSS: 大型統計分析軟件,商用軟件。具有完整的數據輸入、編輯、統計分析、報表、圖形繪制等功能。常用於多元統計分析、數據挖掘和數據可視化。
-
Bibexcel: 瑞典科學計量學家Persoon開發的科學計量學軟件,用於科學研究免費軟件。具有文獻計量分析、引文分析、共引分析、耦合分析、聚類分析和數據可視化等功能。可用於分析ISI的SCI、SSCI和A&HCI文獻數據庫。
-
HistCite: Eugene Garfield等人於2001年開發的科學文獻引文鏈接分析和可視化系統,免費軟件。可對ISI的SCI、SSCI和SA&HCI等文獻數據庫的引文數據進行計量分析,生成文獻、作者和期刊的引文矩陣和實時動態引文編年圖。直觀的反映文獻之間的引用關系、主題的宗譜關系、作者歷史傳承關系、科學知識發展演進等。
-
CiteSpace: 陳超美博士開發的專門用於科學知識圖譜繪制的免費軟件。國內使用最多知識圖譜繪制軟件。可用於追蹤研究領域熱點和發展趨勢,了解研究領域的研究前沿及演進關鍵路徑,重要的文獻、作者及機構。可用於對ISI、CSSCI和CNKI等多種文獻數據庫進行分析。
-
TDA: Thomson Data Analyzer(TDA)是Thomson集團基於VantagePoint開發文獻分析工具。商用軟件。具有去重、分段等數據預處理功能;可形成共現矩陣、因子矩陣等多種分析矩陣;可使用Pearson、Cosine等多種算法進行數據標准化;可進行知識圖譜可視化展示。
-
Sci2 Tools: 印第安納大學開發的用於研究科學結構的模塊化工具可從時間、空間、主題、網絡分析和可視化等多角度,分析個體、局部和整體水平的知識單元。
-
ColPalRed: Gradnada大學開發的共詞單元文獻分析軟件。商用軟件。結構分析,在主題網絡中展現知識(詞語及其關系);戰略分析,通過中心度和密度,在主題網絡中為主題定位;動態分析,分析主題網絡演變,鑒定主題路徑和分支。
-
Leydesdorff: 系類軟件。阿姆斯特丹大學Leydesdorff開發的這對文獻計量的小程序集合。處理共詞分析、耦合分析、共引分析等知識單元體系。使用“層疊圖”實現可視化知識的靜態布局和動態變化。
-
Word Smith: 詞頻分析軟件。可將文本中單詞出現頻率排序和找出單詞的搭配詞組。
-
NWB Tools: 印第安納大學開發的對大規模知識網絡進行建模、分析和可視化工具. 數據預處理;構建共引、共詞、耦合等多種網絡;可用多種方法進行網絡分析;可進行可視化展示.
-
Ucinet NetDraw: Ucinet是社會網絡分析工具。包括網絡可視化工具Net Draw。用於處理多種關系數據,可通過節點屬性對節點的顏色、形狀和大小等進行設置。用於社交網絡分析和網絡可視化。
-
Pajek: 來自斯洛文尼亞的分析大型網絡的社會網絡分析免費軟件。Pajek基於圖論、網絡分析和可視化技術,主要用於大型網絡分解,網絡關系展示,科研作者合作網絡圖譜的繪制。
-
VOSviewer: 荷蘭萊頓大學開發的文獻可視化分析工具。使用基於VOS聚類技術技術實現知識單元可視化工具。突出特點可視化能力強,適合於大規模樣本數據。四種視圖瀏覽:標簽視圖、密度視圖、聚類視圖和分散視圖。
[4]陳悅, 劉則淵, 陳勁等. 科學知識圖譜的發展歷程[J]. 科學學研究, 2008, (03): 449-460.
[5]Shiffrin, R.M., and Katy Börner. Mapping Knowledge Domains[C]. Proc. Proceedings of the National Academy of Sciences of the United States of America pp. 5183-5185.
[6]Börner, K., Chen, C.和Boyack, K.W. Visualizing knowledge domains[J]. Annual review of information science and technology, 2003, 37, (1): 179-255.
[7]CM, C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006, 57, (3): 359-377.
[8]陳悅和劉則淵. 悄然興起的科學知識圖譜[J]. 科學學研究, 2005, (02): 149-154.
[9]邱均平. 信息計量學[M]. (武漢大學出版社, 2007. 2007).
[10]沙勇忠和牛春華. 信息分析[M]. (科學出版社, 2009. 2009).
[11]塞沃爾, 建軍和煦. 鏈接分析: 信息科學的研究方法[M]. (東南大學出版社, 2009. 2009).
[12]Egghe, L.和Rousseau, R. Introduction to informetrics: Quantitative methods in library, documentation and information science[J]. 1990
[13]韓家煒, 坎伯, 裴健等. 數據挖掘: 概念與技術[M]. (機械工業出版社, 2007. 2007).
[14]Wasserman, S. Social network analysis: Methods and applications[M]. (Cambridge university press, 1994. 1994).
[15]Persson, O., R. Danell, J. Wiborg Schneider. How to use Bibexcel for various types of bibliometric analysis[C]. Proc. International Society for Scientometrics and Informetrics., Leuven, Belgium2009 pp. 9–24.
[16]Yang, Y., Akers, L., Klose, T.等. Text mining and visualization tools–impressions of emerging capabilities[J]. World Patent Information, 2008, 30, (4): 280-293.
[17]Börner, K., Huang, W., Linnemeier, M.等. Rete-netzwerk-red: analyzing and visualizing scholarly networks using the Network Workbench Tool[J]. Scientometrics, 2010, 83, (3): 863-876.
[18]廖勝姣. 科學知識圖譜繪制工具:SPSS和TDA的比較研究[J]. 圖書館學研究, 2011, (05): 46-49.
[19]Scott, M. WordSmith tools[M]. (Oxford: Oxford University Press, 1996. 1996).
[20]Batagelj, V.和Mrvar, A. Pajek - Program for Large Network Analysis[M]. (1998. 1998).
[21]Borgatti, S.P., Everett, M.G.和Freeman, L.C. Ucinet for Windows: Software for social network analysis[J]. 2002
[22]Van Eck, N.J.和Waltman, L. VOSviewer: A computer program for bibliometric mapping[J]. 2009
本文原創,轉載請注 獅子座流星