文獻信息分析工具的比較2015
筆記內容節選於 20151115 李艷; 張悅; 曾可; 張士靖 發表的期刊《文獻信息分析工具的比較》
1選取具有代表性的13種文獻信息分析工具,
2從支持的數據格式、數據預處理、構建的關系矩陣、標准化處理、分析方法、結果的可視化等方面進行了比較,
3總結了每個工具的優勢與不足,並為用戶選擇合適的分析工具提出了建議。
工具基本信息
工具 |
開發機構 |
開發年份 |
版本 |
是否免費 |
HistCite |
美國Thomson Reuters |
2001 |
12.3.17 |
否(有試用版) |
CiteSpace |
美國 Drexel 大學 |
2004 |
3.8R13 |
是 |
VOSviewer |
荷蘭 Leiden University |
2010 |
1.6.0 |
是 |
SciMAT |
西班牙格納納達大學 |
2011 |
V1.1.03 |
是 |
SCI2 |
美國印第安納大學KatyBornoe |
2009 |
V1.1 |
是 |
Bibexcel |
瑞典科學家Persson |
2009 |
2014.03.25 |
是 |
Bicomb |
中國醫科大學 |
2009 |
2.0 |
是 |
SATI |
浙江大學大學信息管理系 |
2011 |
3.2 |
是 |
Pajek |
A.Mrava和V.Batagelj |
1996 |
3.04 |
是 |
Ucinet |
Lin Freeman |
- |
6.0 |
否(有試用版) |
GOPubMed |
德國Transinsight公司和德累斯頓大學 |
2005 |
- |
是 |
本地PubMed |
中國濟南泉方 |
2007 |
- |
否 |
PubMedplus |
北京唯博賽科技有限公司 |
2012 |
- |
否(有試用版) |
支持的數據格式
工具 |
工具類型 |
數據量 |
支持的數據庫及數據類型 |
HistCite |
文獻計量 |
支持大型數據 |
WOS |
CiteSpace |
文獻計量 |
10000條以內 |
WOS,PubMed,Derwnet,Scopus,GoogleScholar,ArXiv,ADS,NSF,CSSCI,CNKI |
VOSviewer |
文獻計量 |
支持大型數據 |
網絡格式:支持Pajek得net,GML;書目數據:WOS,Scopus,PubMed;語料庫:WOS,Scopus |
SciMAT |
文獻計量 |
10000條以內 |
WOS(txt),Scopus(RIS),CSV格式 |
SCI2 |
文獻計量 |
10000條以內 |
網絡格式: GraphMl(xml,graphml), XGMML(xml),Pajek(net),NWB(nwb); 書目數據: WOS(isi), Bibtex(bibi), Endnote(enw), Scopus csv(scopus),NSF csv(nsf); 其他: Pajek Matrix(mat),TreeML(xml),Edgelist(edge),CSV(csv) |
Bibexcel |
文獻計量 |
支持大型數據 |
WOS(txt),Scopus(ris),轉化后的CSSCI |
Bicomb |
文獻計量 |
支持大型數據 |
WOS(txt),PubMed(xml),萬方(xml), CNKI(xml) , 自定義數據格式 |
SATI |
文獻計量 |
支持大型數據 |
WOS(html),CNKI(Endnote),萬方(NoteExpree) ,維普(Notefirst) |
Pajek |
社會網絡 |
支持大型數據 |
文本數據,支持各種軟件導出(net,vec,clu,per,cls,hie等),Ucinet的DL格式 |
Ucinet |
社會網絡 |
支持大型數據 |
原始數據,Excel,數據語言數據 |
GOPubMed |
文獻計量 |
100000 |
無語導入數據 |
本地PubMed |
文獻計量 |
支持大型數據 |
無語導入數據 |
PubMedplus |
文獻計量 |
支持大型數據 |
無語導入數據 |
數據預處理
工具 |
數據預處理方式 |
HistCite |
數據精簡 |
CiteSpace |
時間切片、數據和網絡精簡 |
VOSviewer |
數據精簡、網絡精簡 |
SciMAT |
去重、時間切片、數據和網絡精簡 |
SCI2 |
去重、時間切片、數據和網絡精簡 |
Bibexcel |
數據和網絡精簡 |
Bicomb |
數據精簡 |
SATI |
中文分詞 |
Pajek |
無 |
Ucinet |
無 |
GOPubMed |
基於語義分類工具GO&MeSH |
本地PubMed |
基於語義分類工具GO&MeSH |
PubMedplus |
基於語義分類工具GO&MeSH,單位和作者異名的規范和漢化 |
顯示Sci MAT和SCI2 包含4 種數據預處理模塊,優勢明顯; 大部分工具支持數據精簡和網絡精簡; Pajek和Ucinet無數據預處理功能。GOPub Med,Pub Medplus和本地Pub Med基於語義分類工具GO&Me SH引入本體概念,支持語義級的交換,可消除或減少由於同義詞或相近詞概念及術語的混亂,在語義數據處理方面優勢明顯。此外,Pub Medplus還增加了單位和作者異名的規范處理功能。
實現的關系矩陣
工具 |
書目耦合 |
合作 |
共引 |
共詞 |
直接引文 |
其他 |
||||||
作者 |
期刊 |
文獻 |
作者 |
國家 |
機構 |
作者 |
文獻 |
期刊 |
||||
HistCite |
|
|
|
|
|
|
|
|
|
|
* |
|
CiteSpace |
|
|
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
VOSviewer |
* |
* |
* |
* |
|
* |
* |
* |
* |
* |
|
|
SciMAT |
* |
* |
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
SCI2 |
* |
* |
* |
* |
|
|
* |
* |
* |
|
* |
* |
Bibexcel |
|
|
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
Bicomb |
|
|
|
* |
|
* |
* |
* |
|
|
|
|
SATI |
|
|
|
* |
* |
* |
|
* |
|
* |
|
* |
Pajek |
|
|
|
|
|
|
|
|
|
* |
|
|
Ucinet |
|
|
|
|
|
|
|
|
|
|
|
|
GOPubMed |
|
|
|
* |
|
|
|
|
|
|
|
|
本地PubMed |
|
|
|
|
|
|
|
|
|
* |
|
|
PubMedplus |
|
|
|
* |
* |
* |
|
|
|
* |
|
|
關系矩陣中最常見的分析單元是期刊、文獻、參考文獻、作者、主題詞或關鍵詞。分析單元之間的關系可分為三類。第一類是直接引文關系,即直接從信息的發送者到信息的接受者。第二類是將分析單元之間的關系用做共現數據,即通過計算兩個分析單元在文獻中同時出現的次數來衡量兩個分析單元之間的相似性,包括合作、耦合、共引和共詞。合作用來分析研究領域的社會結構,共詞則是使用文獻中最重要的主題詞或者關鍵詞研究一個領域的概念結構[27],共引和書目耦合用來分析研究領域的知識結構。區別在於,書目耦合是固定和永久的引文關系,共引關系是隨時間而變的[28]。第三類是一些不常見的或復雜的網絡。表4 列舉了各種分析工具可以創建的關系矩陣。可以看出,沒有一個工具可以創建全部關系矩陣,大部分工具都支持共現矩陣的創建,其中Citespace,Vosviewer,Sci MAT,SCI2,Bibexcel等可以構建多數關系矩陣,但只有Histcite和SCI2支持直接引文網絡。相對於GOPub Med和本地Pub Med僅關注於一種網絡,Pub Medplus可以構建4種網絡,Pajek和Ucinet則不支持文獻計量學網絡的創建。此外,SATI可以創建包含詞條共現矩陣、頻率分析矩陣、文檔詞條矩陣等在內的8 種矩陣。
標准化處理
構建了分析單元的關系矩陣之后,需通過標准化處理對數據間的相似性進行測量來獲得數據之間的隱含關系,簡而言之就是對數據進行規范化
工具 |
標准化方法 |
HistCite |
無 |
CiteSpace |
Salton's余弦、Jaccard'指數 |
VOSviewer |
關聯強度 |
SciMAT |
關聯強度、Equivalence指數、Inclusion指數、Jaccard指數、Salton余弦 |
SCI2 |
用戶自定義 |
Bibexcel |
Salton余弦、Jaccard指數、Vladutz和Cook標准化 |
Bicomb |
無 |
SATI |
Equivalence指數 |
Pajek |
無 |
Ucinet |
Jaccard指數,cohen’s kappa, identity系數, correlation, hamming-sim |
GOPubMed |
潛在語義分析 |
本地PubMed |
潛在語義分析 |
PubMedplus |
潛在語義分析 |
常用標准化處理方法有Salton's余弦、Jaccard'指數、Equivalence指數、關聯強度等[2]。如表5 所示,大部分分析工具都使用了上述方法中的一種或多種; GOPub Med,Pub Medplus,本地Pub Med則因使用GO&Me SH工具,使用潛在語義分析將語料庫與本體進行連接; Pajek和Histcite則無規范化處理的功能。
分析方法
分析工具所用的分析方法很多,如網絡分析、地理空間分析、時間序列、性能分析、突變檢測等。網絡分析是測量某一節點在整個網絡中的中心度,或一個聚類在圖譜中的中心度; 地理空間分析則是回答事件在哪里發生及其對周圍區域的影響; 時間序列,或縱向分析旨在分析不同時間段研究領域的演變,主要通過對趨勢、離群、活動、模式和季節性等的觀測,是知識圖譜分析中最常見的一種分析方法; 性能分析使用基於引文的文獻計量學指標和方法來量化圖譜和網絡中不同元素的重要性、影響和質量; 突變檢測是時間序列分析的一種,旨在發現有限的持續時間內變量的劇烈變化[1]。表6 顯示,最常見的方法是網絡分析、時間序列分析和突變檢測。其中,Citespace,Sci MAT和SCI2 的分析方法最多; Ucinet采用多種網絡分析指標。本地Pub Med和Pub Med-plus等都使用了期刊影響因子、H指數、被引頻次等指標; 此外,Pub Medplus使用了替代計量學的評價指標Altmetric得分,本地Pub Med增加了威望指數。
工具 |
文獻計量學指標 |
分析方法 |
HistCite |
無 |
聚類分析,時間序列分析 |
CiteSpace |
頻次/中心性,初現年,Burst值,∑值,PageRank,半衰期 |
突變檢測,地理空間分析,網絡分析,時間序列分析 |
VOSviewer |
無 |
網絡分析,主題分析 |
SciMAT |
Callon’s密度和中心度,H-指數,g指數,hg-index,q2指數,平均引文數,最大引文數,最小引文數 |
基本數據統計分析,網絡分析,性能分析,時間序列分 |
SCI2 |
無 |
突變檢測,地理空間分析,網絡分析,時間序列分析,主題分析,基本數據統計分析 |
Bibexcel |
無 |
基本數據統計分析,網絡分析 |
Bicomb |
頻次,百分比,累計百分比 |
聚類分析 |
SATI |
批次 |
聚類分析 |
Pajek |
中心度,立即指數,密度 |
網絡分析、時間序列分析 |
Ucinet |
中心度,二方關系凝聚力測度,位置分析算法,派系分析,隨機二方關系模型 |
網絡分析 |
GOPubMed |
無 |
聚類分析、地理空間分析、分類導航分析嗎、主題分析 |
本地PubMed |
影響因子、威望指數、H指數、Q分區、被引次數 |
聚類分析、主題分析、知識發現 |
PubMedplus |
影響因子,H指數,被引次數,Altmetric得分 |
聚類分析、主題分析、地理空間分析 |
可視化圖譜
可視化圖譜用來幫助用戶分析和理解結果。
工具 |
可視化圖譜 |
HistCite |
引文編年圖 |
CiteSpace |
自動聚類標簽視圖、時間線視圖、時區視圖、魚眼視圖 |
VOSviewer |
網絡可視化視圖、條目密度視圖、聚類密度視圖 |
SciMAT |
條目疊加圖、演變地圖、戰略圖、聚類網絡 |
SCI2 |
二分網絡圖、水平條形圖、等值線圖、比例符號地圖、此外可通GUESS、Gephi、Cytoscape等插件進行可視化 |
Bibexcel |
導入Pajek、Ucinet、Vosviewer等進行可視化 |
Bicomb |
導入SPSS、Gclute進行聚類分析 |
SATI |
內嵌Netdraw可視化工具 |
Pajek |
2D、3D或者動態的社群圖 |
Ucinet |
散點圖、樹狀圖、樹形圖,以及Netdraw內置的畫圖工具 |
GOPubMed |
地圖、聚類圖、趨勢圖、條形統計圖 |
本地PubMed |
指紋共詞圖、趨勢圖、聚類網絡 |
PubMedplus |
趨勢圖、地圖 |
在時間序列分析的可視化中,Histcite使用編年史圖,Citespace使用時間線視圖,Sci MAT使用演變地圖和重疊條目圖,GOPub Med,Pub Medplus和本地Pub Med則使用的是趨勢圖。 Citespace,Vosviewer,SCI2,Pajek,Ucinet,GOPub Med,本地Pub Med等可實現多種類型的可視化圖譜。其中SCI2 是一個模塊化的工具集,除自身所具備的可視化技術,還內置多種可視化軟件; SATI,Bibexcel,Bicomb等不具備可視化功能,需要借助其他可視化軟件。
結論
通過對13種分析工具的比較,可以看出每一個工具都有着不同的特點,沒有一個工具能夠囊括所有的功能。比較結果顯示,Citespace,SCI2,SciMAT功能較完整,其他工具也有各自的優勢。對13種分析工具特點歸納如下。
Histcite主要用於對書目數據進行基本的統計分析,以時間序列編制引文編年史圖展示領域的演變路徑,但無法對數據進行標准化處理,分析方法較少。
Citespace支持中文數據庫在內的多個數據庫,可以構建常見的關系網絡,采用多種文獻計量學分析方法定量分析可視化結果,從多個角度展示某領域的演變歷程,但其無法實現數據的去重。
Vosviewer的優勢在於可視化,能從多個視圖對結果進行展示,可構建多種矩陣,並支持文本挖掘,但其無法實現數據的去重,不能通過時間演變展示一個領域的演進路徑。
SciMAT具有強大的預處理能力,能構建多種文獻計量學網絡,並以文獻計量學指標對結果的影響力進行定量分析,還可通過配置向導的方式引導用戶進行分析。
SCI2是一個模塊化工具集,集合了多個工具的功能,支持多種格式的輸入,分析方法多樣,在可視化方面擁有豐富的插件,但在使用上有一定的難度。
Bibexcel專門用來構建文獻計量學關系矩陣,具有高度的靈活性,需借助其他的可視化軟件來進行可視化分析。
Bicomb支持中文數據庫,能進行基本的統計分析,並生成多種共現矩陣和詞篇矩陣,但數據處理和可視化方面存在不足。
SATI支持中文數據庫,實現基本的統計分析,能構建多類矩陣。
Pajek支持大型的網絡數據,不僅可以構建一些普通的網絡圖,還支持特殊網絡的構建,具有強大的圖形處理能力,但不支持文獻計量關系矩陣的創建,數據預處理能力差。
Ucinet可導入矩陣,也可自行創建,具有網絡分析功能,內置可視化軟件,但不支持文獻計量學矩陣的創建。
GOPub Med是最早使用基於本體的語義分類工具,支持分類導航分析,使用戶能快速找到最相關的文獻,但創建的關系矩陣單一。
本地Pub Med使用多個計量學指標對文獻進行評價,可以從多個角度對分析結果進行可視化。
Pub Medplus基於Pub Med,在數據處理方面解決了作者重名的問題,其最大的優勢在於其強大的聚類分析功能。
對用戶選擇分析工具的建議
由於文獻信息分析工具種類眾多,在開展分析時,應了解不同工具的特點,再根據不同的分析目的、特性和擬解決的問題,選擇恰當的分析工具。一是要根據數據源選擇合適的工具。若數據源為PubMed,可以選擇GOPubMed,PubMedplus或者本地PubMed及支持PubMed數據庫的工具;對於用戶自行創建的矩陣數據,選擇Pajek或Ucinet。二是Citespace,SCI2,SciMAT,Vosviewer,SATI,Bibexcel,Bicomb等工具均可用於共現分析。一般來講,用戶可以根據數據源選擇上述任何一個工具進行分析。不過共詞分析和合作者分析需要對源數據進行去重,所以應選擇SciMAT或SCI2。Bibexcel,SATI和Bicomb等工具主要用於構建各類關系矩陣,但需借助其他工具進行可視化。三是不同的工具分析方法不同,用戶可根據需求進行選擇,如時間序列分析,需支持時間序列分析的工具,選擇Histcite,Citespace,SciMAT,SCI2,Pajek等工具;對於直接引文網絡的構建,選擇Histcite和SCI2等工具。四是Citespace,SciMAT,Ucinet,本地PubMed和PubeMedplus等具有多種文獻計量學指標,可以對產生的圖譜進行定量分析。五是對於中文數據,Bicomb和SATI支持中國知網和萬方數據庫,Citespace支持中國知網和CSSCI數據庫,Bibexcel支持轉化后的CSSCI數據庫。六是可考慮多個工具聯合使用,因為沒有一個軟件可以實現全部的功能。
對文獻信息分析工具研發工作的建議
文獻信息分析工具是文獻計量學、社會計量學、統計學、圖形學、信息科學和計算機科學技術相結合的產物。國內對文獻信息分析工具的研究起步晚,專業人員的投入不足,應加強多個領域的合作研究[29]。文獻信息分析工具針對書目數據進行分析,數據庫導出的數據越豐富,文獻信息分析工具的價值越高。國內的大型數據庫不支持引文數據的導出,故無法進行引文分析,應進一步加強與國內全文數據庫的合作,促進雙贏。大部分文獻信息分析工具通過圖譜實現對某一學科宏觀和微觀、定性和定量的把握,圖譜的視覺效果對於結果的解讀起着“一圖勝千言”的作用。因此,要進一步加強分析工具的圖譜展示功能。
結語
文獻信息分析工具有着探測前沿熱點、預測發展方向的作用。科學研究人員學會選擇和使用這些工具,將使他們的科學研究更加高效。