文獻信息分析工具的比較2015，文獻分析工具對比

本文轉載自查看原文 2021-07-19 18:10 240 摘錄/ 筆記/ 學習筆記/ CiteSpace

文獻信息分析工具的比較2015

筆記內容節選於 20151115 李艷; 張悅; 曾可; 張士靖發表的期刊《文獻信息分析工具的比較》

1選取具有代表性的13種文獻信息分析工具,

2從支持的數據格式、數據預處理、構建的關系矩陣、標准化處理、分析方法、結果的可視化等方面進行了比較,

3總結了每個工具的優勢與不足,並為用戶選擇合適的分析工具提出了建議。

工具基本信息

工具	開發機構	開發年份	版本	是否免費
HistCite	美國Thomson Reuters	2001	12.3.17	否（有試用版）
CiteSpace	美國 Drexel 大學	2004	3.8R13	是
VOSviewer	荷蘭 Leiden University	2010	1.6.0	是
SciMAT	西班牙格納納達大學	2011	V1.1.03	是
SCI2	美國印第安納大學KatyBornoe	2009	V1.1	是
Bibexcel	瑞典科學家Persson	2009	2014.03.25	是
Bicomb	中國醫科大學	2009	2.0	是
SATI	浙江大學大學信息管理系	2011	3.2	是
Pajek	A.Mrava和V.Batagelj	1996	3.04	是
Ucinet	Lin Freeman	-	6.0	否（有試用版）
GOPubMed	德國Transinsight公司和德累斯頓大學	2005	-	是
本地PubMed	中國濟南泉方	2007	-	否
PubMedplus	北京唯博賽科技有限公司	2012	-	否（有試用版）

支持的數據格式

工具	工具類型	數據量	支持的數據庫及數據類型
HistCite	文獻計量	支持大型數據	WOS
CiteSpace	文獻計量	10000條以內	WOS,PubMed,Derwnet,Scopus,GoogleScholar,ArXiv,ADS,NSF,CSSCI,CNKI
VOSviewer	文獻計量	支持大型數據	網絡格式:支持Pajek得net,GML;書目數據：WOS,Scopus,PubMed;語料庫:WOS,Scopus
SciMAT	文獻計量	10000條以內	WOS(txt),Scopus(RIS),CSV格式
SCI2	文獻計量	10000條以內	網絡格式: GraphMl(xml,graphml), XGMML(xml),Pajek(net),NWB(nwb); 書目數據: WOS(isi), Bibtex(bibi), Endnote(enw), Scopus csv(scopus),NSF csv(nsf); 其他: Pajek Matrix(mat),TreeML(xml),Edgelist(edge),CSV(csv)
Bibexcel	文獻計量	支持大型數據	WOS(txt),Scopus(ris),轉化后的CSSCI
Bicomb	文獻計量	支持大型數據	WOS(txt),PubMed(xml),萬方(xml), CNKI(xml) , 自定義數據格式
SATI	文獻計量	支持大型數據	WOS(html),CNKI(Endnote),萬方(NoteExpree) ,維普(Notefirst)
Pajek	社會網絡	支持大型數據	文本數據,支持各種軟件導出(net,vec,clu,per,cls,hie等),Ucinet的DL格式
Ucinet	社會網絡	支持大型數據	原始數據，Excel,數據語言數據
GOPubMed	文獻計量	100000	無語導入數據
本地PubMed	文獻計量	支持大型數據	無語導入數據
PubMedplus	文獻計量	支持大型數據	無語導入數據

數據預處理

工具	數據預處理方式
HistCite	數據精簡
CiteSpace	時間切片、數據和網絡精簡
VOSviewer	數據精簡、網絡精簡
SciMAT	去重、時間切片、數據和網絡精簡
SCI2	去重、時間切片、數據和網絡精簡
Bibexcel	數據和網絡精簡
Bicomb	數據精簡
SATI	中文分詞
Pajek	無
Ucinet	無
GOPubMed	基於語義分類工具GO&MeSH
本地PubMed	基於語義分類工具GO&MeSH
PubMedplus	基於語義分類工具GO&MeSH,單位和作者異名的規范和漢化

顯示Sci MAT和SCI2 包含4 種數據預處理模塊,優勢明顯; 大部分工具支持數據精簡和網絡精簡; Pajek和Ucinet無數據預處理功能。GOPub Med,Pub Medplus和本地Pub Med基於語義分類工具GO&Me SH引入本體概念,支持語義級的交換,可消除或減少由於同義詞或相近詞概念及術語的混亂,在語義數據處理方面優勢明顯。此外,Pub Medplus還增加了單位和作者異名的規范處理功能。

實現的關系矩陣

工具

書目耦合

合作

共引

共詞

直接引文

其他

作者

期刊

文獻

作者

國家

機構

作者

文獻

期刊

HistCite

CiteSpace

VOSviewer

SciMAT

SCI2

Bibexcel

Bicomb

SATI

Pajek

Ucinet

GOPubMed

本地PubMed

PubMedplus

關系矩陣中最常見的分析單元是期刊、文獻、參考文獻、作者、主題詞或關鍵詞。分析單元之間的關系可分為三類。第一類是直接引文關系,即直接從信息的發送者到信息的接受者。第二類是將分析單元之間的關系用做共現數據,即通過計算兩個分析單元在文獻中同時出現的次數來衡量兩個分析單元之間的相似性,包括合作、耦合、共引和共詞。合作用來分析研究領域的社會結構,共詞則是使用文獻中最重要的主題詞或者關鍵詞研究一個領域的概念結構［27］,共引和書目耦合用來分析研究領域的知識結構。區別在於,書目耦合是固定和永久的引文關系,共引關系是隨時間而變的［28］。第三類是一些不常見的或復雜的網絡。表4 列舉了各種分析工具可以創建的關系矩陣。可以看出,沒有一個工具可以創建全部關系矩陣,大部分工具都支持共現矩陣的創建,其中Citespace,Vosviewer,Sci MAT,SCI2,Bibexcel等可以構建多數關系矩陣,但只有Histcite和SCI2支持直接引文網絡。相對於GOPub Med和本地Pub Med僅關注於一種網絡,Pub Medplus可以構建4種網絡,Pajek和Ucinet則不支持文獻計量學網絡的創建。此外,SATI可以創建包含詞條共現矩陣、頻率分析矩陣、文檔詞條矩陣等在內的8 種矩陣。

標准化處理

構建了分析單元的關系矩陣之后,需通過標准化處理對數據間的相似性進行測量來獲得數據之間的隱含關系,簡而言之就是對數據進行規范化

工具	標准化方法
HistCite	無
CiteSpace	Salton's余弦、Jaccard'指數
VOSviewer	關聯強度
SciMAT	關聯強度、Equivalence指數、Inclusion指數、Jaccard指數、Salton余弦
SCI2	用戶自定義
Bibexcel	Salton余弦、Jaccard指數、Vladutz和Cook標准化
Bicomb	無
SATI	Equivalence指數
Pajek	無
Ucinet	Jaccard指數，cohen’s kappa, identity系數, correlation, hamming-sim
GOPubMed	潛在語義分析
本地PubMed	潛在語義分析
PubMedplus	潛在語義分析

常用標准化處理方法有Salton's余弦、Jaccard'指數、Equivalence指數、關聯強度等［2］。如表5 所示,大部分分析工具都使用了上述方法中的一種或多種; GOPub Med,Pub Medplus,本地Pub Med則因使用GO&Me SH工具,使用潛在語義分析將語料庫與本體進行連接; Pajek和Histcite則無規范化處理的功能。

分析方法

分析工具所用的分析方法很多,如網絡分析、地理空間分析、時間序列、性能分析、突變檢測等。網絡分析是測量某一節點在整個網絡中的中心度,或一個聚類在圖譜中的中心度; 地理空間分析則是回答事件在哪里發生及其對周圍區域的影響; 時間序列,或縱向分析旨在分析不同時間段研究領域的演變,主要通過對趨勢、離群、活動、模式和季節性等的觀測,是知識圖譜分析中最常見的一種分析方法; 性能分析使用基於引文的文獻計量學指標和方法來量化圖譜和網絡中不同元素的重要性、影響和質量; 突變檢測是時間序列分析的一種,旨在發現有限的持續時間內變量的劇烈變化［1］。表6 顯示,最常見的方法是網絡分析、時間序列分析和突變檢測。其中,Citespace,Sci MAT和SCI2 的分析方法最多; Ucinet采用多種網絡分析指標。本地Pub Med和Pub Med-plus等都使用了期刊影響因子、H指數、被引頻次等指標; 此外,Pub Medplus使用了替代計量學的評價指標Altmetric得分,本地Pub Med增加了威望指數。

工具	文獻計量學指標	分析方法
HistCite	無	聚類分析，時間序列分析
CiteSpace	頻次/中心性，初現年，Burst值，∑值,PageRank,半衰期	突變檢測，地理空間分析，網絡分析，時間序列分析
VOSviewer	無	網絡分析，主題分析
SciMAT	Callon’s密度和中心度，H-指數，g指數，hg-index，q2指數，平均引文數，最大引文數，最小引文數	基本數據統計分析，網絡分析，性能分析，時間序列分
SCI2	無	突變檢測，地理空間分析，網絡分析，時間序列分析，主題分析，基本數據統計分析
Bibexcel	無	基本數據統計分析，網絡分析
Bicomb	頻次，百分比，累計百分比	聚類分析
SATI	批次	聚類分析
Pajek	中心度，立即指數，密度	網絡分析、時間序列分析
Ucinet	中心度，二方關系凝聚力測度，位置分析算法，派系分析，隨機二方關系模型	網絡分析
GOPubMed	無	聚類分析、地理空間分析、分類導航分析嗎、主題分析
本地PubMed	影響因子、威望指數、H指數、Q分區、被引次數	聚類分析、主題分析、知識發現
PubMedplus	影響因子，H指數，被引次數，Altmetric得分	聚類分析、主題分析、地理空間分析

可視化圖譜

可視化圖譜用來幫助用戶分析和理解結果。

工具	可視化圖譜
HistCite	引文編年圖
CiteSpace	自動聚類標簽視圖、時間線視圖、時區視圖、魚眼視圖
VOSviewer	網絡可視化視圖、條目密度視圖、聚類密度視圖
SciMAT	條目疊加圖、演變地圖、戰略圖、聚類網絡
SCI2	二分網絡圖、水平條形圖、等值線圖、比例符號地圖、此外可通GUESS、Gephi、Cytoscape等插件進行可視化
Bibexcel	導入Pajek、Ucinet、Vosviewer等進行可視化
Bicomb	導入SPSS、Gclute進行聚類分析
SATI	內嵌Netdraw可視化工具
Pajek	2D、3D或者動態的社群圖
Ucinet	散點圖、樹狀圖、樹形圖，以及Netdraw內置的畫圖工具
GOPubMed	地圖、聚類圖、趨勢圖、條形統計圖
本地PubMed	指紋共詞圖、趨勢圖、聚類網絡
PubMedplus	趨勢圖、地圖

在時間序列分析的可視化中,Histcite使用編年史圖,Citespace使用時間線視圖,Sci MAT使用演變地圖和重疊條目圖,GOPub Med,Pub Medplus和本地Pub Med則使用的是趨勢圖。 Citespace,Vosviewer,SCI2,Pajek,Ucinet,GOPub Med,本地Pub Med等可實現多種類型的可視化圖譜。其中SCI2 是一個模塊化的工具集,除自身所具備的可視化技術,還內置多種可視化軟件; SATI,Bibexcel,Bicomb等不具備可視化功能,需要借助其他可視化軟件。

結論

通過對13種分析工具的比較,可以看出每一個工具都有着不同的特點,沒有一個工具能夠囊括所有的功能。比較結果顯示,Citespace,SCI2,SciMAT功能較完整,其他工具也有各自的優勢。對13種分析工具特點歸納如下。

Histcite主要用於對書目數據進行基本的統計分析,以時間序列編制引文編年史圖展示領域的演變路徑,但無法對數據進行標准化處理,分析方法較少。

Citespace支持中文數據庫在內的多個數據庫,可以構建常見的關系網絡,采用多種文獻計量學分析方法定量分析可視化結果,從多個角度展示某領域的演變歷程,但其無法實現數據的去重。

Vosviewer的優勢在於可視化,能從多個視圖對結果進行展示,可構建多種矩陣,並支持文本挖掘,但其無法實現數據的去重,不能通過時間演變展示一個領域的演進路徑。

SciMAT具有強大的預處理能力,能構建多種文獻計量學網絡,並以文獻計量學指標對結果的影響力進行定量分析,還可通過配置向導的方式引導用戶進行分析。

SCI2是一個模塊化工具集,集合了多個工具的功能,支持多種格式的輸入,分析方法多樣,在可視化方面擁有豐富的插件,但在使用上有一定的難度。

Bibexcel專門用來構建文獻計量學關系矩陣,具有高度的靈活性,需借助其他的可視化軟件來進行可視化分析。

Bicomb支持中文數據庫,能進行基本的統計分析,並生成多種共現矩陣和詞篇矩陣,但數據處理和可視化方面存在不足。

SATI支持中文數據庫,實現基本的統計分析,能構建多類矩陣。

Pajek支持大型的網絡數據,不僅可以構建一些普通的網絡圖,還支持特殊網絡的構建,具有強大的圖形處理能力,但不支持文獻計量關系矩陣的創建,數據預處理能力差。

Ucinet可導入矩陣,也可自行創建,具有網絡分析功能,內置可視化軟件,但不支持文獻計量學矩陣的創建。

GOPub Med是最早使用基於本體的語義分類工具,支持分類導航分析,使用戶能快速找到最相關的文獻,但創建的關系矩陣單一。

本地Pub Med使用多個計量學指標對文獻進行評價,可以從多個角度對分析結果進行可視化。

Pub Medplus基於Pub Med,在數據處理方面解決了作者重名的問題,其最大的優勢在於其強大的聚類分析功能。

對用戶選擇分析工具的建議

由於文獻信息分析工具種類眾多,在開展分析時,應了解不同工具的特點,再根據不同的分析目的、特性和擬解決的問題,選擇恰當的分析工具。一是要根據數據源選擇合適的工具。若數據源為PubMed,可以選擇GOPubMed,PubMedplus或者本地PubMed及支持PubMed數據庫的工具;對於用戶自行創建的矩陣數據,選擇Pajek或Ucinet。二是Citespace,SCI2,SciMAT,Vosviewer,SATI,Bibexcel,Bicomb等工具均可用於共現分析。一般來講,用戶可以根據數據源選擇上述任何一個工具進行分析。不過共詞分析和合作者分析需要對源數據進行去重,所以應選擇SciMAT或SCI2。Bibexcel,SATI和Bicomb等工具主要用於構建各類關系矩陣,但需借助其他工具進行可視化。三是不同的工具分析方法不同,用戶可根據需求進行選擇,如時間序列分析,需支持時間序列分析的工具,選擇Histcite,Citespace,SciMAT,SCI2,Pajek等工具;對於直接引文網絡的構建,選擇Histcite和SCI2等工具。四是Citespace,SciMAT,Ucinet,本地PubMed和PubeMedplus等具有多種文獻計量學指標,可以對產生的圖譜進行定量分析。五是對於中文數據,Bicomb和SATI支持中國知網和萬方數據庫,Citespace支持中國知網和CSSCI數據庫,Bibexcel支持轉化后的CSSCI數據庫。六是可考慮多個工具聯合使用,因為沒有一個軟件可以實現全部的功能。

對文獻信息分析工具研發工作的建議

文獻信息分析工具是文獻計量學、社會計量學、統計學、圖形學、信息科學和計算機科學技術相結合的產物。國內對文獻信息分析工具的研究起步晚,專業人員的投入不足,應加強多個領域的合作研究［29］。文獻信息分析工具針對書目數據進行分析,數據庫導出的數據越豐富,文獻信息分析工具的價值越高。國內的大型數據庫不支持引文數據的導出,故無法進行引文分析,應進一步加強與國內全文數據庫的合作,促進雙贏。大部分文獻信息分析工具通過圖譜實現對某一學科宏觀和微觀、定性和定量的把握,圖譜的視覺效果對於結果的解讀起着“一圖勝千言”的作用。因此,要進一步加強分析工具的圖譜展示功能。

結語

文獻信息分析工具有着探測前沿熱點、預測發展方向的作用。科學研究人員學會選擇和使用這些工具,將使他們的科學研究更加高效。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 《文獻管理與信息分析》快速學習科技文獻檢索（七）——檢索工具 Java 反編譯工具對比分析 Leangoo看板工具與Trello的對比分析史上最全 | 39個RNAseq分析工具與對比【參考文獻管理工具-1】使用Mendeley在Word中插入引用與參考文獻 wos 文獻被引_全世界最權威的文獻檢索工具，這6個檢索技巧必須要掌握！幾個比較火的BI分析工具 mysql慢查詢分析工具比較與實戰 Java bean常見映射工具分析和比較