微軟學術搜索項目 10個版本的歷程


這是我在微軟亞洲研究院參與的項目之一, 從 2009 年秋天開始, 我們小組把它從一個研究原型發展為涵蓋全學科的學術搜索門戶。 它索引了 4千萬論文, 2千萬作者, 6 大實體類型, 8 種數據可視化功能, 具有開放的API 平台和手機客戶端.
 

下面說說項目的發展:

2009/8:  內部發布 alpha 版本,  以驗證想法為目的的 V1 結束, 數據量: 3 million
 
2009/9:  開始V2,  研究員和工程人員合作規划項目的目標, 遠景,階段,典型用戶;決定代碼管理,項目管理 (都用 MS TFS 管理).
決定 V2 着重於 Computer Science 領域
決定系統的特點在於展示六大實體及其關系 (作者,論文,機構,期刊,會議,關鍵字), 並把這些實體和關系投影到學科, 時間, 地點維度上來展現。
 
典型用戶有哪些? 我們描繪出三種典型用戶。
    Mary:  資深科學家 – 痛苦: 招人, 分析學科趨勢及大量的學科數據,主持國際會議和合作,從學校/機構的層面比較各自的科研產出和動向。 
    John:   剛出道的科學家 – 痛苦: 指導學生工作, 收集最新科研資料,組織會議, 讓別人了解自己的科研成績
    小勇:   想走上學術道路的大學生, 研究生 – 痛苦: 找資料, 讀論文, 申請出國, 投稿
 
項目計划的一個重要方面是核心價值是什么, 決定不做什么 -  我們決定不和其它學術搜索比拼“論文下載”這一功能, 就是說, 如果用戶的唯一目的就是要下論文, 我們系統不是最好的。
決定采取 8 周為一個里程碑 (Milestone) 的開發周期, 采用 MS Agile 的思路。 [2 周計划;4周實現;2周測試並上線 ]
人員: 研究員 + 軟件工程師 8-9 人; 全職PM 一名;  加上實習生數名, 幾個外包團隊的測試人員。
開始聯系出版社商討合作
在西格瑪4層的水房開了 V2 kick off 會議。
 
市場上已經有各種學術搜索服務, 作為一個后來者, 我們怎么創新? 我們的紅旗能打多久? 我們到底要做什么? 要怎樣展現各個實體之間的什么關系?   我畫了一個表:
 

Relation

author

paper

conf/journal

organization

keyword

author

co-author
citation
6-degree path

paper list

top authors

author/org rank

author research interest

paper

 

related paper
ref paper

top papers

top papers from this org

highlight keywords in a paper

conf/journal

 

 

CFP calendar

top org in a conf/journal

focus of conf/joural (tag cloud)

organization

 

 

 

org rank list

research area of an org

keyword

 

 

 

 

taxonomy, related keywords

 
 
2009/12:  V2M1 (第二版第一里程碑)發布
數據量達到 4.5 million
收集基本的 precision/recall 數據, 計算 F-Score, F-Score 那是相當的低啊…
改進用戶信息的展現
完善 高級搜索 (advanced search) 功能
和一著名出版社見面討論, 對方貌似很願意合作,我們都沒想到這是漫長等待的開始…
里程碑結束后開了 事后諸葛亮會議, 看出來大家對以用戶需求為驅動, 快速發布的軟件有各自不同的理解。 
2010/3:    V2M2 發布
數據量: 5.2 million
展現實體的詳細數據/詳細頁面
改進數據可視化
進行一系列可用性的改進
和我司的搜索引擎部門商量合作
為了讓大家對數據質量有更切身的認識, 每個人在春節期間審核並修改了幾十個作者的信息。
 
2010/5: V2M3 發布
數據量: 5.7 million
重新進行整體頁面設計 (藍色基調), 並在這個里程碑推出。 這成為以后所有UI的基礎。
推出了第一版的 call for paper calendar。
其它改進
隨着系統的運行,  大家看到了系統的幾個核心問題, 研究員開始攻堅。
不就是做一些網頁功能么?  有什么難的?  一個新成員說某功能兩天就可以搞定, 后來搞了兩星期, 把一個模塊活生生搞垮了, 后來,就沒有后來了…
 
2010/7: V2M4 發布
數據量: 6 million
大幅改進數據抽取的質量 (pdf meta data extractor)
數據/邏輯/UI層面都實現了 Organization/機構 這一實體, 機構成為一級實體 (有自己的主頁, 各種詳細數據, 排名, 等)
改進了用戶編輯功能
重寫了后台的數據流水線 (data pipeline) 模塊。
參加了在雷鎮研究院 faculty summit 的展示,  反響不錯, 但是大家覺得數據不夠多。
通過這一階段的實踐, 分析我們的商業運作能力, 研究能力,架構, 人員能力, 其他競爭對手的比較, 我們明確應該在下面的各個層次上做不同的競爭:
    a) 數據層次:  和最全的對手差別縮小到20% 左右
    b) 算法層次:  和最好的相比不相上下
    c) 功能層次:  完全超越所有對手
 
 
2010/9: V2M5 發布
數據量: 7 million
可視化功能:  作者之間的關系圖 (co-author path)
支持 facebook, twitter 的集成 (后來發現用的人不多… )
改進各項功能
向公司領導展示了項目的進展 (並搜索到了 領導當年寫的論文)
 
 
2010/12: V2M6 發布
由於項目的復雜度增加, 項目周期改為 12 周
推出獨特功能 –
    citation context, 別人是怎么評說一篇論文的
    學科發展趨勢圖
改進了作者名字消歧的算法,但是這個問題還是很難。
改進用戶反饋功能
改進了整個數據處理流程, 達到兩周一次的數據更新。
(嘗試了 學術家族樹 這一功能,但是效果不夠好, 沒有集成到公開的系統中)
數據量: 7.6 million 

應某部門的要求,我們把界面色調改得像它的孿生兄弟一樣 (橘黃色)。有意思的是, 此部門后來一直在思考中, 並未采取行動 …

 
2011/3: V2M7 發布
增加了 Keyword (關鍵字)這是最后一個實體。
發布了 Academic Search API, 讓學術界能通過API 使用我們的元數據, 開發他們自己的應用。
獨特的可視化功能 – Author Citation Graph
Call for Paper 和其它一系列功能的改進
和一個出版社的協議生效並且數據上線了, 數據量: 15.7 million . 其余的出版社還是討論中。
 
V2 訂下的目標基本實現 (計算機領域的全文本數據還是在痛苦地等待中)。開始V3, 向全學科領域進軍
由於項目的絕大部分模塊都進行了大規模的工程性重構,重寫。有些問題太難 (Smile), 研究員們逐步撤出了項目。
 
2011/6: V3M1 發布
新的領域擴展到 9 個
推出獨特功能 -
    背靠背比較研究機構 – organization comparison
    關鍵字 - 支持關鍵字的變體
改進已有功能,在用戶編輯模塊提供 “修改歷史”信息
為了充分展示各學科內容,  MAS獨創的兩級homepage 組織結構隆重登場.
工程師繼續改進名字消歧的算法 - 即使難, 也要迎着困難上啊。
我讓清華《現代軟件工程》班的同學根據 API 寫一個 iPad 上的程序, 一組同學做了一個, 但沒有發布…
隨着項目的成熟,  如何讓項目可持續地發展成為一個問題,  我們和雷鎮的另一部門商討如何更好地進行商業運作。達成了初步協議。 
數據量: 27.1 million
 
大家對敏捷開發的流程也逐漸熟悉, 這是其中一個里程碑的工作項 (work item) 看板圖。在每次史克朗茻  (SCRUM) 會議時, 大家就更新牆上自己負責的任務。
 
scrum_12_frame_small
 
2011/9: V3M2 發布
新的領域擴展到 17 個
推出獨特功能 -
    獨特的排名選項可以讓用戶用多種方式給作者排序。
    從美國 Harvey Mudd 學院來的實習生很快就完成了 學術地圖 這一功能。
    Windows Phone 的客戶端發布 (link)
很多小型出版社和我們達成了合作協議,最重要的出版社還在最后關頭…
隨着項目逐漸成熟, 知名度提高, 我們需要計划如何把 beta 產品轉化為正式產品, 我們和一些其他部門商討並達成初步共識。
項目的名聲也大了, 黑客用他們獨特的方式告訴我們網站有漏洞。
數據量: 35.3 million
 
2011/12: V3M3 發布
完成了全學科所有子領域的定義, 期刊/會議的學科歸屬, 產生 15 個一級學科
推出獨特功能 -
    學術家族樹 (經歷上次失敗后, 中科大的同學再次努力, 終於上線)
    可視化功能 - 論文引用圖 - 這是和另一個研究小組合作的結果
    wp7 手機客戶端增加對學術會議的支持 (正在走上線流程)
 
對所有代碼進行了安全檢查和修復
CS 領域的重要出版社終於和我們達成了合作協議!  我們等了兩年的時間…
數據量: 35.3 million, 總數量不變,  但是全文本的數據比重大幅增加。
越來越多的學術界同行申請使用 學術搜索 API

    It’s been a very impressive year for Microsoft Academic Search.

    Not only did the index experience major growth during the past 12 months but the Academic Research team launched a new interface and added several new tools including several that allow users to visualize data…

當然競爭對手也沒閑着…

 

 
2012/1-3  service pack 階段
重點放在如何把項目移交給另一部門
形成了有規律的數據更新周期。
進行文檔整理和規范化工作
姓名消歧工作又經過幾個月的努力, 得到大幅改進, “Zheng Lei”這樣的名字也得到不錯的處理,  不會出現一個“Zhang Lei”寫了幾千篇論文的滑稽情況。
根據用戶反饋和自身計划, 改進各個模塊的質量
對CS, Engineering 領域的論文覆蓋率大大提高。
數據量: 38.8 million
訪問數據:  平均每月 1百萬獨立IP 訪問, 其中 60% 來自美國; 超過60 個合作伙伴使用我們的API 進行各自的研究。
 
模塊: 元數據抽取, 離線處理, 數據庫, 論文集成,作者名字集成與消歧,數據索引, 網站, API, wp7 客戶端, 測試工具,  內部編輯復審工具, log 工具。
代碼量: 34萬 (C++, C#, asp.net, javascript, silverlight, SQL)
代碼量不包括空行, 注釋, 只有一個字符的行。
——————————————————————————————————————————————————
 
微軟學術搜索    介紹
 
 
微軟學術搜索(Microsoft Academic Search)是微軟研究院開發的免費學術搜索引擎。它為研究員、學生、圖書館館員和其他用戶提供了一個更加智能、新穎的搜索平台,方便用戶查找學術論文、知名學者、國際會議、權威期刊等信息。同時,微軟學術搜索作為一個研究試驗平台,展現了研究院在對象級別垂直搜索、命名實體的提取和消歧、數據可視化等研究領域的最新研究成果。

 

作為一個研究原型,微軟學術搜索覆蓋的學術內容仍比較有限,我們衷心感謝您的反饋與貢獻。您可以通過Twitter 關注我們,或者加入我們的論壇

 
主要功能 - 搜索

要實現基本的搜索功能,只需簡單地輸入關鍵詞,然后單擊搜索按鈕。

微軟學術搜索不僅僅涵蓋計算機科學,而且已經逐步擴展到其他學科,您可以通過指定感興趣的學科領域來縮小搜索范圍,快速找到所需論文。

例子:輸入關鍵詞;點擊"All Domains"按鈕;從下拉表中選擇一個復選框,可將您的搜索范圍縮小到指定學科。

如果您有更為具體的搜索條件,您可以使用高級搜索,以提高搜索的准確性與有效性。點擊“高級搜索”(Advanced Search)並輸入以下選項的具體值:作者、會議、期刊和年份。

例子:查找1999年之后發表的與"data mining"相關的論文,輸入關鍵詞並設置年份。

用戶參與編輯

微軟學術搜索允許用戶在線修正數據。如果您發現作者的資料、論文的資料有誤,或是我們提供的信息已過時,您可以直接在網上進行修改。微軟學術搜索目前支持修改的數據項包括:作者的基本信息,如姓名、所屬機構、頭像及個人主頁;論文的基本信息;上傳論文;確認論文歸屬等。您的修改經編輯驗證后將更新在網頁上。如果您有其它修改需求,請與我們聯系。我們致力於提供最新、最准確的學術信息,期待您的參與。

獲取最新的征稿信息

您可能希望了解某個學術會議的論文提交截止期限,或是您想要查詢該學術會議的召開地點,那么, 征稿信息 (call for paper)對您而言是一個非常有用的工具。

征稿信息頁面將自動顯示最近半年的會議列表,您可以通過學科篩選(Domain Filter)來鎖定目標會議。將鼠標放在時間線上,就能看到每個會議的時間安排。點擊“地圖視圖”,可以方便地查找到會議地點。

您也可以在搜索框中輸入會議名稱(全稱或縮寫名)來查找感興趣的會議。

展現多樣的作者關系

合作關系圖 (Co-author Graph)中每個節點代表一名作者,節點越大意味着作者所發表的著作越多,合作數量越多的合作者離作者的距離越近。

合作關系路徑圖(Co-author Path)展示了兩個學者之間的合作路徑,路徑中的每條邊表示兩個端點代表的作者間存在合作關系。

 

學術引用圖(Citation Graph)呈現作者之間的引用關系。圖中每個節點代表一名作者,位於頁面左上角的作者為被引用作者,引用該作者的文章越多,與該作者的距離越近。

 

學術家族樹(Genealogy Graph)呈現作者之間的導師/學生關系。在主要作者上方是其導師, 下方是其學生。 當學生數量較多的時候, 學生按機構進行歸類。

 

您可以點擊頁面右上方的 Embed 選項 將上述圖形化展示頁面嵌入個人主頁。

 

將論文嵌入到自己的個人主頁

微軟學術搜索允許您將論文列表嵌入到其它網頁,比如您的個人主頁。

具體步驟:在作者詳細頁面中點擊Embed,然后點擊“生成JavaScript 代碼”(Generate JavaScript code),復制顯示在右側窗口中的全部JavaScript 代碼並黏貼到您的個人主頁。

查看論文的引用信息

引文內容(Citation Context)列出了引用論文對原始論文的轉述內容,幫助用戶方便、快速地理解其他作者對原始論文的評價。

您可以在論文詳細頁面中找到引文內容,一條典型的結果會包括從引用論文中實際摘錄的一段內容、引用論文的第一作者以及引用論文的題目。系統默認顯示5條結果,如果您想查看更多,請點擊引文內容(Citation Context)。

直觀顯示各學科領域的出版物動態

領域動態(Domain Trend)以疊加分布圖的方式直觀展示了各學科領域的研究動態。

您可以通過頁面左側的面板來過濾或自定義顯示的學科領域,調整時間軸可讓您更改感興趣的時間段。您可以點擊某個感興趣的學科領域以查看該領域的作者列表。

獲取研究機構的更多信息

微軟學術搜索推出兩個新功能以幫助您更多了解研究機構的相關信息。

A. 學術地圖

學術地圖Academic Map)使用可視化地圖展示全世界研究機構的地理分布,地圖中的每個點代表一個研究機構,點擊某一個機構會顯示該機構學者的詳細信息。您也可以通過指定學科領域來對研究機構進行篩選。

B. 機構比較

您可以點擊機構詳細頁面中的比較按鈕,將該機構與其它機構進行比較。在機構比較頁面中,您可以看到兩個機構所發表論文量、引用量、研究側重以及所屬學者的對比情況。

論文引用圖

展現了論文之間的引用關系, 您可以通過這個直觀的引用圖梳理知識脈絡, 找到相關論文, 拓寬對某專業的理解。

 
 

搜索結果頁面

微軟學術搜索基於您所輸入的搜索詞給出相應的搜索結果。例如:搜索“data mining”返回的頁面如下:

A:年份篩選:通過限定年份條件進一步過濾搜索結果。

B:結果:一條典型的搜索結果包含以下信息:

  • 論文題目:鏈接到論文詳細信息頁面,顯示該論文的作者信息、摘要、參考書目、引用書目等。
  • 查看論文:鏈接到論文瀏覽/下載頁面。
  • 引用:該論文的引用數量。
  • 作者姓名:鏈接到作者詳細信息頁面,該頁面顯示作者的個人主頁、所屬機構、論文列表等。
  • 論文摘要。
  • 出版時間。
  • 論文來源:鏈接到會議、期刊的詳細信息網頁,顯示其論文數量、引用數量、論文列表等。

C:側欄:通過選擇不同的學科領域,您可以進一步過濾您的搜索結果。

學術實體 (作者, 機構等) 的詳細頁面

您只需點擊微軟學術搜索任一頁面上的論文題目、作者姓名、機構名稱、會議名稱、期刊題目或關鍵詞,即可訪問相應對象的詳細信息頁面。例子:這是關於作者Wei-Ying Ma的詳細信息頁面:

系統將學者分為兩種類型。當頭像顯示為一個問號時,表明這個學者的資料還未被任何用戶編輯過,歡迎您對資料進行補充或更正;另一種類型的學者資料則已被人工編輯,您對這些學者資料做進一步更新時請更為謹慎。

H-指數

H-指數是Jorge E. Hirsch提出的一種評價科研人員學術成就的方法。Hirsch定義一個科研人員的h指數為在一定期間內他發表的論文至少有h篇的被引頻次不低於h次。

H-指數也可以用來衡量一個機構的學術成就。我們基於以下方法計算該指數:一個機構的論文數量包括(a)由當前屬於該機構的學者所發表的論文;(b)該論文發表時相關作者屬於該機構。一個機構的h指數指一定時期內該機構的論文至少有h篇的被引頻次不低於h次。

G-指數

G-指數是基於科研人員被引次數的分布來評價科研人員學術成就的另一種方法。該指數由Leo Egghe提出,一個科研人員的g-指數指他的g篇被引次數最多的論文平均有g次被引,g是可能的最大數目。

學科信息排序表

微軟學術搜索提供各學科領域各種信息的排序表,通過列表,您可以發現有影響力的論文、作者、會議、期刊和機構等。

 
學術搜索API

微軟學術搜索通過開放API,允許用戶訪問我們的海量數據,幫助開發人員構建各種創新性應用程序。無論您是要進行學術機構排序,還是要展示論文引用關系,API都可以讓您輕松啟動這些項目。

了解更多關於API的信息,請參考API 介紹頁


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM