其實總的來說不如稱之為PrePlanning。經過上周我們和Cambridge guys的親切交流之后,愈發覺得我們要做的事情還太多太多,雖然M1我們搞出來看似還蠻fancy的東西,比如:
但實際上對於更advanced的部分,即所謂new topic的獲取我們並沒有太多的想法。Mr. Richard Harper (Principle Researcher of MSRC)的想法大概是對於從Bing獲取來的信息,我們應該能自動地將其分類,並為每一類總結出新的topic words,然后以這樣的words作為新的關鍵詞到Bing里面去搜,獲取到的結果再聚類(或者我們可以定義樹的深度,即一定程度后就不再自動聚類了),如此反復,最終從一個keyword出發,得到的是某一個field的類似knowledge graph之類的東西。
嘛,怎么說呢,如果真能做成那樣,首先要解決的問題就是如何為網頁分類並抽取關鍵詞的問題,這看起來是一個text-mining的問題,並且non-trivial,我們讓NLC組的Shuangzhi去調研一下這方面的情況,但是目測應該不是很容易的東西,因為我記得有一個小組是專門做這樣的東西(收藏夾智能分類之類),可是從M1的結果上來看並不是很make sense,所以我們不一定會completely follow Richard的想法。
但是樹總是要分叉的,分叉意味着有一定的層次,今天的討論主要圍繞這一點,最后產生了URL分類流,domain分類流,任意分叉流,等等。但是有一點我們注意到目前我們用到的只有Bing API的Search功能,對於其他可能獲取的Data我們並沒有關注,在Xichao進行過調研后可能會有一些有意思的結果。
另外,對於之前考慮的多棵樹功能,我們今天對其進行了質疑。因為如果我們能在一棵樹的分叉上做得很好,換句話講一棵樹已經能長得很茂盛,也就沒有必要加入多棵樹功能了。
看起來今天只是提出了很多問題,還有待於更多的討論。