M2 Planning Day1

本文轉載自查看原文 2012-10-29 22:18 169

其實總的來說不如稱之為PrePlanning。經過上周我們和Cambridge guys的親切交流之后，愈發覺得我們要做的事情還太多太多，雖然M1我們搞出來看似還蠻fancy的東西，比如：

但實際上對於更advanced的部分，即所謂new topic的獲取我們並沒有太多的想法。Mr. Richard Harper (Principle Researcher of MSRC)的想法大概是對於從Bing獲取來的信息，我們應該能自動地將其分類，並為每一類總結出新的topic words，然后以這樣的words作為新的關鍵詞到Bing里面去搜，獲取到的結果再聚類（或者我們可以定義樹的深度，即一定程度后就不再自動聚類了），如此反復，最終從一個keyword出發，得到的是某一個field的類似knowledge graph之類的東西。

嘛，怎么說呢，如果真能做成那樣，首先要解決的問題就是如何為網頁分類並抽取關鍵詞的問題，這看起來是一個text-mining的問題，並且non-trivial，我們讓NLC組的Shuangzhi去調研一下這方面的情況，但是目測應該不是很容易的東西，因為我記得有一個小組是專門做這樣的東西（收藏夾智能分類之類），可是從M1的結果上來看並不是很make sense，所以我們不一定會completely follow Richard的想法。

但是樹總是要分叉的，分叉意味着有一定的層次，今天的討論主要圍繞這一點，最后產生了URL分類流，domain分類流，任意分叉流，等等。但是有一點我們注意到目前我們用到的只有Bing API的Search功能，對於其他可能獲取的Data我們並沒有關注，在Xichao進行過調研后可能會有一些有意思的結果。

另外，對於之前考慮的多棵樹功能，我們今天對其進行了質疑。因為如果我們能在一棵樹的分叉上做得很好，換句話講一棵樹已經能長得很茂盛，也就沒有必要加入多棵樹功能了。

看起來今天只是提出了很多問題，還有待於更多的討論。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 M2 Planning Day4 day1 Day1 周末班——day1 MySql學習day1 maven .m2 文件 python day1:初識Python（一） .m2/repository里面是什么可能是 BJOI2019 Day1 題解？中山紀念中學培訓DAY1