開源搜索引擎 Iveely Search Engine 0.1.0 的發布


一直熱愛搜索引擎事業,但是它現在並不是我工作。你也許會問,Iveely是什么?Iveely 是I void everything,enjoy loving you的首字母縮寫,表達我對搜索引擎的熱愛。目前發布的是0.1.0版本,是一個基本版本,包含了無數的Bugs,您可以在  http://iveelyse.codeplex.com/上下載源碼,任何一個改動的源碼,您都可以下載到。但是,當您下載源碼后,也許您會痛罵我一頓,這是什么源碼,能看懂嗎?亂七八糟的,當您有這樣的想法的時候,請原諒我,這些東西都是我業余開發,不足之處,定然數不勝數,但我相信,終有一天您也會感嘆,原來並沒有那么糟糕。所有源碼的開放,都是為了知識的共享,如果您有好的想法和建議,可以發送郵件至我:liufanping@iveely.com,如果您想參與進來,貢獻您的代碼,請聯系我,一起為社區,為開源做出點點奉獻。

 

        上圖是Iveely Search Engine 0.1.0版本的截圖,目前只有文本搜索部分,其余的新聞、視頻等還沒有完全做好,主要是統一的存儲模型沒有找到。下面大致說一個項目的基礎結構:

       

上面主要分為三大塊,剛好對應着Iveely搜索引擎中的三個運行步驟(當您下載程序后的運行方式就是按照上面上個步驟來的)。

1. 找到發布文件夾下的IveelySE.Spider.exe 文件,然后輸入你需要爬行的鏈接。這是A搜索部分。
2 . 當爬行完畢之后,找到文件夾下的IveelySE.Index.exe 然后運行,直到結束。即完成索引。這是B整理部分。
3. 此刻你只需要,運行另外一個文件IveelySE.exe你就可以執行搜索了。搜索的界面你需要部署WebSite的網站,即可。或者你不想這樣的話,你在不運行IveelySE.exe的情況下,直接運行Iveely.Search.exe 可在本地執行搜索。 這是C服務部分。

下面介紹一下整個解決方案中,各個項目的含義。

  "IveelySE", "IveelySE\IveelySE.csproj", 是搜索服務建立部分,搜索的入口是從這里開始的。

"IveelySE.AI", "IveelySE.AI\IveelySE.AI.csproj", 搜索的人工智能部分,類似於專家系統。例如輸入101+90=?就是通過這個項目計算出來的。

"IveelySE.Classify", "IveelySE.Classify\IveelySE.Classify.csproj",是搜索引擎中文本分類(聚類)的實現部分。

"IveelySE.Common", "IveelySE.Common\IveelySE.Common.csproj",是搜索引擎中共用部分的提取。

"IveelySE.Config", "IveelySE.Config\IveelySE.Config.csproj", 是搜索引擎中的配置部分,盡可能的配置在這個項目中實現。

"IveelySE.Grammar", "IveelySE.Grammar\IveelySE.Grammar.csproj", 是搜索引擎中的語法分析部分,例如:site、filetype等等。

"IveelySE.Index", "IveelySE.Index\IveelySE.Index.csproj", 是搜索引擎中的索引部分,原數據的整理主要在這里實現,倒排序等也是。

"IveelySE.Liquidate", "IveelySE.Liquidate\IveelySE.Liquidate.csproj",是語言處理部分,例如停用詞過濾、敏感詞等等的處理。

"IveelySE.Segment", "IveelySE.Segment\IveelySE.Segment.csproj", ISE中的分詞部分,包含詞庫分詞和隱馬爾可夫分詞。

"IveelySE.Server", "IveelySE.Server\IveelySE.Server.csproj", ISE中關於網絡通信傳輸部分。

"IveelySE.Spider", "IveelySE.Spider\IveelySE.Spider.csproj", 這是網絡爬蟲,即數據搜集部分。

"IveelySE.IDFS", "IveelySE.IDFS\IveelySE.IDFS.csproj", 這是分布式文件系統部分,包括MapReduce的實現都將在此(此版本無效)。

"IveelySE.BigData", "IveelySE.BigData\IveelySE.BigData.csproj", 這是大數據處理部分(此版本無效)。

"IveelySE.BigData.Common", "IveelySE.BigData.Common\IveelySE.BigData.Common.csproj", 大數據處理的共同引用部分(此版本無效)。

"IveelySE.BigData.FileSystem", "IveelySE.BigData.FileSystem\IveelySE.BigData.FileSystem.csproj",大數據處理的虛擬文件系統(此版本無效)。

"IveelySE.BigData.MasterNode", "IveelySE.BigData.MasterNode\IveelySE.BigData.MasterNode.csproj", 大數據存儲的主節點部分(此版本無效)。

"IveelySE.BigData.StoreNode", "IveelySE.BigData.StoreNode\IveelySE.BigData.StoreNode.csproj", 大數據存儲的子節點部分(此版本無效)。

"IveelySE.Search", "IveelySE.Search\IveelySE.Search.csproj", 搜索的本地實現部分,無需Web,只要用於內部調試。

"IveelySE.Web", "IveelySE.Web\IveelySE.Web.csproj",搜索的Web端實現,界面采用ask的界面。

這是Iveely Search Engine的大致一個介紹,當然,IveelySE一定沒有你想象中的那么好,因為目前處於0.1.0低版本階段 ,無數的錯誤或者Bugs一定會讓大家崩潰,但是請您放心,我們(更多的熱愛開源事業的人士)會積極的修改其中的Bug,當然項目中也參雜了其它開源項目的東西,例如:Html分析采用的是HtmlAgilityPack。希望和更多地朋友一起分享我們的快樂。謝謝大家!項目地址:http://iveelyse.codeplex.com/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM