1.1 緣於Java,源於爬蟲 這一段打算寫一篇關於自己做的一個簡單搜索引擎JobSearch(真的很簡單,大牛路過即可),但請容我先扯會兒淡,醞釀醞釀情緒。 若是一年之前你問我是搞什么的,我會毫不猶豫地告訴你我是個C#er,我從大一暑假接觸到C#,之后的兩年便使用C#開始了我的程序員 ...
這一篇將簡要介紹一下JobSearch的結構,同時發下源碼,來點干貨,等過兩天閑的時候將圍繞這個程序簡單介紹搜索引擎的各部分,同時談談個人的一些理解。程序寫的比較簡單,基礎好的話很容易就能看懂 因為寫的比較早,所以代碼比較亂,還望各位勿噴啊 。 SVN地址:http: code.taobao.org svn jobsearch trunk 源文件下載地址:http: files.cnblogs. ...
2013-04-10 01:04 10 2075 推薦指數:
1.1 緣於Java,源於爬蟲 這一段打算寫一篇關於自己做的一個簡單搜索引擎JobSearch(真的很簡單,大牛路過即可),但請容我先扯會兒淡,醞釀醞釀情緒。 若是一年之前你問我是搞什么的,我會毫不猶豫地告訴你我是個C#er,我從大一暑假接觸到C#,之后的兩年便使用C#開始了我的程序員 ...
本來打算昨晚發的,結果園子又遷移...... 網絡爬蟲(Spider或Crawler),顧名思義,就是在互聯網上爬行的蟲子,那么這只蟲子為什么要在網上爬行呢?很簡單:收集信息。在互聯網時代,誰掌握了信息誰就把握了主動權。曾經我一直覺得做搜索的公司都是慈善家,他們自己花錢為大眾服務,真是太 ...
時隔這么久,繼續開寫。本文系上一篇的補充:爬蟲部分技術要點淺析。 本次將主要討論上次提出的后兩個問題:如何處理抽取出來的Url。 3、如何處理抽取出來的Url(爬取策略)? 所謂爬取 ...
lucene 和 es 的前世今生 lucene 是最先進、功能最強大的搜索庫。如果直接基於 lucene 開發,非常復雜,即便寫一些簡單的功能,也要寫大量的 Java 代碼,需要深入理解原理。 elasticsearch 基於 lucene,隱藏了 lucene 的復雜性,提供了簡單易用 ...
面試題 es 寫入數據的工作原理是什么啊?es 查詢數據的工作原理是什么啊?底層的 lucene 介紹一下唄?倒排索引了解嗎? 面試官心理分析 問這個,其實面試官就是要看看你了解不了解 es 的一些基本原理,因為用 es 無非就是寫入數據,搜索數據。你要是不明白你發起一個寫入和搜索請求 ...
1、Nutch簡介 Nutch是一個由Java實現的,開放源代碼(open-source)的web搜索引擎。主要用於收集網頁數據,然后對其進行分析,建立索引,以提供相應的接口來對其網頁數據進行查詢的一套工具。其底層使用了Hadoop來做分布式計算與存儲,索引使用了Solr分布式索引框架來做 ...
資源推薦 Zac出版的《SEO實戰密碼》是SEO入門的好書,可惜我在當當網買的電子書受DRM版權保護,無法與大家分享。 我在網上找到了此書的 了解搜索引擎 章節,非常詳細,且容易理解。鏈接如下: http://www.21jn.net/seo/zac/zac.html 前言 SEO ...
1、Solr簡介 Solr是一個高性能,采用Java5開發,基於Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化,並且提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。 Solr最初 ...