原文:菜鳥也想玩搜索引擎——JobSearch簡介

這一篇將簡要介紹一下JobSearch的結構,同時發下源碼,來點干貨,等過兩天閑的時候將圍繞這個程序簡單介紹搜索引擎的各部分,同時談談個人的一些理解。程序寫的比較簡單,基礎好的話很容易就能看懂 因為寫的比較早,所以代碼比較亂,還望各位勿噴啊 。 SVN地址:http: code.taobao.org svn jobsearch trunk 源文件下載地址:http: files.cnblogs. ...

2013-04-10 01:04 10 2075 推薦指數:

查看詳情

菜鳥想玩搜索引擎——我與搜索可以不說的故事

1.1 緣於Java,源於爬蟲   這一段打算寫一篇關於自己做的一個簡單搜索引擎JobSearch(真的很簡單,大牛路過即可),但請容我先扯會兒淡,醞釀醞釀情緒。   若是一年之前你問我是搞什么的,我會毫不猶豫地告訴你我是個C#er,我從大一暑假接觸到C#,之后的兩年便使用C#開始了我的程序員 ...

Tue Apr 09 06:23:00 CST 2013 14 1835
菜鳥想玩搜索引擎——爬蟲部分技術要點淺析

  本來打算昨晚發的,結果園子又遷移......   網絡爬蟲(Spider或Crawler),顧名思義,就是在互聯網上爬行的蟲子,那么這只蟲子為什么要在網上爬行呢?很簡單:收集信息。在互聯網時代,誰掌握了信息誰就把握了主動權。曾經我一直覺得做搜索的公司都是慈善家,他們自己花錢為大眾服務,真是太 ...

Sat Apr 13 17:17:00 CST 2013 5 3207
菜鳥想玩搜索引擎——爬蟲部分技術要點淺析(補充)

  時隔這么久,繼續開寫。本文系上一篇的補充:爬蟲部分技術要點淺析。   本次將主要討論上次提出的后兩個問題:如何處理抽取出來的Url。 3、如何處理抽取出來的Url(爬取策略)?   所謂爬取 ...

Thu May 02 08:24:00 CST 2013 6 2396
搜索引擎1

lucene 和 es 的前世今生 lucene 是最先進、功能最強大的搜索庫。如果直接基於 lucene 開發,非常復雜,即便寫一些簡單的功能,也要寫大量的 Java 代碼,需要深入理解原理。 elasticsearch 基於 lucene,隱藏了 lucene 的復雜性,提供了簡單易用 ...

Wed Nov 20 22:03:00 CST 2019 0 1376
搜索引擎3

面試題 es 寫入數據的工作原理是什么啊?es 查詢數據的工作原理是什么啊?底層的 lucene 介紹一下唄?倒排索引了解嗎? 面試官心理分析 問這個,其實面試官就是要看看你了解不了解 es 的一些基本原理,因為用 es 無非就是寫入數據,搜索數據。你要是不明白你發起一個寫入和搜索請求 ...

Wed Nov 20 22:08:00 CST 2019 0 396
Nutch搜索引擎(第1期)_ Nutch簡介及安裝

1、Nutch簡介   Nutch是一個由Java實現的,開放源代碼(open-source)的web搜索引擎。主要用於收集網頁數據,然后對其進行分析,建立索引,以提供相應的接口來對其網頁數據進行查詢的一套工具。其底層使用了Hadoop來做分布式計算與存儲,索引使用了Solr分布式索引框架來做 ...

Fri Mar 21 20:19:00 CST 2014 5 33137
博客SEO-搜索引擎工作原理簡介

資源推薦 Zac出版的《SEO實戰密碼》是SEO入門的好書,可惜我在當當網買的電子書受DRM版權保護,無法與大家分享。 我在網上找到了此書的 了解搜索引擎 章節,非常詳細,且容易理解。鏈接如下: http://www.21jn.net/seo/zac/zac.html 前言 SEO ...

Sun Jul 12 23:28:00 CST 2015 19 5252
Nutch搜索引擎(第2期)_ Solr簡介及安裝

1、Solr簡介   Solr是一個高性能,采用Java5開發,基於Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化,並且提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。   Solr最初 ...

Wed Mar 26 20:08:00 CST 2014 3 6711
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM