原文:菜鸟也想玩搜索引擎——JobSearch简介

这一篇将简要介绍一下JobSearch的结构,同时发下源码,来点干货,等过两天闲的时候将围绕这个程序简单介绍搜索引擎的各部分,同时谈谈个人的一些理解。程序写的比较简单,基础好的话很容易就能看懂 因为写的比较早,所以代码比较乱,还望各位勿喷啊 。 SVN地址:http: code.taobao.org svn jobsearch trunk 源文件下载地址:http: files.cnblogs. ...

2013-04-10 01:04 10 2075 推荐指数:

查看详情

菜鸟想玩搜索引擎——我与搜索可以不说的故事

1.1 缘于Java,源于爬虫   这一段打算写一篇关于自己做的一个简单搜索引擎JobSearch(真的很简单,大牛路过即可),但请容我先扯会儿淡,酝酿酝酿情绪。   若是一年之前你问我是搞什么的,我会毫不犹豫地告诉你我是个C#er,我从大一暑假接触到C#,之后的两年便使用C#开始了我的程序员 ...

Tue Apr 09 06:23:00 CST 2013 14 1835
菜鸟想玩搜索引擎——爬虫部分技术要点浅析

  本来打算昨晚发的,结果园子又迁移......   网络爬虫(Spider或Crawler),顾名思义,就是在互联网上爬行的虫子,那么这只虫子为什么要在网上爬行呢?很简单:收集信息。在互联网时代,谁掌握了信息谁就把握了主动权。曾经我一直觉得做搜索的公司都是慈善家,他们自己花钱为大众服务,真是太 ...

Sat Apr 13 17:17:00 CST 2013 5 3207
菜鸟想玩搜索引擎——爬虫部分技术要点浅析(补充)

  时隔这么久,继续开写。本文系上一篇的补充:爬虫部分技术要点浅析。   本次将主要讨论上次提出的后两个问题:如何处理抽取出来的Url。 3、如何处理抽取出来的Url(爬取策略)?   所谓爬取 ...

Thu May 02 08:24:00 CST 2013 6 2396
搜索引擎1

lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用 ...

Wed Nov 20 22:03:00 CST 2019 0 1376
搜索引擎3

面试题 es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗? 面试官心理分析 问这个,其实面试官就是要看看你了解不了解 es 的一些基本原理,因为用 es 无非就是写入数据,搜索数据。你要是不明白你发起一个写入和搜索请求 ...

Wed Nov 20 22:08:00 CST 2019 0 396
Nutch搜索引擎(第1期)_ Nutch简介及安装

1、Nutch简介   Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做 ...

Fri Mar 21 20:19:00 CST 2014 5 33137
博客SEO-搜索引擎工作原理简介

资源推荐 Zac出版的《SEO实战密码》是SEO入门的好书,可惜我在当当网买的电子书受DRM版权保护,无法与大家分享。 我在网上找到了此书的 了解搜索引擎 章节,非常详细,且容易理解。链接如下: http://www.21jn.net/seo/zac/zac.html 前言 SEO ...

Sun Jul 12 23:28:00 CST 2015 19 5252
Nutch搜索引擎(第2期)_ Solr简介及安装

1、Solr简介   Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。   Solr最初 ...

Wed Mar 26 20:08:00 CST 2014 3 6711
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM