1.1 缘于Java,源于爬虫 这一段打算写一篇关于自己做的一个简单搜索引擎JobSearch(真的很简单,大牛路过即可),但请容我先扯会儿淡,酝酿酝酿情绪。 若是一年之前你问我是搞什么的,我会毫不犹豫地告诉你我是个C#er,我从大一暑假接触到C#,之后的两年便使用C#开始了我的程序员 ...
这一篇将简要介绍一下JobSearch的结构,同时发下源码,来点干货,等过两天闲的时候将围绕这个程序简单介绍搜索引擎的各部分,同时谈谈个人的一些理解。程序写的比较简单,基础好的话很容易就能看懂 因为写的比较早,所以代码比较乱,还望各位勿喷啊 。 SVN地址:http: code.taobao.org svn jobsearch trunk 源文件下载地址:http: files.cnblogs. ...
2013-04-10 01:04 10 2075 推荐指数:
1.1 缘于Java,源于爬虫 这一段打算写一篇关于自己做的一个简单搜索引擎JobSearch(真的很简单,大牛路过即可),但请容我先扯会儿淡,酝酿酝酿情绪。 若是一年之前你问我是搞什么的,我会毫不犹豫地告诉你我是个C#er,我从大一暑假接触到C#,之后的两年便使用C#开始了我的程序员 ...
本来打算昨晚发的,结果园子又迁移...... 网络爬虫(Spider或Crawler),顾名思义,就是在互联网上爬行的虫子,那么这只虫子为什么要在网上爬行呢?很简单:收集信息。在互联网时代,谁掌握了信息谁就把握了主动权。曾经我一直觉得做搜索的公司都是慈善家,他们自己花钱为大众服务,真是太 ...
时隔这么久,继续开写。本文系上一篇的补充:爬虫部分技术要点浅析。 本次将主要讨论上次提出的后两个问题:如何处理抽取出来的Url。 3、如何处理抽取出来的Url(爬取策略)? 所谓爬取 ...
lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用 ...
面试题 es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗? 面试官心理分析 问这个,其实面试官就是要看看你了解不了解 es 的一些基本原理,因为用 es 无非就是写入数据,搜索数据。你要是不明白你发起一个写入和搜索请求 ...
1、Nutch简介 Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做 ...
资源推荐 Zac出版的《SEO实战密码》是SEO入门的好书,可惜我在当当网买的电子书受DRM版权保护,无法与大家分享。 我在网上找到了此书的 了解搜索引擎 章节,非常详细,且容易理解。链接如下: http://www.21jn.net/seo/zac/zac.html 前言 SEO ...
1、Solr简介 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。 Solr最初 ...