搜索引擎的策略都是采用服务器群集和分布式计算技术。(搜索引擎技术资源篇-1)
经典文章: google早期论文 The Anatomy of a Large-Scale Hypertextual Web Search Engine
<script type="text/javascript"> if (window.showTocToggle) { var tocShowText = "显示"; var tocHideText = "隐藏"; showTocToggle(); } </script>
搜索原理
主要做三个步骤:从互联网上抓取网页 → 建立索引数据库 → 在索引数据库中搜索排序。
从互联网上抓取网页——利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库——由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序——当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索市场
据业内分析,今后以百度、Google和雅虎为主的水平搜索的增长将趋缓,而垂直搜索(手机移动搜索)、论坛搜索、本地搜索等未来新兴搜索引擎市场将以30%左右的速度增长,到2010年规模将达到78亿元。
也就是说,水平搜索风光不再,而垂直搜索则方兴未艾,垂直搜索是搜索市场新的“蓝海”。据市场研究机构Kelsey Group预测,在未来5年内,仅美国国内地区搜索市场规模将达34亿美元。
搜索历史
搜索引擎
List of search engines
- Google - le
- Yahoo - search.yahoo
- www.chacha/
- www.clusty
- www.search
- Autonomy - www.autonomy
- WiseNut - www.wisenut/
- MSN Search - search.msn
- A9 - www.a9
- Baidu - www.baidu
- Sogou
- Koders - Source Code Search Engine www.koders/
- Ask Jeeves - www.ask/
- Teoma - a/
- WiseNut - www.wisenut/
- Gigablast - www.gigablast/
- Creative Commons Search - ativecommons/
- Scrub The Web - www.scrubtheweb/
- FactBites - www.factbites
- Dumbfind - www.dumbfind/
- Entireweb - ireweb/
- Objects Search - www.objectssearch/
- Pipeline - www.pipeline-search/
- Mojeek - jeek/
- Ulysseek - www.ulysseek/
- SearchHippo - www.searchhippo/
- Wotbox - www.wotbox/
- meta 搜索引擎 Myriad Search - iadsearch/
- Majestic-12: Distributed Search Engine - 一个搜索引擎的协作项目
开源项目
- Tesseract OCR - sourceforge/projects/tesseract-ocr
C,C++
- Apache Lucene4c
- CLucene is a C++ port of Lucene - clucene.sourceforge
- SWISH++ - swishplusplus.sourceforge/
- ht://Dig
- Larbin
- mnoGoSearch - mnogosearch/
- SF超高速FTP搜索引擎
- ASPSeek - www.aspseek/
- OpenFTS - openfts.sourceforge/
- Swish-e - www.swish-e/
- OpenWebSpider - www.openwebspider/
- DataparkSearch - www.dataparksearch/
- Managing Gigabytes - www.au/mg/
- Namazu(a Full-Text Search Engine) - www.namazu/ (include perl)
- Zebra - indexdata.dk/zebra/
- Webglimpse - webglimpse/
- Xapian - www.xapian/
- Webbot
Java
- Apache Lucene Search Engine (no crawler) - lucene.apache
- Apache Nutch (open source web-scalable search engine) - lucene.apache/nutch/
- Apache Hadoop - lucene.apache/hadoop/
- Compass
- JXTA Search - search.jxta/
- XQEngine(XML Query Engine) - xqengine.sourceforge/
PHP
Perl
中文资源
相关文章
- Google的启示
- 中文分词和搜索引擎
- 中文搜索引擎技术揭密:中文分词
- 中文搜索引擎技术揭密:排序技术
- 中文搜索引擎技术揭密: 网络蜘蛛
- 中文搜索引擎技术揭密:系统架构
- 在 Linux 上构建 Web spider
- [中文/英文搜索引擎推广登录入口 ]
- [2006chinese search engine Situation ]
相关链接
- Search Engine Watch - searchenginewatch/
- Search Tools - www.searchtools/
- The Web Robots Pages : botstxt/wc/robots.html ,一些很好的规则定义以及定义了Robots协议
- Guidelines for Robot Writers : botstxt/wc/guidelines.html
- SearchTools: www.searchtools/robots/ ,All About Search Indexing Robots and Spiders