Solr

Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。[......]

阅读全文

十大致命的SEO错误

概述:作为一个SEO,盲目的为了排名去设计是不可取的,本文介绍SEO在进行关键字、排名等活动最常见的10大致命错误,而这些错误可能会导致一个网站的死亡

你还记得杰克建的房子吗?不,我不太记得这个童谣,除了杰克的房子里每一个居民吃另一个的事。( 杰克建的房子里有麦芽,麦芽给老鼠吃掉了,老鼠给猫咬死了,猫又被狗骚扰了。。 )当网站管理员建立一个网站后,通常他们会去得意忘形去设计排名,而忘记SEO真正的的责任:维护他们网站的完整性。[......]

阅读全文

浅谈404问题

作者:百度站长平台lee    发布时间:2013年5月3日

今天为什么要说一下404问题呢,最近看case过程中发现个很有意思的网站,该网站被灌了大量的垃圾信息,被其发现后及时地进行了删除,这一点是值得肯定的。通常情况下,正常网站将自动返回404状态码,搜索引擎进行更新并删除,避免对网站用户及搜索引擎带来负面影响。但问题来了,该网站只删除了内容,没有任何主体内容的页面被保存了下来,未做404处理。当然,存在一类网站只删除内容后返回正常200状态码,提醒一句“该内容已删除”,但其都没有。可以发现目前这个搜藏中的url仍然正常返回200,http://cang.baidu.com/Lee/snap/3b0a0cc8e7d7899facd36fad.html,造成的后果:搜索引擎将花费大量的资源在这种无效页面上,那么,同等耗损下用在重要页面上的资源将被大量挤占,可想而知,正常优质页面在搜索引擎的部分表现将受到影响。经过我们运营同学的多方沟通下至今仍未进一步处理。我觉得,21世纪第二个十年了,这种问题不应该再存在了的。[......]

阅读全文

搜索引擎抓取系统概述(二)

作者:百度站长平台lee           发布时间:2013年8月22日

编者按:之前与大家分享了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程的内容,今天将于大家分享搜索引擎抓取系统第二部分内容—spider抓取过程中的策略。

spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型:[......]

阅读全文

搜索引擎抓取系统概述(一)

作者:百度站长平台lee      发布时间:2013年8月12日

编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。[......]

阅读全文

link rel="canonical" 用法

权威链接Canonical

部分搜索引擎引入了Link的一个新属性Canonical。
复制内容或复制网页是指相同或十分相近的内容却有多个不同的URL,如打印页、含sessionid的URL等。现在可在副本网页的头部(head)加一个link标签,指定首选URL,声明一个权威网页做为复制网页的规范版本,SE将把链接等信息都转移到这个首选版本上,当然搜索结果中也显示权威网页。[......]

阅读全文

开发者必备的6款源码搜索引擎

在推动技术变革上,开源运动发挥了非常显著的作用。而Linux成功地将开源转换成商务模式,给广大开源工作者带来了更大的信心和勇气。目前,开源已成为主流,在未来的几年内,它的足迹将会遍布前沿教育、航空航天(如无人驾驶飞机)等许多领域。

借鉴现有的开源项目或开源代码,对于初级开发者来说,不失为一种很好的编程手段,但千万不要单纯地“用”,更多地是理解与提升,这样才会进步。

下面为大家介绍6款源码搜索引擎,让你找到更适合你的源码。[......]

阅读全文

sitemap

        Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。[......]

阅读全文

Shodan:比谷歌更强大更可怕的搜索引擎

《财富》网站今日刊登了一篇关于Shodan搜索引擎的评论文章,声称Shodan实际上是一种比谷歌更强大和更可怕的搜索引擎文章主要内容如下: 

很多人可能认为谷歌的搜索引擎已经非常强大了,但是实际上还有一种比谷歌更可怕的搜索引擎,那就是Shodan。 

Shodan的开发者约翰马瑟利(John Matherly)称:“人们在谷歌上找不到某些内容时,他们就认为没有人能够找到它。但那是不对的。” [......]

阅读全文

13款开源的全文检索引擎

1.  Lucene

Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索,但linkedin 和twitter有分别对Lucene改进的实时搜素. 其中Lucene有一个C++移植版本叫CLucene,CLucene因为使用C++编写,所以理论上要比lucene快. [......]

阅读全文