浅谈404问题

作者:百度站长平台lee    发布时间:2013年5月3日

今天为什么要说一下404问题呢,最近看case过程中发现个很有意思的网站,该网站被灌了大量的垃圾信息,被其发现后及时地进行了删除,这一点是值得肯定的。通常情况下,正常网站将自动返回404状态码,搜索引擎进行更新并删除,避免对网站用户及搜索引擎带来负面影响。但问题来了,该网站只删除了内容,没有任何主体内容的页面被保存了下来,未做404处理。当然,存在一类网站只删除内容后返回正常200状态码,提醒一句“该内容已删除”,但其都没有。可以发现目前这个搜藏中的url仍然正常返回200,http://cang.baidu.com/Lee/snap/3b0a0cc8e7d7899facd36fad.html,造成的后果:搜索引擎将花费大量的资源在这种无效页面上,那么,同等耗损下用在重要页面上的资源将被大量挤占,可想而知,正常优质页面在搜索引擎的部分表现将受到影响。经过我们运营同学的多方沟通下至今仍未进一步处理。我觉得,21世纪第二个十年了,这种问题不应该再存在了的。[......]

阅读全文

搜索引擎抓取系统概述(二)

作者:百度站长平台lee           发布时间:2013年8月22日

编者按:之前与大家分享了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程的内容,今天将于大家分享搜索引擎抓取系统第二部分内容—spider抓取过程中的策略。

spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型:[......]

阅读全文

搜索引擎抓取系统概述(一)

作者:百度站长平台lee      发布时间:2013年8月12日

编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。[......]

阅读全文

Reddit排名算法工作原理


Reddit是个社交新闻站点,其口号是“提前于新闻发生,来自互联网的声音”。用户(也叫redditors)能够浏览并且可以提交互联网上内容的链接或发布自己的原创帖子。其他的用户可对发布的链接进行高分或低分的投票,得分突出的链接会被放到首页。另外,用户可对发布的链接进行评论以及回复其他评论者。本文将跟大家探讨一下Reddit的文章排名算法和评论排名算法的工作原理。Reddit使用的算法也是很简单,容易理解和实现。这篇文章里我将会对其进行深入分析。[......]

阅读全文

Java与.NET的平台发展之争


Java 8即将正式发布,从早期版本中,我们已经可以领略到一些令人兴奋的特性。但是开发者Andrew C. Oliver表示,尽管如此,Java语言在某些特性上还是落后于.Net。比如,Java 8中最令人期待的Lambda表达式,在2007年发布的.Net 3.5中已经存在了。他认为,.Net已有的和即将到来的特性要比Java 8优秀得多,如果Java 9再不做一些大的改进,那么Java落后于.Net就不止一点点了。[......]

阅读全文

好险呐

一次考地理,全班考砸。
地理老师大怒:“填空题白送的40分,居然有人只得10分,20分?只拿了十分到二十分的全都给我站起来,把卷子抄十遍!”
这时同桌长叹:“好险,我21分。”
正在庆幸时,后边一哥们也幽幽叹息:“我也好险呐,我9分!”

瓢厂

路边社消息,据蛮子交待:“她说有个投资项目让我过去,我问她什么项目,她说是瓢厂,我心想是个生产大勺子的,说不定有什么高科技, 就去了,谁知道她说的是河南话!”