探寻蜘蛛和机器人(2)

Posted by ghostlei 8 March, 2010 (0) Comment

网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,
读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,
这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
当抓取到这些网页后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页
信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时
间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每
一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信
息建立网页索引数据库。
建立网页索引数据库后,当用户输入关键词搜索,由搜索系统程序从网页索引数据库中
找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所
以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。

  • Share/Save/Bookmark
Categories : 更多资源 Tags :

探寻蜘蛛和机器人

Posted by ghostlei 4 March, 2010 (0) Comment

搜索引擎要知道网上的新生事物,就得派人出去收集,每天都有新的网站产生,每天都
有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可
能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。
探测器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的
叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Google 把它的探测
器叫做Googlebot,百度就叫Baiduspider,Yahoo 称为Slurp,无论它们叫什么,它们都是人们
编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然
后依照搜索引擎的算法给它们定制索引。

  • Share/Save/Bookmark
Categories : 更多资源 Tags :

搜索引擎的作用

Posted by ghostlei 1 March, 2010 (0) Comment

如果非要列举出搜索引擎能做什么,恐怕没有人可以给出完整的答案。现在的网站用户
大部分是通过搜索引擎进入的,如果用户要购买一件商品,他不知道去那家网上的商店去购
买,他就会去搜索,我们的搜索引擎就是满足足用户的这些需求。
我们都知道,现在的互联网上有大量的垃圾信息,而我们的搜索引擎的作用就是将比较
好的网站,和质量高的网站排在页面的前面,这样用户就能很快通过引擎找到他们的东西
了,这应该就是引擎的作用

  • Share/Save/Bookmark
Categories : 更多资源 Tags :

高质量导入链接

Posted by ghostlei 28 February, 2010 (0) Comment

1.搜索引擎目录中的链接以及已加入目录的网站的链接。
加入搜索引擎目录,说明这个链接被搜索引擎认可。
2.与你的主题相关或互补的网站。
说明你的网站是专门做这方面的,比如电影网站链接电影网站。

3.PR 值不低于 4 的网站。
PR 值为4 的网站很容易做到,但是PR>4 的网站很难了。百度的PR 才是7。
不过google 对英文网站更偏向一点,大部分英文网站的PR 值都大于中文的。
4.具有很少导出链接的网站。
导出链接只有5 个的网站比导出链接30 个的网站,对你的网站的加分贡献要高。
例如一个网站PR 值为10,有5 个外链的,每个可以分到2,比30 个就高多了。
5.内容质量高的网站,就是原创内容多的网站。
原创内容多的网站是搜索引擎最喜欢的,当然也算是高质量链接了。

  • Share/Save/Bookmark
Categories : 优化教程 Tags :

搜索引擎优化的重点:链接策略

Posted by ghostlei 25 February, 2010 (0) Comment

对于简单的关键词,只要做页面内部优化就可以排名上去,对难度大的关键词,就需要依靠链接策
略了。
导入链接
搜索引擎在决定一个网站的排名时,不仅要对网页内容和结构进行分析,还围绕网站的链接展
开分析。对网站排名致关重要的影响因素是获得尽可能多的高质量外部链接,也称导入链接。
将导入链接纳入排名重要指标的依据在于,搜索引擎认为,如果你的网站富有价值,其它网站
会提及你;对你提及越多,说明价值越大。由此引申出链接广度(Link Popularity)在搜索引擎优化
中的重要地位。
当然了,既然导入链接有这么大作用,人们想方设法地为网站“制造”外部链接,导致涌出大
量垃圾(spam)链接。这也就是以前优化就是在论坛发贴的原因。

  • Share/Save/Bookmark
Categories : 优化教程 Tags :

404 页面

Posted by ghostlei 22 February, 2010 (0) Comment

相关服务器返回代码介绍:
200 客户端请求已成功响应。
301 永久重定向某个链接。
302 临时重定向到某个链接。

404 访问的页面暂时不存在。
当网站进行调整、页面进行修改的时候,便会有网页被删除、改名或移动位置,这时候,虽然
相应内容的网页还存在于网站中,但使用原来的地址访问则无法访问,或者由于拼写错误导致一个
无效的链接,都将使服务器返回 404 状态码。
但是,Web 服务器默认的404 错误页面,均十分简陋、呆板且对用户不友好,无法给予用户寻
找相应信息的更多线索,用户看到这类页面往往最直接的反应并是关闭浏览器窗口离开,这在很大
程度上给网站造成损失。毕竟,对网站来说,用户永远是最重要的资源,以这种方式损失用户更意
味着某种程度的失败。
这也是许多网站使用自定义 404 错误页面的原因。通过良好的自定义404 页面,可以包含对网
站的相应介绍、用户可能感兴趣的内容链接或者网站内容导航链接、内容搜索功能等,能够有效地
帮助访问者找到其欲寻找的内容或相似的内容,提高用户在网站内浏览更多信息的机会。

正确定义 404 错误页面:
1. 对于已经存在的信息由于路径改变而导致访问不了时,应该在IIS 中定义404 错误指向一个动
态页面,在页面里面使用301 跳转到新的地址,此时服务器返回301 状态码。
2. 当访问一个错误的链接时,将调用404 页面,但由于在IIS 里面设置的不同将导致返回不同的
状态码:
1. 404 指向的是一个htm 文件,此时页面返回的404 状态码,这是正确的。
2. 404 指向的是一个URL,例如 /error.asp,如果不在页面里面进行设置,仅仅是返回提示
的HTML 代码,将导致页面返回200 状态码,此时的危害在于,当很多页面找不到时,
都返回和访问正常页面时返回一样的200 状态码,将使搜索引擎认为该链接存在,并以
错误页面的内容进行收录,当这样的链接很多时,将导致大量页面重复,使网站排名降
低。处理方法:在显示完提示内容后,增加语句: Response.Status=”404 Not Found” ,
这样就保证页面返回404 状态码。
3. 避免在调用 404 页面的时候返回302 状态码,容易被搜索引擎认为是重定向作弊。
4. 检测方法,使用 HttpWatch 查看返回代码。参见:
在这个例子中,我请求的是http://www.sina.com.cn/1223.html ,新浪返回错误页面,然后5 秒
钟后,使用js跳转到首页。

  • Share/Save/Bookmark
Categories : 优化教程 Tags :

网页相似度

Posted by ghostlei 19 February, 2010 (0) Comment

网页相似度是比较网页是否相似,通常有以下两种计算方式:
1. 根据网页摘要来比较,如果多个网页摘要的 md5 值一样,证明这些网页有很高的相似性
2. 根据网页出现关键词,按照词频排序,可以取N 个词频高的,如果md5 值一样,证明这些网页
有很高的相似性。
网页相似度对SEO 的影响:
Google 对网页相似度限制在60%,如果超过这个标准将导致页面不被收录,或者收录后排名靠后中。

  • Share/Save/Bookmark
Categories : 优化教程 Tags :

Robots.txt 带来的好处

Posted by ghostlei 16 February, 2010 (0) Comment

1. 几乎所有的搜索引擎 Spider 都遵循robots.txt 给出的爬行规则,协议规定搜索引擎Spider 进
入某个网站的入口即是该网站的robots.txt,当然,前提是该网站存在此文件。对于没有配置
robots.txt 的网站,Spider 将会被重定向至404 错误页面,相关研究表明,如果网站采用了自
定义的404 错误页面,那么Spider 将会把其视作robots.txt——虽然其并非一个纯粹的文本文
件——这将给Spider 索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。
2. robots.txt 可以制止不必要的搜索引擎占用服务器的宝贵带宽,如email retrievers,这类搜索
引擎对大多数网站是没有意义的;再如image strippers,对于大多数非图形类网站来说其也
没有太大意义,但却耗用大量带宽。
3. robots.txt 可以制止搜索引擎对非公开页面的爬行与索引,如网站的后台程序、管理程序,事
实上,对于某些在运行中产生临时页面的网站来说,如果未配置robots.txt,搜索引擎甚至会
索引那些临时文件。
4. 对于内容丰富、存在很多页面的网站来说,配置 robots.txt 的意义更为重大,因为很多时候
其会遭遇到搜索引擎Spider 给予网站的巨大压力:洪水般的Spider 访问,如果不加控制,甚
至会影响网站的正常访问。
5. 同样地,如果网站内存在重复内容,使用robots.txt 限制部分页面不被搜索引擎索引和收录,
可以避免网站受到搜索引擎关于 duplicate content 的惩罚,保证网站的排名不受影响。

  • Share/Save/Bookmark
Categories : 优化教程 Tags :

Robots.txt

Posted by ghostlei 13 February, 2010 (0) Comment

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件 robots.txt,在这个文件中声明该网站中不想被robot 访问的
部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定
的内容。robots.txt 文件应该放在网站根目录下。
robots.txt 文件的格式:
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL 作为结束符),
每一条记录的格式如下所示:
“<field>:<optionalspace><value><optionalspace>”。
在该文件中可以使用#进行注解,具体使用方法和UNIX 中的惯例一样。该文件中的记录通常以一行
或多行User-agent 开始,后面加上若干Disallow 行,详细情况如下:User-agent:
该项的值用于描述搜索引擎robot 的名字,在”robots.txt”文件中,如果有多条User-agent 记录说
明有多个robot 会受到该协议的限制,对该文件来说,至少要有一条User-agent 记录。如果该项的值
设为*,则该协议对任何机器人均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。
Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL 可以是一条完整的路径,也可以是
部分的,任何以Disallow 开头的URL 均不会被robot 访问到。例如”Disallow:/help”对/help.html 和
/help/index.html 都不允许搜索引擎访问,而”Disallow:/help/”则允许robot 访问/help.html,而不能访问
/help/index.html。任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”
文件中,至少要有一条Disallow 记录。如果”/robots.txt”是一个空文件,则对于所有的搜索引擎robot,
该网站都是开放的。

  • Share/Save/Bookmark
Categories : 优化教程 Tags :

不同位置的网页优化

Posted by ghostlei 10 February, 2010 (0) Comment

网站首页优化:
1. 关键词选择

首页的关键词应该选择核心关键词。通常这些词优化难度比较大,需要大量的外部链接。交换
链接的时候以网站名称或者核心关键词命名链接。参见:域名及网站名称中的关键词
例如:在搜索引擎优化行业,首页的关键词应该是 SEO。
2. 网页链接
首页大部分都是链接,最新的链接要放在网页的前面,便于搜索引擎收录。
3. 更新频率
蜘蛛第一个来到的页面就是首页,首页一定要经常更新,蜘蛛就会来的比较频繁,链接的页面
将会更快被收录。
栏目页优化:
1. 关键词选择
栏目页的关键词,相对首页,可以选择次一些的关键词,以核心“SEO”为例,栏目也可以是“SEO
培训”,“SEO 教程”等。
2. 内部链接
栏目页一定要链接到首页,为首页建立内部链接。同时和其他栏目页也要相互链接。
栏目页大量的链接内容页,链接数量控制在 100 个以内。

内页优化:
1. 关键词
内页可以不特别关注关键词,可以将 Meta Title 设置成相同的内容。在页面里更多的利用H1,
IMG、STRONG 标签优化关键词。
2. 内容
网页要以内容为主,大于5K 时,可以做翻页处理。内容最好是原创,内页收录的越多,从搜索
引擎来的流量才能越多。
3. 链接
通常内页很少有外部链接的,除非内容非常好,被人转载。内页要链接栏目页和首页,大量的
内页链接,有利于栏目页和首页的关键词排名。内页最好能链接内容相关的其他内页,这样可
以增加网页的相关度,同时方便用户浏览,增加网站的PV。

  • Share/Save/Bookmark
Categories : 优化教程 Tags :