探寻蜘蛛和机器人(2)

Posted by ghostlei 8 March, 2010

网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,
读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,
这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
当抓取到这些网页后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页
信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时
间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每
一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信
息建立网页索引数据库。
建立网页索引数据库后,当用户输入关键词搜索,由搜索系统程序从网页索引数据库中
找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所
以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。

  • Share/Save/Bookmark
Categories : 更多资源 Tags :

Random Posts

Comments

No comments yet.


Leave a comment

(required)

(required)


`