1、正确设置ROBOT.TXT

确保你正确使用robots.txt文件,此文件用来告诉各种网页爬虫能不能访问某个网站,能访问网站上那部分的文件。检查是否正确配置这个文件可以到www.google.com/webmasters的专门工具区。

2、理解和区分各种爬虫(蜘蛛)

google的两种爬虫:

googlebot针对网页搜索爬去内容

Mediapartner bot针对Adsense页面爬取内容

两者完全分来,Adsense的使用不影响网站排名,在Google内部,由两个部门来处理,但两者之间有互补作用,比如网页爬虫没有爬取到但Adnsese爬虫爬取到了会给予一个缓存。

3、确保搜索引擎爬虫在爬取页面的时候没有遇到SessionID和登录密码的干扰,SessionId被用来跟踪用户的网页行踪,但如果这些对搜索引擎爬虫造成妨碍,你的网站就没办法收录了。

4、确保网页服务器支持If-Modified-Since这样一个HTTP头部描述,它告诉Google爬虫在上一次爬取你网页以后,你网站的内容是否有更改过。


LYNX是一种飞虫小众的浏览器,能检查你的网站,LYNX忽略掉所有的CSSJAVA、标签,只浏览网页代码里面的文字