1、查看google爬虫对你网站的那部分有爬取问题2、生成提交XML的网站地图3、分析robot.txt文件4、移除你不想让爬虫爬去的部分内容,比如某个根目录文件夹涉及到商业机密,可以请求爬虫不要记录5、如果你有几个域名关联同一个网站,你能够用来确定想用的域名6、对title和meta信息的分析7、了解到达网站的最主要搜索词是什么,可以用来修改页面突出重点8、接受google的警告信,并修改后重新提交申请
google站长管理工具的功能
对于google进行网站优化需要注意的几点
1、不要把搜索引擎结果爬过来作为你的网页内容2、不要用其他自动生成页面的程序区做伪原创搜索引擎的重要判断因素就是你的网站到底给用提供了什么附加值根据某种算法编出来的内容,google的系统能很好地识别3、确保你的网页在多个浏览器里显示正常中国用户了浏览器使用统计情况如下:IE 65%FIREFOX 22%chrome 7%safari 4%opera 2%4、JS调用注意事项:1、没有恶意代码、病毒2、JS外链速度快此外Google认为www是一个二级目录
如何提高网站被爬虫爬取的效率
1、正确设置ROBOT.TXT
确保你正确使用robots.txt文件,此文件用来告诉各种网页爬虫能不能访问某个网站,能访问网站上那部分的文件。检查是否正确配置这个文件可以到www.google.com/webmasters的专门工具区。
2、理解和区分各种爬虫(蜘蛛)
google的两种爬虫:
googlebot针对网页搜索爬去内容
Mediapartner bot针对Adsense页面爬取内容
两者完全分来,Adsense的使用不影响网站排名,在Google内部,由两个部门来处理,但两者之间有互补作用,比如网页爬虫没有爬取到但Adnsese爬虫爬取到了会给予一个缓存。
3、确保搜索引擎爬虫在爬取页面的时候没有遇到SessionID和登录密码的干扰,SessionId被用来跟踪用户的网页行踪,但如果这些对搜索引擎爬虫造成妨碍,你的网站就没办法收录了。
4、确保网页服务器支持If-Modified-Since这样一个HTTP头部描述,它告诉Google爬虫在上一次爬取你网页以后,你网站的内容是否有更改过。
LYNX是一种飞虫小众的浏览器,能检查你的网站,LYNX忽略掉所有的CSS、JAVA、标签,只浏览网页代码里面的文字
Google搜索引擎质量指南在线培训记录
1、静态页面对用户与爬虫来说比动态页面要好得多
2、每个页面的连接数少于100条(尽量)
3、最新搜索排名技术把页面访问速度作为一个重要参数
4、文本格式要多样性:图片、视频、博客(非常看重) 文本要准确、独特
5、图片的优化——重要的信息一定要用文字而不是图片来表示,非用图片的话得在图片的替代描述信息里进行描述
4月3日google更新PR 网速被纳入PR计算
愚人节两天后,谷歌再次更新了PR,比较糟糕的是我一个PR为5的站点被降低到4,分析了下主要原因,除了为了带一下新站,主要还是因为网速问题,从google速度测试数据来看,该站点网速比96%的站点慢,由于google之前申明可能新的PR计算可能会纳入网速,看来这次真的实行了。不过PR更新了但是关键词排名并没有出现很大波动,还是相对比较稳定。也说明PR也逐渐不被重视。此外有一个新站,只和一个PR2的网站互换链接后,这次PR就提升为2了,速度还是很快,说明PR提高也越来越容易。总之更新了PR后,要给自己的友情链接检查检查,并不是把所有差的都去掉,保持友情链接稳定也是很重要的。因为有些友情链接不会带给你留PR,但会带给你流量。看轻PR,认真做好seo。
最近评论