如果你的网站之前主页的title上有一个关键词,比如注册公司。并且这个关键词在百度和谷歌搜索排名中都排在前10.当你将首页中注册公司这个词全部去掉后,当搜索引擎重新更新你的网站后,你再在谷歌中搜索注册公司,你会发现即使你的网站根本已经没有这个词了,但是谷歌还是将你排在比较靠前,谷歌认为你的网站内容与这个词已经相关联了,即使没有任何这个次的出现。
当然咯,不出所料的是,度娘果断地把站点排除了前10,没有这个词当然和这个词所代表的内容无关咯,哈哈。
如果你的网站之前主页的title上有一个关键词,比如注册公司。并且这个关键词在百度和谷歌搜索排名中都排在前10.当你将首页中注册公司这个词全部去掉后,当搜索引擎重新更新你的网站后,你再在谷歌中搜索注册公司,你会发现即使你的网站根本已经没有这个词了,但是谷歌还是将你排在比较靠前,谷歌认为你的网站内容与这个词已经相关联了,即使没有任何这个次的出现。
当然咯,不出所料的是,度娘果断地把站点排除了前10,没有这个词当然和这个词所代表的内容无关咯,哈哈。
中文搜索引擎与英文搜索引擎最大的区别就在于英文有空格天然隔开了每个单词,而中文需要系统进行切词来判别。首先要从一个关键词说,原本想做上海公司注册这个关键词,结果发现注册上海公司也同样有较好的排名,但是上海注册公司却没有获得很好的排名。也就是说,搜索引擎认为上海公司注册与注册上海公司这两个词关联度很高,而上海注册公司与他们关联度很低。
1、查看google爬虫对你网站的那部分有爬取问题2、生成提交XML的网站地图3、分析robot.txt文件4、移除你不想让爬虫爬去的部分内容,比如某个根目录文件夹涉及到商业机密,可以请求爬虫不要记录5、如果你有几个域名关联同一个网站,你能够用来确定想用的域名6、对title和meta信息的分析7、了解到达网站的最主要搜索词是什么,可以用来修改页面突出重点8、接受google的警告信,并修改后重新提交申请
1、不要把搜索引擎结果爬过来作为你的网页内容2、不要用其他自动生成页面的程序区做伪原创搜索引擎的重要判断因素就是你的网站到底给用提供了什么附加值根据某种算法编出来的内容,google的系统能很好地识别3、确保你的网页在多个浏览器里显示正常中国用户了浏览器使用统计情况如下:IE 65%FIREFOX 22%chrome 7%safari 4%opera 2%4、JS调用注意事项:1、没有恶意代码、病毒2、JS外链速度快此外Google认为www是一个二级目录
1、正确设置ROBOT.TXT
确保你正确使用robots.txt文件,此文件用来告诉各种网页爬虫能不能访问某个网站,能访问网站上那部分的文件。检查是否正确配置这个文件可以到www.google.com/webmasters的专门工具区。
2、理解和区分各种爬虫(蜘蛛)
google的两种爬虫:
googlebot针对网页搜索爬去内容
Mediapartner bot针对Adsense页面爬取内容
两者完全分来,Adsense的使用不影响网站排名,在Google内部,由两个部门来处理,但两者之间有互补作用,比如网页爬虫没有爬取到但Adnsese爬虫爬取到了会给予一个缓存。
3、确保搜索引擎爬虫在爬取页面的时候没有遇到SessionID和登录密码的干扰,SessionId被用来跟踪用户的网页行踪,但如果这些对搜索引擎爬虫造成妨碍,你的网站就没办法收录了。
4、确保网页服务器支持If-Modified-Since这样一个HTTP头部描述,它告诉Google爬虫在上一次爬取你网页以后,你网站的内容是否有更改过。
1、静态页面对用户与爬虫来说比动态页面要好得多
2、每个页面的连接数少于100条(尽量)
3、最新搜索排名技术把页面访问速度作为一个重要参数
4、文本格式要多样性:图片、视频、博客(非常看重) 文本要准确、独特
5、图片的优化——重要的信息一定要用文字而不是图片来表示,非用图片的话得在图片的替代描述信息里进行描述
愚人节两天后,谷歌再次更新了PR,比较糟糕的是我一个PR为5的站点被降低到4,分析了下主要原因,除了为了带一下新站,主要还是因为网速问题,从google速度测试数据来看,该站点网速比96%的站点慢,由于google之前申明可能新的PR计算可能会纳入网速,看来这次真的实行了。不过PR更新了但是关键词排名并没有出现很大波动,还是相对比较稳定。也说明PR也逐渐不被重视。此外有一个新站,只和一个PR2的网站互换链接后,这次PR就提升为2了,速度还是很快,说明PR提高也越来越容易。总之更新了PR后,要给自己的友情链接检查检查,并不是把所有差的都去掉,保持友情链接稳定也是很重要的。因为有些友情链接不会带给你留PR,但会带给你流量。看轻PR,认真做好seo。
我从来没觉得过一家互联网公司很垃圾,但除了百度。
重所周知,每个月百度都会大更新一次算法,这次也不例外。昨天(3月31日)中午,我突然发现网站收入从几千降到几百,我以为百度又准备新的一轮K站了,再看看我的其他站点,一个3个月的新站竟然只剩下主站和二级域名了。查看了一下友情链接的网站都遭遇到了大规模的收录减少。看来百度又来大姨妈了,百度每次更新算法都和女人大姨妈一样,每个月都要来一次,这次侧漏得还特别厉害。在仔细看了下,网站权重的页面都没受影响,而是那些权重较低的页面都没有了,看来是因为百度服务器断开所致,一般来说百度会把权重高的页面存储在同类别的服务器上,权重低的页面存储在另外的页面。当然,这次大规模收录减少让很多站长都手忙脚乱不知所措,但是老站长对于百度这种大姨妈已经见怪不怪了,既然是垃圾,何必有什么很高的期待呢?
很多站长都不重视404错误页面的设置。404错误页面是告诉搜索引擎这个页面无法访问,否则搜索引擎会认为这个页面有效并抓取,这样会让搜索引擎陷入一个无底洞,特别是动态网页,危害特别大,比如main.php?a=1,加入只有参数1-10是正常显示,其他都是不正常,但是不设置404错误页面,搜索引擎会无限制抓取a=11 a=12 a=13一次类推,当然这需要有这个错误链接,而往往这样的错误链接是无法避免的,只有使用404错误页面才能从根本上杜绝这个问题。让爬虫停留在有价值的网页上,而不是陷入黑暗的抓取迷宫。
常用的添加404返回状态方法有header方法,比如PHP
header("HTTP/1.1 404 Not Found");
这里推荐一个404错误页面测试地址:
http://www.seobox.org/getheader.htm
说明:
1、200表示成功收到
2、301、302表示重定向
3、404表示请求页面不存在
4、500表示服务器内部错误
大多数做过seo的朋友都会有感觉,相对于百度来说google的收录速度更快,收录数量更多。尤其是新站,百度往往只是收录一个首页然后进入相当长时间的一个观察期,而google不同,永远是吃不饱,经常照单全收。
不过前几天发现其实未然,同样是一个新站百度收录了首页,但是google却什么都没收录。当然已经将网站提交给两大搜索引擎,不过个人认为这个主动提交不一定好。就好比找对象一样,主动出击的总好像是出于劣势。可以发一些带链接的帖子到各大论坛,把爬虫蜘蛛引过来,这样做网站一般很快就会被收录。
当然最好的方法是使用google网站管理工具,并在管理工具里提交网站的sitemap,google对于sitemap十分偏爱,有利于搜索引擎更加了解网站结构加快网站收录。通过实验,新站提交sitemap,第二天就开始收录网站了,是一个很不错的工具!