对于google进行网站优化需要注意的几点

1、不要把搜索引擎结果爬过来作为你的网页内容
2、不要用其他自动生成页面的程序区做伪原创
搜索引擎的重要判断因素就是你的网站到底给用提供了什么附加值
根据某种算法编出来的内容,google的系统能很好地识别
3、确保你的网页在多个浏览器里显示正常
中国用户了浏览器使用统计情况如下:
IE 65%
FIREFOX 22%
chrome 7%
safari 4%
opera 2%
4、JS调用注意事项:
1、没有恶意代码、病毒
2、JS外链速度快
此外Google认为www是一个二级目录

如何提高网站被爬虫爬取的效率


1、正确设置ROBOT.TXT

确保你正确使用robots.txt文件,此文件用来告诉各种网页爬虫能不能访问某个网站,能访问网站上那部分的文件。检查是否正确配置这个文件可以到www.google.com/webmasters的专门工具区。

2、理解和区分各种爬虫(蜘蛛)

google的两种爬虫:

googlebot针对网页搜索爬去内容

Mediapartner bot针对Adsense页面爬取内容

两者完全分来,Adsense的使用不影响网站排名,在Google内部,由两个部门来处理,但两者之间有互补作用,比如网页爬虫没有爬取到但Adnsese爬虫爬取到了会给予一个缓存。

3、确保搜索引擎爬虫在爬取页面的时候没有遇到SessionID和登录密码的干扰,SessionId被用来跟踪用户的网页行踪,但如果这些对搜索引擎爬虫造成妨碍,你的网站就没办法收录了。

4、确保网页服务器支持If-Modified-Since这样一个HTTP头部描述,它告诉Google爬虫在上一次爬取你网页以后,你网站的内容是否有更改过。


LYNX是一种飞虫小众的浏览器,能检查你的网站,LYNX忽略掉所有的CSSJAVA、标签,只浏览网页代码里面的文字

EPSON LQ-635K打印三联发票相关问题

EPSON LQ-635K是税务局指定的针孔税控发票打印机,第一次打印三联发票,结果第一联打上去了,第二联第三联都没有复写上去,感觉是针头压力太小了,打开盖子,在色带右侧有一个调节色带松紧的开关,一般调到3-4比较适中,这样打印压力大小以及油墨消耗也不多。如果调节得太紧的话,就会造成针头压力太小,导致第二联第三联都没有复写上去的结果。

此外EPSON LQ-635K在外面买只要1600左右,而在税控器培训地点购买就要将近2400元!千万别买,东西完全一样,不要被斩了,此外买的时候也不要买所谓的央票,否则50元买来的纸连5元钱的成本也不知道有没。是的,这就是垄断企业靠着这种方式来赚取老百姓们的血汗钱。

你还在用IE浏览器吗?

评价浏览器主要指标是速度和安全性。IE的浏览器的安全性一直被人诟病,其实不是因为IE的安全性有多差,而是研究IE的用户数大,所以研究的人也多了。

这里主要比较的浏览器的速度,先介绍下一些基本概念,浏览器获取页面显示请求页面的HTML代码,然后分析HTML代码,获取页面的组件(CSS文件、JS文件、图片等)。当然无论获取HTML代码还是组件都可能需要进行DNS解析。

其次这些组件一般都是顺序下载的,比如一个CSS文件100KB,一个JS文件1KB,浏览器往往需要下载完CSS文件,再下载JS文件(前提是CSS文件出现在JS文件前),这样网页显示会很慢会一直等待那个100K的CSS文件下载完。当然目前浏览器都支持并发,这样就可以同时下载CSS文件和JS文件,在http1.1的协议中,IE5/6/7、firefox2最多支持2个并发数,IE8、firefox2最多支持6个并发数,opera和safari最多支持8个并发数,chrome最多支持4个并发数。

也许你会觉得并发数对于浏览器浏览网页的速度提高不是很明显,我们可以通过实际测试来说明问题,使用在线浏览器并发测试工具,地址:http://site-perf.com/

http://www.sroan.com为例,分别使用2个并发数和6个并发数进行测试,结果如下:

2个并发数

6个并发数
通过对比可发现在相同条件下,6个并发数的浏览器比2个并发数的浏览器快了3.5秒,其中等待时间从71%下降到26%,这也是并发数度的好处(既在下载100K的CSS文件也同时可以下载1K的JS文件。)

当然这只是最肤浅得分析,如果要研究网站的性能就尽量使等待时间下降到0,通常合并JS、CSS等文件(同样100MB的1个文件进行复制速度肯定比100个1MB要快,因为IO读取写入耗时比传输大),同样网站为了负载均衡,将不同的文件放置于不同的域名机器下,这样导致了解析域名时间加长,反而影响加载速度。

最后引用一条等式:

全球IE用户×IE用户平均智商=全球chrome用户数×他们的平均智商+全球firefox用户数×他们的平均智商

你希望自己是在等号左边,还是在右边?

附chrome下载地:http://www.google.com/chrome

GFW封锁谷歌问答的原理分析

首先解释下什么是GFW,全称Great Firewall,是对中华人民共和国政府在其管辖互联网内部建立的多套网络审查系统(包括相关行政审查系统)的称呼。主要致力于GFW的院校有北邮和上交(Sroan:都是些不要脸的学校),主要公司有启明星辰(002439)等。

在分析之前先大致介绍下GFW一些常用屏蔽方法。

1、DNS劫持

DNS劫持主要表现为访问一些不存在的网站或者访问出现故障的时候会挑战到114这种垃圾搜索上,或者访问谷歌页面却掉到了度娘的页面上。

解决办法:使用国外的DNS,比如谷歌的8.8.8.8

2、DNS污染

举个例子比如解析一个域名 www.sroan.com 正确解析出来的IP是1.1.1.1,但是DNS污染后解析出来的IP是2.2.2.2

解决办法:加密代理访问

3、IP封锁

比如访问国外一个IP无法访问,PING不通,tracert这个IP后发现,全部在边缘路由器(GFW)附近被拦截。换言之,GFW直接拦截带有这个IP头的数据包。

解决办法:加密代理访问

4、TCP连接重置

这个是GFW最擅长的方法,比如你在谷歌中输入一些所谓的敏感词,GFW发现你发送的请求中包含有敏感词,马上reset你的链接,并断开1分钟,于是在1分钟内你无法登陆上谷歌了。还有一种重置并不是基于敏感词的,因为使用https协议后数据经过加密无法再过滤,所以GFW发现使用https协议就直接断开服务,比如谷歌文档。

解决办法:加密代理访问

5、HTTP会话劫持

使用电信的用户应该会比较多的体验到:每次重新连接上网后,返回第一个页面的顶部经常是有广告的。这是因为无耻的电信劫持了你的HTTP会话,在返回数据中加入了那些广告。

以上5种是GFW比较常见的功能,其次分析下谷歌问答的情况,谷歌问答通过GFW审核后的情况后,问答地址(http://www.google.com.hk/wenda/)无法访问,但是谷歌香港(http://www.google.com.hk)是可以正常访问的。那基本可以排除DNS劫持、DNS污染、HTTP会话劫持、IP封锁。那只有基于关键词的TCP连接重置,首先想到的是“wenda”和“/wenda”,在谷歌中输入相关关键词发现可以正常访问。

看来是把域名也带上了,在谷歌中搜索www.google.com.hk/wenda,出现无法访问的信息。

至于为什么谷歌中输入google.com.hk/wenda可以正常搜索,但是无法访问呢?(不带WWW),那是因为谷歌设置了google.com.hk重定向到了www.google.com.hk,所以最后总结下来是GWF通过基于关键词“www.google.com.hk/wenda”对谷歌问答进行TCP连接重置导致其无法访问。

只要在浏览器里输入http://www.google.com.hk///wenda/ 就可以看见能“正常”访问了。

PS:本人长期帮助他人访问任何网站,小姑娘优先。

创办优秀网站的技术分析

记得原来开玩笑地跟TX说:最好做一个网站,每天晚上5点打电话回家,让老妈单击下鼠标,然后网站内容全部自动更新完毕。当然这里只是对网站高度自动化的一种设想,如今想想还缺了很多。做了N年的网站,总结的一句话是:网站很难做,赚钱很容易。于是想把自己目前觉得一个优秀网站所具备的条件(主要技术方面)汇总一下。

一、核心内容(创意)

网站的核心内容是什么?核心内容才是网站价值的关键。QQ、SINA、baidu、renren、微博我们的核心价值是否都是拿来主义。微软之后有google,facebook之后有twitter,谷歌的核心是信息整合,QQ的核心就是有钱就赚。

二、美工UI

优秀的UI是用户良好体验的关键。美工作为网站设计实现的第一个流程,需要为程序员预留空间,各个功能位置,对于用户而言美工的好坏占到网站评价的70%以上。

三、程序代码

网站功能的实现还是需要程序员一行行把代码敲出来的,程序员如何和美工协调是网站设计的一个关键。其次动态脚本与静态HTML分离,也是为了帮助两者更好的协调。

四、seo

“酒香也怕巷子深”,良好的seo有助于网站在搜索引擎中的表现,是直接提高网站流量的最好办法。SEO往往对于页面的部分文字、部分结构有着某些特殊要求,同样需要与美工或者程序员协调。

五、网站安全

如果一个程序员知道要过滤引号,那他还算是知道一点网站安全的只是。只是一个网站安全何止一个引号?今年被黑过3次,一次变量未定义上传,一次旁注,一次ARP欺骗,被黑后是件很麻烦的事情,清理代码,修改数据库密码、后台密码等。好吧,出来混迟早要还的。

六、性能优化

性能优化主要考察服务器的吞吐量和带宽。美工总是喜欢放大图片,程序员总是喜欢把没用的函数一起调用过来,网站安全人员总是加一些复杂的过滤代码。怎么和他们协商呢?当然一般中小网站(LAMP)基本不考虑,毕竟APACHE再怎么不好,就像一个小姑娘长的白,所谓一白遮百丑,即使APACHE内存占得多,并发支持弱,但人家就是稳定。

七、广告优化

一直有人问我,网站怎么赚钱。目前网站主要靠广告收入,其中google的分成比例大概在70%,至于度娘大概超过了10%吧。所以如果我投放百度广告的话,我大概现在要去申请救济金了,投放google的话,每个月去银行存钱。广告优化需要考虑广告大小、颜色、位置等等,只有用户点击率提高,广告关联度提高,网站的利润才会提高。优化与不优化,其中相差甚至可以是1-2倍。

八、政策风险

你要是问到底是什么政策风险,我也不好说,因为这个经常变。用户提供内容的网站不要做,其次在国内创办论坛需要100W注册资本,网络游戏(包括网页游戏)需要1000W注册资本,否则你都没有资格去和有关部门打交到。假如你侥幸成功了,做出了一个杰出的网站,如果你的服务器在国内,肯定要被查封。如果你的服务器在国外,好吧,DNS污染、DNS劫持、关键词过滤等等会等着你的。


文章写得肤浅得很好,只是些个人体会,除了美工,都可以与大家详细探讨。

Google搜索引擎质量指南在线培训记录

1、静态页面对用户与爬虫来说比动态页面要好得多

2、每个页面的连接数少于100条(尽量)

3、最新搜索排名技术把页面访问速度作为一个重要参数

4、文本格式要多样性:图片、视频、博客(非常看重) 文本要准确、独特

5、图片的优化——重要的信息一定要用文字而不是图片来表示,非用图片的话得在图片的替代描述信息里进行描述

谷歌问答为什么如此欢乐?

今天谷歌问答正式推出测试版(http://www.google.com.hk/wenda/),之前谷歌与天涯社区合作开发天涯问答,谷歌提供技术支持,此次谷歌与天涯断绝了合作关系单独开设谷歌问答。

可以看出谷歌问答上线首日受到了广泛关注,其中一些问题回答数量几多,尤其是一些在百度不知道以及新浪不爱问中无法出现的问题受到很大的关注,其次网民的回答也极为富有娱乐性。例如家祭无忘告乃翁

但是也有网友担忧谷歌问答很可能被当局封杀,GFW可能对其数据进行RESET。

至于谷歌问答为什么如此欢乐?有网友回答道:因为和蟹国的国民们憧憬自由.而这里恰巧提供了这样的一个场所..

所以在长期压抑的生活中活的着河蟹国民开始在这里欢乐起来了..

这种美国移民方式也不错

     向往自由是需要付出代价的,这个代价包括时间、金钱、甚至……

      首先,赶紧找个女人结婚,然后生孩子,然后快要临产的时候,办张旅游签证或者其他签证去美国,在美国把孩子生下来,美国法律规定任何人只要在美国领土出生都算美国人,享有公民权,能享受到美国的教育制度以及社会环境。然后等孩子21岁,依据美国宪法第十四修正案及相关法规,在美国领土出生自然拥有美国国籍,年满21岁后,就可申请其外国籍父母赴美定居。

      不要觉得这不可能,对于赴美产子,美使馆发言人形容,这并不犯法,只是利用了美国宪法第十四修正案赋予的出生公民权。

      20多年的等待不算什么,反正20年内不会有什么改变,天朝还是天朝,屁民还是屁民。我有自由,你有吗?

与时俱进的三峡大坝

      当年大学公选课选了一门大坝水利有关的课程(如果没记错的话,名字应该是《世界著名大坝赏析》),课程结束要交一篇论文,论文的内容是浅议三峡大坝的利弊。当时为了完成学分,也没有多考虑,全当成作业完成,当然平时上课也听过,也知道大坝有利有弊,三峡大坝这么大一个工程,当时找相关材料的时候,自己也觉得弊大于利,但考虑到稳妥地拿学分,还是很“辨证”地看待这个问题。现在经历了旱灾、洪水,回想起当初写的这篇论文,回想起当初老师谈起三峡大坝的口吻,似乎他当时也有难言之隐,似乎他是选择稳妥地“辨证”地看待这个问题。当年记得最清晰的一个问题是由于三峡大坝可能导致四川盆地的暖湿气流无法向上,而北方冷空气无法南下,而导致旱灾。云南三个季度的旱灾,不得不说与其没有丝毫关系。再者这个用了纳税人上千亿的庞然大物,如今并非如其开始描述得那样美好。从固若金汤,可以挡千年一遇的洪水,再到可抵百年一遇的洪水,到如今不能把希望寄托在三峡大坝上,三峡大坝与时俱进的速度让人瞠目结舌。

人类想改造自然的精神是可敬可佩的,只是这代价有时候会很沉重。