0
0

总结获取html页面遇到的几个case

kafka0102 发表于 2012年04月25日 05:29 | Hits: 2644
Tag: framework

写段html页面获取的代码很简单了,其实也不需我多说。不过,要能正确的获取html内容似乎也不是很容易。自tuicool.com内测以来,不断发现需要改进的细节问题,以致之前的新功能开发计划只能往后推。昨天就发现网站推荐的文章中有乱码的情况,站点来源竟是大名鼎鼎的mashable.com,而且收录的该站点文章多数都是乱码。所以,赶紧的在新文章抓取时对乱码情况做了检查,至少不能暴露给用户啊。接下来就分析和实验xhttpproxy的代码,结果发现,当不给httpclient传“user-agent”头时,返回的结果是ok的,这种情况实际上httpclient加了自己的“user-agent”头,而我试了其他多种“user-agent”都不行,不知道mashable.com对请求头做了什么样的校验策略啊,竟然对httpclient这么友好(如果使用java自带的Httpconnection也是可以的,它会默认传个带有java标识的一串字符)。前一阵子还遇到一个case,需要设置请求头”Accept“为”*/*”才能正常返回结果,否则连接就会被重置。如果我深入的检查抓取来的数据,可能还有不少bad case。这其实就有些让人头疼,因为很多网站对http头做了检查但策略又各不相同,加之我这方面的经验也不丰富,只能遇到一个分析一个。说起乱码,又想起charset,也是不让人省心,还是有个别charset解析错误的情况难解决,使用的icu不是很给力啊。

原文链接: http://www.kafka0102.com/2012/04/457.html

0     0

我要给这篇文章打分:

可以不填写评论, 而只是打分. 如果发表评论, 你可以给的分值是-5到+5, 否则, 你只能评-1, +1两种分数. 你的评论可能需要审核.

评价列表(0)