kbys.net
当前位置:首页 >> python url utF8编码 >>

python url utF8编码

最近在抓取一些js代码产生的动态数据,需要模拟js请求获得所需用的数据,遇到对url进行编码和解码的问题,就把遇到的问题总结一下,有总结才有进步,才能使学到的知识更加清晰。对url进行编码和解码,python提供了很方便的接口进行调用。 url中...

#encoding:utf-8import urllib2url = 'f = urllib2.urlopen(url)content = f.read()f.close()content = content.decode('UTF-8').encode("gb2312")s1 = content.split(',')result1 = {}for s in s1: s2 = s.split('|') print s2[1] result1[s2[1...

今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是'%E4%B8%BD%E6%B1%9F',因此需 要做一个转换。这里我们就用到了模块urllib。 >...

面是中文的情况(比如‘丽江'),url的地址编码却是'%E4%B8%BD%E6%B1%9F',因此需 要做一个转换。这里我们就用到了模块urllib。 ? 1 2 3 4 5 6 7 8 >>> import urllib >>> data = '丽江' >>> print data 丽江 >>> data '\xe4\xb8\xbd\xe6\xb1\x9f'

你试试下面的代码 #!/usr/bin/env python# -*- coding:utf8 -*-import urllib2req = urllib2.Request("http://www.baidu.com/")res = urllib2.urlopen(req)html = res.read()res.close()html = unicode(html, "gb2312").encode("utf8")print html

ubuntu 的控制台默认是utf8编码的吧。而且这个google返回的是big5编码吗,用下面的代码解码下试试 url="网址" content = urllib2.urlopen(url).read() print content.decode('big5').encode('utf8')

应该是shell的编码和listinfo编码不一样导致的,部分正常,部分乱码有可能是因为两种编码部分字符恰好一样。 试试 import sysprint i[i].encode(sys.getdefaultencoding())

#-*- coding:utf-8 -*- 这样写

>>> import urllib >>> urllib.quote('中文') '%E4%B8%AD%E6%96%87' >>> urllib.unquote('%E4%B8%AD%E6%96%87') '\xe4\xb8\xad\xe6\x96\x87' >>> print urllib.unquote('%E4%B8%AD%E6%96%87') 中文 然后你自己chdir()试试吧 如果不行,可能要转...

这个问题挺好回答的。涉及三个问题: windows下,命令行下缺省是只支持GBK,GB18030。 所以print的内容如果是unicode或者是GBK结尾自然可以。东方名珠被unquote后,它是UTF-8编码。所以直接print无效。乱码。 记事本,会自动编码识别,支持GBK,UT...

网站首页 | 网站地图
All rights reserved Powered by www.kbys.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com