python中decode函数(关于python如何实现各进制转换的总结大全)
本文目录
- 关于python如何实现各进制转换的总结大全
- Python判断字符串中是否有中文字符
- python用xlwt向xls中写入中文,显示乱码该怎么解决
- python3.4 编码有哪些
- python unicode编码
关于python如何实现各进制转换的总结大全
ctf经常遇到进制转换的问题,就正好做一个进制转换总结,分享出来供大家参考学习,下面来一起看看详细的介绍:字符串与十六进制转换例如百度ctf 12月的第二场第一个misc?1666C61677B65633862326565302D336165392D346332312D613031322D3038616135666137626536377D比较简单的一种做法就是直接调用字符串的.decode(’hex’)解密即可, 但如果不用这个函数你会怎么解呢?一种思路就是先2个分组,解出每组的ascii值,合并下字符串即可得到,具体代码如下?1234567import res=’666C61677B65633862326565302D336165392D346332312D613031322D3038616135666137626536377D’s = re.findall(r’.{2}’,s)s = map(lambda x:chr(int(x,16)),s)print ’’.join(s)》》》flag{ec8b2ee0-3ae9-4c21-a012-08aa5fa7be67}前面说了字符串的decode(’hex’)函数,另外还有两个转16进制的函数,这里都总结一下内置函数hex()只能转换10进制整数为十六进制,不能转字符串binascii库的hexlify()和b2a_hex()这两个函数的功能是将字符串转换成十六进制,对应的解密函数分别为 unhexlify()和a2b_hex()进制互转二进制,八进制,十六进制转10进制比较简单,直接调用int函数?1int(str,base) //返回十进制整数,但注意此时第一个参数为字符串对应的解密函数分别是?12345bin() //10进制转二进制 oct() //十进制转八进制 hex() //十进制转十六进制但二进制直接转16进制就需要多走一步了,先用int转十进制,在用上面提到的hex()函数将十进制转换成十六进制,比较精简的写法是?1map(lambda x:hex(int(x,2)),)最后在附上自己用python写的一个进制转换小工具,主要功能是对一组二进制,或者ascii,或十六进制转换成字符串,想必ctf上也经常会遇到这类题型吧?1234567891011121314151617181920212223242526272829303132333435363738394041424344# make by 江sir#coding:utf-8import reimport argparse def bintostr(text): text = text.replace(’ ’,’’) text = re.findall(r’.{8}’,text) s = map(lambda x:chr(int(x,2)),text) #批量二进制转十进制 flag = ’’.join(s) return flag def asciitostr(text): if ’ ’ in text: text = text.split(’ ’) elif ’,’ in text: text = text.split(’,’) s = map(lambda x:chr(int(x)),text) flag = ’’.join(s) return flag def hextostr(text): text = re.findall(r’.{2}’,text) #print text s = map(lambda x:chr(int(x,16)),text) #print s flag = ’’.join(s) return flag if __name__ == ’__main__’: parser = argparse.ArgumentParser() parser.add_argument(“-b“) parser.add_argument(“-a“) parser.add_argument(“-x“) argv = parser.parse_args() #print argv if argv.b: res = bintostr(argv.b) elif argv.a: res = asciitostr(argv.a) elif argv.x: res = hextostr(argv.x) print res用法:十六进制转字符串:666C61677B65633862326565302D336165392D346332312D613031322D3038616135666137626536377D?12bintostr.py -x “666C61677B65633862326565302D336165392D346332312D613031322D3038616135666137626536377D“flag{ec8b2ee0-3ae9-4c21-a012-08aa5fa7be67}二进制转字符串:可以有空格,也可以无空格00101111 01100110 00110110 00110111 00110011 00110010 00110100 00110001 00110000 01100001 01100001 01100100 01100011 00110000 00110011 00110111 01100110 01100010 00110000 01100011 01100010 01100001 01100001 00110000 00110000 01100011 00110111 00110101 00110011 00110001 00110011 00110111 00110011 00101110 01110100 01111000 01110100?12bintostr.py -b “00101111 01100110 00110110 00110111 00110011 00110010 00110100 00110001 00110000 01100001 01100001 01100100 01100011 00110000 00110011 00110111 01100110 01100010 00110000 01100011 01100010 01100001 01100001 00110000 00110000 01100011 00110111 00110101 00110011 00110001 00110011 00110111 00110011 00101110 01110100 01111000 01110100“/f6732410aadc037fb0cbaa00c7531373.txtascii转字符串可以是空格分隔,也可以是,分隔s=’45 46 45 46 32 45 32 46 46 45 46 32 46 45 46 46 32 46 46 46 32 45 46 46 46 32 46 46 45 45 46 45 32 45 46 46 46 32 46 46 46 32 46 45 46 46 32’?12bintostr.py -a “45 46 45 46 32 45 32 46 46 45 46 32 46 45 46 46 32 46 46 46 32 45 46 46 46 32 46 46 45 45 46 45 32 45 46 46 46 32 46 46 46 32 46 45 46 46 32“-.-. - ..-. .-.. ... -... ..--.- -... ... .-..以上实例均来自某些ctf赛题总结
Python判断字符串中是否有中文字符
首先,在Python中字符串的表示是 用unicode编码。所以在做编码转换时,通常要以unicode作为中间编码。decode的作用是将其他编码的字符串转换成unicode编码,比如 a.decode(’utf-8’),表示将utf-8编码的字符串转换成unicode编码encode的作用是将unicode编码的字符串转换成其他编码格式的字符串,比如b.encode(’utf-8’),表示将unicode编码格式转换成utf-8编码格式的字符串判断一个字符串中是否含有中文字符:好了,有了以上知识,就可以很容易的解决这个问题了。这是代码1 #-*- coding:utf-8 -*-23 import sys4 reload(sys)5 sys.setdefaultencoding(’utf8’)67 def check_contain_chinese(check_str):8 for ch in check_str.decode(’utf-8’):9 if u’\u4e00’ 《= ch 《= u’\u9fff’:10 return True11 return False12 13 if __name__ == “__main__“:14 print check_contain_chinese(’中国’)15 print check_contain_chinese(’xxx’)16 print check_contain_chinese(’xx中国’)17 18 结果:19 True20 False21 True
python用xlwt向xls中写入中文,显示乱码该怎么解决
乱码是编码问题,微软的excel默认打开的编码是gbk,如果你写入的数据是非gbk编码的,那么使用微软excel打开就会出现乱码的情况。解决方法为:对要写入的数据编码为gbk之后在进行写入,在python中的简单的操作方法如下:
1.源数据为unicode编码,则直接使用encode(“gbk“)即可转换编码;
str = u“我爱中国共产党“ # unicode编码的字符串 des_str = str.encode(“gbk“) #转换为gbk编码2.源数据不是unicode编码,那么必须先使用decode函数解码为unicode编码,在按照第一种情况转换为gbk编码。
str = u“我爱中国共产党“ # unicode编码的字符串 src_str = str.encode(“utf-8“) # 源数据格式utf-8 des_str = str.decode(“utf-8“).encode(“gbk“) #转换为gbk编码注意:encode和decode方法为字符串的方法,不能应用与列表等其他类型的数据上
python3.4 编码有哪些
Python3中的编码问题前,第一个段落对字节、ASCII与Unicode与UTF-8等进行基本介绍,如果不对这几种编码犯头晕,可直接跳过。ASCII与Unicode与UTF-8与GBK首先从老大哥说起。跟很多人一样,大学读了这么久,久仰ASCII编码的大名。要说这个老大哥,我们再先从字节说起。一个字节包括八个比特位,每个比特位表示0或1,一个字节即可表示从00000000到11111111共2^8=256个数字。一个ASCII编码使用一个字节(除去字节的最高位作为作奇偶校验位),ASCII编码实际使用一个字节中的7个比特位来表示字符,共可表示2^7=128个字符。比如那时写C语言的程序,就经常要背下ASCII编码中的01000001(即十进制的65)表示字符‘A’,01000001加上32之后的01100001(即十进制的97)表示字符‘a’。现在打开Python,调用chr和ord函数,我们可以看到Python为我们对ASCII编码进行了转换。第一个00000000表示空字符,因此ASCII编码实际上只包括了字母、标点符号、特殊符号等共127个字符。因为ASCII是在美国出生的,对于由字母组成单词进而用单词表达的英文来说也是够了。但是中国人、日本人、韩国人等其他语言的人不服了。中文是一个字一个字,ASCII编码用上了浑身解数256个字符都不够用。因此后来出现了Unicode编码。Unicode编码通常由两个字节组成,共表示256*256个字符,即所谓的UCS-2。某些偏僻字还会用到四个字节,即所谓的UCS-4。也就是说Unicode标准也还在发展。但UCS-4出现的比较少,我们先记住:最原始的ASCII编码使用一个字节编码,但由于语言差异字符众多,人们用上了两个字节,出现了统一的、囊括多国语言的Unicode编码。在Unicode中,原本ASCII中的127个字符只需在前面补一个全零的字节即可,比如前文谈到的字符‘a’:01100001,在Unicode中变成了00000000 01100001。不久,美国人不开心了,吃上了世界民族之林的大锅饭,原本只需一个字节就能传输的英文现在变成两个字节,非常浪费存储空间和传输速度。人们再发挥聪明才智,于是出现了UTF-8编码。因为针对的是空间浪费问题,因此这种UTF-8编码是可变长短的,从英文字母的一个字节,到中文的通常的三个字节,再到某些生僻字的六个字节。解决了空间问题,UTF-8编码还有一个神奇的附加功能,那就是兼容了老大哥的ASCII编码。一些老古董软件现在在UTF-8编码中可以继续工作。注意除了英文字母相同,汉字在Unicode编码和UTF-8编码中通常是不同的。比如汉字的‘中’字在Unicode中是0100111000101101,而在UTF-8编码中是11100100 1011100010101101。我们祖国母亲自然也有自己的一套标准。那就是GB2312和GBK。当然现在挺少看到。通常都是直接使用UTF-8。记得我唯一一次看到GB编码的网页,是一个成人网站。Python3中的默认编码Python3中默认是UTF-8,我们通过以下代码:import syssys.getdefaultencoding()可查看Python3的默认编码。Python3中的encode和decodePython3中字符编码经常会使用到decode和encode函数。特别是在抓取网页中,这两个函数用的熟练非常有好处。我的理解,encode的作用,使我们看到的直观的字符转换成计算机内的字节形式。decode刚好相反,把字节形式的字符转换成我们看的懂的、直观的、“人模人样”的形式。如下图。\x表示后面是十六进制,\xe4\xb8\xad即是二进制的11100100 1011100010101101。也就是说汉字‘中’encode成字节形式,是11100100 1011100010101101。同理,我们拿1110010010111000 10101101也就是\xe4\xb8\xad来decode回来,就是汉字‘中’。完整的应该是b’\xe4\xb8\xad’,在Python3中,以字节形式表示的字符串则必须加上前缀b,也就是写成上文的b’xxxx’形式。前文说的Python3的默认编码是UTF-8,所以我们可以看到,Python处理这些字符的时候是以UTF-8来处理的。因此从上图可以看到,就算我们通过encode(’utf-8’)特意把字符encode为UTF-8编码,出来的结果还是相同:b’\xe4\xb8\xad’。明白了这一点,同时我们知道UTF-8兼容ASCII,我们可以猜想大学时经常背诵的‘A’对应ASCII中的65,在这里是不是也能正确的decode出来呢。十进制的65转换成十六进制是41,我们尝试下:b’\x41’.decode()结果如下。果然是字符‘A’Python3中的编码转换据说字符在计算机的内存中统一是以Unicode编码的。只有在字符要被写进文件、存进硬盘或者从服务器发送至客户端(例如网页前端的代码)时会变成utf-8。但其实我比较关心怎么把这些字符以Unicode的字节形式表现出来,露出它在内存中的庐山正面目的。这里有个照妖镜:xxxx.encode/decode(’unicode-escape’)输出如下b’\\u4e2d’还是b’\u4e2d,一个斜杠貌似没影响。同时可以发现在shell窗口中,直接输’\u4e2d’和输入b’\u4e2d’.decode(’unicode-escape’)是相同的,都会打印出汉字‘中’,反而是’\u4e2d’.decode(’unicode-escape’)会报错。说明说明Python3不仅支持Unicode,而且一个‘\uxxxx’格式的Unicode字符可被辨识且被等价于str类型。如果我们知道一个Unicode字节码,怎么变成UTF-8的字节码呢。懂了以上这些,现在我们就有思路了,先decode,再encode。代码如下:xxx.decode(’unicode-escape’).encode()测试如下:可以看到最后输出的UTF-8字节与上面的相同。尝试成功。所以其他的编码之间的转换,大概也是如此。最后的扩展还记得刚刚那个ord吗。时代变迁,老大哥ASCII被人合并,但ord还是有用武之地。试试ord(’中’),输出结果是20013。20013是什么呢,我们再试试hex(ord(’中’)),输出结果是’0x4e2d’,也就是20013是我们在上文见面了无数次的x4e2d的十进制值。这里说下hex,是用来转换成十六进制的函数,学过单片机的人对hex肯定不会陌生。最后的扩展,在网上看到的他人的问题。我们写下类似于’\u4e2d’的字符,Python3知道我们想表达什么。但是让Python读取某个文件的时候出现了’\u4e2d’,是不是计算机就不认识它了呢?后来下文有人给出了答案。如下:import codecsfile = codecs.open( “a.txt“, “r“, “unicode-escape“ )u = file.read()print(u)
python unicode编码
python unicode编码:
下面的代码创建了一个Unicode字符串,用UTF-8编码器将它编码,然后写入到一个文件中去,接着把数据从文件中读回来,解码成Unicode字符串对象,最后,打印出Unicode字符串,用以确认程序正确地运行。
在Linux中编写,在VIM中输入如下代码,保存为uniFile.py
# /home/xiaopeng/python/code/uniFile.py ’’’ An example of reading and writing Unicode strings:Writes a Unicode string to a file in utf-8 and reads it back in ’’’ CODEC = ’utf-8’ 编码方式 FILE = ’unicode.txt’ 要存的文件名 hello_out = u“Hello world\n“ 创建了一个Unicode格式的字符串 bytes_out = hello_out.encode(CODEC) 用UTF-8编码 f = open(FILE,’w’) f.write(bytes_out) 写入指定文件中 f.close() f = open(FILE,’r’) bytes_in = f.read() 读取 f.close() hello_in = bytes_in.decode(CODEC) 解码 print hello_in 打印
在终端中输入:python uniFile.py
结果打印出 Hello world
然后在python目录下会发现多了一个名为unicode.txt的文件,用cat命令查看一下,发现里面的内容和打印的结果一样.
把Unicode应用到实际中注意一下四点:
1 程序中出现字符串时一定要加一个前缀u
2 不要用str()函数,用Unicode()代替
3 不要用过时的string模块。如果传给它非ASCII码,它会把一切搞砸。
4 不到必须时不要在你的程序里编解码Unicode字符,只在你要写入文件或者数据库或者网络时,才调用encode()函数和decode()函数。
更多文章:

equals to(A equals B 与 A equals to B 这两个用法都对吗)
2025年3月9日 10:30

toaster oven(电烤箱上Grill、Oven、Toast是什么意思)
2025年3月15日 08:00

用switch语句输出成绩等级(在java里面利用switch case求出成绩所在等级如何做)
2025年2月19日 11:20

使命召唤ol(codol)体验服怎么进去!?codol算不算动视暴雪
2025年3月2日 04:50

16进制转10进制c语言代码(C语言写一个函数,16进制转十进制)
2025年3月13日 13:40

compare with to(怎么区分compare with和compare to)
2025年3月27日 05:10

interesting是什么意思英语(“interesting”怎么读)
2025年2月9日 05:00

condescending(condescending什么意思)
2025年4月2日 09:40

drawable是什么意思(drawablehdpi什么意思)
2025年3月15日 14:30