龙空技术网

python中的进制和编码

喜爱书画的业余程序员 92

前言:

目前朋友们对“python中int的用法里的进制”都比较着重,咱们都需要学习一些“python中int的用法里的进制”的相关资讯。那么小编也在网摘上汇集了一些关于“python中int的用法里的进制””的相关知识,希望大家能喜欢,小伙伴们一起来学习一下吧!

本节主要讲解以下内容:

python代码的运行方式进制计算机中的单位编码Python代码的运行方式脚本式

在终端中进入到python代码文件所在的目录:python 文件名  就可以运行代码
交互式
在终端中直接编写代码,并运行查看

进制

计算机中底层所有数据都是一010101的形式存在(图片,文本,视频等)。

进制分为:二进制、八进制、十进制、十六进制

进制之间的转换

v1 = bin(25) # 十进制转换为二进制print(v1) # "0b11001"v2 = oct(23) # 十进制转换为八进制print(v2) # "0o27"v3 = hex(28) # 十进制转换为十六进制print(v3) # "0x1c"
i1 = int("0b11001",base=2) # 25i2 = int("0o27",base=8) # 23 i3 = int("0x1c",base=16) # 28 
计算机中的单位b(bit), 位
1,1位10,2位111,3位1001,4位
B(byte),字节
8位是一个字节。10010110,1个字节10010110 10010110,2个字节
KB(Kilobyte),千字节
1024个字节就是1个千字节。10010110 11010110  10010111 .. ,1KB1KB = 1024B= 1024 * 8 b
M(Megabyte),兆
1024KB就是1M1M= 1024KB = 1024 * 1024 B = 1024 * 1024 * 8 b
G(Gigabyte),千兆
1024M就是1G1 G=  1024 M=  1024 *1024KB =  1024 * 1024 * 1024 B =  1024 * 1024 * 1024 * 8 b
T(Terabyte),万亿字节
1024个G就是1T
其他更大单位的 PB/EB/ZB/YB/BB/NB/DB不再赘述。假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么1G流量可以通过网络传输多少汉字呢?(计算机传输本质上也是二进制)
1G = 1024M = 1024 * 1024KB = 1024 * 1024 * 1024 B每个汉字需要2个字节表示1024 * 1024 * 1024/2 = ?
假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么500G硬盘可以存储多少个汉字?
500G = 500 * 1024M = 500 * 1024 * 1024KB = 500 * 1024 * 1024 * 1024 B500 * 1024 * 1024 * 1024 / 2 = ?
编码

编码:文字和二进制之间的一个对照表。

4.1 ASCII编码

ascii规定使用1个字节来表示字母与二进制的对应关系。

0000000000000001    w00000010    B00000011    a...111111112**8 = 256

4.2 gb-2312编码

gb-2312编码,由国家信息标准委员会制作(1980年)。

gbk编码,对gb2312进行扩展,包含了中日韩等文字(1995年)。

在与二进制做对应关系时,由如下逻辑:

单字节表示,用一个字节表示对应关系。2**8 = 256双字节表示,用两个字节表示对应关系。2**16 = 65536中可能性。

4.3 Unicode

unicode也被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)。

ucs2

用固定的2个字节去表示一个文字。    00000000 00000000     悟  ...    2**16 = 65535
ucs4
用固定的4个字节去表示一个文字。00000000 00000000 00000000 00000000  无...2**32 = 4294967296

无论是ucs2和ucs4都有缺点:浪费空间?

文字     十六进制     二进制A        0041      01000001A        0041      00000000 01000001A        0041      00000000 00000000 00000000 01000001

unicode的应用:在文件存储和网络传输时,不会直接使用unicode,而在内存中会unicode。

4.4 utf-8编码

包含所有文字和二进制的对应关系,全球应用最为广泛的一种编码,本质上:utf-8是对unicode的压缩,用尽量少的二进制去与文字进行对应。

  unicode码位范围            utf-8         0000 ~ 007F              用1个字节表示   0080 ~ 07FF              用2个字节表示   0800 ~ FFFF              用3个字节表示  10000 ~ 10FFFF            用4个字节表

4.5 python相关的编码

字符串(str)     "alex媳妇叫铁锤"             unicode处理               一般在内存字节(byte)      b"alexfdsfdsdfskdfsd"      utf-8编码 or gbk编码       一般用于文件或网络处理 
v1 = "武"v2 = "武".encode("utf-8")v2 = "武".encode("gbk")

将一个字符串写入到一个文件中

name = "嫂子热的满身大汗"data = name.encode("utf-8")# 打开一个文件file_object = open("log.txt",mode="wb")# 在文件中写内容file_object.write(data)# 关闭文件file_object.close()

本节总结:本节的知识点主要以理解为主。

计算机上所有的东西最终都会转换成为二进制再去运行。ascii编码、unicode字符集、utf-8编码本质上都是字符与二进制的关系。ascii,字符和二进制的对照表。unicode,字符和二进制(码位)的对照表。utf-8,对unicode字符集的码位进行压缩处理,间接也维护了字符和二进制的对照表。ucs2和ucs4指的是使用多少个字节来表示unicode字符集的码位。目前最广泛的编码为:utf-8,他可以表示所有的字符且存储或网络传输也不会浪费资源(对码位进行压缩了)。二进制、八进制、十进制、十六进制其实就是进位的时机不同。基于Python实现二进制、八进制、十进制、十六进制之间的转换。一个字节8位计算机中常见单位b/B/KB/M/G的关系。汉字,用gbk编码需要用2个字节;用utf-8编码需要用3个字节。基于Python实现将字符串转换为字节(utf-8编码)

# 字符串类型name = "佩奇"print(name) # 佩奇# 字符串转换为字节类型data = name.encode("utf-8")print(data) # b'\xe4\xbd\xa9\xe5\xa5\x87'# 把字节转换为字符串old = data.decode("utf-8")print(old)

13.基于Python实现将字符串转换为字节(gbk编码)

# 字符串类型name = "佩奇"print(name) # 佩奇# 字符串转换为字节类型data = name.encode("gbk")# print(data) # b'\xe4\xbd\xa9\xe5\xa5\x87'  utf-8,中文3个字节print(data) # b'\xc5\xe5\xc6\xe6'            gbk,中文2个字节# 把字节转换为字符串old = data.decode("gbk")print(old)

标签: #python中int的用法里的进制