python 文本处理

daredevil爱科技 03-18 698

前言：

此时姐妹们对“python处理文本文档”大约比较关怀，大家都想要剖析一些“python处理文本文档”的相关知识。那么小编同时在网摘上网罗了一些对于“python处理文本文档””的相关资讯，希望姐妹们能喜欢，同学们一起来了解一下吧！

作者：DataCastle

自从认识了python这门语言，所有的事情好像变得容易了，作为小白，小编今天就为大家总结一下python的文本处理的一些小方法。

话不多说，代码撸起来。

——python大小写字符互换

在进行大小写互换时，常用到的方法有4种，upper（）、lower（）、capitalize() 和title（）。

str = ""print(str.upper())# 把所有字符中的小写字母转换成大写字母print(str.lower())# 把所有字符中的大写字母转换成小写字母print(str.capitalize())# 把第一个字母转化为大写字母，其余小写print(str.title())# 把每个单词的第一个字母转化为大写，其余小写

还可以同时进行大小写互换：

s="hGdssWW678qqfdDDD777f8888sD8FJJss jjYYhVV #sh&" def fn(x): if x.is lower(): return x.upper() elif x.is upper(): return x.lower() else: return xresult=''.join([fn(r) for r in list(s)])print(result)HgDSSww678QQFDddd777F8888Sd8fjjSS JJyyHvv #SH&

在s当中，不仅有大小写字母，还有数字，符号作为干扰，运用代码成功将大小写进行了互换。

——行列互换

01 ：insert进行A行与N行的互换

1.txt文本内容

with open('D:\\r\\1.txt','r') as f: txt=f.readlines() txt.insert(4,txt[1])#第二行插入第五行的位置 del(txt[1])#删除原来的第二行 print(txt)1 A 一 3 C 三 4 D 四 2 B 二 5 E 五 6 F 六

02：矩阵的行列互换

matrix = [[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3],]trans = []for i in range(4): trans.append([row[i] for row in matrix])print('\n', trans) [[1, 2, 3],  [1, 2, 3],  [1, 2, 3],  [1, 2, 3]]

关于行列互换的情况，python有一个很好用的库pandas，其中的操作非常简便，可以到之前的文章”十分钟上手pandas“中查看。

——实现快速排序

快排的思想：首先任意选取一个数据（通常选用数组的第一个数）作为关键数据，然后将所有比它小的数都放到它前面，所有比它大的数都放到它后面，这个过程称为一趟快速排序。

01：超级"简短"的python实现的快速排序，一行代码轻松实现快速排序。

def quickSort(arg): if(arg==[]): return [] return quickSort([i for i in arg[1:] if i<=arg[0]])+[arg[0]]+quickSort([i for i in arg[1:] if i>arg[0]])print quickSort([11,22,8,23,7,33,13,28,66,777])[7, 8, 11, 13, 22, 23, 28, 33, 66, 777]

02：一般快排实现

def quicksort(array, left, right): #建立递归终止条件 if left >= right: return low = left#low为序列左边要移动的游标 high = right#high为序列右边要移动的游标 key = array[low]#将左边的数设为基准元素 while left < right: # 当left与right未重合，并且比基准元素要大，就将游标向左移动 while left < right and array[right] > key: right -= 1 # 如果比基准元素小，就跳出循环，并且把其放在基准元素左边 array[left] = array[right] # 当low与last未重合，并且比基准元素要小，就将游标向右移动 while left < right and array[left] <= key: left += 1 # 如果比基准元素大，就跳出循环，并且把其放在基准元素右边 array[right] = array[left] # 当low与last相等，就是基准元素的排序位置 array[right] = key # 对排序好的元素左右两边的序列进行递归 quicksort(array, low, left - 1) quicksort(array, left + 1, high)array = [11,22,8,23,7,33,13,28,66,777]print("Quick Sort: ")quicksort(array,0,len(array)-1)print(array)[7, 8, 11, 13, 22, 23, 28, 33, 66, 777]

03：《算法导论》中的快排程序

def quicksort(array, l, r): if l < r: q = partition(array, l, r) quick_sort(array, l, q - 1) quick_sort(array, q + 1, r)def partition(array, l, r): x = array[r] i = l - 1 for j in range(l, r): if array[j] <= x: i += 1 array[i], array[j] = array[j], array[i] array[i + 1], array[r] = array[r], array[i+1] return i + 1array = [11,22,8,23,7,33,13,28,66,777]print("Quick Sort: ")quicksort(array,0,len(array)-1)print(array)[7, 8, 11, 13, 22, 23, 28, 33, 66, 777]

04：python对list有一个内置函数sorted()排序

a = [11,22,8,23,7,33,13,28,66,777]b=sorted(a)print(b)print(a)[7, 8, 11, 13, 22, 23, 28, 33, 66, 777][11, 22, 8, 23, 7, 33, 13, 28, 66, 777]

sorted虽然是使用函数方法进行排序，但是效果非常好。使用sorted函数进行排序，不会改变a原有的排序，并且当文本中有其余字母符号等干扰时，也可以成功的将数字进行排序。

——文本对齐

有些时候我们得到的文本可能是混乱的，需要进行对齐处理，关于对齐有以下几种方法：

2.txt文本内容

01：format格式化对齐

# format格式化对齐def f1():  with open("D:\\r\\2.txt","r") as f: for s in f: l=s.rsplit () #左对齐，填充符号自定 t='{0:<5} {1:<7} {2}'.format(l[0],l[1],l[2])  print(str(t))f1()111 ABC 西瓜22222 AABBC 水蜜桃3333 CSDDGFF 香蕉44 QQQSED 波罗蜜

02：just对齐

#just对齐r=''def f2(): f=open("D:\\r\\2.txt","r") for s in f: l=s.rsplit() #通过指定分隔符对字符串进行切片 print(l[0].ljust(5," "),l[1].ljust(7," "),l[2])f2()111 ABC 西瓜22222 AABBC 水蜜桃3333 CSDDGFF 香蕉44 QQQSED 波罗蜜

——分行输出

01：正则表达式分行输出

#正则表达式a="aA1一bB2二cC3三dD4四eE5五fF6六gG7七hH8八iI9九"import rereg=["[a-z]","[A-Z]","\d","[^\da-zA-Z]"]#compile和findall一起使用，返回一个列表for s in reg:  rega=re.compile(s) s=re.findall(rega,a) print("".join(s))abcdefghiABCDEFGHI123456789一二三四五六七八九

02：string方法分行输出

#string方法a="aA1一bB2二cC3三dD4四eE5五fF6六gG7七hH8八iI9九"import stringta=tb=tc=td=''la=string.ascii_lowercase#la为小写字母ua=string.ascii_uppercase#ua为大写字母nb=string.digits#nb为0~9的数字ub="一二三四五六七八九"#分别从a中找出小写、大写字母、数字并进行分行输出for s in a: if s in la: ta=ta+s if s in ua: tb=tb+s if s in nb: tc=tc+s if s in ub: td=td+sprint(ta)print(tb)print(tc)print(td)abcdefghiABCDEFGHI123456789一二三四五六七八九

好了，今天的分享就到这里。

本文地址：http://www.longkongtuishu.com/ca2a3AGsFDVMPDA.html

标签： #python处理文本文档

python 文本处理

玩转Python：用Python处理文本数据，附代码

python 文本处理