龙空技术网

Python机器学习:使用Python进行基本文本处理

程序员爱学习 535

前言:

此时小伙伴们对“python 文本文件处理”都比较注意,各位老铁们都需要分析一些“python 文本文件处理”的相关文章。那么小编在网上网罗了一些对于“python 文本文件处理””的相关文章,希望同学们能喜欢,大家快快来学习一下吧!

使用Python进行基本文本处理

本文摘自《Python机器学习》一书

文本可以分成不同的基元。文件。句子。单词。字符。

文档是文本的集合。它包含句子,每个句子由单词组成,每个单词由字符组成。这些是在本章中使用的一些基本的文本原语。

首先,从Python中的一些基本的文本处理操作开始。

在Python中,字符串可以用引号或双引号声明。

text1 = "The Vikram Sarabhai Space Centre is a space research Centre of the ISRO, focused on rocket and space vehicles"

可以通过使用len( )函数来获取字符串的长度,它将返回字符串中的字符总数。

len(text1)

输出:109

如果想要得到字符串中单词的数量,首先需要分割字符串并计算单词数量,这可以通过使用split()函数来完成。 split()函数需要一个分隔符,通过该分隔符将字符串拆分为多个单词。

words1 = text1.split(" ") len(words1)

输出:19

也可以通过索引来获取子字符串,在Python中索引从0开始,这意味着可以通过text1 [0]访问第一个字符。

print(text1[4]) print(text1[4:10])

输出:V

Vikram

在字符串中使用不同的操作符以获得不同的结果,它们称为字符串特殊操作符,如表1.1所列。

表1.1

1.1.1 字符串比较

表1.2所列的这些函数根据在字符串上执行的操作返回布尔值(True / False)。

表1.2

#获取所有首字母为大写的单词[wordCap for wordCap in words1 if wordCap.istitle()] #长度大于5的单词[wordG5 for wordG5 in words1 if len(wordG5)>5]
1.1.2 字符串转换

表1.3所列的这些预定义的函数集用于字符串转换。

表1.3

1.1.3 字符串操作

字符串操作的相关函数如表9.4所列。

表1.4

大写文本。

text1.capitalize()

获取标题表单。

text1.title()

大写。

text1.upper()

对字符串的大小写字母进行转换。

text1.swapcase()

将字符串中所有大写字符转换为小写字符。

text1.casefold()

获取索引。

text1.index('a')

从左边查找。

text1.find('a')

从右侧查找。

text1.rfind('a')

按照行分割。

text1.splitlines()

删除字符串左侧的“The”。

text1.lstrip("The")

End

喜欢的朋友请转发到朋友圈

标签: #python 文本文件处理