龙空技术网

使用Python正则表达式清洗数据举例

数字化与智能化 277

前言:

现时姐妹们对“python数据导入导出和清洗例题”大约比较注重,姐妹们都需要知道一些“python数据导入导出和清洗例题”的相关内容。那么小编也在网摘上汇集了一些有关“python数据导入导出和清洗例题””的相关知识,希望同学们能喜欢,姐妹们快快来学习一下吧!

《大数据和人工智能交流》头条号向广大初学者新增C 、Java 、Python 、Scala、javascript 等目前流行的计算机、大数据编程语言,希望大家以后关注本头条号更多的内容。

1、假设有如下网页内容

Content = { 我靠!今年我公司电子产品销售额只有10万元,特别是iPhone销售额只有3万元,都不够房租水电费用的!}

请使用正则表达式过滤掉不文明词语"我靠"

str = "我靠!今年我公司电子产品销售额只有10万元,特别是iPhone销售额只有3万元,都不够房租水电费用的!"

str = str.replace('我靠!', '') # 将字符串中'我靠!'替换为空格

print(str)

2、假设网页有如下一些内容:

Content1 = { ####今年的销售额为100万,******净利润为20万,#####同比增长10% }

请使用正则表达式过滤掉和数字、中文无关的"#"、和"*"字符

import re # 导入正则表达式库

s = "####今年的销售额为100万,******净利润为20万,#####同比增长10%"

s = re.sub("[*#]", "", s) # 调用sub函数将字符串中所有*#替换为空格

print(s)

3、使用findall()函数实现下面的功能

网页有段内容={python2.7、python3.x都是python的版本,只不过python2.7不再维护了}

请使用findall()函数搜索所有的"python"字符串

import re # 导入正则表达式库

s = "python2.7,python3.x都是python的版本,只不过python2.7不再维护了"

s = re.findall("python", s) # 使用findall()函数搜索所有的"python"字符串

print(s)

4、split()函数练习

将下列网页内容按照空格分开,内容如下:

{ "职位编号:c001 职位名称:大数据分析师 职位薪资:30000元" }

要求使用split()函数将上述内容按照空格拆分,再按照英文的":"拆分,将内容写入Recruitment_post.log日志,日志格式如下:

职位编号 职位名称 职位薪资

C001 大数据分析师 30000元

import re # 导入正则表达式库

# 保存文件函数

def save(items):

with open('recruitment_post.log', 'a', encoding='UTF-8') as fp: # a 为追加 w 为覆盖若存在

for item in items:

fp.write(item + " ")

fp.write("\n")

s = "职位编号:c001 职位名称:大数据分析师 职位薪资:30000元"

s = re.sub(' +', ' ', s) # 调用sub函数将字符串中所有空格替换为一个空格

s_list = s.split(' ') # 将字符串通过空格划分,返回一个列表

feature = []

label = []

for list in s_list:

data = list.split(":") # 将字符串通过":"分割

feature.append(data[0])

label.append(data[1])

save(feature)

save(label)

5、sub()函数练习

使用sub()函数提取网页内容的电话号码,内容如下:

{ 0451-66666666,0451-99999999 #这是一热销的电话号码,号码本身价值10万元以上" }

请将"0451-66666666,0451-99999999"提取出来

import re # 导入正则表达式库

phone = "0451-66666666,0451-99999999 #这是一热销的电话号码,号码本身价值10万元以上"

num = re.sub(r'#.*$', "", phone) # 通过正则表达式清洗数据

print("电话号码是: ", num)

《大数据和人工智能交流》的宗旨

1、将大数据和人工智能的专业数学:概率数理统计、线性代数、决策论、优化论、博弈论等数学模型变得通俗易懂。

2、将大数据和人工智能的专业涉及到的数据结构和算法:分类、聚类 、回归算法、概率等算法变得通俗易懂。

3、最新的高科技动态:数据采集方面的智能传感器技术;医疗大数据智能决策分析;物联网智慧城市等等。

根据初学者需要会有C语言、Java语言、Python语言、Scala函数式等目前主流计算机语言。

根据读者的需要有和人工智能相关的计算机科学与技术、电子技术、芯片技术等基础学科通俗易懂的文章。

标签: #python数据导入导出和清洗例题