龙空技术网

数据清洗之pandas看后你就会用了

股海无涯2358 143

前言:

当前你们对“css最大行数”大致比较注意,大家都想要分析一些“css最大行数”的相关资讯。那么小编同时在网络上收集了一些关于“css最大行数””的相关知识,希望我们能喜欢,看官们一起来学习一下吧!

Pandas是Python一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,Pandas处理上千万的数据是易如反掌的,excel做不了的,pandas可以,excel能做的,pandas也可以;总而言之,谁用谁知道。

import pandas as pdimport numpy as npdf = pd.read_csv('2022-01-29跌幅前十.csv')df纬德信息\t-19.44\t城地香江\t-10.02\t安妮股份\t-10.01\t金财互联\t-10.01\t亚联发展\t-9.98\t吉大正元\t-9.98\t浙数文化\t-9.18\t证通电子\t-9.09\t新炬网络\t-7.49\t浪潮软件\t-7.24\t

通过df的info可以看出来,在上篇获取数据中,没有对数据处理,在这儿就需要整理出符合matplotlib要求的格式;这里需要先将数据转换成DataFrame形式

d = pd.DataFrame(df.columns[0].split('\t'))

有心的你看到了,凡是名称的索引都是偶数,涨跌幅度索引是奇数,我们需要根据这个规律提取出来符合要求的数据,这也涉及了数据变形的操作,后面会详细讲。

name = d[0][[i for i in range(0, 20, 2)]]number = d[0][[i for i in range(1, 20, 2)]]

[[i for i in range(0, 20, 2)]]是python中的列表推导式,一种循环的写法,简捷高效,0是开始位,20是结束位,2是步长,range这三个参数的意思明白就好;现在这二条数据已经基本准备好了,为什么说基本呢?因为现在的数据是object,而在绘图时需要的是int(整型)或float(浮点),从上图中可以看出它们的dtype,我们转换一下

num2 = np.array(number, dtype=np.float16)

这是跌幅前十名的数据,按照这个操作涨幅前十名

dt = pd.read_csv('2022-01-29涨幅前十.csv')zf = pd.DataFrame(dt.columns[0].split('\t'))name1 = zf[0][[i for i in range(0, 20, 2)]]number1 = zf[0][[i for i in range(1, 21, 2)]]num1 = np.array(number1, dtype=np.float16)
上面为了详细展示操作过程,看着有点多,其实就5行代码就完成了所有的准备工作;下面说说pandas中基本的增、删、改、查和数据的变形

上图是给原数据中增加一列,值为1,也可增加多列,写成列表的格式就行

也可以用drop删除,这里要注意,用del只能一次删除一列drop却可以用列表进行多列操作

上面说了按列删除,下面说下按行删除,为了方便后面展示,重新生成一个新表

# 将第二列中的0和1改成hello,worldd2['col1'] = d2['col1'].replace({0:'hello',1:'world'})# 将col2列中的1改成okd2.iloc[0,2] = 'ok'    # 其中iloc[0, 2]是高级索引或切片索引,0是指第一列,2是指第一列第三行,当然也可以按行标签和列标签提取相应位置的数据,不过这样写简便d2

将表中的hello全部替换成1,这里的厉害之处在于replace中可以用正则表达式,这一点excel坐导弹也追不上

d2.replace('hello','1')

通过上面的增、删、改,其实已经用了“查”,就是用切片索引查找,其中loc是按行标签查找,而iloc是可以行列结合

下面再说说行列数据变形相关的操作

ascending=0是改变默认的排序,1是默认值

行列变形的stack函数

变形后恢复默认索引状态

修改列名

原始的图形是

现在将d4再变形回去d3的样式

通过pivot函数达成目的,离原始还差一步,就是A的消失

现在已经实现了行列的互换,假如想将c列排到第一列去,需要一是将列标写成列表,二是再替换,具体的看图

到此,基本上可以用pandas处理日常工作了,下篇文章再说一下如何生成字典,以及将int变成object;我们现在获取数据就可以直接用pandas读取和保存了,这样比上篇文章中说的简单直接还高效,这样的好处就是循环之类的就省了,从html.json()这儿开始,忘记的可以看下上篇文章

dataframe = pd.DataFrame(html.json()['list'])dataframe.to_csv(title[spe])

二句代码解决问题,同时还保证了格式的统一和完整;下篇文章开始绘图的制作,欢迎留言或私信交流

标签: #css最大行数