用Python导入数据方法汇总

林小婵的店 12-09 1365

前言：

现时同学们对“python引用数据”都比较关注，朋友们都想要剖析一些“python引用数据”的相关知识。那么小编在网上网罗了一些对于“python引用数据””的相关文章，希望咱们能喜欢，咱们快快来了解一下吧！

Python可以使用各种各样的文件作为数据源：

flat files — csv, txt, tsv etc.pickled filesexcel spreadsheetsSAS and Stata filesHDF5MATLABSQL databasesweb pagesAPIFlat files

平面文件--txt，csv - 很简单，可以使用numpy或pandas导入。

numpy.recfromcsv - 加载存储在逗号分隔文件中的ASCII数据。返回的数组是一个记录数组（如果usemask = False）或masked记录数组（如果usemask = True）。Python示例代码：

data = np.recfromcsv(file)

numpy.loadtxt - 此函数旨在成为简单格式化文件的快速阅读器。该genfromtxt函数提供了更复杂的处理，例如，缺失值的行。

data = np.loadtxt('file.csv', delimiter=',', skiprows=1, usecols=[0,2])

numpy.genfromtxt - 从文本文件加载数据，并按指定处理缺失值。是更复杂的函数，有很多参数来控制你的导入。

data = np.genfromtxt('titanic.csv', delimiter=',', names=True, dtype=None)

使用pandas更容易 - 一行，你准备好DataFrame中的文件。还支持可选地将文件迭代或分解为块。

data = pd.read_csv(file, nrows=5, header=None, sep='\t', comment='#', na_values='Nothing')

Pickle

它用于序列化和反序列化Python对象结构。可以对python中的任何对象进行pickle，以便将其保存在磁盘上。pickle的作用是在将对象写入文件之前先将其“序列化”。Pickling是一种将python对象（list，dict等）转换为字符流的方法。这个想法是这个字符流包含在另一个python脚本中重建对象所需的所有信息。下面的代码将打印一个在某处创建并存储在文件中的字典 - 非常酷，不是吗？

import pickle with open('data.pkl', 'rb') as file:  d = pickle.load(file)print(d)

Excel

与pandas.read_excel将Excel表读入panda DataFrame中，并进行了大量的自定义导入数据，这个函数的文档很清楚，你可以用Excel文件做任何你想做的事情。

df = pd.read_excel('file.xlsx', sheet_name='sheet1')

SAS和Stata

SAS代表统计分析软件。SAS数据集包含组织为观察（行）和变量（列）表的数据值。要打开此类文件并从中导入数据，请看下面的Python代码示例：

from sas7bdat import SAS7BDATwith SAS7BDAT('some_data.sas7bdat') as file:  df_sas = file.to_data_frame()

Stata是一款强大的统计软件，可以让用户分析、管理和生成数据的图形化可视化。它主要被经济学、生物医学和政治学领域的研究人员用于研究数据模式。存储在.dta文件中的数据，导入它的最好方法是pandas.read_stata

df = pd.read_stata('file.dta')

HDF5

分层数据格式(HDF)是一组文件格式(HDF4, HDF5)，用于存储和组织大量数据。HDF5是一个独特的技术套件，可以管理非常大和复杂的数据集合。HDF5简化了文件结构，只包含两种主要类型的对象:

Datasets，是同构类型的多维数组Groups，它是可以容纳数据集和其他组的容器结构

这就产生了一种真正的层次化、文件系统式的数据格式。实际上，HDF5文件中的资源甚至可以使用类似/ path / to / resource访问HDF5文件中的资源。元数据以用户定义的、附加到Groups和Datasets的命名属性的形式存储。然后，可以使用数据集、组和属性构建表示图像和表的更复杂的存储api。

要导入HDF5文件，我们需要h5py库。下面的Python代码示例使我更轻松，完全可以理解。

import h5py # Load file: data = h5py.File('file.hdf5', 'r') # Print the keys of the file for key in data.keys():  print(key)# Now when we know the keys we can get the HDF5 groupgroup = data['group_name'] # Going one level deeper, check out keys of group for key in group.keys():  print(key)# And so on and so on

MATLAB

很多人使用MATLAB并将数据存储在.mat文件中。那些文件是什么？这些文件包含在MATLAB工作空间中分配给它们的变量和对象列表。将它作为字典导入Python并不奇怪，其中键是MATLAB变量和值 - 分配给这些变量的对象。要编写和读取MATLAB文件，请使用scipy.io包。

import scipy.io mat = scipy.io.loadmat('some_project.mat')print(mat.keys())

关系数据库

使用驱动程序连接到数据库，我们可以直接从那里获取数据。通常它意味着：创建连接，连接，运行查询，获取数据，关闭连接。它可以一步一步地完成，但在pandas 中只需要sqlalchemy包创建的连接。下面是连接到sqlite数据库引擎并从中获取数据的示例：

from sqlalchemy import create_engine import pandas as pd # Create engine engine = create_engine('sqlite:///localdb.sqlite')# Execute query and store records in DataFrame df = pd.read_sql_query("select * from table", engine)

来自Web的数据

首先，如果我们有一个文件的URL，我们可以使用标准的pandas.read_csv / pandas.read_excel函数在参数“file =”中指定它

df = pd.read_csv('', sep=';')

除此之外，要从Web获取数据，我们需要使用HTTP协议，特别是GET方法。并且requests 包做了这个令人难以置信的工作。要从requests.get收到的响应中访问文本，我们只需要使用方法.text。

import requests r = requests.get('') print(r.text)

r.text将为我们提供一个包含所有html标签的网页 - 不是很有用，不是吗？我们有一个BeautifulSoup包，可以解析HTML并提取我们需要的信息，在本例中是所有超链接（继续前面的例子）：

from bs4 import BeautifulSouphtml_doc = r.text # Create a BeautifulSoup object from the HTML soup = BeautifulSoup(html_doc)# Find all 'a' tags (which define hyperlinks) a_tags = soup.find_all('a') # Print the URLs to the shell for link in a_tags:  print(link.get('href'))

API

在计算机编程中，应用程序编程接口（API）是一组子例程定义，通信协议和用于构建软件的工具。一般而言，它是一组明确定义的各种组件之间的通信方法。有许多不同的API，首先必须做的是检查文档，但事实是几乎所有API都以JSON格式返回数据。requests 包将再次帮助我们。（我们必须发送HTTP GET请求以从API获取数据）。

import requests r = requests.get('') # Decode the JSON data into a dictionary: json_data = r.json()# Print each key-value pair in json_data for k in json_data.keys():  print(k + ': ', json_data[k])

我们可以看到，数据无处不在，我们必须知道获取它的所有方法

本文地址：http://www.longkongtuishu.com/ca831AGsBBFQGD1Y.html

标签： #python引用数据 #css导入代码 #python数组怎么传给函数 #python引用数据集 #python引用的方法