龙空技术网

140种Python标准库、第三方库和外部工具(上)

加米谷大数据 187

前言:

今天小伙伴们对“python工具类numutil”大致比较看重,我们都想要学习一些“python工具类numutil”的相关文章。那么小编同时在网上网罗了一些关于“python工具类numutil””的相关内容,希望朋友们能喜欢,朋友们一起来了解一下吧!

Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。来源:大数据

这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器学习/深度学习、数据可视化、交互学习和集成开发以及其他Python协同数据工作工具。

为了区分不同对象的来源和类型,本文将在描述中通过以下方法进行标识:

Python内置函数:Python自带的内置函数。函数无需导入,直接使用。例如要计算-3.2的值,直接使用abs函数,方法是abs(-3.2)Python标准库:Python自带的标准库。Python标准库无需安装,只需要先通过import方法导入便可使用其中的方法。例如导入string模块,然后使用其中的find方法:import stringstring.find('abcde','b')第三方库:Python的第三方库。这些库需要先进行安装(部分可能需要配置)。外部工具:非Python写成的库或包,用于Python数据工作的相关工具。「推荐度」3星较高,1星较低。

01 文件读写

文件的读写包括常见的txt、Excel、xml、二进制文件以及其他格式的数据文本,主要用于本地数据的读写。

1. open(name[, mode[, buffering]])

类型:Python内置函数

描述:Python默认的文件读写方法

推荐度:★★★

2. numpy.loadtxt、numpy.load和numpy.fromfile

类型:第三方库

描述:Numpy自带的读写函数,包括loadtxt、load和fromfile,用于文本、二进制文件读写

推荐度:★★★

3. pandas.read_*

类型:第三方库

描述:Pandas自带的read文件方法,例如ead_csv、read_fwf、read_table等,用于文本、Excel、二进制文件、HDF5、表格、SAS文件、SQL数据库、Stata文件等的读写

推荐度:★★★

4. xlrd

类型:第三方库

描述:用于Excel文件读取

推荐度:★★

5. xlwt

类型:第三方库

描述:用于Excel文件写入

推荐度:★★

6. pyexcel-xl

类型:第三方库

描述:用于Excel文件读写

推荐度:★★

7. xluntils

类型:第三方库

描述:用于Excel文件读写

推荐度:★★

8. pyExcelerator

类型:第三方库

描述:用于Excel文件读写

推荐度:★

9. openpyxl

类型:第三方库

描述:用于Excel文件读写

推荐度:★

10. lxml

类型:第三方库

描述:xml和HTML读取和解析

推荐度:★★★

11. xml

类型:Python标准库

描述:xml对象解析和格式化处理

推荐度:★★★

12. libxml2

类型:第三方库

描述:xml对象解析和格式化处理

推荐度:★

13. xpath

类型:第三方库

描述:xml对象解析和格式化处理

推荐度:★★

14. win32com

类型:第三方库

描述:有关Windows系统操作、Office(Word、Excel等)文件读写等的综合应用库

推荐度:★

02 网络抓取和解析

网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“01 文件读写”中找到。

15. requests

类型:第三方库

描述:网络请求库,提供多种网络请求方法并可定义复杂的发送信息

推荐度:★★★

16. urllib

类型:Python标准库

描述:Python自带的库,简单的读取特定URL并获得返回的信息

推荐度:★★

17. urllib2

类型:Python标准库

描述:Python自带的库,读取特定URL并获得返回的信息,相对于urllib可处理更多HTTP信息,例如cookie、身份验证、重定向等

推荐度:★★

18. urlparse

类型:Python标准库

描述:Python自带的URL解析库,可自动解析URL不同的域、参数、路径等

推荐度:★★★

19. HTMLParser

类型:Python标准库

描述:Python自带的HTML解析模块,能够很容易的实现HTML文件的分析

推荐度:★★★

20. Scapy

类型:第三方库

描述:分布式爬虫框架,可用于模拟用户发送、侦听和解析并伪装网络报文,常用于大型网络数据爬取

推荐度:★★★

21. Beautiful Soup

类型:第三方库

描述:Beautiful Soup是网页数据解析和格式化处理工具,通常配合Python的urllib、urllib2等库一起使用

推荐度:★★★

03 数据库连接

数据库连接可用于连接众多数据库以及访问通用数据库接口,可用于数据库维护、管理和增、删、改、查等日常操作。

22. mysql-connector-python

类型:第三方库

描述:MySQL官方驱动连接程序

推荐度:★★★

23. pymysql

类型:第三方库

描述:MySQL连接库,支持Python3

推荐度:★★★

24. MySQL-python

类型:第三方库

描述:MySQL连接库

推荐度:★★

25. cx_Oracle

类型:第三方库

描述:Oracle连接库

推荐度:★★★

26. psycopg2

类型:第三方库

描述:Python编程语言中非常受欢迎的PostgreSQL适配器

推荐度:★★★

27. Redis

类型:Python标准库

描述:Redis连接库

推荐度:★★★

28. pymongo

类型:第三方库

描述:MongoDB官方驱动连接程序

推荐度:★★★

29. HappyBase

类型:第三方库

描述:HBase连接库

推荐度:★★★

30. py2neo

类型:第三方库

描述:Neo4j连接库

推荐度:★★★

31. cassandra-driver

类型:第三方库

描述:Cassandra(1.2+)和DataStax Enterprise(3.1+)连接库

推荐度:★★★

32. sqlite3

类型:Python标准库

描述:Python自带的模块,用于操作SQLite数据库

推荐度:★★★

33. pysqlite2

类型:第三方库

描述:SQLite 3.x连接库

推荐度:★★

34. bsddb3

类型:第三方库

描述:Berkeley DB连接库

35. bsddb

类型:Python标准库

描述:Python自带的模块,提供了一个到Berkeley DB库的接口

推荐度:★★

36. dbhash

类型:Python标准库

描述:Python自带的模块,dbhash模块提供了使用BSD数据库库打开数据库的功能。该模块镜像了提供对DBM样式数据库访问的其他Python数据库模块的接口。bsddb模块需要使用dbhash

推荐度:★★

37. adodb

类型:第三方库

描述:ADOdb是一个数据库抽象库,支持常见的数据和数据库接口并可自行进行数据库扩展,该库可以对不同数据库中的语法进行解析和差异化处理,具有很高的通用性

推荐度:★★★

38. SQLObject

类型:第三方库

描述:SQLObject是一种流行的对象关系管理器,用于向数据库提供对象接口,其中表为类、行为实例、列为属性

推荐度:★★

39. SQLAlchemy

类型:第三方库

描述:SQLAlchemy是Python SQL工具包和对象关系映射器,为应用程序开发人员提供了SQL的全部功能和灵活性控制

推荐度:★★

40. ctypes

类型:第三方库

描述:ctypes是Python的一个外部库,提供和C语言兼容的数据类型,可以很方便地调用C DLL中的函数

推荐度:★★★

41. pyodbc

类型:第三方库

描述:Python通过ODBC访问数据库的接口库

推荐度:★★★

42. Jython

类型:第三方库

描述:Python通过JDBC访问数据库的接口库

推荐度:★★★

04 数据清洗转换

数据清洗转换主用于数据正式应用之前的预处理工作。

43. frozenset([iterable])

类型:Python内置函数

描述:返回一个新的frozenset对象,可选择从iterable取得的元素

推荐度:★★★

44. int(x)

类型:Python内置函数

描述:返回x的整数部分

推荐度:★★★

45. isinstance(object, classinfo)

类型:Python内置函数

描述:返回object是否是指定的classinfo实例信息

推荐度:★★★

46. len(s)

类型:Python内置函数

描述:返回对象的长度或项目数量

推荐度:★★★

47. long(x)

类型:Python内置函数

描述:返回由字符串或数字x构造的长整型对象

推荐度:★★★

48. max(iterable[, key])

类型:Python内置函数

描述:返回一个可迭代或较大的两个或多个参数中的较大项

推荐度:★★★

49. min(iterable[, key])

类型:Python内置函数

描述:返回一个可迭代或较大的两个或多个参数中的最小项

推荐度:★★★

50. range(start, stop[, step])

类型:Python内置函数

描述:用于与for循环一起创建循环列表,通过指定start(开始)、stop(结束)和step(步长)控制迭代次数并获取循环值

推荐度:★★★

51. raw_input(prompt)

类型:Python内置函数

描述:捕获用户输入并作为字符串返回(不推荐使用input作为用户输入的捕获函数)

推荐度:★★★

52. round(number[, ndigits])

类型:Python内置函数

描述:返回number小数点后ndigits位的四舍五入的浮点数

推荐度:★★★

53. set([iterable])

类型:Python内置函数

描述:返回一个新的集合对象,可选择从iterable获取的元素

推荐度:★★★

54. slice(start, stop[, step])

类型:Python内置函数

描述:返回表示由范围(start、stop、step)指定的索引集的切片对象

推荐度:★★

55. sorted(iterable[, cmp[, key[, reverse]]])

类型:Python内置函数

描述:从iterable的项中返回一个新的排序列表

推荐度:★★★

56. xrange(start, stop[, step])

类型:Python内置函数

描述:此函数与range()非常相似,但返回一个xrange对象而不是列表

推荐度:★★★

57. string

类型:Python标准库

描述:字符串处理库,可实现字符串查找、分割、组合、替换、去重、大小写转换及其他格式化处理

推荐度:★★★

58. re

类型:Python标准库

描述:正则表达式模块,在文本和字符串处理中经常使用

推荐度:★★★

59. random

类型:Python标准库

描述:该模块为各种分布实现伪随机数生成器,支持数据均匀分布、正态(高斯)分布、对数正态分布、负指数分布、伽马和β分布等

推荐度:★★★

60. os

类型:Python标准库

描述:用于新建、删除、权限修改、切换路径等目录操作,以及调用执行系统命令

推荐度:★★★

61. os.path

类型:Python标准库

描述:针对目录的遍历、组合、分割、判断等操作,常用于数据文件的判断、查找、合并

推荐度:★★★

62. prettytable

类型:Python标准库

描述:格式化表格输出模块

推荐度:★★

63. json

类型:Python标准库

描述:Python对象与json对象的转换

推荐度:★★★

64. base64

类型:Python标准库

描述:将任意二进制字符串编码和解码为文本字符串的Base16,Base32和Base64

推荐度:★★★

作者:宋天龙,大数据技术专家,前Webtrekk中国区技术和咨询负责人(Webtrekk,德国的在线数据分析服务提供商)。擅长数据挖掘、建模、分析与运营,精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。

标签: #python工具类numutil