龙空技术网

用于从图像中提取文本的 10 大 Python OCR 库

自由坦荡的湖泊AI 737

前言:

而今姐妹们对“python的pillow库下载”大概比较关怀,朋友们都想要知道一些“python的pillow库下载”的相关知识。那么小编也在网摘上搜集了一些关于“python的pillow库下载””的相关文章,希望各位老铁们能喜欢,姐妹们快快来了解一下吧!

1. EasyOCR

EasyOCR 通过其用户友好的方法和深度学习驱动的模型简化了 Python 中图像中的文本提取。它支持多种语言,使其适用于国际应用。无论是打印还是手写,水平对齐还是垂直对齐,EasyOCR 都能熟练地处理各种文本样式和方向。其效率确保了快速的性能,是实时应用的理想选择。EasyOCR 的开源特性便于用户修改和贡献。它使用户能够根据自己的要求进行定制。它还提供了一种可靠且易于使用的方法,用于从照片中删除文本、优化文档处理、创建应用程序和提高可访问性。

安装和实施EasyOCR的步骤Step1:安装Python

首先,确保系统上安装了 Python。可以从 Python 官方网站下载并按照安装说明进行操作。

Step2:安装EasyOCR

安装 Python 后,打开命令行或终端并运行以下命令以使用 pip 安装 EasyOCR。

pip install easyocr
Step3:安装依赖项目

EasyOCR有一些需要安装的依赖项。一般pip 会自动为您处理这些。

Step4:EasyOCR的使用

现在安装了 EasyOCR, Python 脚本可以使用它。这是如何使用 EasyOCR 从图像中提取文本的基本图示。

import easyocr
# Create an OCR reader objectreader = easyocr.Reader(['en'])# Read text from an imageresult = reader.readtext('image.jpg')# Print the extracted textfor detection in result:    print(detection[1])

如果安装了 EasyOCR,现在可以轻松地从 Python 程序中的照片中提取文本。EasyOCR 使文本提取变得简单,无论您是提高可访问性还是自动输入数据。

Doctr

Doctr 是一个用于文档理解和处理的 Python 库,专为机器学习和自然语言处理应用程序而设 计。它有助于完成文档布局分析、文本提取和语义理解等任务。Doctr 可识别文档中的文本区域、图像和表格,并为从各种格式中提取文本提供光学字符识别。它还旨在通过命名实体识别和情感分析来理解语义含义。Doctr 具有可扩展性、高效性,适用于生产环境中的大量文档。它鼓励社区贡献,并为自定义组件提供可扩展的体系结构。

安装和实施 Doctr 的步骤Step1: 安装Doctr

可以使用 Python 的包管理器 pip 安装 Doctr。打开命令行或终端,然后运行以下命令。

pip install doctr
Step2:导入必要的模块

在 Python 脚本或笔记本中,导入文档处理任务所需的 Doctr 模块。例如:

from doctr.models import ocr_predictor
Step3:加载文档

根据用例,加载要处理的文档。Doctr 支持各种文档格式,包括 PDF 和图像。

Step4:执行文档理解任务

使用 Doctr 的功能来执行文档布局分析、文本提取和语义理解等任务。例如,可以使用 OCR 预测器从图像中提取文本:

# Load an imageimage_path = 'example_image.jpg'
# Create an OCR predictorpredictor = ocr_predictor.create_predictor()# Perform OCR on the imageresult = predictor(image_path)# Print the extracted textprint(result)
3. Kearas-OCR

Keras-OCR 是一个 Python 库,通过 Keras 和 TensorFlow 框架简化 OCR 任务。它提供预训练模型,在各种文本和字体样式上具有高精度。其用户友好的 API 允许轻松实现。Keras-OCR 提供了灵活的配置,允许自定义输入图像大小和目标语言等参数。它的开源性质促进了协作环境,提高了生产力并将 OCR 功能集成到 Python 应用程序中。

安装和实施 Keras-OCR 的步骤

若要在 Python 中实现用于文本识别的 Keras-OCR,请按照下列步骤操作:

步骤1:安装Keras-OCR

使用 pip 在 Python 环境中安装 Keras-OCR 库。

pip install keras-ocr
Step2:导入必要的模块

在 Python 脚本或笔记本中,从 Keras-OCR 导入所需的模块。

import keras_ocr
Step3:加载预训练模型

Keras-OCR 提供用于文本识别的预训练模型。您可以使用管道加载其中一个模型。pipeline() 函数。

pipeline = keras_ocr.pipeline.Pipeline()
Step4:执行文本识别

使用加载的管道对图像执行文本识别。您可以将单个图像或图像列表传递给 recognize() 函数。

images = ['image1.jpg', 'image2.jpg']  # List of image file pathspredictions = pipeline.recognize(images)

这将返回每个图像的预测,其中包含有关检测到的文本区域和已识别文本的信息。

Step5:显示结果

然后,可以循环访问预测以显示已识别的文本并可视化文本区域:

for image, prediction in zip(images, predictions):    keras_ocr.tools.drawAnnotations(image=image, predictions=prediction)
Step6:集成

最后,根据需要将文本识别功能集成到 Python 应用程序或工作流中。

4. Tasseract

Tesseract 是由 Google 维护的开源 OCR 引擎。它以其从图像中破译文本的卓越准确性而闻名。它支持 100 多种语言,可以处理各种图像类型,包括扫描文档和照片。用户可以自定义页面分割模式和语言模型等参数,以优化识别准确性。Tesseract 鼓励社区贡献,并且很容易与 Python 集成,为开发人员提供了一个简单的界面,可以将 OCR 功能整合到他们的应用程序中。

安装和实施 Tesseract 的步骤

为了在 Python 中使用 Tesseract OCR,需要安装 pytesseract 库。Tesseract 引擎封装在此库中。以下是详细的步骤:

Step1:安装 Tesseract

首先,需要在系统上安装 Tesseract OCR 引擎。

Step2: 安装pytesseract

接下来,使用 pip 安装 pytesseract 库:

pip install pytesseract
Step3: 导入 pytesseract

在 Python 脚本或笔记本中导入 pytesseract 模块:

import pytesseract
Step4:设置镶嵌Tesseract路径(可选)

如果 Tesseract 未安装在默认系统路径中,则必须使用 pytesseract.pytesseract.tesseract_cmd 变量来定义它的位置:

pytesseract.pytesseract.tesseract_cmd = r'/path/to/tesseract'
Step5:执行OCR

使用 image_to_string() 函数对图像执行 OCR。将图像文件路径作为参数传递:

# Perform OCR on an imagetext = pytesseract.image_to_string('image.jpg')

这将从图像中提取文本并将其存储在变量中 text

Step6:显示结果

然后,可以根据需要打印或操作提取的文本:

print(text)

可以按照以下说明快速集成 Tesseract OCR 以从 Python 环境中的照片中提取文本。请记住,Tesseract 的准确性可能会根据许多变量而变化,包括语言、文本复杂性和图像质量。对于特定的使用情况,修改参数和准备照片可以帮助提高 OCR 的准确性。

5. GOCR公司

GOCR 是一个开源 OCR 引擎,它是在 GNU 通用公共许可证下创建的,允许用户从一系列平台上的照片中提取文本。这包括一些基本的文本识别功能,并与许多系统兼容。但它主要集中在英语上,不支持其他语言。与更现代的选择相比,它对某些应用程序的功效可能有限,因为它缺乏积极的开发和有限的语言支持。

安装和实施 GOCR 的步骤

安装 GOCR 程序并利用其命令行界面 (CLI) 对照片执行光学字符识别是实施 GOCR 的第一步。下面是一个一般的操作方法实现:

Step1: 安装GOCR

根据操作系统,可以使用包管理器(例如 Ubuntu 上的 apt 或 macOS 上的 Homebrew)来安装 GOCR。

Step2:准备镜像

准备包含要识别的文本的图像。确保图像清晰且质量足够,以实现准确的 OCR。

Step3:从命令行运行库

使用 GOCR 命令行界面对图像执行 OCR。这是在名为“image.jpg”的图像文件上运行 GOCR 的基本命令。

gocr image.jpg

它将处理图像并将识别的文本输出到终端。

Step4:进程输出

GOCR 完成图像处理后,您可以从终端捕获输出文本,并根据需要在应用程序中使用它。

请记住,与更现代的 OCR 引擎相比,此库在准确性、语言支持和易用性方面可能存在局限性。如果 GOCR 达不到标准,评估您的需求并考虑其他 OCR 选项至关重要。

6. Pytesseract的

一个名为 Pytesseract 的 Python 包装器允许将 Google 的 Tesseract-OCR 引擎集成到 Python 程序中。它为光学字符识别提供了一种有效的方法。由于其直观的界面,用户可以在几乎没有编码知识的情况下从照片中提取文本。Pytesseract 支持多种语言,包括英语、法语、西班牙语和德语,并与 Windows、macOS 和 Linux 操作系统兼容。可以使用它处理不同字体、大小和样式的文本。开发人员可以调整 OCR 参数以最大限度地提高准确性。此外,Pytesseract 还与 Python Imaging Library Pillow 接口,可在 OCR 处理之前进行预处理。

安装和实现 Pytesseract 的步骤

安装 pytesseract 库并使用它来对照片执行光学字符识别 (OCR) 是 pytesseract 的实现。以下是在 Python 中使用 Pytesseract 的方法:

Step1:安装 Tesseract

在使用 pytesseract 之前,您需要在系统上安装 Tesseract OCR 引擎。您可以从此处下载并安装它。

Step2: 安装pytesseract

接下来,使用 pip 安装 pytesseract 库:

pip install pytesseract
Step3: 导入 pytesseract

在 Python 脚本或笔记本中导入 pytesseract 模块:

import pytesseract
Step4:对图像执行OCR

使用 pytesseract image_to_string() 中的函数对图像执行 OCR。将图像文件路径作为参数传递:

# Perform OCR on an imagetext = pytesseract.image_to_string('image.jpg')

这将从图像中提取文本并将其存储在变量中 text

Step5:可选配置

可以将 pytesseract 配置为使用特定的 OCR 参数,例如语言和页面分段模式。例如:

# Set language (default is English)pytesseract.pytesseract.tesseract_cmd = r'/path/to/tesseract'tessdata_dir_config = '--tessdata-dir "/usr/share/tesseract-ocr/4.00/tessdata"'text = pytesseract.image_to_string('image.jpg', config=tessdata_dir_config)
Step6:显示结果

最后,可以根据需要打印或操作提取的文本:

print(text)

这些步骤将帮助您快速将 Pytesseract 集成到 Python 环境中,以便您可以使用 OCR 从照片中提取文本。请记住,许多变量(如语言、文本复杂性和图像质量)都会影响 OCR 的准确性。对于特定的使用情况,修改参数和准备照片可以帮助提高 OCR 的准确性。

7. OpenCV

OpenCV,由英特尔创建,并由全球开发者社区保持最新状态。它是计算机视觉和机器学习的重要工具。用于各种用途,例如图像处理、物体检测、人脸识别、增强现实和机器人技术。它提供了广泛的功能和技术。OpenCV 的 Python 界面有助于快速开发和原型设计,其跨平台兼容性保证了跨多个系统访问。OpenCV 是计算机视觉的基础库,可与其他 Python 库(如 NumPy、SciPy 和 TensorFlow)无缝集成。这使开发人员能够跨一系列领域设计创造性的应用程序。

安装和实施 OpenCV 的步骤

安装库并利用其功能执行不同的计算机视觉任务构成了 OpenCV 的实现。下面是一个关于如何在 Python 中使用 OpenCV 处理图像的简单图示:

Step1:安装OpenCV

使用 pip 在 Python 环境中安装 OpenCV 库。

pip install opencv-python
Step2:导入OpenCV

在 Python 脚本或笔记本中导入 OpenCV 库:

import cv2
Step3:读取图像

使用该 cv2.imread() 函数从文件中读取图像:

# Read an image from fileimage = cv2.imread('image.jpg')
Step4:显示图像

使用该 cv2.imshow() 函数在窗口中显示图像:

# Display the image in a windowcv2.imshow('Image', image)
Step5:等待用户输入

使用 cv2.waitKey() 函数等待按键关闭窗口:

# Wait for a key press and close the windowcv2.waitKey(0)cv2.destroyAllWindows()
Step6:执行图像处理(可选)

可以使用各种 OpenCV 函数来执行图像处理任务,例如调整大小、裁剪、过滤等:

# Resize the imageresized_image = cv2.resize(image, (width, height))
# Convert the image to grayscalegray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)# Apply Gaussian blur to the imageblurred_image = cv2.GaussianBlur(image, (5, 5), 0)
Step7:保存处理后的图像(可选)

使用该 cv2.imwrite() 函数将处理后的图像保存到文件中:

# Save the processed image to filecv2.imwrite('processed_image.jpg', processed_image)

通过执行这些步骤,您可以轻松地在 Python 环境中实现 OpenCV 以执行各种图像处理任务。OpenCV 提供了广泛的功能和能力,允许您操作图像、检测物体、跟踪运动等等。尝试不同的功能和参数将帮助您探索 OpenCV 在计算机视觉应用中的全部潜力。

8. Amazon Textrac

Amazon Textract 是 Amazon Web Services (AWS) 提供的一项机器学习服务,可高效地从文档中提取文本和数据。它使用高级算法来识别和分析结构化数据,包括文本、表格和表单。它对财务报告和发票特别有用。Textract 可自动提取键值对和表单数据提取,从而简化数据输入和处理工作流程。它还提供高级文档分析功能。Amazon Textract 与其他 AWS 服务集成,确保可扩展性、高性能和可靠性。它还为金融、医疗保健、法律和政府等各个部门的文档处理提供了安全的环境。

安装和实施 Amazon Textract 的步骤

实施 Amazon Textract 涉及使用 AWS 开发工具包与 Textract API 进行交互。以下是在 Python 中实施 Amazon Textract 的步骤的高级概述:

步骤1:设置 AWS 凭证

确保已配置了具有访问 Textract 服务的适当权限的 AWS 凭证。

步骤 2:安装 AWS 开发工具包

使用 pip 安装适用于 Python 的 AWS 开发工具包 (Boto3):

pip install boto3
Step3:初始化 Textract 客户端

使用 Boto3 库和您的 AWS 凭证创建 Textract 客户端对象:

import boto3
# Initialize Textract clienttextract_client = boto3.client('textract', region_name='your-region', aws_access_key_id='your-access-key-id', aws_secret_access_key='your-secret-access-key')
Step4:处理文档

使用 analyze_document() Textract 客户端的方法分析文档并提取文本和数据:

# Process documentresponse = textract_client.analyze_document(Document={'S3Object': {'Bucket': 'your-bucket-name', 'Name': 'your-document-key'}}, FeatureTypes=['TABLES', 'FORMS'])

这将返回一个响应,其中包含从文档中提取的文本、表格和表单。

Step5:访问提取的数据

可以从响应对象访问提取的文本、表格和表单,并根据需要进一步处理:

# Extract textextracted_text = response['Blocks']
# Extract tablesextracted_tables = [block for block in extracted_text if block['BlockType'] == 'TABLE']# Extract formsextracted_forms = [block for block in extracted_text if block['BlockType'] == 'KEY_VALUE_SET']
Step6:处理错误和异常

实现错误处理以正常处理文档处理过程中可能发生的异常和错误:

try:    response = textract_client.analyze_document(Document={'S3Object': {'Bucket': 'your-bucket-name', 'Name': 'your-document-key'}}, FeatureTypes=['TABLES', 'FORMS'])except Exception as e:    print(f'Error processing document: {e}')
Step7:进一步处理和集成

根据应用程序要求,可能需要进一步处理提取的文本、表格和表单,并将它们集成到您的工作流或应用程序中。

标签: #python的pillow库下载