龙空技术网

文字识别比肩Finereader,linux下的OCR识别引擎tesseract

从不一样开始 116

前言:

如今朋友们对“adobereaderubuntu”大体比较注意,咱们都想要分析一些“adobereaderubuntu”的相关知识。那么小编也在网络上收集了一些关于“adobereaderubuntu””的相关内容,希望兄弟们能喜欢,我们快快来学习一下吧!

有时在网络上找到一篇文章,却被某某文库之类的网站限制下载,复制,这时只要可以看到文件内容,就可以使用截图后再文字识别的方法绕过限制。总之,OCR解决了图片转成文字的刚需,无论是手机拍照的照片还是网站截图,将图片中的文字识别出来以便进一步编辑处理,OCR识别率由OCR引擎决定,至于将识别出来的文字进行排版等操作是否方便好用则取决于识别软件。在Windows下最好的文字识别引擎和软件是Finereader,在linux下则是tesseract,下面是安装过程。

sudo apt install tesseract-ocr  #安装OCR引擎sudo apt install tesseract-ocr-chi-sim tesseract-ocr-chi-tra tesseract-ocr-chi-tra-vert tesseract-ocr-chi-sim-vert  #安装简体中文和繁体中文识别包tesseract --list-langs  #查询支持的语言识别包,根据需要再安装sudo apt install gimagereader #安装OCR识别软件

OCR应用gimagereader使用tesseract识别引擎,作为图形前端操作简便,识别率很好,只是对于表格的识别在排版上不够友好,虽然它支持将识别结果直接输出成PDF文档,对表格识别后的排版来说并不理想,但对于常用的文字识别已经完全可以满足需要,对于中英文混排、简体中文和繁体中文混排的情况都可以得到完美识别。

本文环境使用MX Linux发行版,最新版本为MX-21.2.1_x64 “ahs”,支持目前最新电脑硬件,系统基于Debian,但仅在其上创建更多自产的软件应用包,并不像Ubuntu那样激进的改变了Debian系统自身的技术框架,因此,MX Linux使用和Debian一样稳定,应用更加丰富,安装后省去了很多折腾安装常用应用的功夫,我也从Debian转向了MX Linux,上图为MX Tools自带工具包,格式化U盘,调整硬盘分区,备份Linux系统工具一应俱全。

标签: #adobereaderubuntu