前言:
而今兄弟们对“提取图像特征点的算法”可能比较注意,你们都想要分析一些“提取图像特征点的算法”的相关知识。那么小编同时在网摘上搜集了一些有关“提取图像特征点的算法””的相关资讯,希望各位老铁们能喜欢,兄弟们一起来学习一下吧!随着科学技术的发展,中国制造业的智能化升级改造成为了必然趋势。如何将先进的技术理论应用于实际生产线成为了的重点与热点。在汽车刹车片的生产过程中,传统的人工喷码检测存在劳动强度大、用人成本高、检测精度低等缺点。而机器视觉、机器学习等先进技术则可以很好地避免这些缺点。
随着信息科学技术的发展,制造业的产线升级成为了发展的必然趋势。为了紧跟时代的发展,我国提出了“中国制造2025”计划,以实现制造企业的生产线自动化升级。生产线的升级改造涉及诸多先进技术,如数控技术、机器人技术、仓储物流技术和机器视觉技术等等。
其中机器视觉技术由于其应用范围广,发展前景大,已成为当前的热点之一。同时随着智能手机的普及,人们的日常拍照不再依赖于专业相机。这推动了机器视觉、人工智能等相关技术的发展,促进了相关算法的成熟。目前,机器视觉已经在多个领域实现了应用。
监控安保领域,车牌识别技术广泛应用于交通违章拍照、车库计时收费、涉密场所出入车辆监控,人脸识别技术广泛应用于火车站、机场的安检;日常生活领域,基于视觉的场景识别成为了每个人拍照时的必用功能,而基于照片进行文字提取与翻译则是为出国旅游的游客提供了极大的便利。
随着技术的逐渐成熟,机器视觉也开始应用于工业领域。汽车作为现代交通出行常用的交通工具,其庞大的需求量推动着汽车及其相关产业的发展,促进着这些相关企业对生产线的技术升级。机器视觉在生产线上的应用就是技术升级的典型代表。
目前在汽车及零部件制造企业中,机器视觉被广泛应用于目标定位、距离测量、缺陷检测、三维重建等方面。那么汽车刹车片喷码检测识别,对汽车工厂有什么影响?
一、喷码字符区域分析
喷码字符区域定位是指通过图像处理或机器学习的方法,将喷码字符区域从整个图像中检测提取出来。字符区域图像的获取是字符识别的先决条件和基本要求,没有精准的字符区域获取,就谈不上后续的字符识别。基于连通分量的喷码字符定位算法是较为传统的根据字符区域图像特征完成字符位置检测的算法。
这类算法相较于机器学习的算法,虽然鲁棒性稍差,但是其运算量更小,耗时也更少,在目标背景不那么复杂的情况下有着良好的表现。
对喷码字符区域定位问题,首先提出了基于连通分量的改进MSER算法。
该算法采用先提取MSER再对这些区域进行约束和筛选的思路,利用喷码字符区域的几何特征和位置特征实现字符定位,最后通过仿射变换完成字符区域的旋转矫正。对喷码字符区域进行图像预处理处理,通过改进的投影算法对一行字符进行分割,以得到单个的喷码字符。然后,对分割出来的单个字符通过卷积神经网络进行识别。
最后,将识别出来的单个字符串联起来,得到整行字符的识别结果。
对于汽车刹车片的喷码而言,其存在样式多变、字符间隔距离近、点状喷码不连续等一系列特征。相较于车牌字符分割和证件图像字符分割这类字符特征明显、字符间隔较大甚至字符个数确定的情况,喷码字符分割难度更大。
针对这个难点,提出了基于边缘剔除的图像二值化方法和基于改进投影算法的字符分割方法来解决喷码字符难分割的问题。由于图像中噪点的存在以及喷码字符内部的不连续,这些提取出来的喷码字符图像不能直接进行字符分割操作,而需要先对得到的图像进行一系列的图像预处理,以加强图像中的字符特征。
针对喷码存在的问题,预处理操作主要分为两个步骤:降噪和字符内部点填充。降噪,顾名思义就是降低图像噪声点的数量。去除噪点保留字符点是后续操作的基础。对于断点式喷码而言,如果在降噪阶段不能很好地去除图像中的噪点,那么后续的字符内部点填充操作将受到极大的干扰。
通过观察不难发现,由于背景的噪声和字符的特征相似度很高,通过单纯的卷积滤波操作很难将噪声去除掉。因此,采用均值漂移算法对提取的喷码字符图像进行滤波。在图像滤波中,均值漂移算法的实现流程见算法。
降噪完成后,由于的对象采用的是断点式喷码,字符内部并不是完全连续的,为后续的分割操作考虑,需要在预处理阶段解决字符内部连续性问题,否则分割时容易将一个字符分成两个或多个字符。这需要对字符的断点区域进行填充处理。一般而言,常用膨胀、闭运算等形态学处理来完成图像内部的填充。
膨胀处理可以很好地对字符内部的区域进行填充,达到使断点连续的目的,但是这也不可避免地导致了字符与字符之间的粘连。闭运算处理原理是先进行膨胀处理再进行腐蚀处理,所以字符之间的粘连被腐蚀操作去除了,但是腐蚀也使得字符内部点的膨胀效果受到了很大的影响,甚至破坏了字符内部的连续性。
鉴于字符之间粘连问题可以通过后续的二值化处理和分割操作解决,而内部不连续问题则会从根本上会影响后续操作,故选择膨胀处理达到增强字符内部点连续性的目的。完成膨胀处理后,为了方便实现后续的单个字符分割,需要对图像进行二值化处理。
全局阈值二值化操作非常简单,但是灰度阈值T的选择却是困难又关键的。灰度阈值T选择过小,则会导致字符之间粘连现象严重;过大,则会破坏字符内部的连续性。此外,不同的喷码样式和光照条件,也会对灰度阈值T的选择产生影响。所以,人为地统一设定一个固定阈值是很难满足要求的。
在完成二值化处理后,可以看到字符之间仍有粘连,为了后续字符分割效果更好,在二值化阶段对字符粘连情况进行抑制和减少是非常有必要的。这里提出了基于边缘剔除的二值化方法,来尽可能地在字符分割操作之前减少粘连情况。
一般而言,卷积神经网络的性能主要由网络结构的设计、损失函数设计、激活函数的选择和网络训练时优化算法的选择决定。机器学习算法是模拟人的学习过程,而神经网络则是模拟人的神经系统。人的神经系统非常复杂,仅仅使用线性运算的数学模型是无法模拟的。
而卷积层、池化层、全连接层等卷积神经网络的基本组成单元都只能进行线性运算,仅靠线性运算去拟合神经网络中输入值和输出值的关系是会出现严重的欠拟合现象的。因此,想要更好地发挥神经网络的性能,就需要能进行非线性运算的激活函数来对数据进行处理。
首先采用均值漂移算法对图像进行降噪处理;然后提出了基于边缘剔除的二值化算法,完成了图像二值化;接着提出了改进投影算法,实现了对单个字符的分割;最后搭建卷积神经网络对分割出来的单个字符完成识别。经过大量对比实验,验证了采用的降噪算法、二值化算法和改进投影算法在喷码字符图像处理中有着优秀可靠的处理效果。此外,通过在多个公开数据集中进行测试对比,验证了搭建的卷积神经网络相较于传统分类识别方法有着更高的识别精度。
二、端到端字符识别
这种识别方法虽然在识别效果上非常理想,但是严重依赖于字符分割的效果。而字符分割采用的图像处理方法,往往是针对一类图像而特殊设计的,通用性不佳。本章将提出一种基于深度学习的端到端的喷码字符识别算法。该算法能够对一行字符直接进行端到端识别,而无需预先进行字符分割等其他图像处理操作,极大增强了识别算法的通用性。
采用卷积神经网络+循环神经网络+联结主义时间分类的网络结构[35]实现一行喷码字符的端到端识别。其中,卷积神经网络提取图像特征得到特征序列,循环神经网络根据提取的特征序列,进行字符序列预测,最后通过CTC完成转录得到最终预测结果。
端到端字符识别网络架构主要由卷积层、循环层和转录层组成。下面将对各层的功能和作用进行详细的分析。然而,由于实际现实中的字符图像和训练标签都是不定长的,即特征序列完全无法和字符图像一一对应。
由于采集的图像数据中字符大小、单个字符宽度、字符个数都是不确定的,难以通过设置参数的方法让特征序列和字符图像一一对应。而通过人工手段,可以人为地将图像进行分割并单独进行标注。但这种方法的人力成本和时间成本极高,难以制造大样本数据集,不具有实用价值。在这种情况下,传统的RNN训练和预测方法不再适用。
联结主义时间分类是一种RNN的端到端的训练和预测方法。通过CTC,RNN无需事先对特征序列和图像信息之间的映射关系进行标注,就可以直接对特征序列进行学习。实现RNN端到端训练。至此,便完成了循环神经网络端到端训练的损失函数设计与计算。
以该损失函数值最小为优化目标,对神经网络参数进行优化,就实现了直接对特征序列进行端到端学习训练的目的。
三、端到端鲁棒性
数据集的制作主要分为采集和处理两个部分。采集部分是指根据实验需求,使用工业相机采集对应的图像数据。数据处理部分是指根据数据集需求,对采集的图像数据进行标注、分割、格式转换等等。
为了检验算法鲁棒性,这些图像在采集过程中采用了不同的亮度、对比度、饱和度,得到了一组明暗不同、清晰度存在变化的图像数据。同时,为了检验定位算法对倾斜字符的检测效果,采集的图像中喷码字符方向也存在差别,有的为水平字符,有的存在一定程度的倾斜。
此外,这些汽车刹车片本身也存在污迹、反光、字符区域磨损的问题,同样提高了这些图像的复杂度。采集了图像后,需要对图像中的字符区域进行人工标注。对于传统算法而言,在算法完成字符检测得到字符区域坐标后,可以通过和人工标注的坐标进行对比,以检验算法的字符区域定位效果。对于深度学习算法而言,人工标注是制作神经网络数据集的必要步骤。
为了进一步验证算法的鲁棒性,检验算法的识别性能,在采集的1470张字符块的基础上,加入1030张通过计算机随机生成的字符块图片,组成共2500张字符块图片。其中2000张设为训练集,其余500张设为测试集,训练集和测试集图片数量比例约为4:1。该数据集将用于端到端字符识别算法通用性和鲁棒性的验证。
采集了汽车刹车片喷码图像,并对这些图像进行了处理和标注,制作了字符定位数据集和字符识别数据集。接着,将提出的改进MSER和改进EAST算法应用于字符定位数据集,对算法的性能进行实验与分析,得出了两种算法均满足工业需求,其中改进MSER算法速度更快而改进EAST算法鲁棒性更好的结论。
之后,又将提出的分割识别算法和端到端识别算法在字符识别数据集中进行实验,通过对实验结果进行分析,得出了两种算法均满足工业需求,其中端到端识别鲁棒性更好的结论。
结语:
目前基于视觉的字符识别普遍应用于识别车牌[1,2]和识别证件[3-5]等识别对象有一定标准的场景。在这种应用场景中,机器视觉表现出优秀的性能。而对于在自然场景中没有统一标准的识别对象,虽然有很多学者进行了,但是从实时性和精确性上分析,其性能距离工业上的应用推广还有一定的差距。对于工厂中喷码字符识别而言,其识别目标存在字符个数、字符高度和宽度、字符清晰度以及喷码样式等的变化。
此外,字符本身为断点式喷码,且上下左右的间隔都较近,容易发生粘连。因此,喷码识别的背景环境虽然没有车牌识别和自然场景文本识别那么复杂,但是识别对象比车牌和大部分自然场景中的文本都更加困难。刹车片喷码字符识别作为自然场景字符识别在工业上的推广应用,具有重要的价值和实用价值。
标签: #提取图像特征点的算法