前言:
此时咱们对“提取语义特征的方法”大致比较讲究,你们都需要学习一些“提取语义特征的方法”的相关文章。那么小编同时在网络上汇集了一些关于“提取语义特征的方法””的相关内容,希望大家能喜欢,大家一起来学习一下吧!曹鲁慧,邓玉香,陈通,李钊
doi: 10.3976/j.issn.1002-4026.2019.06.015
摘要: 提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络特征提取模型提取的特征所取得的分类效果比TF-IDF、Word2vec特征提取方法得到的分类效果更好,同时使用SVM和随机森林分类器取得的分类效果略好于原生的神经网络。
Abstract: This paper proposes a text-feature extraction method based on a convolutional recurrent neural network, and in the meanwhile, it also compares the statistical methods TF-IDF and Word2vec for text-feature representation. Text features are then fed into the SVM and Random forest classifier to classify the Chinese academic papers from CNKI. Experimental results show that the classification results obtained from the feature extraction models based on the convolutional neural network and convolutional recurrent neural network are better than those obtained from the TF-IDF and Word2vec feature extraction methods. Furthermore, the classification results obtained from the SVM and Random forest classifier are slightly better than those obtained from the native neural network
特征提取是机器学习中一项非常重要的特征工程任务,是处理机器学习任务的关键,同时也是数据挖掘、信息检索等领域中非常重要的一项内容。在机器学习领域众多的任务中,特征提取往往决定任务结果的好坏,就常用的分类任务而言,其分类结果的好坏同样取决于其所提取的特征的质量。传统的特征提取方法通常是人工提取,这种方法提取的特征通常包含与分类任务无关以及冗余的特征,此外其特征的维度通常比较大,这不仅使得模型训练过程效率降低、消耗资源,也会使模型过拟合并降低分类的准确率。为了解决特征维度过大、效率低下的问题,通常会对传统方法提取的特征进行降维,在所有的特征中挑选一部分最能够表示文本信息并使得分类效果最好的特征子集,但是这将使得分类任务的工作量增大。
近年来越来越多的研究者通过深度学习技术对特征进行提取。Chen等[1]提出使用多个卷积层与池化层的卷积网络来对高光谱图像的特征进行提取,然后将提取的特征用于图像分类以及目标检测并取得了不错的效果。在文本特征提取方面,Liang等[2]对文本特征提取的方法进行了概述,介绍了常用的传统特征提取方法以及基于深度学习的特征提取方法。其中基于深度学习的特征提取方法主要包括自编码神经网络特征提取、受限波兹曼机特征提取、循环神经网络特征提取以及一些其他的特征提取方法。Saxena等[3]讨论了从传统的词袋模型方法到非传统神经网络方法在文本分类特征提取中的所有应用方法,包括词袋模型、向量空间模型、人工神经网络、模糊神经网络、卷积神经网络以及深度信念网络。Meng等[4]采用弱监督多级神经网络对文本特征进行提取。Yao等[5] 使用了图卷积神经网络对文本进行了特征提取和分类。因此,结合深度学习进行文本特征提取已经成为研究领域的热点。
目前使用深度学习技术提取特征在图像领域应用相对比较广泛,在文本特征提取方面文献报道相对较少,尤其是针对中文文本的特征提取研究成果较为稀缺。同时,使用传统的手工特征提取方法提取的特征维度通常比较大,使模型训练效率低、消耗资源。因此使用深度学习方法对中文长文本数据集进行特征提取,能够降低文本特征提取的难度,提高模型训练效率,同时也能够更准确地表示文本语义信息。本文使用两种不同的深度学习神经网络结构对文本特征进行提取。一种是卷积神经网络结构,该结构源于Kim[6]提出的用于句子分类的卷积神经网络结构;另一种是本文新提出的卷积循环神经网络结构。同时,使用传统的TF-IDF以及Word2vec特征提取方法对文本特征进行表示,提取的特征分别放入SVM与随机森林分类器中,对中国知网中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络结构提取的高层文本特征比传统方法提取的特征更能准确表示文本信息,同时使用SVM和随机森林分类器取得的分类效果比原生的神经网络的效果更好。
若需获取全文,请点击“了解更多”
标签: #提取语义特征的方法