前言:
今天咱们对“新闻分类系统”大概比较重视,兄弟们都想要分析一些“新闻分类系统”的相关资讯。那么小编同时在网络上搜集了一些对于“新闻分类系统””的相关文章,希望我们能喜欢,各位老铁们一起来了解一下吧!数据集是机器学习无法忽视的话题,我们根据数据集的类型,收集一些常用的数据集,方便大家快速找到自己需要的数据集。
AG News
Character-level convolutional networks for text classification
来自 ComeToMyHead(一个学术新闻搜索引擎) 2000多个新闻源的新闻文章。这个数据集包括 120000 条训练样本和 7600 条测试样本。每一条样本是一短文本,有4个类别。
20 Newsgroups
20ng 包含 20 个不同主题的新闻组文章。这个数据集有不同的版本用于不同的用途:文本聚类、文本分类等等。一个常见的版本包含 18821 条样本。
Sogou News
How to fine-tune bert for text classification?
这个数据集混合了 SogouCA 和 SogouCS 两个的新闻语料库。新闻的分类标签由URL中的域名决定。比如说 就是指 sports 这个类别。
Reuters News
Reuters-21578 是从1987年的 路透社财经新闻 里收集的。ApteMod是Reuters-21578的多类版本,包含10,788个文档。它有 90 个分类,7769 条训练文档和 3019 条测试文档。还有许多其他数据集都来自于该数据集的不同子集,例如R8,R52,RCV1和RCV1-v2。
其他常见数据集Bing news
Concept-based short text classification and ranking
NYTimes
Rtexttools: Automatic text classification via supervised learning
BBC
Practical solutions to the problem of diagonal dominance in kernel document clustering
Google news
Google news personalization: scalable online collaborative filtering
参考文献Deep Learning Based Text Classification: A Comprehensive Review
标签: #新闻分类系统