龙空技术网

【数据】新闻分类数据集

chengsen 68

前言:

今天咱们对“新闻分类系统”大概比较重视,兄弟们都想要分析一些“新闻分类系统”的相关资讯。那么小编同时在网络上搜集了一些对于“新闻分类系统””的相关文章,希望我们能喜欢,各位老铁们一起来了解一下吧!

数据集是机器学习无法忽视的话题,我们根据数据集的类型,收集一些常用的数据集,方便大家快速找到自己需要的数据集。

AG News

Character-level convolutional networks for text classification

来自 ComeToMyHead(一个学术新闻搜索引擎) 2000多个新闻源的新闻文章。这个数据集包括 120000 条训练样本和 7600 条测试样本。每一条样本是一短文本,有4个类别。

20 Newsgroups

20ng 包含 20 个不同主题的新闻组文章。这个数据集有不同的版本用于不同的用途:文本聚类、文本分类等等。一个常见的版本包含 18821 条样本。

Sogou News

How to fine-tune bert for text classification?

这个数据集混合了 SogouCA 和 SogouCS 两个的新闻语料库。新闻的分类标签由URL中的域名决定。比如说 就是指 sports 这个类别。

Reuters News

Reuters-21578 是从1987年的 路透社财经新闻 里收集的。ApteMod是Reuters-21578的多类版本,包含10,788个文档。它有 90 个分类,7769 条训练文档和 3019 条测试文档。还有许多其他数据集都来自于该数据集的不同子集,例如R8,R52,RCV1和RCV1-v2。

其他常见数据集Bing news

Concept-based short text classification and ranking

NYTimes

Rtexttools: Automatic text classification via supervised learning

BBC

Practical solutions to the problem of diagonal dominance in kernel document clustering

Google news

Google news personalization: scalable online collaborative filtering

参考文献Deep Learning Based Text Classification: A Comprehensive Review

标签: #新闻分类系统