(选自Analytics Vidhya;作者:Pranav Dar;磐石编译)
目录
介绍
图像处理相关数据集
自然语言处理相关数据集
语音处理相关数据集
Supplement
通常来说,深度学习的关键在于实践。从图像处理到语音识别,每一个细分领域都有着独特的细微差别和解决方法。
然而,你可以从哪里获得这些数据呢?现在大家所看到的大部分研究论文都用的是专有数据集,这些专有数据集又通常不会公开。那么,想实践那些最新的理论方法往往就成了难题。
如果你也遇到了这样的问题,接下来我们会提供了一系列可用的公开数据集给大家。
在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以使用这些数据集来提高自己的能力。应用这些数据集将使您成为一名更好的数据科学家,并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果(SOTA)的论文,供您浏览并改进您的模型。
如何使用这些数据集?
首先要做的事:这些数据集的规模很大!所以请确保你的网络够快,确保下载没有任何限制。
有很多种方式可以使用这些数据集。比如:你可以使用它们来锻炼你的各种深度学习方法技巧;你可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例和公布你的新发现!
数据集分为三类:图像处理相关数据集,自然语言处理相关数据集和语音处理相关数据集。
目标分割
上下文关系识别
超像素分割
330K图像(> 200K已标记)
150万个目标
80个分类
91种目标
每张图片5个字幕
包含250,000个人(已标记)
大小:约25 GB(压缩包)
数量: 330K张图像,80个对象类别,每个图像5个描述,25万个人(已标记)
SOTA: Mask R-CNN
(.06870.pdf)
3. ImageNet
(.06870.pdf)
ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语,ImageNet平均提供了约1000个图像来说明每个短语。
大小:约150GB
数量:图像总数约1,500,000; 每个都有多个边界框和相应的类标签。
SOTA: Aggregated Residual Transformations for Deep Neural Networks
(.05431.pdf)
4. Open Images Dataset
()
Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别,且有图像层级的标注框进行注释。
大小: 500 GB(压缩包)
数量: 9,011,219张超过5k标签的图像
SOTA: Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.
(.)
5. VisualQA (/)
VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点:
265,016张图片(COCO和抽象场景)
每张图片至少有3个问题(平均5.4个问题)
每个问题10个基本事实
每个问题3个似乎合理(但可能不正确)的答案
指标自动评估
大小: 25 GB(压缩包)
数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本事实
SOTA: Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge(.02711)
6. The Street View House Numbers (SVHN)
(/)
这是一个为训练目标检测算法而“真实”存在的一个图像数据集--来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似,但SVHN包含更多的标记数据(超过600,000个图像)。
大小: 2.5 GB
数量: 10个类别,共6,30,420张图片
SOTA:Distributional Smoothing With Virtual Adversarial Training(.00677.pdf)
7. CIFAR-10
(.html)
这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次(training batches)和1个测试批次(test batches)。每个批次(batch)有10,000个图像。
大小:170 MB
数量:10个类别,共60,000张图片
SOTA:ShakeDrop regularization(=S1NHaMW0b)
8. Fashion-MNIST ()
Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。
大小:30 MB
数量:10个类,70,000张图片
SOTA:Random Erasing Data Augmentation(.04896)
.09207
推文的感情色彩(polarity)
推文的ID
推文的日期
推特(tweeter)的用户名
推文的文本内容
大小:80 MB(压缩包)
数量:160,000条推文
SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets
英汉和汉英
英语 - 捷克语和捷克语 - 英语
英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
英语 - 芬兰语和芬兰语 - 英语
英语 - 德语和德语 - 英语
英语 - 哈萨克语和哈萨克语 - 英语
英文 - 俄文和俄文 - 英文
英语 - 土耳其语和土耳其语 - 英语
大小:约15 GB
数量:约30,000,000个句子及其翻译
SOTA:Attention Is All You Need .03762
3个录音者
1500条录音(每个人每个数字50遍
英式发音
大小:10 MB
数量:1500条音频
SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures .00866
tracks.csv:包含所有(106,574首)曲目的基本信息--ID,标题,艺术家,流派,标签和播放次数。
genres.csv:163种流派的ID(包含名称和之间的关系)
features.csv:基本特征(使用librosa(https://librosa.github.io/librosa/)提取)。
echonest.csv:由Echonest(现在的Spotify)为13129首曲目提供的音频特征。(/) (/)
大小:约1000 GB
数量:约100,000曲目(tracks)
SOTA:Learning to Recognize Musical Genre from Audio
.05337.pdf
总数:698
单个时长:约30秒
总时长:约20940秒
大小:14GB(压缩)
数量:约700个音频样本
SOTA: A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles .pdf
鼓励对扩展到商业规模的算法进行研究
为评估研究提供参考数据集
作为使用API创建大型数据集的替代方法 The Echo Nest)
帮助新研究人员在MIR领域开始工作
数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的代码从7digital等服务器上获取。/ /
大小:280 GB
数量:一百万首歌曲哦!
SOTA: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge .pdf
本文发布于:2024-02-02 02:11:55,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170681437740727.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |