来源:景略集智
学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题,需要有不同的数据准备和建模方法。我们首先分享一些有趣的数据集,权当练习资源,然后会说一说可以去哪里获得干净的高质量数据集。
20个趣味数据集
在Medium上有位叫Oliver Cameron的程序猿小哥特地分享了20个有趣的数据集,比如UFO目击报告等。整理如下:
从20个网络新闻组中收集的20000条文本数据,可用于文本分析、分类等。
文件大小:61.6 M
.data.html
Amazon Reviews
从亚马逊网站上获取的多达1亿4千2百万条顾客的购物评论,可用于情感分析、推荐系统研究等等。
文件大小:20G
/
包含数千个足球的踢球场景,用于帮足球教练做出最优决策。
文件大小:876 KB
/?target=https%3A//wdflower/wp-content/uploads/2016/03/Football-Scenarios-DFE-832307.csv
Horses for Courses
赛马数据,用于预测赛马结果。
文件大小:19 M
Human Activity Recognition with Smartphones
识别人类日常活动比如走路、坐下等的感应数据。
文件大小:25 M
1万3千张附有人物名字的人脸照片,可用于人脸识别训练、多远训练,也可作为测试集。
文件大小:173 M
/
根据健康调查问题预测药物使用状况。
文件大小:2 G
50个玩具雕塑的立体图像数据集,可用于图像中的3D物体识别。
文件大小:包含多个文件,约5G
.0/
1百万首歌曲的音频特征及元数据的数据集,可用于音频识别与分类。
文件大小:1.8 G
/
收集了5574份SMS文本数据,部分是正常内容,部分是垃圾内容,可用于训练垃圾过滤系统。
文件大小:204 KB
/
收集的推特推文样本,已经根据是否具有攻击性和包含仇恨内容进行了判断,可用于训练社交网络内容审核。
文件大小:2.66 M
下载地址:.csv
1万5千个Flikr照片ID,均以按照美观度进行了分级,可用于图像分析。
文件大小:138 KB,需使用Flikr API获取照片。
/
雅虎用户之间使用雅虎Messenger相互之间联系和交流的数据,可用于识别重要的社交联系和社交中有影响力的人。
文件大小:28 M
.php?datatype=g
正常心跳和不正常心跳的数据,用于识别心脏杂音、预测心脏病等。
文件大小:47.7 M
/
根据给定钞票的数个度量的照片预测是真钞还是假钞。它是一个二元分类问题。每个类的观测值数量不均等。一共有 1372 个观察值,4个输入变量和1个输出变量。
文件大小:45 KB
+authentication
Wine Quality
白葡萄酒和红葡萄酒的化学属性和酒的品质,用于酒的分类问题。
文件大小:共3个文件,343KB
+Quality
根据蘑菇的特点进行假设性地分类蘑菇属于有毒还是可食用。
文件大小:共3个文件,480 KB
一共8万份历史上的UFO事件报告,可用于UFO事件的分类和回归分析。该数据集以经过标准化处理。
文件大小:14.6 M
过去200年世界各地冲突和威胁的数据集,包括军事行动、伤亡状况、敌对程度和冲突结果等,可用于地区冲突事件的建模与分析。
文件大小:962 KB
过去十几年各个赛季NBA和MLB各大球队与球员的状态(截止到2017年),可用于NBA及超级碗大型赛事的预测。
文件大小:包含多个数据集
/
俗话说授人以鱼不如授人以渔嘛。看完这20个数据集后,我们再说一些发现数据集的好去处。不然等这20个数据集用完你肯定就把我忘了..
在进行机器学习项目时,都希望能从数据集中的一些列预测出另一列,为了能做到这点,我们需要确保:
数据集不能太混乱——如果太混乱,我们需要花费大量时间清理数据。
要有个有趣的目标列作为预测目标。
其它变量对目标列有一定的解释力。
幸好,网上有一些专为机器学习准备的数据集,都预先经过了清理,能很快用来测试算法。我们可以去这些地方获取这样的干净数据集:
Kaggle是一个举办机器学习比赛的数据科学社区,网站上有很多有意思的数据集。可以通过参加Kaggle机器学习比赛来下载相关数据集。
Kaggle数据集地址:
这里是Kaggle上举办的一些机器学习比赛:
UCI Machine Learning Repository可以说是互联网上资历最老的数据集来源之一,上面包含了各种各样的数据集,而且绝大部分数据集都很干净,可以直接应用于机器学习项目。无需注册就可下载:
.html
Quandl是一个专门针对经济学和金融学领域的数据集资源库,部分可免费下载,部分需要付费。对于预测经济指标和股票等这样的机器学习项目,Quandl上的数据集是很适合的资源:
Socrata OpenData包含很多干净的数据集,可以直接在浏览器上使用,也可以下载下来,主要是用作数据分析。
/
此外,如果你对数据集的质量要求不是很严格,一些科技公司推出的数据集也是不错的资源:
亚马逊公共数据集:
/?_encoding=UTF8&jiveRedirect=1
谷歌公共数据集:
/
BuzzFeed数据集:
最后推出一个重磅资源,大神 Antoine Miech 将 27 个视频数据集整合在了一起,包含人类手势、动作识别等十几个类型,基本上你想用的视频数据集都能在这里找到:
/
好了,今天的车就先开到这里。快下车去找找自己需要的数据集吧!
本文发布于:2024-01-27 17:53:00,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17063491801751.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |