深度学习开放数据集 - Open-source, Distributed Deep Learning for the JVM

heavysnake 发布于4月前 阅读45次
0 条评论

深度学习开放数据集

本页为您整理汇总了各类可供机器学习研究使用的高质量数据集。欢迎您为本页列表推荐新的数据集!您还可以在 维基百科 等其他地方找到类似的数据集一览表。

最近添加

自然图像数据集

  • MNIST:手写数字 :最常用的合理性检验数据集,由黑白手写数字图像组成,图像大小为25x25,数字居中显示。MNIST是一项比较简单的任务,通过MNIST测试不一定表明模型本身能有效运作。
  • CIFAR10 / CIFAR100 :32×32自然图像数据集,10或100种类别。目前已不再普遍使用,但还是可以用来进行合理性检验。
  • Caltech 101 :101类物体的图片。
  • Caltech 256 :256类物体的图片。
  • STL-10数据集 :一个用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。与CIFAR-10相似但有些改动。
  • 街景门牌号码(SVHN)数据集 : 来自谷歌街景的门牌号码图像,可将其视作自然的循环式MNIST数据集。
  • NORB :以不同照明及摆放方式摄制的玩具模型的双目图像。
  • Pascal VOC :通用图像分割/分类数据集,对建立实际图像标注网络的作用有限,但很适合作为基线。
  • Labelme :大型已标注图像数据集。
  • ImageNet :各类新算法实际使用的图像数据集。ImageNet采用包含1000种类别的WordNet分类层级,而许多图像API公司的REST接口提供的标签似乎都与ImageNet的体系颇为相似。
  • LSUN :用于场景理解和多项辅助任务(房间布局估测、显著性预测等)的竞赛数据集。
  • MS COCO :通用图像理解/描述生成的竞赛数据集。
  • COIL 20 :360度旋转拍摄的各类物体图像。
  • COIL100 :360度旋转拍摄的各类物体图像。
  • 谷歌开放图像数据集 :汇集了900万条图像URL链接,经创作共用协议授权,所有图像“均已用6000多种类别的标签进行标注”。

地理空间数据

  • OpenStreetMap :开放授权的数据集,包含整个地球的向量数据。包含美国统计局数据(的较老版本)。
  • Landsat8 :整个地球表面的卫星照片,每隔数周更新一次。
  • NEXRAD : 多普勒雷达扫描的美国大气环境数据。

人工数据集

脸部图像数据集

视频数据集

  • Youtube-8M :用于视频理解研究的大型多样化已标记视频数据集。

文本数据集

  • 20个新闻组数据集 :分类任务,将出现的词映射至新闻组ID。文本分类的经典数据集之一,通常可以用于纯分类算法的基准测试,或者用于验证任意一种IR/索引算法。
  • 路透社新闻数据集 :(较老)纯分类用途的新闻电讯文本数据集。常用于教程。
  • Penn Treebank :用于下一词预测或下一字预测。
  • UCI垃圾邮件数据库Spambase :(较老)来自著名的UCI机器学习库的经典垃圾邮件数据集。该数据集经过细致的审编,因此可以作为个性化垃圾邮件筛选学习的基线。
  • 广播新闻数据集 :用于下一词预测的经典大型文本数据集。
  • 文本分类数据集 : 来自Zhang等人,2015;八个内容丰富的文本分类数据集,可用于新文本分类基线的基准测试。样例大小为120K至3.6M,问题所涉及的类别从两个到14个不等。数据集内容来自DBPedia、亚马逊、Yelp、雅虎和AG。
  • WikiText :取自高质量维基百科文章的大型语言模型语料库,由Salesforce MetaMind进行审编。
  • SQuAD :斯坦福问答数据集——用途广泛的问题回答及阅读理解数据集,每项问题的答案都是一段文本。
  • 十亿词数据集 :大型通用语言模型数据集,常用于训练Word2Vec等词的分布式表示。
  • Common Crawl : 万兆字节级的网页爬取数据集——最常用于学习词向量。可通过亚马逊S3免费获取。数据集的内容从万维网爬取获得,因此也可以用作互联网的数据集。
  • 谷歌图书Ngram数据集 :取自谷歌图书的连续词数据,是探索一个词何时开始被广泛使用的简易方法。
  • Yelp公开数据集 :Yelp商户、评论及用户数据的子集,用于自然语言处理(NLP)。

问答

  • Maluuba新闻问答数据集 :基于CNN新闻报道的1.2万对问答。
  • Quora问答对 :Quora发布的首个数据集,包含副本/语义相似度标签。
  • CMU问答数据集 :用维基百科文章人工生成的事实型问答对,配有难度评级。
  • Maluuba目标导向对话 :程序型会话数据集,对话旨在完成一项任务或决策,常用于聊天机器人。
  • bAbi :来自Facebook人工智能研究所(FAIR)的综合型阅读理解及问答数据集。
  • 儿童图书测试 :从古腾堡计划提供的儿童图书中提取问答对(问题 + 上下文、答案)作为基线,可以用于问题回答(阅读理解)和事实型查询。

情感

  • 多领域情感分析数据集 :较老的学术型数据集。
  • IMDB :较老且相对较小的二元情感分类数据集。目前的研究论文中多改用更大的数据集来进行基准测试。
  • 斯坦福情感Treebank :斯坦福的情感数据集,每个句子的解析树的各个节点都有高精度的情感标注。

查看原文: 深度学习开放数据集 - Open-source, Distributed Deep Learning for the JVM

  • whitebear
  • smallmeercat
  • tinygorilla
  • organicduck
  • tinypanda
  • goldenswan
需要 登录 后回复方可回复, 如果你还没有账号你可以 注册 一个帐号。