一、维基百科类
No.1
Identifying Machine-Paraphrased Plagiarism
● 发布方:德国伍珀塔尔大学 · 布尔诺孟德尔大学
● 发布时间:2021
● 简介: 该数据集用于训练和评估用于检测机器释义文本的模型。训练集包含从 8,024 篇维基百科(英文)文章(4,012 篇原文,4,012 篇使用 SpinBot API 释义)中提取的 200,767 段(98,282 篇原文,102,485 篇释义)。测试集分为 3 个子集:一个来自 arXiv 研究论文的预印本,一个来自毕业论文,另一个来自 Wikipedia 文章。此外,还使用了不同的 Marchine-paraphrasing方法。
● 下载地址: https://opendatalab.org.cn/Identifying_Machine-Paraphrased_etc
No.2
Benchmark for Neural Paraphrase Detection
● 发布方:德国伍珀塔尔大学
● 发布时间:2021
● 简介: 这是神经释义检测的基准,用于区分原始内容和机器生成的内容。训练:从 4,012 篇(英文)维基百科文章中提取 1,474,230 个对齐的段落(98,282 个原始段落,1,375,948 个用 3 个模型和 5 个超参数配置进行释义的段落,每个 98,282 个)。
● 下载地址: https://opendatalab.org.cn/Benchmark_for_Neural_Paraphrase_etc
No.3
NatCat
● 发布时间:2021
● 简介: 来自三个在线资源的通用文本分类数据集 (NatCat):Wikipedia、Reddit 和 Stack Exchange。这些数据集由源自社区自然发生的手动管理的文档-类别对组成。
● 下载地址: https://opendatalab.org.cn/NatCat
No.4
Quoref
● 发布方:艾伦人工智能研究所 · 华盛顿大学
● 发布时间:2019
● 简介: Quoref 是一个 QA 数据集,用于测试阅读理解系统的共指推理能力。在这个跨度选择基准包含来自维基百科的 4.7K 段落中的 24K 问题,系统必须先解决硬共指,然后才能在段落中选择适当的跨度来回答问题。
● 下载地址: https://opendatalab.com/Quoref
No.5
QuAC (Question Answering in Context)
● 发布方:艾伦人工智能研究所 · 华盛顿大学 · 斯坦福大学 · 马萨诸塞大学阿默斯特分校
● 发布时间:2018
● 简介: 上下文问答是一个大规模的数据集,由大约 14K 众包问答对话和总共 98K 问答对组成。数据实例包括两个群众工作者之间的交互式对话:(1)提出一系列自由形式问题以尽可能多地了解隐藏的维基百科文本的学生,以及(2)通过提供简短摘录来回答问题的老师(跨越)来自文本。
● 下载地址: https://opendatalab.org.cn/QuAC
No.6
TriviaQA
● 发布方:华盛顿大学 · 艾伦人工智能研究所
● 发布时间:2017
● 简介: TriviaQA 是一个现实的基于文本的问答数据集,其中包括来自维基百科和网络的 662K 文档中的 950K 问答对。该数据集比斯坦福问答数据集(SQuAD)等标准 QA 基准数据集更具挑战性,因为问题的答案可能无法通过跨度预测直接获得,而且上下文很长。TriviaQA 数据集由人工验证和机器生成的 QA 子集组成。
● 下载地址: https://opendatalab.org.cn/TriviaQA
No.7
WikiQA (Wikipedia open-domain Question Answering)
● 发布方:微软研究院
● 发布时间:2015
● 简介: WikiQA 语料库是一组公开可用的问题和句子对,收集和注释用于研究开放域问答。为了反映一般用户的真实信息需求,使用必应查询日志作为问题来源。每个问题都链接到一个可能有答案的维基百科页面。由于 Wikipedia 页面的摘要部分提供了有关该主题的基本且通常最重要的信息,因此本部分中的句子被用作候选答案。该语料库包括 3,047 个问题和 29,258 个句子,其中 1,473 个句子被标记为相应问题的答案句。
● 下载地址: https://opendatalab.org.cn/WikiQA
二、书籍类
No.8
The Pile
● 发布方:EleutherAI
● 发布时间:2020
● 简介: The Pile 是一个 825 GiB 多样化的开源语言建模数据集,由 22 个较小的高质量数据集组合在一起组成。
● 下载地址: https://opendatalab.org.cn/The_Pile
No.9
BookCorpus
● 发布方:多伦多大学 · 麻省理工学院
● 发布时间:2015
● 简介: BookCorpus是由未出版的作者撰写的大量免费小说书籍,其中包含16种不同子流派 (例如,浪漫,历史,冒险等) 的11,038本书 (约74m句子和1g单词)。
● 下载地址: https://opendatalab.org.cn/BookCorpus
No.10
EXEQ-300k
● 发布方:北京大学 · 宾夕法尼亚州立大学 · 中山大学
● 发布时间:2020
● 简介: EXEQ-300k 数据集包含 290,479 个详细问题以及来自数学堆栈交换的相应数学标题。该数据集可用于从详细的数学问题中生成简洁的数学标题。
● 下载地址: https://opendatalab.org.cn/EXEQ-300k
三、期刊类
No.11
Pubmed
● 发布方:马里兰大学
● 发布时间:2008
● 简介: Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物,分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述,该字典由 500 个唯一词组成。
● 下载地址: https://opendatalab.org.cn/Pubmed
No.12
PubMed Paper Reading Dataset
● 发布方:伊利诺伊大学厄巴纳香槟分校 · 滴滴实验室 · 伦斯勒理工学院 · 北卡罗来纳大学教堂山分校· 华盛顿大学
● 发布时间:2019
● 简介: 该数据集从 PubMed 收集了 14,857 个实体、133 个关系以及对应于标记化文本的实体。它包含 875,698 个训练对、109,462 个开发对和 109,462 个测试对。
● 下载地址: https://opendatalab.org.cn/PubMed_Paper_Reading_Dataset
No.13
PubMed RCT (PubMed 200k RCT)
● 发布方:Adobe Research · 麻省理工学院
● 发布时间:2017
● 简介: PubMed 200k RCT 是基于 PubMed 的用于顺序句子分类的新数据集。该数据集由大约 200,000 个随机对照试验摘要组成,总计 230 万个句子。每个摘要的每个句子都使用以下类别之一标记其在摘要中的角色:背景、目标、方法、结果或结论。发布此数据集的目的是双重的。首先,用于顺序短文本分类(即对出现在序列中的短文本进行分类)的大多数数据集都很小:作者希望发布一个新的大型数据集将有助于为这项任务开发更准确的算法。其次,从应用的角度来看,研究人员需要更好的工具来有效地浏览文献。自动对摘要中的每个句子进行分类将有助于研究人员更有效地阅读摘要,尤其是在摘要可能很长的领域,例如医学领域。
● 下载地址: https://opendatalab.org.cn/PubMed_RCT
No.14
MedHop
● 发布方:伦敦大学学院 · Bloomsbury AI
● 发布时间:2018
● 简介: 与 WikiHop 格式相同,MedHop 数据集基于 PubMed 的研究论文摘要,查询是关于药物对之间的相互作用。必须通过结合来自药物和蛋白质的一系列反应的信息来推断出正确的答案。
● 下载地址: https://opendatalab.org.cn/MedHop
No.15
ArxivPapers
● 发布方:Facebook · 伦敦大学学院 · DeepMind
● 发布时间:2020
● 简介: ArxivPapers 数据集是 2007 年至 2020 年间在 http://arXiv.org 上发表的超过 104K 篇与机器学习相关的未标记论文集合。该数据集包括大约 94K 篇论文(可以使用 LaTeX 源代码),这些论文采用结构化形式,其中论文分为标题、摘要、部分、段落和参考文献。此外,该数据集包含从 LaTeX 论文中提取的超过 277K 表。由于论文许可,数据集作为元数据和开源管道发布,可用于获取和转换论文。
● 下载地址: https://opendatalab.org.cn/ArxivPapers
No.16
unarXive
● 发布方:Karlsruhe Institute of Technology
● 发布时间:2020
● 简介: 包含出版物全文、带注释的文本引用和元数据链接的学术数据集。unarXive 数据集包含 100 万篇纯文本论文 6300 万引文上下文 3900 万参考字符串 1600 万个连接的引文网络 数据来自 1991 年至 2020/07 年期间 arXiv 上的所有 LaTeX 源,因此质量高于生成的数据从 PDF 文件。此外,由于所有施引论文均以全文形式提供,因此可以提取任意大小的引文上下文。数据集的典型用途是引文推荐中的方法 引文上下文分析 参考字符串解析 生成数据集的代码是公开的。
● 下载地址: https://opendatalab.org.cn/unarXive
No.17
arXiv Summarization Dataset
● 发布方:Georgetown University · Adobe Research
● 发布时间:2018
● 简介: 这是一个用于评估研究论文摘要方法的数据集。
● 下载地址: https://opendatalab.org.cn/arXiv_Summarization_Dataset
No.18
SCICAP
● 发布方:宾夕法尼亚州立大学
● 发布时间:2021
● 简介: SciCap一种基于计算机科学arXiv论文的大型图形字幕数据集,2010年发表,2020年。SCICAP包含超过416k个图形,这些图形集中在从290,000多篇论文中提取的一个显性图形类型-图形图。
● 下载地址: https://opendatalab.org.cn/SCICAP
No.19
MathMLben (Formula semantics benchmark)
● 发布方:康斯坦茨大学 · 美国国家标准技术研究所
● 发布时间:2017
● 简介: MathMLben 是用于数学格式转换(LaTeX ↔ MathML ↔ CAS)的评估工具的基准。它包含从 NTCIR 11/12 arXiv 和 Wikipedia 任务/数据集、NIST 数学函数数字图书馆 (DLMF) 和使用 AnnoMathTeX 公式和标识符名称推荐系统 (https://annomathtex.wmflabs.组织)。
● 下载地址: https://opendatalab.org.cn/MathMLben
四、Reddit内容聚合社区类
No.20
OpenWebText
● 发布方:华盛顿大学 · Facebook AI Research
● 发布时间:2019
● 简介: OpenWebText 是 WebText 语料库的开源再造。该文本是从 Reddit 上共享的 URL 中提取的 Web 内容,至少获得了 3 次赞成(38GB)。
● 下载地址: https://opendatalab.org.cn/OpenWebText
五、Common Crawl网络爬虫开放数据库
No.21
C4 (Colossal Clean Crawled Corpus)
● 发布方:Google Research
● 发布时间:2020
● 简介: C4 是 Common Crawl 的网络爬虫语料库的一个巨大的、干净的版本。它基于 Common Crawl 数据集:https://commoncrawl.org。它用于训练 T5 文本到文本的 Transformer 模型。可以从 allennlp 以预处理的形式下载数据集。
● 下载地址: https://opendatalab.org.cn/C4
No.22
Common Crawl
● 发布方:法国国家信息与自动化研究所 · 索邦大学
● 发布时间:2019
● 简介: Common Crawl 语料库包含在 12 年的网络爬取过程中收集的 PB 级数据。语料库包含原始网页数据、元数据提取和文本提取。Common Crawl 数据存储在 Amazon Web Services 的公共数据集和全球多个学术云平台上。
● 下载地址: https://opendatalab.org.cn/Common_Crawl
六、其他类
代码数据集
No.23
CodeSearchNet
● 发布方:微软研究院 · GitHub
● 发布时间:2020
● 简介: CodeSearchNet 语料库是一个大型函数数据集,其中包含来自 GitHub 上的开源项目的用 Go、Java、JavaScript、PHP、Python 和 Ruby 编写的相关文档。CodeSearchNet 语料库包括:* 总共 600 万个方法 * 其中 200 万个方法具有相关文档(文档字符串、JavaDoc 等) * 指示找到数据的原始位置(例如存储库或行号)的元数据。
● 下载地址: https://github.com/github/CodeSearchNet
No.24
StaQC
● 发布方:俄亥俄州立大学 · 华盛顿大学 · 富士通研究所
● 发布时间:2018
● 简介: StaQC(Stack Overflow 问题代码对)是迄今为止最大的数据集,大约有 148K Python 和 120K SQL 域问题代码对,它们是使用 Bi-View Hierarchical Neural Network 从 Stack Overflow 中自动挖掘出来的。
● 下载地址: https://opendatalab.org.cn/StaQC
No.25
CodeExp
● 发布方:北京航空航天大学 · 微软研究院 · 多伦多大学
● 发布时间:2022
● 简介: 我们提供了一个python代码-docstring语料库CodeExp,其中包含 (1) 2.3的大分区 百万原始代码-docstring对,(2) 一个介质 158,000对的分区从 使用学习的过滤器的原始语料库,以及 (3) 具有严格的人类13,000对的分区 注释。我们的数据收集过程利用了从人类那里学到的注释模型 自动过滤高质量的注释 来自原始GitHub数据集的代码-docstring对。
● 下载地址: https://opendatalab.org.cn/CodeExp
No.26
ETH Py150 Open
● 发布方:印度科学理工学院 · Google AI Research
● 发布时间:2020
● 简介: 来自 GitHub 的 740 万个 Python 文件的大规模去重语料库。
● 下载地址: https://opendatalab.org.cn/ETH_Py150_Open
论坛数据集
No.27
Federated Stack Overflow
● 发布方:Google Research
● 发布时间:2022
● 简介: 数据由所有问题和答案的正文组成。Body被解析成句子,任何少于 100 个句子的用户都会从数据中删除。最少的预处理如下进行:小写文本, 对 HTML 符号进行转义, 删除非ASCII符号, 单独的标点符号作为单独的标记(撇号和连字符除外), 去除多余的空白, 用特殊标记替换 URLS。此外,还提供以下元数据:创建日期 问题标题 问题标签 问题分数 类型(“问题”或“答案”)。
● 下载地址: https://opendatalab.org.cn/Federated_Stack_Overflow
No.28
QUASAR (QUestion Answering by Search And Reading)
● 发布方:卡内基梅隆大学
● 发布时间:2017
● 简介: 搜索和阅读问答(QUASAR)是一个由QUASAR-S和QUASAR-T组成的大规模数据集。这些数据集中的每一个都旨在专注于评估旨在理解自然语言查询、大量文本语料库并从语料库中提取问题答案的系统。具体来说,QUASAR-S 包含 37,012 个填空题,这些问题是使用实体标签从流行的网站 Stack Overflow 收集的。QUASAR-T 数据集包含从各种互联网资源收集的 43,012 个开放域问题。该数据集中每个问题的候选文档是从基于 Apache Lucene 的搜索引擎中检索的,该搜索引擎构建在 ClueWeb09 数据集之上。
● 下载地址: https://opendatalab.org.cn/QUASAR
No.29
GIF Reply Dataset
● 发布方:卡内基梅隆大学
● 发布时间:2017
● 简介: 发布的 GIF 回复数据集包含 1,562,701 次 Twitter 上的真实文本 - GIF 对话。在这些对话中,使用了 115,586 个独特的 GIF。元数据,包括 OCR 提取的文本、带注释的标签和对象名称,也可用于该数据集中的一些 GIF。
● 下载地址: https://opendatalab.org.cn/GIF_Reply_Dataset
视频字幕数据集
No.30
TVC (TV show Captions)
● 发布方:北卡罗来纳大学教堂山分校
● 发布时间:2020
● 简介: 电视节目 Caption 是一个大规模的多模态字幕数据集,包含 261,490 个字幕描述和 108,965 个短视频片段。TVC 是独一无二的,因为它的字幕也可以描述对话/字幕,而其他数据集中的字幕仅描述视觉内容。
● 下载地址: https://opendatalab.org.cn/TVC
No.31
The Stack(6TB)
下载链接:https://huggingface.co/datasets/bigcode/the-stack
The Stack数据集,这是一个具有3.1TB的合法开源代码语料,拥有30种编程语言(注:最新版The Stack v1.1已经拓展到了308种语言,6TB数据);
No.32
CodeParrot github-code(500GB)
下载链接:https://huggingface.co/datasets/codeparrot/github-code
No.33
PolyCoder(249GB)
下载链接:https://github.com/VHellendoorn/Code-LMs
用的是GitHub上的公开代码,主要选取的是各种编程语言中比较受欢迎的库,每个库至少有50 Stars,采用了多种编程语言代码集来训练,一共有12种
No.34
Google BigQuery(2B文件)
Google BigQuery提供了GitHub上许可存储库的快照,可以通过SQL查询进行过滤。AlphaCode,BLOOM,InCoder、CodeGen)都在他们的预训练数据集中包括了这部分数据。
No.35
ProjectCodeNet(5亿行)
下载链接:https://github.com/IBM/Project_CodeNet
该数据集包含 1400 万个代码样本,共有用 55 种编程语言编写的 5 亿行代码,其中 C++ 是样本中使用最多的语言,Python 位居第二。
No.36
CodeXGLUE
下载链接:GitHub - microsoft/CodeXGLUE: CodeXGLUE
microsoft 开源的,包含10个任务及14个数据集
指令集+答案
- Stanford-Alpaca数据集,52K的英文,采用Self-Instruct技术获取,数据已开源:
https://github.com/tatsu-lab/stanford_alpaca/blob/main/alpaca_data.json - 中文Stanford-Alpaca数据集,52K的中文数据,通过机器翻译翻译将Stanford-Alpaca翻译筛选成中文获得:
https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/data/alpaca_data_zh_51k.json - pCLUE数据,基于提示的大规模预训练数据集,根据CLUE评测标准转化而来,数据量较大,有300K之多
https://github.com/CLUEbenchmark/pCLUE/tree/main/datasets - Belle数据集,主要是中文,目前有2M和1.5M两个版本,都已经开源,数据获取方法同Stanford-Alpaca
2M:https://huggingface.co/datasets/BelleGroup/train_2M_CN
1M:https://huggingface.co/datasets/BelleGroup/train_1M_CN
0.5M:https://huggingface.co/datasets/BelleGroup/train_0.5M_CN - 微软GPT-4数据集,包括中文和英文数据,采用Stanford-Alpaca方式,但是数据获取用的是GPT-4
中文:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM/blob/main/data/alpaca_gpt4_data_zh.json
英文:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM/blob/main/data/alpaca_gpt4_data.json - ShareChat数据集,其将ChatGPT上获取的数据清洗/翻译成高质量的中文语料,从而推进国内AI的发展,让中国人人可炼优质中文Chat模型,约约九万个对话数据,英文68000,中文11000条。
https://paratranz.cn/projects/6725/files - OpenAssistant Conversations, 该数据集是由LAION AI等机构的研究者收集的大量基于文本的输入和反馈的多样化和独特数据集。该数据集有161443条消息,涵盖35种不同的语言。该数据集的诞生主要是众包的形式,参与者超过了13500名志愿者,数据集目前面向所有人开源开放。
https://huggingface.co/datasets/OpenAssistant/oasst1 - firefly-train-1.1M数据集,该数据集是一份高质量的包含1.1M中文多任务指令微调数据集,包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。利用该数据集,研究者微调训练了一个中文对话式大语言模型(Firefly(流萤))。
https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M - LLaVA-Instruct-150K,该数据集是一份高质量多模态指令数据,综合考虑了图像的符号化表示、GPT-4、提示工程等。
https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K - UltraChat,该项目采用了两个独立的ChatGPT Turbo API来确保数据质量,其中一个模型扮演用户角色来生成问题或指令,另一个模型生成反馈。该项目的另一个质量保障措施是不会直接使用互联网上的数据作为提示。UltraChat对对话数据覆盖的主题和任务类型进行了系统的分类和设计,还对用户模型和回复模型进行了细致的提示工程,它包含三个部分:关于世界的问题、写作与创作和对于现有资料的辅助改写。该数据集目前只放出了英文版,期待中文版的开源。https://huggingface.co/datasets/stingning/ultrachat
- MOSS数据集,MOSS在开源其模型的同时,开源了部分数据集,其中包括moss-002-sft-data、moss-003-sft-data、moss-003-sft-plugin-data和moss-003-pm-data,其中只有moss-002-sft-data完全开源,其由text-davinci-003生成,包括中、英各约59万条、57万条。moss-002-sft-data:https://huggingface.co/datasets/fnlp/moss-002-sft-data
仅指令集
awesome-chatgpt-prompts,该项目基本通过众筹的方式,大家一起设计Prompts,可以用来调教ChatGPT,也可以拿来用Stanford-alpaca形式自行获取语料,有中英两个版本:
英文:https://github.com/f/awesome-chatgpt-prompts/blob/main/prompts.csv
简体中文:https://github.com/PlexPt/awesome-chatgpt-prompts-zh/blob/main/prompts-zh.json
中国台湾繁体:https://github.com/PlexPt/awesome-chatgpt-prompts-zh/blob/main/prompts-zh-TW.json