NER
ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
---|---|---|---|---|---|---|---|---|---|
1 | CCKS2017中文电子病例命名实体识别 | 2017年5月 | 北京极目云健康科技有限公司 | 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 | 电子病历 | 命名实体识别 | \ | 中文 | |
2 | CCKS2018中文电子病例命名实体识别 | 2018年 | 医渡云(北京)技术有限公司 | CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 | 电子病历 | 命名实体识别 | \ | 中文 | |
3 | 微软亚研院MSRA命名实体识别识别数据集 | \ | MSRA | 数据来源于MSRA,标注形式为BIO,共有46365条语料 | Msra | 命名实体识别 | \ | 中文 | |
4 | 1998人民日报语料集实体识别标注集 | 1998年1月 | 人民日报 | 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 | 98人民日报 | 命名实体识别 | \ | 中文 | |
5 | Boson | \ | 玻森数据 | 数据来源为Boson,标注形式为BMEO,共有2000条语料 | Boson | 命名实体识别 | \ | 中文 | |
6 | CLUE Fine-Grain NER | 2020年 | CLUE | CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 | 细粒度;CULE | 命名实体识别 | \ | 中文 | |
7 | CoNLL-2003 | 2003 | CNTS - Language Technology Group | 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 | CoNLL-2003 | 命名实体识别 | 论文 | 英文 | |
8 | 微博实体识别 | 2015年 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | 命名实体识别 | ||||
9 | SIGHAN Bakeoff 2005 | 2005年 | MSR/PKU | bakeoff-2005 | 命名实体识别 |
QA
ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
---|---|---|---|---|---|---|---|---|---|
1 | NewsQA | 2019/9/13 | 微软研究院 | Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 | 英文 | QA | 论文 | ||
2 | SQuAD | 斯坦福 | 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 | 英文 | QA | 论文 | |||
3 | SimpleQuestions | 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 | 英文 | QA | 论文 | ||||
4 | WikiQA | 2016/7/14 | 微软研究院 | 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 | 英文 | QA | 论文 | ||
5 | cMedQA | 2019/2/25 | Zhang Sheng | 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 | 中文 | QA | 论文 | ||
6 | cMedQA2 | 2019/1/9 | Zhang Sheng | cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 | 中文 | QA | 论文 | ||
7 | webMedQA | 2019/3/10 | He Junqing | 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 | 中文 | QA | 论文 | ||
8 | XQA | 2019/7/29 | 清华大学 | 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 | 多语言 | QA | 论文 | ||
9 | AmazonQA | 2019/9/29 | 亚马逊 | 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 | 英文 | QA | 论文 |
情感分析
ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
---|---|---|---|---|---|---|---|---|---|
1 | NLPCC2013 | 2013 | CCF | \ | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子 | NLPCC2013, Emotion | 情感分析 | 论文 | |
2 | NLPCC2014 Task1 | 2014 | CCF | \ | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博 | NLPCC2014, Emotion | 情感分析 | \ | |
3 | NLPCC2014 Task2 | 2014 | CCF | \ | 微博语料,标注了正面和负面 | NLPCC2014, Sentiment | 情感分析 | \ | |
4 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | \ | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 | weibo emotion corpus | 情感分析 | Emotion Corpus Construction Based on Selection from Noisy Natural Labels | |
5 | [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) | 2009 | Fuji Ren | \ | 标注的博客语料库,在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客,11000段落和35000句子。 | RenCECPs, emotion, sentiment | 情感分析 | Construction of a blog emotion corpus for Chinese emotional expression analysis | |
6 | weibo_senti_100k | 不详 | 不详 | \ | 带情感标注 新浪微博,正负向评论约各 5 万条 | weibo senti, sentiment | 情感分析 | \ | |
7 | BDCI2018-汽车行业用户观点主题及情感识别 | 2018 | CCF | 汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。 | 属性情感分析 主题情感分析 | 情感分析 | \ | ||
8 | AI Challenger 细粒度用户评论情感分析 | 2o18 | 美团 | \ | 餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。 | 属性情感分析 | 情感分析 | \ | |
9 | BDCI2019金融信息负面及主体判定 | 2019 | 中原银行 | \ | 金融领域新闻,每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 | 实体情感分析 | 情感分析 | \ | |
10 | 之江杯电商评论观点挖掘大赛 | 2019 | 之江实验室 | \ | 本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度。此外,多个属性特征可以归入某一个属性种类,例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息,包括属性特征词、观点词、观点极性和属性种类4个字段。 | 属性情感分析 | 情感分析 | \ | |
11 | 2019搜狐校园算法大赛 | 2019 | 搜狐 | \ | 给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。实体:人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的实体词。核心实体:文章主要描述、或担任文章主要角色的实体词。 | 实体情感分析 | 情感分析 | \ |
文本分类
ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
---|---|---|---|---|---|---|---|---|---|
1 | 2018“达观杯”文本智能处理挑战赛 “达观杯”文本智能处理挑战赛_赛体与数据.html) | 2018年7月 | 达观数据 | 数据集来源于达观数据,为长文本分类任务,其主要包括了id,article,word_seg和class四个字段,数据包含19个类别,共102275条样本 | 长文本;脱敏 | 文本分类 | \ | 中文 | |
2 | 今日头条中文新闻(文本)分类 | 2018年5月 | 今日头条 | 数据集来源于今日头条,为短文本分类任务,数据包含15个类别,共382688条样本 | 短文本;新闻 | 文本分类 | \ | 中文 | |
3 | THUCNews中文文本分类 | 2016年 | 清华大学 | THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,共74万篇新闻文档(2.19 GB) | 文档;新闻 | 文本分类 | \ | 中文 | |
4 | 复旦大学中文文本分类 | \ | 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 | 数据集来源于复旦大学,为短文本分类任务,数据包含20个类别,共9804篇文档 | 文档;新闻 | 文本分类 | \ | 中文 | |
5 | 新闻标题短文本分类 | 2019年12月 | chenfengshf | CC0 公共领域共享 | 数据集来源于Kesci平台,为新闻标题领域短文本分类任务。内容大多为短文本标题(length<50),数据包含15个类别,共38w条样本 | 短文本;新闻标题 | 文本分类 | \ | 中文 |
6 | 2017 知乎看山杯机器学习挑战赛 | 2017年6月 | 中国人工智能学会;知乎 | 数据集来源于知乎,为问题及话题标签的绑定关系的标注数据,每个问题有 1 个或多个标签,累计1999 个标签,共包含 300 万个问题 | 问题;短文本 | 文本分类 | \ | 中文 | |
7 | 2019之江杯-电商评论观点挖掘大赛 | 2019年8月 | 之江实验室 | 本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度 | 评论;短文本 | 文本分类 | \ | 中文 | |
8 | IFLYTEK' 长文本分类 | \ | 科大讯飞 | 该数据集共有1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别 | 长文本 | 文本分类 | \ | 中文 | |
9 | 全网新闻分类数据(SogouCA) | 2012年8月16号 | 搜狗 | 该数据来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 | 新闻 | 文本分类 | \ | 中文 | |
10 | 搜狐新闻数据(SogouCS) | 2012年8月 | 搜狗 | 数据来源为搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 | 新闻 | 文本分类 | \ | 中文 | |
11 | 中科大新闻分类语料库 | 2017年11月 | 刘禹 中国科学院自动化研究所综合信息中心 | 暂时不能下载,已经联系作者,等待反馈 | 新闻 | ||||
12 | ChnSentiCorp_htl_all | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 | |||||
13 | waimai_10k | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 | |||||
14 | online_shopping_10_cats | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 | |||||
15 | weibo_senti_100k | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 | |||||
16 | simplifyweibo_4_moods | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条 | |||||
17 | dmsc_v2 | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 | |||||
18 | yf_dianping | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 24 万家餐馆,54 万用户,440 万条评论/评分数据 | |||||
19 | yf_amazon | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 |
文本匹配
ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
---|---|---|---|---|---|---|---|---|---|
1 | LCQMC | 2018/6/6 | 哈工大(深圳)智能计算研究中心 | Creative Commons Attribution 4.0 International License | 该数据集共包含来自多个领域的260068个中文问句对,相同询问意图的句子对标记为1,否则为0;并预先将其切分为了训练集:238766对,验证集:8802对,测试集:12500对 | 大规模问句匹配;意图匹配 | 短文本匹配;问句匹配 | 论文 | |
2 | The BQ Corpus | 2018/9/4 | 哈工大(深圳)智能计算研究中心;微众银行 | 该数据集共有120000个句子对,来自银行一年中的咨询服务日志;句子对包含不同的意图,标记正负样本比例为1:1 | 银行服务问句;意图匹配 | 短文本匹配;问句一致性检测 | 论文 | ||
3 | AFQMC 蚂蚁金融语义相似度 | 2018/4/25 | 蚂蚁金服 | 提供10万对的标注数据(分批次更新,已更新完毕),作为训练数据,包括同义对和不同义对 | 金融问句 | 短文本匹配;问句匹配 | |||
4 | 第三届拍拍贷“魔镜杯”大赛 | 2018/6/10 | 拍拍贷智慧金融研究院 | train.csv文件包含3列,分别是标签(label,表示问题1和问题2是否表示相同的意思,1表示相同,0表示不同),问题1的编号(q1)和问题2的编号(q2)。本文件中出现的所有问题编号均在question.csv中出现过 | 金融产品 | 短文本匹配;问句匹配 | |||
5 | CAIL2019相似案例匹配大赛 | 2019/6 | 清华大学;中国裁判文书网 | 对于每份数据,用三元组(A,B,C)来代表该组数据,其中A,B,C均对应某一篇文书。文书数据A与B的相似度总是大于A与B的相似度的,即sim(A,B)>sim(A,C) | 法律文书;相似案例 | 长文本匹配 | |||
6 | CCKS 2018 微众银行智能客服问句匹配大赛 | 2018/4/5 | 哈工大(深圳)智能计算研究中心;微众银行 | 银行服务问句;意图匹配 | 短文本匹配;问句匹配 | ||||
7 | ChineseTextualInference | 2018/12/15 | 刘焕勇,中国科学院软件研究所 | 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建 | 中文NLI | 中文文本推断;文本蕴含 | |||
8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | 给定问题-答案,以及该答案是否是该问题的答案之一的标记,1表示是,0表示不是 | DBQA | 问答匹配 | |||
9 | “技术需求”与“技术成果”项目之间关联度计算模型 | 201/8/32 | CCF | 给定文本形式的技术需求和技术成果,以及需求与成果的关联度标签;其中技术需求与技术成果之间的关联度分为四个层级: 强相关、较强相关、弱相关、无相关 | 长文本;需求与成果匹配 | 长文本匹配 | |||
10 | CNSD / CLUE-CMNLI | 2019/12 | ZengJunjun | 中文自然语言推理数据集,本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题 | 中文NLI | 中文自然语言推断 | 论文 | ||
11 | cMedQA v1.0 | 2017/4/5 | 寻药寻医网 和国防科技大学 信息系统及管理 学院 | 该数据集来源为寻医寻药网站中的提问和回答, 数据集做过匿名处理,提供的是包含 训练集中有50,000个问题,94,134个答案,平均每个问题、答案字符数分别为为120、212个; 验证集有2,000个问题,有3774个答案,问题和答案的平均字符数分别为117和212个; 测试集有2,000个问题,有3835个答案,问题和答案的平均字符数分别为119和211个; 数据集总量有54,000个问题,101,743个答案,平均每个问题和答案的字符数分别为119、212个; | 医疗问答匹配 | 问答匹配 | 论文 | ||
12 | cMedQA2 | 2018/11/8 | 寻药寻医网 和国防科技大学 信息系统及管理 学院 | 该数据集来源为寻医寻药网站中的提问和回答, 数据集做过匿名处理,提供的是包含 训练集中有100,000个问题,188,490个答案,平均每个问题、答案字符数分别为为48、101个; 验证集有4,000个问题,有7527个答案,问题和答案的平均字符数分别为49和101个; 测试集有4,000个问题,有7552个答案,问题和答案的平均字符数分别为49和100个; 数据集总量有108,000个问题,203,569个答案,平均每个问题和答案的字符数分别为49、101个; | 医疗问答匹配 | 问答匹配 | 论文 | ||
13 | ChineseSTS | 2017/9/21 | 唐善成, 白云悦, 马付玉. 西安科技大学 | 该数据集提供了12747对中文相似数据集,在数据集后 作者给出了他们相似度的打分,语料由短句构成。 | 短句相似度 匹配 | 相似度匹配 | |||
14 | 中国健康信息处理会议 举办的医疗问题相似度 衡量竞赛数据集 | 2018 | CHIP 2018-第四届中国健康信息处理会议(CHIP) | 本次评测任务的主要目标是针对中文的真实患者健康咨询语料,进行问句意图匹配。 给定两个语句,要求判定两者意图是否相同或者相近。 所有语料来自互联网上患者真实的问题,并经过了筛选和人工的意图匹配标注。 数据集经过脱敏处理,问题由数字标示 训练集包含20000条左右标注好的数据(经过脱敏处理,包含标点符号), 测试集包含10000条左右无label的数据(经过脱敏处理,包含标点> 符号)。 | 医疗问题相似度 匹配 | 相似度匹配 | |||
15 | COS960: A Chinese Word Similarity Dataset of 960 Word Pairs | 2019/6/6 | 清华大学 | 该数据集中包含了960对单词, 并且每对单词都被15个母语者用相似度分数来衡量 这960个词对根据标签被分成三组, 包含480对名词,240对动词和240对形容词。 | 单词之间的相似度 | 同义词 | 论文 | ||
16 | OPPO手机搜索排序query-title语义匹配数据集。(https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 密码7p3n) | 2018/11/6 | OPPO | 该数据集来自于OPPO手机搜索排序优化实时搜索场景, 该场景就是在用户不断输入过程中,实时返回查询结果。 该数据集在此基础上做了相应的简化, 提供了一个query-title语义匹配,即ctr预测的问题。 | 问题标题匹配, ctr预测 | 相似度匹配 | |||
17 | 网页搜索结果评价(SogouE) | 2012年 | 搜狗 | 搜狗实验室数据使用许可协议 | 该数据集包含了查询词,相关URL以及查询类别的搜索数据,格式如下 数据格式说明:查询词]\t相关的URL\t查询类别 其中URL保证存在于对应的互联网语料库; 查询类别中“1”表示导航类查询;“2”表示信息类查询 | Automatic Search Engine Performance Evaluation with Click-through Data Analysis | 查询类型匹配预测 |
文本摘要
ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
---|---|---|---|---|---|---|---|---|---|
1 | LCSTS | 2015/8/6 | Qingcai Chen | 数据集来源于新浪微博,包含两百万左右真实中文短文本,每条数据包括由作者标注的摘要和正文两个字段。另外有10,666条数据由人工标注出短文本与摘要的相关性,从1-5相关性依次增加。 | 单文本摘要;短文本;文本相关性 | 文本摘要 | 论文 | ||
2 | 中文短文本摘要数据集 | 2018/6/20 | He Zhengfang | 数据来源于新浪微博主流媒体发布的微博,共679898条数据。 | 单文本摘要;短文本 | 文本摘要 | \ | ||
3 | 教育培训行业抽象式自动摘要中文语料库 | 2018/6/5 | 匿名 | 语料库收集了教育培训行业主流垂直媒体的历史文章,约24500条数据,每条数据包括由作者标注的摘要和正文两个字段。 | 单文本摘要;教育培训 | 文本摘要 | \ | ||
4 | NLPCC2017 Task3 | 2017/11/8 | NLPCC2017主办方 | 数据集来源于新闻领域,是NLPCC2017举办提供的任务数据,可用于单文本摘要。 | 单文本摘要;新闻 | 文本摘要 | \ | ||
5 | 神策杯2018 | 2018/10/11 | DC竞赛主办方 | 数据来源于新闻文本,由DC竞赛主办方提供,模拟业务场景,以新闻文本的核心词提取为目的,最终结果达到提升推荐和用户画像的效果。 | 文本关键字;新闻 | 文本摘要 | \ | ||
6 | Byte Cup 2018国际机器学习竞赛 | 2018/12/4 | 字节跳动 | 数据来自字节跳动旗下产品TopBuzz和开放版权的文章,训练集包括了约 130 万篇文本的信息,验证集 1000 篇文章, 测试集 800 篇文章。 每条测试集和验证集的数据经由人工编辑手工标注多个可能的标题,作为答案备选。 | 单文本摘要;视频;新闻 | 文本摘要 | \ | 英文 | |
7 | NEWSROOM | 2018/6/1 | Grusky | 数据是从1998年到2017年的搜索和社交元数据中获得,并使用了多种提取和抽象相结合的摘要策略,包含作者和编辑在38个主要出版物编辑部撰写的130万篇文章和摘要。 | 单文本摘要;社交元数据;搜索 | 文本摘要 | 论文 | 英文 | |
8 | DUC/TAC https://tac.nist.gov//) | 2014/9/9 | NIST | 全称Document Understanding Conferences/Text Analysis Conference,数据集来源于每年的TAC KBP(TAC Knowledge Base Population)比赛使用的语料库中的新闻专线和网络文本。 | 单文本/多文本摘要;新闻 | 文本摘要 | \ | 英文 | |
9 | CNN/Daily Mail | 2017/7/31 | Standford | GNU v3 | 数据集是从美国有线新闻网(CNN)和每日邮报(DailyMail)中手机大约一百万条新闻数据作为机器阅读理解语料库。 | 多文本摘要;长文本;新闻 | 文本摘要 | 论文 | 英文 |
10 | Amazon SNAP Review | 2013/3/1 | Standford | 数据来源于Amazon网站购物评论,可以获取每个大类别(如美食、电影等)下的数据,也可以一次性获取所有数据。 | 多文本摘要;购物评论 | 文本摘要 | \ | 英文 | |
11 | Gigaword | 2003/1/28 | David Graff, Christopher Cieri | 数据集包括约950w 篇新闻文章,用文章标题做摘要,属于单句摘要数据集。 | 单文本摘要;新闻 | 文本摘要 | 英文 | ||
12 | RA-MDS | 2017/9/11 | Piji Li | 全称Reader-Aware Multi-Document Summarization,数据集来源于新闻文章,由专家收集、标注和审查。涵盖了45个主题,每个主题包含10个新闻文档和4个模型摘要,每个新闻文档平均包含27个句子,每个句子平均包含25个单词。 | 多文本摘要;新闻;人工标注 | 文本摘要 | 论文 | 英文 | |
13 | TIPSTER SUMMAC | 2003/5/21 | The MITRE Corporation and the University of Edinburgh | 数据由183篇Computation and Language (cmp-lg) collection标记的文档组成,文档取自ACL会议发表论文。 | 多文本摘要;长文本 | 文本摘要 | \ | 英文 | |
14 | WikiHow | 2018/10/18 | Mahnaz Koupaee | 每条数据为一篇文章,每篇文章由多个段落组成,每个段落以一个总结它的句子开头。通过合并段落形成文章和段落大纲形成摘要,数据集的最终版本包含了超过200,000个长序列对。 | 多文本摘要;长文本 | 文本摘要 | 论文 | 英文 | |
15 | Multi-News | 2019/12/4 | Alex Fabbri | 数据来自1500多个不同网站的输入文章以及从网站newser.com获得的56,216篇这些文章的专业摘要。 | 多文本摘要 | 文本摘要 | 论文 | 英文 | |
16 | MED Summaries | 2018/8/17 | D.Potapov | 数据集用于动态视频摘要评估,包含160个视频的注释,其中验证集60、测试集100,测试集中有10个事件类别。 | 单文本摘要;视频注释 | 文本摘要 | 论文 | 英文 | |
17 | BIGPATENT | 2019/7/27 | Sharma | 数据集包括130万份美国专利文献记录以及人类书面抽象摘要,摘要包含更丰富的话语结构和更多的常用实体。 | 单文本摘要;专利;书面语 | 文本摘要 | 论文 | 英文 | |
18 | [NYT]( https://catalog.ldc.upenn.edu/LDC2008T19) | 2008/10/17 | Evan Sandhaus | 全称The New York Times,数据集包含150篇来自纽约时报的商业文章,抓取了从2009年11月到2010年1月纽约时报网站上的所有文章。 | 单文本摘要;商业文章 | 文本摘要 | \ | 英文 | |
19 | The AQUAINT Corpus of English News Text | 2002/9/26 | David Graff | 数据集由新华社(中华人民共和国)、纽约时报新闻服务和美联社世界新闻服务的英文新闻文本数据组成,包含大约3.75亿字。数据集收费。 | 单文本摘要;新闻 | 文本摘要 | \ | 中文和英文 | |
20 | Legal Case Reports Data Set | 2012/10/19 | Filippo Galgani | 数据集来自2006-2009年澳大利亚联邦法院(FCA)的澳大利亚法律案例,包含约4000个法律案件及其摘要。 | 单文本摘要;法律案件 | 文本摘要 | \ | 英文 | |
21 | 17 Timelines | 2015/5/29 | G. B. Tran | 数据是从新闻文章网页中提取的内容,包含埃及、利比亚、也门、叙利亚四个国家的新闻。 | 单文本摘要;新闻 | 文本摘要 | 论文 | 多语言 | |
22 | PTS Corpus | 2018/10/9 | Fei Sun | 全称Product Title Summarization Corpus,数据为移动设备显示电子商务应用中的产品名称摘要 | 单文本摘要;短文本 | 文本摘要 | 论文 | ||
23 | Scientific Summarization DataSets | 2019/10/26 | Santosh Gupta | 数据集取自Semantic Scholar Corpus和ArXiv。来自Semantic Scholar语料库的标题/摘要对,过滤掉生物医学领域的所有论文,包含580万条数据。来自ArXiv的数据,包含了从1991年开始到2019年7月5日的每篇论文的标题/摘要对。数据集包含金融类数据10k,生物学类26k,数学类417k,物理类157万,CS类221k。 | 单文本摘要;论文 | 文本摘要 | \ | 英文 | |