SKE数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过43万三元组数据、21万中文句子及50个已定义好的schema,表1中展示了SKE数据集中包含的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载。
也被称为 百度自建的大规模中文信息抽取数据集 DuIE 1.0版本
数据来源于http://lic2019.ccf.org.cn/kg
竞赛简介
信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。信息抽取任务涉及命名实体识别、指代消解、关系分类等复杂技术,极具挑战性。本次竞赛发布基于schema约束的SPO信息抽取任务,即在给定schema集合下,从自然语言文本中抽取出符合schema要求的SPO三元组知识。本次竞赛将提供业界规模最大的基于schema的中文信息抽取数据集(Schema based Knowledge Extraction, SKE),旨在为研究者提供学术交流平台,进一步提升中文信息抽取技术的研究水平,推动相关人工智能应用的发展。
竞赛详情
- 竞赛任务
给定schema约束集合及句子sent,其中schema定义了关系P以及其对应的主体S和客体O的类别,例如(S_TYPE:人物,P:妻子,O_TYPE:人物)、(S_TYPE:公司,P:创始人,O_TYPE:人物)等。 任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。输入/输出:
(1) 输入:schema约束集合及句子sent
(2) 输出:句子sent中包含的符合给定schema约束的三元组知识Triples
- 数据简介
本次竞赛使用的SKE数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过43万三元组数据、21万中文句子及50个已定义好的schema,表1中展示了SKE数据集中包含的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前一周发布,不能在平台上自主验证,并将作为最终的评测排名。
序号 | 主体S的类别 | 关系 | 客体O的类别 | 举例 |
---|---|---|---|---|
- | ||||
1 | 地点 | 海拔 | Number | {"object_type": "Number", "predicate": "海拔", "object": "2,240米", "subject_type": "地点", "subject": "卡萨布兰卡火山"} |
- | - | - | - | - |
2 | 电视综艺 | 嘉宾 | 人物 | {"object_type": "人物", "predicate": "嘉宾", "object": "黄小琥", "subject_type": "电视综艺", "subject": "全能星战"} |
3 | 电视综艺 | 主持人 | 人物 | {"object_type": "人物", "predicate": "主持人", "object": "撒贝宁", "subject_type": "电视综艺", "subject": "梦想星搭档"} |
4 | 歌曲 | 歌手 | 人物 | {"object_type": "人物", "predicate": "歌手", "object": "李克勤", "subject_type": "歌曲", "subject": "爱不释手"} |
5 | 歌曲 | 所属专辑 | 音乐专辑 | {"object_type": "音乐专辑", "predicate": "所属专辑", "object": "爱不释手 新城唱好音乐大派对", "subject_type": "歌曲", "subject": "爱不释手"} |
6 | 歌曲 | 作词 | 人物 | {"object_type": "人物", "predicate": "作词", "object": "林夕", "subject_type": "歌曲", "subject": "爱不释手"} |
7 | 歌曲 | 作曲 | 人物 | {"object_type": "人物", "predicate": "作曲", "object": "陈辉阳", "subject_type": "歌曲", "subject": "爱不释手"} |
8 | 国家 | 官方语言 | 语言 | {"object_type": "语言", "predicate": "官方语言", "object": "意大利语", "subject_type": "国家", "subject": "意大利"} |
9 | 国家 | 首都 | 城市 | {"object_type": "城市", "predicate": "首都", "object": "羊苴咩城", "subject_type": "国家", "subject": "大理国"} |
10 | 行政区 | 面积 | Number | {"object_type": "Number", "predicate": "面积", "object": "188平方公里", "subject_type": "行政区", "subject": "河西镇"} |
- 评价方法
参赛者在测试集上给出的SPO结果和测试集标注结果进行精准匹配 (考虑了别名情况,我们使用了百度知识图谱现有的别名词典来辅助评测), 采用Precision,Recall和F1值作为评价指标。
- 基线系统
本次竞赛将提供PaddlePaddle 版本的开源信息抽取基线系统,基线系统的实现请参考:开源系统。百度AI Studio提供免费GPU集群和基线示例:P分类模型、SPO模型。
DATA D