SKE数据集 && DuIE 1.0

0 / 2943

SKE数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过43万三元组数据、21万中文句子及50个已定义好的schema,表1中展示了SKE数据集中包含的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载。
也被称为 百度自建的大规模中文信息抽取数据集 DuIE 1.0版本
image.png

数据来源于http://lic2019.ccf.org.cn/kg

竞赛简介

信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。信息抽取任务涉及命名实体识别、指代消解、关系分类等复杂技术,极具挑战性。本次竞赛发布基于schema约束的SPO信息抽取任务,即在给定schema集合下,从自然语言文本中抽取出符合schema要求的SPO三元组知识。本次竞赛将提供业界规模最大的基于schema的中文信息抽取数据集(Schema based Knowledge Extraction, SKE),旨在为研究者提供学术交流平台,进一步提升中文信息抽取技术的研究水平,推动相关人工智能应用的发展。

竞赛详情

  1. 竞赛任务

给定schema约束集合及句子sent,其中schema定义了关系P以及其对应的主体S和客体O的类别,例如(S_TYPE:人物,P:妻子,O_TYPE:人物)、(S_TYPE:公司,P:创始人,O_TYPE:人物)等。 任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。输入/输出:

(1) 输入:schema约束集合及句子sent

(2) 输出:句子sent中包含的符合给定schema约束的三元组知识Triples

  1. 数据简介

本次竞赛使用的SKE数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过43万三元组数据、21万中文句子及50个已定义好的schema,表1中展示了SKE数据集中包含的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前一周发布,不能在平台上自主验证,并将作为最终的评测排名。

序号 主体S的类别 关系 客体O的类别 举例
-
1 地点 海拔 Number {"object_type": "Number", "predicate": "海拔", "object": "2,240米", "subject_type": "地点", "subject": "卡萨布兰卡火山"}
- - - - -
2 电视综艺 嘉宾 人物 {"object_type": "人物", "predicate": "嘉宾", "object": "黄小琥", "subject_type": "电视综艺", "subject": "全能星战"}
3 电视综艺 主持人 人物 {"object_type": "人物", "predicate": "主持人", "object": "撒贝宁", "subject_type": "电视综艺", "subject": "梦想星搭档"}
4 歌曲 歌手 人物 {"object_type": "人物", "predicate": "歌手", "object": "李克勤", "subject_type": "歌曲", "subject": "爱不释手"}
5 歌曲 所属专辑 音乐专辑 {"object_type": "音乐专辑", "predicate": "所属专辑", "object": "爱不释手 新城唱好音乐大派对", "subject_type": "歌曲", "subject": "爱不释手"}
6 歌曲 作词 人物 {"object_type": "人物", "predicate": "作词", "object": "林夕", "subject_type": "歌曲", "subject": "爱不释手"}
7 歌曲 作曲 人物 {"object_type": "人物", "predicate": "作曲", "object": "陈辉阳", "subject_type": "歌曲", "subject": "爱不释手"}
8 国家 官方语言 语言 {"object_type": "语言", "predicate": "官方语言", "object": "意大利语", "subject_type": "国家", "subject": "意大利"}
9 国家 首都 城市 {"object_type": "城市", "predicate": "首都", "object": "羊苴咩城", "subject_type": "国家", "subject": "大理国"}
10 行政区 面积 Number {"object_type": "Number", "predicate": "面积", "object": "188平方公里", "subject_type": "行政区", "subject": "河西镇"}
  1. 评价方法

参赛者在测试集上给出的SPO结果和测试集标注结果进行精准匹配 (考虑了别名情况,我们使用了百度知识图谱现有的别名词典来辅助评测), 采用PrecisionRecallF1值作为评价指标。

  1. 基线系统

本次竞赛将提供PaddlePaddle 版本的开源信息抽取基线系统,基线系统的实现请参考:开源系统。百度AI Studio提供免费GPU集群和基线示例:P分类模型SPO模型

DATA DESCRIPTION

50 common schemas and DuIE dataset are provided here. For DuIE dataset, we split the whole data set into training set, development set and testing set, the first two of which could are availa ble in this page.

Attention: DuIE dataset is intended for research only and not for any commercial use. If you us e our dataset for research, please cite the data source in your work/paper.

Here is data statistics:

SKE Dataset Total amount Training set Dev.set Test set
Sentence 214,739 173,108 21,639 19,992
Instance 458,184 364,218 45,577 48,389

And a sample:

{
    "text": "《新駌鸯蝴蝶梦》是黄安的音乐作品,收录在《流金十载全记录》专辑中",
    "spo_list": [
        {
            "subject": "新駌鸯蝴蝶梦",
            "predicate": "所属专辑",
            "object": "流金十载全记录",
            "subject_type": "歌曲",
            "object_type": "音乐专辑"
        },
        {
            "subject": "新駌鸯蝴蝶梦",
            "predicate": "歌手",
            "object": "黄安",
            "subject_type": "歌曲",
            "object_type": "人物"
        }
    ]
}