网站加载速度,成都住建局官网查询电话,长春紧急通知,网站搭建服务器需要什么OpenKG地址#xff1a;http://openkg.cn/dataset/rcwi-dataset开放许可协议#xff1a;CC BY-SA 4.0 #xff08;署名相似共享#xff09;贡献者#xff1a;北京语言大学#xff08;阙孟溪、张宇飞、于东#xff09;1. 摘要中文领域的词汇复杂度评估资源较为匮乏#x… OpenKG地址http://openkg.cn/dataset/rcwi-dataset开放许可协议CC BY-SA 4.0 署名相似共享贡献者北京语言大学阙孟溪、张宇飞、于东1. 摘要中文领域的词汇复杂度评估资源较为匮乏且现有的外语数据集大多数只关注造成阅读困扰的词汇。中文相对复杂词汇识别数据集以下简称RCWI-Dataset为针对中文母语者构建的词汇复杂度评估资源包含40613条样本三种词汇复杂度类型每条数据至少被三名中文母语标注员标注。该数据集为推动中文词汇复杂度评估任务发展提供有力支撑。2. 词汇复杂度资源中文词汇复杂度资源以分级词表为主一般通过专家标注构建数据质量高但成本较高规模较小。自然语言处理用的词汇复杂度资源以词汇简化、复杂词汇识别等任务为构建导向标注句子中不能被独立理解的词汇。简单将词汇分为“复杂”或“不复杂”两类的方式无法对词汇的复杂度进行具体说明且直接标注目标词汇的方式主观性较强。对此我们引入句子中其余词汇作为客观比较对象对句子中超出平均难度的词汇进行标注称为“相对复杂词汇”。此外我们对词汇的复杂程度作出区分与传统二值化词汇复杂度的资源相比包含更丰富的复杂度信息。3. 数据集我们采用唐玉玲等人构建的的汉语句子难度等级语料库作为原始语料来源该语料库来自语文教材涵盖科普、记叙等多种文本体裁。我们根据原始句子等级比例抽取2-4等级的句子共2万条。为了获得更加可靠和多样的标注结果我们规定RCWI-Dataset的标注对象为给定句子中明显超过句子平均词汇难度的词汇和词组。若标注词汇对阅读理解造成困扰标注为“Hard”否则标注为“Complex”。根据试标注的结果确定了常见的三种标注情况如表1所示。我们要求标注者在标注每条数据之前先完成对句子的阅读以获得句子的整体词汇难度。同时考虑上下文对词汇复杂度的影响对于脱离当前上下文则无法准确理解的词汇同样需要进行标注。表1 三种常见的标注类型示例橙色词汇为“Complex”红色为“Hard”Complex能理解的但是超过句子平均词汇难度的词汇1. 万众一心冒着敌人的炮火前进2. 正因为它不是一般的顽石当然不能去做墙做台阶不能去雕刻捶布。Hard阅读理解困难的词汇1. 见到人们受苦鲧很着急就把天上的土偷下来去堵塞洪水。2. 于是伯父家盖房,想以它垒山墙但苦于它极不规则没棱角儿也没平面儿用錾破开吧又懒得花那么大气力因为河滩并不甚远随便去掮一块回来哪一块也比它强。无标注句子中的词汇都很简单或者难度比较平均1. 爸把我从床头打到床尾外面的雨声混合着我的哭声。2. 当山间的清泉奔向溪流当哗啦啦的大雨砸向屋顶当小水滴清脆地落到盛水的盆里你总该听到些什么了吧由于复杂度标注具有较强的主观性以及和英文相比中文词汇标注还隐性包含了词汇边界判定的环节部分标注结果存在标注重叠、标注冗余、标注类别差异等现象我们对语义不完整的标注进行补充拆分去除了冗余标注。在合并此词汇复杂度类别的环节中标注员都来自大学生群体母语水准要高于一般母语者存在向下评估词汇复杂度的可能性因此保留复杂度最高的标签。我们选择在现有的标注数据上构造负例样本。在句子分词后未标注词汇的集合中按照词频进行排序选取与正例词汇等量的频率最低的词汇作为负例标记为“Normal”类别。最终RCWI-Dataset中包含40613句子样本其中Complex标签19218条、Hard标签1169条、Normal标签20226条数据实例如下数据示例ID1 据王粲的《英雄记钞》说诸葛亮与徐庶、石广元、孟公威等人一道游学读书三人务于精熟而亮独观其大略。 Hard 1 3 王粲ID2 据王粲的《英雄记钞》说诸葛亮与徐庶、石广元、孟公威等人一道游学读书三人务于精熟而亮独观其大略。 Complex 37 41 务于精熟ID3 据王粲的《英雄记钞》说诸葛亮与徐庶、石广元、孟公威等人一道游学读书三人务于精熟而亮独观其大略。 Normal 28 30 一道4. 总结针对中文词汇复杂度评估领域相关资源的不足我们构建了中文词汇相对复杂度评估数据集RCWI-Dataset该数据集包含多样的词汇复杂度信息为中文词汇复杂度评估领域提供数据支撑。OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。