上海建设网站的价格,网站频繁被攻击怎么办,苏州做网站公司认定苏州聚尚网络,北京网站建设公司那个好本文转载自公众号知识工场。 历时多年的研发#xff0c;复旦大学知识工场实验室正式推出大规模中文概念图谱——CN-Probase#xff0c;用于帮助机器更好的理解人类语言。概念图谱中包含实体#xff08;比如“刘德华”#xff09;、概念#xff08;比如“演员”#xff09… 本文转载自公众号知识工场。 历时多年的研发复旦大学知识工场实验室正式推出大规模中文概念图谱——CN-Probase用于帮助机器更好的理解人类语言。概念图谱中包含实体比如“刘德华”、概念比如“演员”实体与概念之间的类属关系又称isA关系比如 “刘德华 isA 演员”概念与概念之间的 subclass of 关系比如 “电影演员”是“演员”的子类。通常后面两类关系又统称为 isA 关系。如果 A isA B通常称A为B的下位词hyponym,或者B为A的上位词hypernym。 概念的形成是人类认知从具体进入抽象的第一步。人类通过概念认知世界概念是人类认知世界的基石。概念是人脑对客观事物本质的反映是思维活动的结果和产物是思维活动借以开展的基本单元。比如“恐龙”这一概念让我们能够认知形形色色的恐龙把握其共性本质而无需纠缠于不同特定恐龙的细微差别。建立概念分类体系并为数以千万计的实体建立概念图谱是我们在让机器具备认知能力的征程中所迈出的至关重要的一步。 人类通过分类结构Taxonomy来组织和表示概念。最早可以追溯到亚里士多德时代。随后的几千年来人类一直在不断完善概念的分类体系并于近些年涌现了很多分类体系如CycWordNet等这些概念分类体系大都由专家手工构建质量精良但是构建代价高昂规模有限。 现在知识工场采用自动的方法基于CN-DBpedia以及海量中文网页语料等多个数据源构建了大型中文概念知识图谱——CN-Probase。针对中文语言的特性采用了全新的抽取策略达到质和量的全面升级。 CN-Probase是由复旦大学知识工场实验室研发并维护的大规模中文概念图谱是目前规模最大的开放领域中文概念图谱和概念分类体系isA关系的准确率在95%以上。相比较于其他概念图谱CN-Probase具有两个显著优点 一、规模巨大基本涵盖常见实体和概念。包含约1700万实体、27万概念和3300万isA关系。 二、严格按照实体进行组织有利于精准理解实体的概念。例如“刘德华”这个名字可能对应很多叫“刘德华”的人在CN-Probase里搜索“刘德华”会出现按照典型性排序的很多实体排在第一个的是大家提及名字都会联想到的歌手“刘德华”。 有了CN-Probase计算机就能像人类一样具有常识。例如计算机可以知道鲤鱼和鲨鱼都是鱼但鲤鱼是一种淡水鱼而鲨鱼是一种海水鱼。 与此同时CN-Probase还可以广泛应用于各种场景 例一搜索意图理解 用户搜索“西游记”我们通过它的概念“中国古代四大名著”、“小说”可以理解用户是在搜索小说类名著。对于用户搜索意图的精准理解可以进一步帮助改进检索、排序与推荐。 例二实体相似性判断 当用户需要判断“复旦大学”和“上海交大”是否相似时仅仅根据字面相似性很难知道它们是相似实体。但是通过CN-Probase我们可以看到它们的概念是差不多的如下图从而可以判断它们在语义上是相似的。 例三可解释实体推荐 当用户先后搜索“复旦大学”、“上海交通大学”“上海理工大学”时我们人类可以自然地推断用户是在搜索上海高校。如今机器通过检索CN-Probase发现这三个实体共享“上海高校”这个概念从而也可以准确识别用户的搜索意图进一步推荐“上海外国语大学”“同济大学”等实体并给出用户是在搜索上海高校这一解释。 目前知识工场提供两种方式访问CN-Probase 页面直接访问。进入http://kw.fudan.edu.cn/cnprobase即可访问CN-Probase页面。 API接口访问。我们提供了全套数据访问API大家可以访问http://kw.fudan.edu.cn/apis/cnprobase/ 查看具体访问方法。 值此发布之际特向大规模概念图谱的“前辈们”包括德国马普研究所的Yago、微软亚洲研究院的Probase、微软的概念图谱以及哈尔滨工业大学的大词林表示崇高的敬意。 点击“阅读原文”查看CN-Probase页面 更多产品试用请点击知识工场网站主页http://kw.fudan.edu.cn/ 合作意向、反馈建议请联系我们 info.knowledgeworksgmail.com 或直接联系知识工场负责人肖仰华教授 shawyhfudan.edu.cn OpenKG.CN 中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。