当前位置: 首页 > news >正文

邙山郑州网站建设wordpress打包app

邙山郑州网站建设,wordpress打包app,如何做网站内页排名,游戏代理平台免费版赛题分析 大赛地址 https://tianchi.aliyun.com/competition/entrance/532097/information 任务描述 本次任务主要针对上市公司的主营业务进行产品实体链接。需要获得主营业务中的产品实体#xff0c;将该实体链接到产品数据库中的某一个标准产品实体。产品数据库将发布在竞赛… 赛题分析 大赛地址 https://tianchi.aliyun.com/competition/entrance/532097/information 任务描述 本次任务主要针对上市公司的主营业务进行产品实体链接。需要获得主营业务中的产品实体将该实体链接到产品数据库中的某一个标准产品实体。产品数据库将发布在竞赛平台上。比如某一公司主营业务为“主要生产日用居家小家电生活零售用品等相关产品”选手从这段话中得到“日用居家小家电”这一产品实体称为主实体通过实体链接技术找到产品数据库中的“生活小件家电”这一标准产品实体称为链接实体。主实体与链接实体构成一个链接实体对表示这两个实体是不同名称的相同实体。通过这些链接实体对从而实现词语消歧以及数据源的融合。选手可以通过合理途径利用其他相关信息辅助任务完成但是需要在方法描述文档中详细描述如何获取的相关信息以及如何在任务中使用该信息。 任务目标 参赛队伍需要能够准确的从公司主营业务中的出所有产品实体即主实体并且需要确定每个主实体在产品数据库中是否存在链接若存在则需要在产品数据库中找到所有链接实体形成一个或多个链接实体对并给出权重完成实体链接。需要注意的是一个主实体的所有链接实体的权重相加需要为1。    数据样例一 输入{“companyName”:“xx公司”, “主营业务描述”:“ 公司主要业务为电力、热力生产和供应。”} 输出{“companyName”:“xx公司”,“EntityPairs”:[[(“电力生产”,“独立电力生产商”,1)],[(“电力供应”,”电力贸易”,1)],[(“热力生产”,”热力的生产和输供”,1)],[(“热力供应”,”热力的生产和输供”,1)]]} 数据样例二 输入{“companyName”:“xx公司”, “主营业务描述”:“ 啤酒、饮料制造和销售。”} 输出{“companyName”:“xx公司”,“EntityPairs”:[[(“啤酒”,“啤酒”,1)],[(“饮料”,”饮料”,1)],[(“啤酒销售”,”啤酒零售”,0.5),(“啤酒销售”,”酒类分销商”,0.5)],[(“饮料销售”,”饮料零售”,1)]]} 任务描述和方案构思 本次任务主要针对上市公司的主营业务进行产品实体链接。首先需要获得主营业务中的产品实体然后将该实体链接到产品数据库中的某一个标准产品实体。基于此本方案将赛题任务拆解为三个阶段如下图所示。 第一阶段对每个公司的主营文本进行实体抽取得到待链接的产品实体 第二阶段训练向量召回模型利用产品数据库构建向量索引并且对每个待链接实体进行向量召回得到召回候选项 第三阶段训练分类排序模型基于上一阶段得到的召回候选项进行二分类得到最终的链接实体 下面分别对每一个阶段进行详细描述。 任务方案拆解 第一阶段-实体抽取 本阶段任务是对每个公司的主营文本进行实体抽取得到待链接的产品实体。但是观察数据发现主营文本中产品实体错综复杂属于 常规实体、间断实体(非连续实体)和嵌套实体的混合型实体 还有一些总结性的实体单一的实体抽取方案很难处理这种情况。基于此最终采用采用了两种方案基于span双指针网络的抽取方案和基于cpt模型的生成式方案。 span双指针网络的抽取方案 在指针标注体系中使用span模块代替了CRF模块加快了训练速度以半指针-半标注的结构预测实体的起始位置同时标注过程中给出实体类别简单点说就是设置两个指针start和end分别记录每一种实体的开始和结束的位置并且在记录位置的同时标注该实体的类别如上图所示”商品零售业“和”宾馆旅游业“表示两个实体但是同属于产品实体一类实体类别用1表示最后输出层分别用start dense layer和end dense layer两个指针网络标注两个实体的起始位置和所属类别最后的损失由两个指针网络的损失累加求和。 训练数据     span双指针网络的抽取方案在训练数据方面做了一些数据增强主要集中在两点 将产品数据库中的数据直接加入训练集进行模型训练 使用链接实体替换主营业务文本中的产品实体进行数据增广 基于cpt模型的生成式方案 cpt模型是复旦nlp提出的中文生成式模型本方案基于cpt模型用于实体抽取。比如某一个公司的主营业务文本为主营业务为商品零售业和宾馆旅游业那么具体训练逻辑如下 训练集输入主营业务为商品零售业和宾馆旅游业 训练集标签商品零售业#宾馆旅游业 标签使用固定格式即使用#进行分割使用这种生成的方式进行实体抽取。 cpt参考链接https://github.com/fastnlp/CPT 训练数据    基于cpt模型的生成式实体抽取方案在训练数据方面做了一点优化 使用链接实体替换主营业务文本中的产品实体进行数据增广 模型融合     另外本阶段使用不同的训练参数(种子、学习率、对抗学习fgm参数、batch_size等等)、不同的初始化模型权重训练了两个方案的多个模型每个模型预测一次生成多个预测文件进行融合并且在融合过程中对于相似的实体进行实体消歧。 第二阶段-向量召回 本阶段任务是训练向量召回模型并且利用产品数据库构建向量索引然后对实体抽取得到的实体(产品实体)进行向量召回得到召回候选项。 向量召回模型的选择 本方案向量召回模型选择的是基于对比学习的simcse模型结构如下图simcse原理这里不再赘述可自行查阅论文。 向量召回模型训练的数据准备 训练数据主要由两部分组成正例数据和负例数据。 正例数据直接使用官方提供的训练数据使用其中的产品实体和链接实体组成正例对 负例数据产品实体从产品数据库中随机选择实体组成负例 向量索引的构建 向量召回模型训练完成之后对产品数据库中的每一个产品实体进行向量化表征然后利用faiss工具构建向量索引库 实体向量召回     基于第一阶段实体抽取得到的实体对每一个实体进行向量召回取top30的召回项作为候选项。 第三阶段-分类排序 经过第一阶段和第二阶段已经得到了公司主营业务文本中的每一个产品实体及其对应的top20候选项接下来是确定top30候选项中哪些是真正的链接实体我们选择了二分类来做这个任务。 分类模型 分类模型选择基于bert的二分类模型如下图所示。 分类模型训练数据 训练数据主要由两部分组成正例数据和负例数据。 正例数据直接使用官方提供的训练数据使用其中的产品实体和链接实体组成正例对 负例数据从正例数据中对产品实体进行向量召回得到top20候选项从top20候选项中过滤掉真正的链接实体剩下的非链接实体与原来的产品实体组成负例对。举个例子官方提供的训练数据中面类和面条分别是产品实体和链接实体利用向量召回对面类进行召回得到两个候选项面条和面料显然面类和面料组成一对负例。 分类模型训练完成之后便可以对公司主营业务文本中的每一个产品实体及其对应的top30候选项进行分类确定其真正的链接实体。 总结 最终成绩初赛第一名复赛第二名。 另外感觉给标注数据整体质量不高存在很多前后冲突、模棱两可的情况因此榜单上的整体得分都不高。
http://wiki.neutronadmin.com/news/214864/

相关文章:

  • 网站数据库建设怎么建设食品网站
  • 美发网站源码公文写作 课程中心网站建设
  • 丹阳网站设计公司手机如何建网站
  • 专业写作网站wordpress 2m附件
  • 高端品牌网站建设需要注意什么怎么样推广自己的店铺和产品
  • 西安电商平台网站建设杭州专业网站
  • 龙泉市建设局网站重庆网站到首页排名
  • 团队氛围建设 网站网站更名策划方案
  • 苏州h5网站建设价钱中国教育网站官网
  • 高淳做网站价格php做网站安全
  • 网站册数网站建设需要多久
  • 重庆市做网站的公司wordpress如何做网站
  • 做网站的需求文档格式推广资源网
  • wordpress修改编辑器网络优化推广 网站开发建设
  • 手机网站模版哪家公司网站建设口碑好
  • 织梦网站转移保养车哪个网站做的好
  • 南阳公司网站制作视频门户网站建设方案
  • 网站建设设计流程步骤网站图片优化的概念
  • 硅胶东莞网站建设广告在什么网站做
  • 青岛网站建设运营推广做基础工程分包应上什么网站
  • php网站开发多少钱网络开发人员
  • wordpress建站过时了南通企业网站怎么建设
  • 浙江大学教室办事大厅网站建设淘宝网站是谁做的好
  • 网站后台不能排版网站建设宣传广告
  • 天津网站制作计划做直播网站需要多少钱
  • 简述电子商务网站的内容设计与开发网络运营商怎么看
  • 商务网站运营与管理国税政务公开网站建设
  • 杭州网站优化流程众筹的网络营销是什么
  • 蓝盾信息做网站吗wordpress关闭站点
  • 常州建设银行新北分行网站十大免费视频素材网站