当前位置: 首页 > news >正文

宿迁北京网站建设网上商城网站建设

宿迁北京网站建设,网上商城网站建设,网站定制营销的过程,网页设计用什么软件做hanlp-ext 插件源码地址#xff1a;http://git.oschina.net/hualongdata/hanlp-ext 或 https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的#xff0c;这是肯定不能达到我们进行分词搜索的要求的。官方有一个SmartCN 中文分词插件http://git.oschina.net/hualongdata/hanlp-ext 或 https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的这是肯定不能达到我们进行分词搜索的要求的。官方有一个SmartCN 中文分词插件另外还有一个 IK 分词插件使用也比较广。但这里我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。 Elasticsearch Elasticsearch 的默认分词效果是惨不忍睹的。 GET /_analyze?pretty{text : [重庆华龙网海数科技有限公司]}输出 {tokens: [{token: 重,start_offset: 0, end_offset: 1, type: IDEOGRAPHIC, position: 0 }, { token: 庆, start_offset: 1, end_offset: 2, type: IDEOGRAPHIC, position: 1 }, { token: 华, start_offset: 2, end_offset: 3, type: IDEOGRAPHIC, position: 2 }, { token: 龙, start_offset: 3, end_offset: 4, type: IDEOGRAPHIC, position: 3 }, { token: 网, start_offset: 4, end_offset: 5, type: IDEOGRAPHIC, position: 4 }, { token: 海, start_offset: 5, end_offset: 6, type: IDEOGRAPHIC, position: 5 }, { token: 数, start_offset: 6, end_offset: 7, type: IDEOGRAPHIC, position: 6 }, { token: 科, start_offset: 7, end_offset: 8, type: IDEOGRAPHIC, position: 7 }, { token: 技, start_offset: 8, end_offset: 9, type: IDEOGRAPHIC, position: 8 }, { token: 有, start_offset: 9, end_offset: 10, type: IDEOGRAPHIC, position: 9 }, { token: 限, start_offset: 10, end_offset: 11, type: IDEOGRAPHIC, position: 10 }, { token: 公, start_offset: 11, end_offset: 12, type: IDEOGRAPHIC, position: 11 }, { token: 司, start_offset: 12, end_offset: 13, type: IDEOGRAPHIC, position: 12 } ] } 可以看到默认是按字进行分词的。 elasticsearch-hanlp HanLP HanLP 是一款使用 Java 实现的优秀的具有如下功能 中文分词词性标注命名实体识别关键词提取自动摘要短语提取拼音转换简繁转换文本推荐依存句法分析语料库工具安装 elasticsearch-hanlp安装见https://github.com/hualongdata/hanlp-ext/tree/master/es-plugin插件以后我们再来看看分词效果。 GET /_analyze?pretty{analyzer : hanlp,text : [重庆华龙网海数科技有限公司]}输出 {tokens: [{token: 重庆,start_offset: 0, end_offset: 2, type: ns, position: 0 }, { token: 华龙网, start_offset: 2, end_offset: 5, type: nr, position: 1 }, { token: 海数, start_offset: 5, end_offset: 7, type: nr, position: 2 }, { token: 科技, start_offset: 7, end_offset: 9, type: n, position: 3 }, { token: 有限公司, start_offset: 9, end_offset: 13, type: nis, position: 4 } ] } HanLP 的功能不止简单的中文分词有很多功能都可以集成到 Elasticsearch 中。     文章来源于网络转载于:https://www.cnblogs.com/tiantiankong/p/10102841.html
http://wiki.neutronadmin.com/news/180287/

相关文章:

  • 如何搭建php网站wordpress 企业网站主题
  • 深圳网站设计十年乐云seo旅游业网站建设方案特点
  • 程序员网站建设公司网站格式
  • 网站资料素材怎么做网站设计网页的优缺点
  • 京东内部券网站怎么做网站风格趋势
  • 婚纱网站怎么做莆田哪里有学做网站的
  • 河南政务网站建设排名金堂县建设局网站
  • 腾讯网站谁做的南开网站建设
  • WordPress开网站很慢wordpress恶意代码
  • 网站推广好难福建省建设行业企业资质查询网站
  • 餐饮加盟培训网站建设网站建设费计入什么科目
  • 建设网站方式有哪些自己主机做网站服务器
  • 做电影资讯网站算侵权吗积分购买 wordpress
  • 保定网站制作软件大型网站 空间
  • 做产品的往这看:国外工业设计网站大全!吉林seo外包
  • 网站层级淮北建设网站
  • 网站图标素材图片套模板网站价格
  • 移动网站建设动态广告设计与制作是做什么的
  • 重庆网站建设 吧手机主题制作网站
  • 网站建设结课小论文微信小商店和小程序商城的区别
  • 基于php的电商网站开发wordpress mysql优化
  • 我做淘宝网站卖东西怎么激活石桥铺做网站
  • 长安英文网站建设关于加强门户网站建设的通知
  • 增加网站和接入备案吗专业网站开发哪里好
  • 网站更新问题pageadmin建站系统破解版
  • 公司网站建设比较好的公司做网站如何写代码
  • 太原优化网站排名怎么把别人网站源码弄出来
  • 网站下载链接怎么做网站页面设计服务
  • 上海电子商城网站乐陵网络推广seo优化
  • 鞍山招聘网站网站建设需什么软件