当前位置: 首页 > news >正文

南京医院网站建设方案网站价格

南京医院网站建设方案,网站价格,整合营销网站,沈阳高铁站科学研究中有时候咱们收集到的数据很乱#xff0c;不能马上进行分析#xff0c;如SEER数据#xff0c;用过都知道#xff0c;咱们需要对数据进行清洗#xff0c;从数据中提取咱们需要的东西#xff0c;才能进行分析#xff0c;这时候有个有用的东西叫正则式#xff0c;…科学研究中有时候咱们收集到的数据很乱不能马上进行分析如SEER数据用过都知道咱们需要对数据进行清洗从数据中提取咱们需要的东西才能进行分析这时候有个有用的东西叫正则式对于我们在字符串中提取数据非常实用上一章《R语言提取文字字符串中的内容–正则式1》咱们已经初步介绍了一些正则式的常见函数今天咱们进一步介绍正则式使用。 别害怕看不懂你正在一点点向前迈进这个东西需要慢慢积累 我们先导入数据假设咱们有一串很乱的数据 readLines(E:/r/test/messages.txt)而我们想需要对它进行整理咱们需要找到其中关于水果的数据方便利于统计但是计算机可不认识什么是水果 正则表达式提供了一系列用于表示模式的符号。 上述模式可以被描述成^\w:\s\d$ 其中的元符号meta-symbols用来表示一类字符。下面是一些简单的介绍具体看参考文献。 • ^这个符号表示一行的开始。 • \w这个符号表示一个字母或数字。 • \s这个符号表示一个空格字符。 • \d这个符号表示一个数字字符。 • $这个符号表示一行的结束。 \w“意味着一个或更多个字母”:是我们希望在单词后面看到的符号 \d表示一个或更多个数字字符。这个模式表达了所有我们需要的情况并且排除了所有不需要的情况。 我们先进行我们需要的匹配继续使用上次咱们使用的grep函数来匹配字符串。我们可以看到水果中例如苹果apple: 20都是这种字母加冒号再加数字来表示但是字母的个数不确定数字的个数不确定因此我们可以告诉计算机字母加冒号再加数字就是水果。 我们先写一个规则匹配符。 matches - grep(^\\w:\\s\\d$,bc)上面这段代码我来解释一下^表示这行开始$表示这行结束\w 中 \w表示开头的是字母但是\需要再加一个\来转义所以写成2个\\w表示它可以是一个或者多个字符。接着的冒号:表示我们在字母后面需要看到一个冒号。\s表示冒号后面接着一个空格还要再加一个\进行转义我们这里注意一下空格也是要占位的不处理空格很多时候会导致匹配失败 \d和w的意思差不多表示1个或者多个数字也是要再加一个\进行转义的所以写成\d。这段内容体会一下。 根据规则计算机帮我们选出1,3,5,6是水果咱们提取就可以了。 bc[matches]这样就轻易把其中的水果的内容提取出来了。如果咱们使用stringr包功能更加强大它是以矩阵的形式提取数据 library(stringr) matches - str_match(bc,^(\\w):\\s(\\d)$) matchesStringr包的str_match函数规则与grep稍微不同多个字符匹配的内容需要括号包起来而且它的功能更加强大把每个组件都提取出来我更加喜欢。 咱们再来看个例子先导入数据 be-readLines(E:/r/test/messages.txt) be数据连在一起我们需要的是下面这样的数据分类分条好的 这相当于数据清理了当数据量大的时候是没办法手工做的。咱们先对数据其中一行进行分析可以看到第一个是日期带二个是时间后面两个是字母不过一个是逗号连接一个是空格连接还是很有规律的 2014-02-01,09:20:29,Ken,James,Hey, how are you? 继续使用刚才我们使用的str_ _match函数 日期的提取可以使用 (\\d-\\d-\\d)时间的的提取可以用 (\\d:\\d:\\d)提取逗号连接的字符 (\\w),(\\w)提取空格链接的字符这里要说一下\s表示空格但是要注意一下大写S和小写s是不同的。\s*表空格出现零次、一次或者更多次(.)中点符号.可代替任意符号(.)在这里表示可以是任意内容最后以$结尾 \\s*(.)$咱们把上面的内容串联起来 pattern - ^(\\d-\\d-\\d),(\\d:\\d:\\d),(\\w),(\\w),\\s*(.)$ matches - str_match(be,pattern)可以看到内容都被单独提取出来了稍微整理一下就是咱们所需要的数据了 df - data.frame(matches[, -1]) colnames(df) - c(Date, Time, Sender, Receiver, Message)正则式初看有些复杂当你理解掌握后用处很大这个需要慢慢的积累。 推荐几个好的教程共同学习见参考文献 参考文献 https://github.com/ziishaned/learn-regex/blob/master/translations/README-cn.md#4-零宽度断言前后预查http://www.regexlab.com/zh/regref.htmR语言编程指南R语言编程艺术R数据科学
http://www.yutouwan.com/news/64274/

相关文章:

  • 建设网站费用主要包括哪些sdk直播
  • 品牌网站建设优化公司哪家好修改wordpress主体
  • 手机精品网站建设河北省建筑培训网
  • 做的好点的外贸网站福建省百川建设发展有限公司网站
  • 做外贸用什么软件找客户搜索seo神器
  • 给个龙做罗拉的网站媒介代理公司排名
  • 国外域名建站深圳公司网站搭建公司
  • 空间里怎么放多个网站高端办公室设计装修公司
  • 西安网站建设专家#NAME?
  • seo网站编辑是做什么的在线作图网站
  • 北京网站制作公司哪家好swoole wordpress
  • 河南建一个网站大概要多少钱网站地图定位怎么做
  • 做网站怎么选取关键词注册深圳公司需要什么条件
  • 手机网站拦截怎么解除自应式网站
  • dz网站开发wordpress微信风格主题
  • 网站开发文案模板淘宝客网站建设方案书
  • 彩钢做网站能赚钱吗中国建设安全协会网站
  • 个人网站首页布局图网站开发工程师职业道德
  • 网站导航栏制作教程化妆品备案查询官网
  • 网站如何做3d产品展示上海网站优化公司
  • 郴州网站建设公司wordpress商城查件
  • 重庆通信管理局网站电商怎么做账务处理
  • 长沙正规制作网站公司房产网二手房
  • 建设银行官网站预约承德网站建设怎么做
  • 网站开发的技术有网站单个页面
  • 菜鸟教程网站怎么做万秀服务不错的seo推广
  • 重庆企业网站推广服务海南网站建设推广
  • 最牛网站设计公司只做app不做网站可以吗
  • 为网站做一则广告西部网站管理助手 伪静态
  • 广州网站定制商家企业融资查询