当前位置：首页 > news >正文

空间网站链接怎么做昆明微网站搭建

news 2025/12/27 12:53:41

空间网站链接怎么做,昆明微网站搭建,北京同仁医院眼科医生免费咨询,公司网站建设优点⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ #x1f434;作者#xff1a;秋无之地 #x1f434;简介#xff1a;CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作#xff0c;主要擅长领域有#xff1a;爬虫、后端、大数据… ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 作者秋无之地简介CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作主要擅长领域有爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注关注必回关上一篇文章已经跟大家介绍过《Python爬虫如何下载懂车帝的电动车数据完整代码》相信大家对python爬虫都有一个基本的认识。下面我讲一下数据清洗数据挖掘的前期准备工作。一、数据清洗重要性上一节中讲了python爬虫采集数据但做完数据采集就可以直接进行挖掘了吗肯定不是的。 1、什么是数据清洗就拿做饭打个比方吧对于很多人来说热油下锅、掌勺翻炒一定是做饭中最过瘾的环节但实际上炒菜这个过程只占做饭时间的 20%剩下 80% 的时间都是在做准备比如买菜、择菜、洗菜等等。在数据挖掘中数据清洗就是这样的前期准备工作。对于数据科学家来说我们会遇到各种各样的数据在分析前要投入大量的时间和精力把数据“整理裁剪”成自己想要或需要的样子。说白了数据清洗就是将源数据整理成自己想要或需要的样子。 2、为什么要数据清洗继续用上面做饭的例子我们买回来的菜不是马上就下锅煮是不是要清洗一下菜叶可能残留农药是不是需要浸泡一下葱花有些变黄干枯的是不是需要摘掉等等。我们采集回来的数据同样存在这些问题。下面举个例子假设老板给你以下的数据让你做数据分析你看到这个数据后有什么感觉呢你刚看到这些数据可能会比较懵因为这些数据缺少标注。我们在收集整理数据的时候一定要对数据做标注数据表头很重要。比如这份数据表就缺少列名的标注这样一来我们就不知道每列数据所代表的含义无法从业务中理解这些数值的作用以及这些数值是否正确。但在实际工作中也可能像这个案例一样数据是缺少标注的。我简单解释下这些数据代表的含义。这是一家服装店统计的会员数据。最上面的一行是列坐标最左侧一列是行坐标。列坐标中第 0 列代表的是序号第 1 列代表的会员的姓名第 2 列代表年龄第 3 列代表体重第 4~6 列代表男性会员的三围尺寸第 7~9 列代表女性会员的三围尺寸。了解含义以后我们再看下中间部分具体的数据你可能会想这些数据怎么这么“脏乱差”啊有很多值是空的NaN还有空行的情况。是的这还仅仅是一家商店的部分会员数据我们一眼看过去就能发现一些问题。日常工作中的数据业务会复杂很多通常我们要统计更多的数据维度比如 100 个指标数据量通常都是超过 TB、EB 级别的所以整个数据分析的处理难度是呈指数级增加的。这个时候仅仅通过肉眼就很难找到问题所在了。我举了这样一个简单的例子带你理解在数据分析之前为什么要有数据清洗这个重要的准备工作。有经验的数据分析师都知道好的数据分析师必定是一名数据清洗高手要知道在整个数据分析过程中不论是在时间还是功夫上数据清洗大概都占到了 80%。二、数据质量的准则在上面这个服装店会员数据的案例中一看到这些数据你肯定能发现几个问题。你是不是想知道有没有一些准则来规范这些数据的质量呢准则肯定是有的。不过如果数据存在七八种甚至更多的问题我们很难将这些规则都记住。有研究说一个人的短期记忆最多可以记住 7 条内容或信息超过 7 条就记不住了。而数据清洗要解决的问题远不止 7 条我们万一漏掉一项该怎么办呢有没有一种方法我们既可以很方便地记住又能保证我们的数据得到很好的清洗提升数据质量呢在这里我将数据清洗规则总结为以下 4 个关键点统一起来叫“完全合一”下面我来解释下。完整性单条数据是否存在空值统计的字段是否完善。全面性观察某一列的全部数值比如在 Excel 表中我们选中一列可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题比如数据定义、单位标识、数值本身。合法性数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符性别存在了未知年龄超过了 150 岁等。唯一性数据是否存在重复记录因为数据通常来自不同渠道的汇总重复的情况是常见的。行数据、列数据都需要是唯一的比如一个人不能重复记录多次且一个人的体重也不能在列指标中重复记录多次。在很多数据挖掘的教学中数据准则通常会列出来 7~8 项在这里我们归类成了“完全合一”4 项准则按照以上的原则我们能解决数据清理中遇到的大部分问题使得数据标准、干净、连续为后续数据统计、数据挖掘做好准备。如果想要进一步优化数据质量还需要在实际案例中灵活使用。了解了数据质量准则之后我们针对上面服装店会员数据案例中的问题进行一一击破。 1、完整性问题 1缺失值在数据中有些年龄、体重数值是缺失的这往往是因为数据量较大在过程中有些数值没有采集到。通常我们可以采用以下三种方法删除删除数据缺失的记录均值使用当前列的均值高频使用当前列出现频率最高的数据。比如我们想对 df[‘Age’]中缺失的数值用平均年龄进行填充可以这样写 df[Age].fillna(df[Age].mean(), inplaceTrue) 如果我们用最高频的数据进行填充可以先通过 value_counts 获取 Age 字段最高频次 age_maxf然后再对 Age 字段中缺失的数据用 age_maxf 进行填充 age_maxf train_features[Age].value_counts().index[0] train_features[Age].fillna(age_maxf, inplaceTrue) 问题 2空行我们发现数据中有一个空行除了 index 之外全部的值都是 NaN。Pandas 的 read_csv() 并没有可选参数来忽略空行这样我们就需要在数据被读入之后再使用 dropna() 进行处理删除空行。 # 删除全空的行 df.dropna(howall,inplaceTrue) 2、全面性问题列数据的单位不统一观察 weight 列的数值我们能发现 weight 列的单位不统一。有的单位是千克kgs有的单位是磅lbs。这里我使用千克作为统一的度量单位将磅lbs转化为千克kgs # 获取 weight 数据列中单位为 lbs 的数据 rows_with_lbs df[weight].str.contains(lbs).fillna(False) # 将 lbs转换为 kgs, 2.2lbs1kgs for i,lbs_row in df[rows_with_lbs].iterrows():# 截取从头开始到倒数第三个字符之前即去掉lbs。weight int(float(lbs_row[weight][:-3])/2.2)df.at[i,weight] {}kgs.format(weight) 3、合理性问题非 ASCII 字符我们可以看到在数据集中 Firstname 和 Lastname 有一些非 ASCII 的字符。我们可以采用删除或者替换的方式来解决非 ASCII 问题这里我们使用删除方法 # 删除非 ASCII 字符 df[first_name].replace({r[^\x00-\x7F]:}, regexTrue, inplaceTrue) df[last_name].replace({r[^\x00-\x7F]:}, regexTrue, inplaceTrue) 4、唯一性问题 1一列有多个参数在数据中不难发现姓名列Name包含了两个参数 Firstname 和 Lastname。为了达到数据整洁目的我们将 Name 列拆分成 Firstname 和 Lastname 两个字段。我们使用 Python 的 split 方法str.split(expandTrue)将列表拆成新的列再将原来的 Name 列删除。 # 切分名字删除源数据列 df[[first_name,last_name]] df[name].str.split(expandTrue) df.drop(name, axis1, inplaceTrue) 问题 2重复数据我们校验一下数据中是否存在重复记录。如果存在重复记录就使用 Pandas 提供的 drop_duplicates() 来删除重复数据。 # 删除重复数据行 df.drop_duplicates([first_name,last_name],inplaceTrue) 这样我们就将上面案例中的会员数据进行了清理来看看清理之后的数据结果。怎么样是不是又干净又标准三、养成数据审核的习惯现在你是不是能感受到数据问题不是小事上面这个简单的例子里都有 6 处错误。所以我们常说现实世界的数据是“肮脏的”需要清洗。第三方的数据要清洗自有产品的数据也需要数据清洗。比如美团自身做数据挖掘的时候也需要去除爬虫抓取作弊数据等。可以说没有高质量的数据就没有高质量的数据挖掘而数据清洗是高质量数据的一道保障。当你从事这方面工作的时候你会发现养成数据审核的习惯非常重要。而且越是优秀的数据挖掘人员越会有“数据审核”的“职业病”。这就好比编辑非常在意文章中的错别字、语法一样。数据的规范性就像是你的作品一样通过清洗之后会变得非常干净、标准。当然了这也是一门需要不断修炼的功夫。终有一天你会进入这样一种境界看一眼数据差不多 7 秒钟的时间就能知道这个数据是否存在问题。为了这一眼的功力我们要做很多练习。刚开始接触数据科学工作的时候一定会觉得数据挖掘是件很酷、很有价值的事。确实如此不过今天我还要告诉你再酷炫的事也离不开基础性的工作就像我们今天讲的数据清洗工作。对于这些基础性的工作我们需要耐下性子一个坑一个坑地去解决。四、总结下面是数据清洗的总结版权声明本文章版权归作者所有未经作者允许禁止任何转载、采集作者保留一切追究的权利。

查看全文

http://wiki.neutronadmin.com/news/371977/