当前位置：首页 > news >正文

文山州建设局信息网站网站百度推广怎么做的

news 2025/12/7 9:39:22

文山州建设局信息网站,网站百度推广怎么做的,建设高端网站的公司,北京市地铁建设公司网站前言本文讲解了从零开始学习Python数据科学的全过程#xff0c;涵盖各种工具和方法你将会学习到如何使用python做基本的数据分析你还可以了解机器学习算法的原理和使用说明先说一段题外话。我是一名数据工程师#xff0c;在用SAS做分析超过5年后#xff0c;决定走出舒适区涵盖各种工具和方法你将会学习到如何使用python做基本的数据分析你还可以了解机器学习算法的原理和使用说明先说一段题外话。我是一名数据工程师在用SAS做分析超过5年后决定走出舒适区寻找其它有效的数据分析工具很快我发现了Python我非常喜欢编程这是我真正喜欢做的事情。事实证明编程并没有想象中的那么难。我在一周之内学习了Python的基本语法接着我一方面继续深入探索Python另一方面帮助其他人学习这门语言。Python最初是一门简单的脚本语言但随着Python社区的不断发展壮大越来越多的开发者参与到Python工具库开发中来所以Python拥有极其丰富的数据科学第三方库。内容目录1、Python数据分析的基本概况为何使用Python做数据分析Python2.7还是Python3.7如何安装Python使用Python运行一段简单的代码如何使用Jupyter notebook2、Python数据结构和库Python数据结构Python循环结构和判断语句Python库3、使用Pandas做探索性分析Series和DataFrame数据结构介绍具体数据集案例分析4、Numpy基本概念Numpy常见函数使用5、使用Pandas和numpy做数据清洗处理数据集中的空值如何使用apply方法6、使用Matplotlib绘制图表Matplotlib介绍使用Matplotlib绘制简单的柱状图7、使用Scikit-learn建立预测模型逻辑回归算法决策树算法随机森林算法1、Python数据分析的基本概况为何使用Python做数据分析最近几年Python用作数据分析语言引起了非常多的关注一度超越R成为最受欢迎的数据科学工具。作为Python的使用者我支持Python作为数据分析工具有以下理由开源-免费安装使用语言简洁是一门真正的强大的编程语言非常强大的在线社区学习门槛低极其丰富的第三方数据科学库但它也有一些缺点Python是一种解释性语言而非编译性速度相对比较慢。但是考虑到在学习和代码上节省的时间Python依然是不二的选择。Python 2.7还是Python 3.7很多初学者还在纠结选择Python 2.7还是Python 3.7这两个版本有非常大的差异简直就是两种语言。它们各有各的优缺点取决于你使用的需求。为什么Python 2.7绝对优势的社区支持Python 2.x诞生于2000年已经被使用快20年许多公司依然在使用Python 2.7丰富的第三方库目前绝大部分第三方库都是建立在Python 2.x基础上的很多库并不支持Python 3.x版本。如果你将Python用于特定的应用程序如高度依赖外部模块的web开发那么建议使用Python 2.7为什么Python 3.7语法更加简洁和快速。Python开发人员改进了Python 2.x的缺点Python 3.x代表了Python未来发展的方向Python 2.7 只维护到2020年Python官方建议直接学习Python 3.x如果将Python作为数据科学工具我建议使用Python 3.x因为基本上所有的数据科学第三方库都已经支持Python 3.x。当然选择哪一个版本不是目的应当专注的是如何使用Python更好地服务于数据科学。如何安装Python这里两种安装方法可供参考直接去Python官网下载Python3.7安装包再选择安装自己需要的第三方库和编辑器或者你不想这么麻烦你可以选择安装Anaconda这是一个开源的Python发行版本其预装了180多个第三方库和依赖包第二种方法包含了数据科学用到的大部分工具包为你省去很多安装时间。这也是本教程建议初学者使用的安装方法。选择Python开发环境一旦你安装好了python就需要选择开发环境用于Python编程这里有四个常用选择终端交互模式IDLE(默认环境)其它IDE如pycharmJupyter notebook(ipython)IDLE(默认环境)这里不对它们作具体比较读者可自行上网查询选择什么样的开发环境取决于你的需求。我建议初学者使用Jupyter notebook(ipython)作为Python数据分析的开发环境。Jupyter Notebook 是一个交互式笔记本本质是一个 Web 应用程序便于创建和共享程序文档支持实时代码数学方程可视化和markdown。用途包括数据清理和转换数值模拟统计建模机器学习等等。数据挖掘领域中最热门的比赛 Kaggle 里的资料都是Jupyter 格式。本教程也是使用Jupyter Notebook 作为代码环境。Jupyter Notebook编程界面使用Python运行一段简单的代码如何使用Jupyter NotebookAnaconda预装了Jupyter Notebook库所以安装Anaconda后就可以直接使用Jupyter Notebook。启动Jupyter Notebook有两种方法你可以在命令行中键入jupyter notebook再按enter键便可以进入Jupyter Notebook环境记住不要关闭命令行窗口否则Jupyter环境会失效。命令行键入jupyter notebook还可以在开始菜单Anaconda文件夹中直接双击Jupyter Notebook然后进入Jupyter Notebook主界面点击New新建点击Python 3就可以开始愉快的编程了。Jupyter Notebook主界面notebook界面你可以修改该notebook的名字添加或删除代码编辑框使用“Shift Enter” 或者“Ctrl Enter”快捷键运行代码。具体功能快捷键这里不做赘述可以去Jupyter Notebook 快捷键查看。2、Python数据结构和库Python数据结构接下来要讲到Python的数据结构你应该尽可能熟悉它因为在接下来的数据分析代码中会经常用到这些数据结构。字符串Python 可以操作字符串。字符串有多种形式可以使用单引号(……)双引号(……)都可以获得同样的结果2。反斜杠\可以用来转义:字符串示例列表Python 中可以通过组合一些值得到多种复合数据类型。其中最常用的列表可以通过方括号括起、逗号分隔的一组值得到。一个列表可以包含不同类型的元素但通常使用时各个元素类型相同:列表示例元组可以看到列表和字符串有很多共同特性例如索引和切片操作。Python的元组与列表类似不同之处在于元组的元素不能修改。元组使用小括号列表使用方括号。元组创建很简单只需要在括号中添加元素并使用逗号隔开即可。元组示例字典另一个非常有用的 Python 內置数据类型是字典。字典在其他语言里可能会被叫做联合内存或联合数组。与以连续整数为索引的序列不同字典是以关键字为索引的关键字可以是任意不可变类型通常是字符串或数字。如果一个元组只包含字符串、数字或元组那么这个元组也可以用作关键字。但如果元组直接或间接地包含了可变对象那么它就不能用作关键字。列表不能用作关键字因为列表可以通过索引、切片或 append() 和 extend() 之类的方法来改变。理解字典的最好方式就是将它看做是一个键: 值对的集合键必须是唯一的(在一个字典中)。一对花括号可以创建一个空字典{} 。另一种初始化字典的方式是在一对花括号里放置一些以逗号分隔的键值对而这也是字典输出的方式。以下是使用字典的一些简单示例字典示例Python循环结构和判断语句for循环和大多数编程语言一样Python也有for循环结构其被广泛使用在迭代方法中。Python 中的for语句并不总是对算术递增的数值进行迭代(如同 Pascal)或是给予用户定义迭代步骤和暂停条件的能力(如同 C)而是对任意序列进行迭代(例如列表或字符串)条目的迭代顺序与它们在序列中出现的顺序一致。如果在循环内需要修改序列中的值(比如重复某些选中的元素)推荐你先拷贝一份副本。对序列进行循环不代表制作了一个副本进行操作。切片操作使这件事非常简单如果写成for w in words:这个示例就会创建无限长的列表一次又一次重复地插入defenestrate。range函数如果你确实需要遍历一个数字序列内置函数if判断语句可能最为人所熟知的编程语句就是使用形式为if ... elif ... else ...可以有零个或多个elif 是 else if 的缩写适合用于避免过多的缩进。一个if...elif...elif... 序列可以看作是其他语言中的switch或case语句的替代。现在你熟悉了Python中的循环结构和判断语句可以更进一步去学习更多的语法知识。如果每做一件事都需要从头开始写代码那么这将是一场噩梦比如你想要对一个列表里数字进行加法运算难道还要一个一个数字加起来吗这样的话你肯定不想学习python了。庆幸的是python有很多工具库可以帮助我们更加直接有效地解决问题。例如求数学中的阶乘你可以很简单的导入math模块使用已经编译好的阶乘函数当然在使用函数之前你必须要导入库和函数。话不多说一起来探索更多的Python库吧Python库在学习更酷炫实用的Python库之前第一步要知道什么是Python库。Python库是一个相关功能模块的集合里面包含各种函数方法用来解决复杂的问题。这些库分为两类标准库和第三方库标准库是Python内置库无需再安装如math、range第三方库需要另外安装如jupyter、pandas、numpy安装第三方库安装第三方库有两种方法第一种是pip方法pip是Python包管理工具自带无需安装提供了对Python 库的查找、下载、安装、卸载的功能。如果想安装pandas库你可以在命令行输入pip install pandas接下来等待自行下载安装。第二种是手动安装在python库集合里下载相关库文件并安装。导入库和库函数使用库之前需要将其导入Python环境。同样有两种方法可以做到(以math库为例)import math或者from math import *第一种方法导入整个库如果你需要使用库中的某个函数比如阶乘函数factorial那么需要用math.factorial()形式。第二种方法直接导入了math库的所有方法和函数直接factorial()就可以了。建议使用第一种方法用什么导入什么不浪费。最常用的数据科学库列表matplotlib是一个Python 2D绘图库可以生成各种硬拷贝格式和跨平台交互式环境的出版物质量数据。Matplotlib可用于Python脚本Python和IPython shellJupyter笔记本Web应用程序服务器和四个图形用户界面工具包。只需几行代码即可生成绘图直方图功率谱条形图误差图散点图等。StatsModelsStatsmodels 是一个 Python 模块它为统计数据分析提供了许多机会例如统计模型估计、执行统计测试等。在它的帮助下你可以实现许多机器学习方法并探索不同的绘图可能性。SeabornSeaborn 本质上是一个基于 matplotlib 库的高级 API。它包含更适合处理图表的默认设置。此外还有丰富的可视化库包括一些复杂类型如时间序列、联合分布图(jointplots)和小提琴图(violin diagrams)。PlotlyPlotly 是一个交互可视化库它可以让你轻松构建复杂的图形。该软件包适用于交互式 Web 应用程可实现轮廓图、三元图和三维图等视觉效果。BokehBokeh 库使用 JavaScript 小部件在浏览器中创建交互式和可缩放的可视化。该库提供了多种图表集合样式可能性(styling possibilities)链接图、添加小部件和定义回调等形式的交互能力以及许多更有用的特性。ScrapyScrapy 是一个用来创建网络爬虫扫描网页和收集结构化数据的库。此外Scrapy 可以从 API 中提取数据。由于该库的可扩展性和可移植性使得它用起来非常方便。TensorFlowTensorFlow 是一个流行的深度学习和机器学习框架由 Google Brain 开发。它提供了使用具有多个数据集的人工神经网络的能力。在最流行的 TensorFlow应用中有目标识别、语音识别等。在常规的 TensorFlow 上也有不同的 leyer-helper如 tflearn、tf-slim、skflow 等。KerasKeras 是一个用于处理神经网络的高级库运行在 TensorFlow、Theano 之上现在由于新版本的发布还可以使用 CNTK 和 MxNet 作为后端。它简化了许多特定的任务并且大大减少了单调代码的数量。然而它可能不适合某些复杂的任务。requestsrequests库是一个常用的用于http请求的模块它使用python语言编写可以方便的对网页进行爬取是学习python爬虫的较好的http请求模块。BlazeBlaze生态系统为python用户对大数据提供了高效计算的高层接口Blaze整合了包括Python的Pandas、NumPy及SQL、Mongo、Spark在内的多种技术使用Blaze能够非常容易地与一个新技术进行交互。现在你熟悉了Python了Python数据结构和库的使用接下来要用这些知识去解决一些简单的问题。比如说利用pandas去做数据探索用matplotlib可视化图表等等。使用Pandas做探索性分析为了更好地探索数据中的奥秘接下来要介绍一位重量级嘉宾-Pandas哈哈开个玩笑。这里的pandas不是国宝大熊猫而是python的一个国宝级第三方数据科学库。就像前面介绍过的pandas具备强大的数据展示功能纳入了大量库和一些标准的数据模型提供了高效地操作大型数据集所需的工具。是pandas的出现奠定了python在数据科学领域霸主的地位。接下来我们要使用pandas读取数据集然后进行数据探索性分析(EDA)就是研究数据各个变量或变量之间的统计学关系。pandas的数据结构pandas有两种数据结构Series和DataFrame。Series类似一维数组(只有一列)由数据和索引组成可以保存任何数据类型(整数字符串浮点数Python对象等)。DataFrame则类似二维数组像excel表格有一个或多个变量(多列)。当我们用pandas读取数据集的时候数据会以DataFrame的格式保存在内存里你可以对数据的行和列进行各种函数操作(如分组、聚合、拼接、运算)。类似SQL能做的pandas都能做SQL不能做的pandas也能做。数据集这里数据集就用经典的titanic(泰坦尼克)数据集在这里下载。该数据集规格为891*12也就是891行12列。这12个变量包括乘客年龄、性别、姓名、是否存活等等了解即可。读取数据来看看数据集长什么样import pandas as pd #导入pandas库data pd.read_csv(rtrain.csv) #读取数据data.head(10) #查看前10行数据数据DataFrame格式数据统计学描述数据描述有两个函数(info和describe)来做通常这是数据探索的开始data.info() #查看数据集每个变量的非空长度、类型以及整个数据集的大小info函数对数据的描述data.describe() #数据统计学描述函数查看每一个变量的统计学情况包括最大值、标准差等describe函数对数据的描述取数据列如果我想拎出数据集的某一列或几列怎么办data[Age] # 取出age这一列数据data[[Age,Name]] # 取出age和name两列绘制图表因为需要在notebook上绘制图表并显示所以需要在代码行添加魔法命令使得notebook上显示图像%matplotlib inlinepandas库自带绘图功能你可以绘制简单的统计学图表比如我想绘制age的分布直方图data[Age].hist(bins10) # hist为直方图函数bins是参数可以调节年龄分多少段数age字段直方图未完待续参考

查看全文

http://wiki.neutronadmin.com/news/75651/