当前位置：首页 > news >正文

上海网站建设与设计wordpress仿p站主题

news 2026/1/14 1:01:43

上海网站建设与设计,wordpress仿p站主题,上海网站排名,海报设计说明200字摘要#xff1a; 在我看来#xff0c;PyODPS就是阿里云上的Python。值得注意的是#xff0c;这里的定语“阿里云上的”一定不能精简掉#xff0c;因为PyODPS不等于单机版的Python#xff01; 点此查看原文目录我眼中的PyODPS 安装和升级PyODPS版本 PyODPS的牛刀小试 …摘要在我看来PyODPS就是阿里云上的Python。值得注意的是这里的定语“阿里云上的”一定不能精简掉因为PyODPS不等于单机版的Python 点此查看原文目录我眼中的PyODPS 安装和升级PyODPS版本 PyODPS的牛刀小试未来更精彩 1. 我眼中的PyODPS 简单来说PyODPS就是在MaxCompute中用编程语言的方式对存储在阿里云DataWorks上的数据表作数据预处理和机器学习的Python API。好像还是有点啰嗦再精简一下PyODPS就是阿里云上的Python。值得注意的是这里的定语“阿里云上的”一定不能精简掉因为PyODPS不等于单机版的Python就像是在Spark平台上的PySpark不等于单机版的Python一样。在表面上看一个很大的区别就是单机版的Python语言只能在单机上做数据处理和机器学习但是PyODPS和PySpark一样都是在集群上做数据处理和机器学习的。而我更愿意从编程语言的角度去看待PyODPS就像Clojure Common Lisp Elisp Scheme等被称为是Lisp编程语言的不同方言一样我更喜欢把PyODPS和PySpark理解成是Python的方言。虽然这样理解很不严谨因为毕竟PyODPS和PySpark都分别需要在连接阿里云的本地PC和Spark平台中的各节点上预先安装Python。之所以突出强调这一不同点就是想让大家提前留意到在使用PyODPS处理阿里云上的数据表和建模时很多编程的语法是与单机版Python不同的。例如下面这样一个读取本地文件的简单使用场景中PyODPS与单机版Python的语法就不相同。使用单机版Python读取本地文件使用PyODPS读取本地文件这只是一个很简单的区别在实际的工作中还会有许多语法上不同的地方等待大家去发现去体会。不过先要有将PyODPS与单机版Python区分开的意识有了这样的意识在上云过程中如果将之前本地机器上处理数据库或数据表的单机版Python代码移植进PyODPS中输出结果出现异常或者发生报错时就会考虑先从代码语法层面去排查问题之后再查找ETL等其他可能的原因。而且有了这样的意识之后也会自觉编写符合PyODPS语法的代码从而更加有效的利用MaxCompute卓越的计算性能。提起与底层平台计算性能相关话题的时候我总是感触良多。按照我上述不太严谨的说法PyODPS与PySpark虽然都能称作是Python的两门方言但是他们所依托的平台真的是有亲娘跟后妈的天壤之别我由于工作需要所以在阿里云上的项目和本地集群的项目都有参与才让我有了亲娘和后妈这两种反差很大的用户体验。还是先从让人心情愉悦的这个说起吧。PyODPS我们的主角阿里云的MaxCopute对PyODPS来说简直就像亲娘一样无微不至的关怀全心全意的支持。使用PyODPS的感觉就是一个字省心只要你连接阿里云的这台PC上预先安装了Python无论你安装的是Python2还是Python3只要使用命令行终端输入“pip install pyodps”命令便可安装PyODPS。之后在你喜欢使用的任意一款Python IDE中我比较喜欢的是Jupyter Notebook输入以下命令就可以直接使用MaxCompute平台了。一切就是这么自然 from odps import ODPS o ODPS(access_id$$$$$$$$$$$$$$ , secret_access_key*********************, projectxxx, end_pointhttps://service.odps.aliyun.com/api) 而且PyODPS的版本更新完全向下兼容只要在新版本推出之后用本地PC的命令行终端输入“pip install -U pyodps”命令更新版本就行了。完全不用考虑任何版本兼容问题而且PyODPS的操作指南也会在以下网址同步更新。真的是省时、省力又省心 http://pyodps.readthedocs.io/zh_CN/latest/index.html 那么PySpark的用户体验又是怎样的呢一句话小孩没娘说来话长……先从版本说起吧从各家企业使用服务器的Linux操作系统开始版本就开始各不相同了单就CentOS操作系统来说我见过的企业就有用CentOS6.4CentOS6.5CentOS6.6和CentOS7.2的这些系统自带的Python2和jdk的版本也都不相同在拿到这些系统之后第一件事就是升级jdk到jdk8和将Python2.x升级到Python2.7.13。之后就是选择HadoopSparkZookeeperHiveHBaseKafka等组件以及Zeppelin等Notebook的版本。选择完这一大堆组件的版本之后就开始了安装部署、更改配置、更新依赖包的慢慢征途了。这期间要天天缠着谷哥和度娘问各种各样的部署、配置和依赖问题而且经常要在各种回答中反复试错N遍之后才能找到一个问题的正解。单就一个在Zeppelin Notebook运行PySpark时出现空指针报错的问题就耗费了我好几天的时间而且到现在还没有彻底解决。怎一个心酸了得…… 经过了漫长的平台搭建之路终于到了PySpark登台亮相的时候了结果这时才发现用PySpark在Spark这个后妈的平台上工作还是前路坎坷。就连Spark官网上的PySpark代码都时常有跑不通的情况发生。我还记得当时要把从HBase中读取的RDD格式数据转换成DataFrame时官网上的PySpark语句是跑不通的在谷哥和度娘上查到的语句也都跑不通最后我花了大概两天的时间才把这个功能跑通当时那种深深的绝望和绝处逢生的喜悦让我至今仍记忆犹新。单是Spark官网上PySpark代码跑不通的问题我还可以理解为可能是由于版本不兼容问题造成的。可是之后这个问题就真的是明目张胆的后妈行为了。到了Spark的Datasets数据结构以及图计算部分的GraphX完全抛弃了PySpark就只剩下她的亲儿子Scala了。这还能不能过了每当这个时候我都会想起和PyODPS一同奋战的峥嵘岁月。只要两句话他就会把整个MaxCompute集团都拉过来跟你一起干在你迷茫或找不准方向的时候钉钉群群名称 PyODPS 技术支持群号 11701793里的专家和军师们会为你指点迷津与你一同并肩在PB甚至是TB量级的各种海量数据战场上杀出一条血路一条胜利之路这就是我眼中的PyODPS 2. 安装和升级PyODPS版本 2-1. 安装 PyODPS对Python2和Python3版本都是兼容的。这里我推荐安装Anaconda的Python2或者Python3因为安装Anaconda时会默认安装许多Python常用的第三方库免去你后续查找和安装各个第三方库的烦恼而且Anaconda中安装的Jupyter Notebook正是我使用PyODPS时非常顺手的编辑器另外Anaconda的Spyder也是非要好用的Python代码编辑器。使用命令行终端输入“pip install pyodps”命令即可完成安装。如下图所示。2-2. 升级使用命令行终端输入“pip install -U pyodps”即可完成升级。如下图所示。3. PyODPS的牛刀小试当数据表存储到DataWorks之后PyODPS就可以对表中的数据进行数据预处理了。这里以一份1993年Auto MPG Data Set开源数据集为例做一个简单的Demo。(此数据集的下载地址为http://archive.ics.uci.edu/ml/datasets/AutoMPG) 前提是我们已经将此数据集导入到DataWorks当中之后操作PyODPS做数据处理和机器学习的具体姿势如下 3-1. 通过PyODPS从DataWorks中读入数据表并转换成DataFrame格式。如下图所示。从图中我们可以看到使用的是最新版0.7.13版本的PyODPS并且读入的数据表有398条记录。 3-2. 查看数据表。如下两图所示。从这两张图中我们可以看到这张表共有9列字段并且在“horsepower”字段中出现了以问号填充的脏数据。这是我们要首先去除掉的。 3-3. 去除“horsepower”字段中的问号并查看处理脏数据后DataFrame的各字段类型。如下图所示。这里在查看字段类型时发现由于问号脏数据的出现导致“horsepower”字段的类型目前为“string”类型。不过也不用着急将这个字段变回整数类型可以往下再做一些其他的数据处理工作如果发现有其他字段也需要调整类型的时候可以在训练模型之前一并处理。3-4. 分组、聚合、排序操作。如下图所示。这里是按照一辆汽车安装汽缸的数量进行分组并按照不同汽缸个数求汽车燃油效率以耗费一加仑汽油行驶的英里数作为表征即mpg字段的最大值和最小值以及对装有不同汽缸数量的汽车进行计数最后按照单辆汽车汽缸的个数进行降序排列。从下图的输出结果中可以看到并不是汽缸的数量越多燃油效率就越高装有4汽缸汽车的燃油效率要高于装有8汽缸的汽车。并且此表中装有4汽缸和8汽缸的数据记录较多其他3款的数据记录偏少。由此可知我们可以将汽缸数量为3,5,6的数据记录去除将此表构造成可用于二分类算法模型使用的数据表。 3-5. 依次去除汽缸数量为356的数据记录并验证剩余数据记录条数。如下图所示。 3-6. 将“horsepower”字段类型装换为整数型并去除字符串类型字段car_name。如下图所示。 3-7. 设置字段连续性并标注标签字段。如下图所示。3-8. 归一化并划分训练集和测试集。如下图所示。 3-9. 检查训练集和测试集的字段类型及属性标识。如下图所示。3-10. 使用训练集训练逻辑回归模型并用此模型对测试集进行预测。如下图所示。 3-11. 查看逻辑回归模型对测试集的预测结果及评分。如下图所示。 3-12. 计算此逻辑回归模型的评分及混淆矩阵。如下3图所示。至此一轮简单的使用PyODPS进行数据处理及机器学习的完整过程就演示完毕了。这里要说明的一点是虽然这个模型把测试集中91条记录全部预测正确了但是这并不是个好消息反而暴露出由于数据样本过少而导致这个模型存在严重的过拟合现象。不过这只是一个简单地Demo重在演示使用PyODPS的姿势而且我个人账号中的余额也不多就不再增加数据样本了。值得注意的是在实际的工作中训练模型所使用的样本数据的数量和质量是非常重要的而数据预处理和特征工程才决定着算法模型上限的关键步骤。在数据处理这部分PyODPS依托于MaxCompute平台强大的计算性能就体现出非常大的优势啦。 4. 未来更精彩啰嗦了这么多希望大家通过这一轮简单的演示能对PyODPS的数据处理能力有一个大概的印象在以后的工作中能日渐熟练的使用它来处理你的海量数据。 2017年12月20日在北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF目前已经进入公测阶段详情见此链接https://yq.aliyun.com/articles/292672。随着即将到来的Python UDF在MaxComputer平台上的全面开放我相信PyODPS会在阿里云上的绽放出更加耀眼的光芒将成为你在阿里云上不可多得的得力助手贴心的操作指南也已经同步上线教大家如何在PyODPS中使用Python UDF。详见如下网址https://yq.aliyun.com/articles/292672 此时你已经站在PyODPS的大门口门后就是阿里云MaxCompute的缤纷世界。我突然想套用papi酱的一句名言就是…… 你还不推一下啊

查看全文

http://www.yutouwan.com/news/88906/