当前位置: 首页 > news >正文

广东做网站公司有哪些江西求做网站

广东做网站公司有哪些,江西求做网站,哪里有广告设计制作的培训,商城网站源文件下载吴恩达《机器学习》学习笔记十二——机器学习系统一、设计机器学习系统的思想1.快速实现绘制学习曲线——寻找重点优化的方向2.误差分析3.数值估计二、偏斜类问题#xff08;类别不均衡#xff09;三、查准率P与召回率R——代替准确率的评估指标四、查准率与召回率的权衡——… 吴恩达《机器学习》学习笔记十二——机器学习系统一、设计机器学习系统的思想1.快速实现绘制学习曲线——寻找重点优化的方向2.误差分析3.数值估计二、偏斜类问题类别不均衡三、查准率P与召回率R——代替准确率的评估指标四、查准率与召回率的权衡——F1-Score上次笔记主要介绍评估机器学习模型的方法从偏差、方差来分析模型可能拥有的问题从而应该采取什么相应的措施。介绍了偏差、方差与欠拟合、过拟合之间的关系以及正则化对偏差、方差的影响还介绍了一些曲线图帮助分析这些都是实践中很重要的建议相比毫无目的地随便选择优化方法通过评估分析之后可以排除一些无意义的选项节省了大量宝贵的时间。 上次笔记链接https://blog.csdn.net/qq_40467656/article/details/107525426 这次笔记继续介绍一些机器学习系统实际使用时会遇到的一些问题以及相应的解决方案。 一、设计机器学习系统的思想 1.快速实现绘制学习曲线——寻找重点优化的方向 当要开始做一个机器学习的系统时一般来说最好的办法不是一开始就建立一个很复杂的有许多复杂特征的系统而是通过一个简单的算法来快速地实现它即使这个简单的东西不是很完美然后通过交叉验证集来测试数据。 做完上述的之后就可以画出相应的学习曲线通过学习曲线以及检验误差来找出你的算法是否存在高偏差或高方差或其他一些的问题在作出这些分析之后再来决定是否使用更多的数据或者特征等等。这种方法在你刚刚开始解决一个机器学习的问题的时候能起到很好的作用因为你并不能预知你是需要更多的特征还是更多的数据或者是别的东西在缺乏各种证据的情况下很难提前知道这些信息因为你没有画出学习曲线所以很难决定把时间花在哪里。 所以很多时候一开始应当先进行一次简单快速地实现然后画出学习曲线来帮助你进行之后的判断。可以把它想成是在你编程的时候你要避免出现过早优化的问题这种思想告诉我们应该用实际的证据来指导我们的决策来决定把时间花在哪里而不是仅凭直觉。上述思想如下图所示 2.误差分析 当实现比如一个垃圾邮件分类器的时候会经常观察交叉验证集的情况然后看一看那些被错误分类的文件。通过查看这些被错误分类的垃圾邮件和非垃圾邮件有什么共同的特征和规律这样做多了以后这个过程就会启发你应该设计怎样的新特征或是告诉你现在的系统有什么优点和缺点然后指导你想出办法来改进它。 举一个具体的例子假如在做一个垃圾邮件分类器然后在你的交叉验证集中有500个样本假如在这个例子中错误率较高它错误分类了100个交叉验证样本如下图所示 那么现在要做的就是手动核查着100个错误然后手工为它们分类同时要考虑这些邮件是什么类型的邮件有什么线索或者特征能帮助算法正确的进行分类。比如经过手动核查后发现错误分类的邮件是以下的情况 对于错误比较多的类别就应该多关注一下多找一些特征来区别它们进而进行改进。 因此这样的误差分析是一种手动地去检查算法所出现的失误的过程它能引导你走向最有成效的道路。这也是为什么要先通过一种比较简单的算法先实现的原因我们要做的是找到一些最难以分类的类别而对于不同的学习算法来说对它们造成困难的样本总是相似的通过一个简单粗暴的算法实现你可以很快的找到算法的不足所在和难以处理的样本的类型然后把精力集中在它们身上。 3.数值估计 在改进学习算法时另一个技巧是保证自己对学习算法有一种数值估计的方法。当改进学习算法时如果你的算法能够返回一个数值评价指标来估计算法执行的效果将会很有帮助。 可能算法是准确的也可能是错误的但这个数字能告诉你你的学习算法效果有多好先看一个例子 当遇到是否应该把discount、discounts、discounted和discounting这几个单词当作有相同的含义时可能会考虑是否使用stemming软件一种词干提取软件那么我们就可以通过比较使用前后系统的错误率的变化来判断是否应该使用。图中所示不使用的错误率是5%使用后的错误率是3%显然有了这样的数值比较抉择起来会很容易。 当你改进学习算法时你总是要去尝试很多新主意和新版本的算法如果你每次试用新方法都手动地去检测这些例子看看表现的好不好会让你很难去决定到底应不应该这么做。但是通过一个单一规则的数值评价指标你可以观察误差率是变大了还是变小了你可以通过它更快地实践你的新想法它能直接告诉你你的想法能提高还是降低学习算法的表现这会大大加速你的进程。 二、偏斜类问题类别不均衡 从一个例子来理解偏斜类问题 训练一个逻辑回归模型来判断患者是否患有癌症假设我们训练的这个模型在测试集上的错误率只有1%。但是如果只有0.5%的患者是有癌症的这时即使不用任何算法直接将所有患者都预测为无癌症错误率也只有0.5%比使用了机器学习算法后获得的错误率还要低。 这种情况经常发生在正例和负例的比率非常接近于一个极端情况的时候。在本例中正样本的数量与负样本的数量相比非常非常少把这种情况叫做偏斜类。一个类的数据与另一个类相比多很多此时使用分类误差或分类精确度来作为评估度量可能会产生如下问题有时候只看准确率无法衡量一个算法的好坏无法确定真的提升了算法的质量。 三、查准率P与召回率R——代替准确率的评估指标 所以在遇到偏斜类问题时我们希望有一个不同的误差度量值或评估度量值。下面介绍两种评估度量值查准率与召回率。 首先要定义一些概念 当真实类别与预测的类别都为1时的数据我们称之为真阳性True Positive真实类别为1预测类别为0的称之为假阳性False Positive真实类别为0预测类别为1的称之为假阴性False Negative真实类别与预测类别都为0的称之为真阴性True Negative如上图所示。 然后再来看查准率与召回率的定义 查准率Precision是指在所有预测为真的数据中真实标签为真的数据的比例公式如下图所示可以看出查准率越高越好。 而召回率Recall是指在所有真实标签为真的数据中被预测正确即也为真的比例公式如下图所示自然也是越高越好。 通过计算查准率与召回率我们就可以更好地知道分类模型到底好不好针对上述提及的癌症分类的偏斜类问题如果我们将所有的数据全都预测为无癌症0/假那么召回率就变成0由此得知这不是一个好的算法。 拥有高查准率和高召回率的模型是一个好的分类模型这给予了我们一个更好的评估值给予了一种更直接的方法来评估模型的好坏。 四、查准率与召回率的权衡——F1-Score 在很多应用中我们希望能够保证查准率与召回率的相对平衡。先来看一下查准率与召回率有什么联系 还是在这个癌症分类的逻辑回归模型上如果我们的目标是尽可能的减少患者的心理负担即只有很确定时才宣布患有癌症y1不然不判定为癌症y0。 当我们将分类的阈值从0.5改为0.7或者是0.9时这就意味着在概率达到90%时才判定为有癌症这样的话判断有癌症的数据中真的有癌症的比例就会变大即查准率会变大而与此同时所有真实有癌症的数据中被预测为有癌症的可能性就有所下降毕竟概率要求变高原本一些低概率的现在被预测为无癌症了即召回率会变小。 考虑另外一种情况假设我们希望避免遗漏掉患有癌症的患者即希望避免假阴性。换句话说如果一个患者确实患有癌症但是我们没有告诉他患有癌症那这可能造成严重的后果。 这时的分类阈值将会设置的小一些比如0.3因为希望更多的患者被预测为有癌症从而进一步接受治疗。那么与上一个情况相反这将拥有高召回率低查准率。 所以对于大多数的回归模型你得权衡查准率与召回率通过改变“阈值”来得到想要的高查准率或是高召回率它们之间的关系如下图所示一个高一个就低 那么现在又有一个问题当你有几个算法时或者同一个算法但是“阈值”不同时得到的查准率与召回率都是不一样的我们怎样决定哪一个是最好的呢当只有一个评价度量时可以直接比较但是现在有两个该怎么综合考虑呢 有一种结合查准率和召回率的的方式叫做F值F-Score公式如下图所示分值越高则说明该模型最好
http://wiki.neutronadmin.com/news/440025/

相关文章:

  • 手机网站建设哪里好影楼网站建设
  • 欧式建筑网站衡水网站网站建设
  • 网站建设用户需求分析淘宝网店运营培训
  • 做设计素材在哪个网站淮南网课
  • 创建网站的app企业网络推广方案怎么做
  • 网站建设行业 知乎网站建设战略合作方案
  • 街道网站建设wordpress 子主题
  • 网站建设 廊坊重庆安全监督工程信息网
  • 贵州一帆建设工程有限公司网站电商模板网站免费
  • 网站页中繁体转移代码我做的网站搜不到
  • 成品图片的网站在哪里找二级域名分发
  • 做网站用主机js网站源码
  • 建设将网站加入受信网站再试宜昌网站seo
  • 网站未备案可以上线吗asp.net网站的404错误页面
  • 如何增加网站pr值做网站需要写代码
  • 霞浦网站建设杭州网站建设公司官网
  • 网站贸易表格怎么做开发公司交房归物业公司交给物业公司
  • 网站301跳跳转广东省建筑安全员证查询官网
  • 定制制作网站开发专业做招聘网站
  • 网站背景修改烟花代码html
  • ftp做网站编程网站编程
  • 收费网站空间wordpress幻灯片不显示
  • 石家庄网站建站公司安徽智农网络信息技术服务有限公司 网站开发
  • 陕西省住房和城乡建设厅网站上查询网站好玩新功能
  • 设计师 必备的网站个人网站开发教程
  • seo网站地图怎么做江苏建设招标网
  • 昆明做网站设计建站之星多少钱
  • 视频网站信息资源建设怎么用ps做网站效果图
  • 宜宾有什么大型网站建设公司数据服务器
  • 南昌网站设计案例唐山网站制作案例