当前位置：首页 > news >正文

建设博客网站廊坊做网站费用

news 2026/1/14 2:35:46

建设博客网站,廊坊做网站费用,asp相册网站源码,为什么要找对做网站的公司更加详细的只找得到pdf版本填空10分判断并改错10分计算8分综合20分客观题填空10分判断并改错10分--错的要改 mooc中的--尤其考试题名词解释12分 4个#xff0c;每个3分经常碰到的专业术语简答题40分 5个#xff0c;每道8分综合画roc曲线 …更加详细的只找得到pdf版本填空10分判断并改错10分计算8分综合20分客观题填空10分判断并改错10分--错的要改 mooc中的--尤其考试题名词解释12分 4个每个3分经常碰到的专业术语简答题40分 5个每道8分综合画roc曲线类似于和计算相关的题目 C1 什么是数据挖掘概念是什么哪些操作属于数据挖掘操作哪些操作不属于数据海量、多源异构操作从大量的数据中提取出有趣的重要、隐含、以前未知、潜在有用模式或知识。数据分析与数据挖掘有区别数据挖掘AKA知识发现KDD 数据挖掘的流程在数据管理的视角下数据挖掘的流程是什么有哪些环节一定要注意是一个迭代反馈的过程数据集成不同数据源中描述同一条数据对象《变成一个比较统一的数据信息数据清理错误、异常、冗余、缺失进入数据仓库按主题存储数据选择、变换把数据仓库中的数据变成与数据挖掘任务相关的数据集选择选择相关数据、属性特征变换格式可能不满足算法要求、数据量纲特征转换--相乘相除etc… 得到和任务相关的数据集可供我们使用算法数据挖掘设计或选择合适的模型用于任务相关的数据上得到模式知识评估若不满足考虑到之前所有步骤--哪个或哪几个步骤不合适反复试验的过程数据挖掘的任务分类回归利用历史记录预测未来的值--预测问题聚类相关性分析与关联分析-关联规则挖掘异常检测预测性任务描述性任务关联规则挖掘-物品之间共线关系 C2 数据集的主要特征维度、分辨率、稀疏性识别数据属性值中的异常的方法画图【箱线图】、统计的3σ原则标称【标称属性中的二分属性-对称二分与不对称二分】、序数、数值如何计算这些数据类型的相似度如果数据的属性是混合类型的数据类型的相似度怎么计算【核心】数据对象的相似性度量问题【两个行的相似性】【属性之间的相似性是两个列】相似性和相异性此涨彼消标称 p为属性个数m是两个对象属性取值相等的个数p-m两个对象取值不相等的个数二分需要四个指标非对称取0的可能性更高尽管差异性很大但是因为取0概率高导致差异性不准序数取值转换为数值类型--把级别从低到高排序取值按公式转换数值用距离衡量常用距离闵氏距离曼哈顿距离-出租车距离-沿着街道走走折线--高维上确界距离文档余弦相似度混合类型 f:每个属性 dij(f):在f属性上的相异度前面为权重属性之间的相关性单相关和复相关正相关和负相关线性相关和非线性相关不相关、完全相关、不完全相关画散点图相关系数线性协方差皮尔森相关系数等级最大信息系数MIC用于度量高维数据中属性变量之间强相关性属性和属性间的计算属于相关性分析--方法 C3 数据预处理主要包括哪些步骤数据清理、数据集成、数据转换、数据约减简述数据清理的主要任务、常用方法、流程处理缺失数据、平滑噪声、识别或移除异常属性值的异常、解决数据不一致的问题… 常用方法缺失值删除插补异常值噪音不一致实体识别技术流程流程右侧是数据清理的过程首先import data导入数据集中相关数据处理缺失值标准化【max-min这种目标是统一特征维度的量纲】、规范化【变换后吻合一个分布zscore】重复性检测、修正错误与丰富导出常用离散化方法有哪些【看下游任务】无监督分箱直方图聚类k-means 有监督--类标签指导下基于熵的方法不断离散化如何识别冗余属性通过相关性分析发现冗余属性数值属性相关系数、协方差标称类型卡方检验常用的约减方法--前三个对数据量压缩PCA是无监督的降维回归聚类抽样 PCA 数据量的压缩有参回归只保留参数wb想生成数据集的时候直接在x上随机采样生成y值无参聚类对每个簇抽样抽样有放回、无放回、分层维度压缩无监督pca 把原始的属性描述的特征空间映射为正交矩阵空间尽可能多的保留原始数据信息消除冗余--维度彼此独立 pca通过做正交矩阵分解得到主成分选前k个重要特征作为新的空间中的特征把所有数据对象由前k个特征的线性组合表示属性子集选择 Method1:删除冗余属性、删除不重要的…得到子集 Method2:添加最重要的、次重要的…得到子集 Vs 属性选择得到的特征有具体含义PCA没有【黑箱】-可能可以得到非常好的特征提取但是可解释性差 olap 数仓的基本架构简述数仓的数据模型及各模型特点数据仓库与数据库的区别关联规则挖掘方法与评估指标两阶段频繁项集的产生--关联规则的产生频繁项集的实现用了性质缩小频繁项集的空间关联规则挖掘的内容评估指标--常用支持度和置信度并不一定是一个有意义的关联规则提升度聚类聚类和分类的区别 kmeans和DBSCAN的原理和流程和优缺点特点对kmeans的缺点有哪些办法可以解决 k值需要确定设置不同k值求sse考虑拐点附近的k值初始聚类中心的选择第一个随机选下一个选离当前选择的最远的对噪声点和异常敏感【因为均值敏感】使用k-medoids用真实数据对象作为中心-复杂度高-由簇中的数据对象替代用k中位数球形簇【基于距离】空簇选sse贡献最大的点作为簇中心从簇中选一个对sse贡献最大的点尺寸密度非凸解决 k取较大值分为多个小簇再合并纵轴第k个最近邻距离的变化范围横轴数据对象按最近邻距离编码大部分数据对象的第k个最近邻的变化变化幅度不大拐点飙升-异常点当k取大距离大由此判断k 聚类的评估指标--有监督【和分类一样】和无监督【规范化的互信息与轮廓系数】标准化的互信息-Y是聚类标签C是真实标签-I(Y,C)互信息H(C )-H(Y|C)yc依赖性越高越好分类 roc怎么画 tpr是召回率评估指标--精度召回率fscore 决策树、贝叶斯、集成贝叶斯易于实现结果比较好鲁棒的有可能有依赖集成对于不稳定的分类器才有提升效果评估框架--bootstrap cosostation交叉验证的bootstrap 二分类问题正事例异常异常的类型异常的方法基于统计、距离、密度、

查看全文

http://www.yutouwan.com/news/279721/