呼和浩特住房和城乡建设部网站,建设部标准规范网站,五金配件网站建设报价,主机 搭建wordpress文章目录一、概述二、关联分析概念#xff1a;关联分析步骤#xff1a;用于寻找频繁项集的算法算法一#xff1a;蛮力法算法二#xff1a;Apriopri算法#xff08;先验算法#xff09;三、分类与预测k近邻算法#xff08;kNN#xff09;四、聚类分析k均值算法#xff…
文章目录一、概述二、关联分析概念关联分析步骤用于寻找频繁项集的算法算法一蛮力法算法二Apriopri算法先验算法三、分类与预测k近邻算法kNN四、聚类分析k均值算法k-means五、异常分析六、数据挖掘在电子商务中的应用数据来源常用数据挖掘技术1.路径分析2.关联规则3.序列模式4.分类5.聚类一、概述
数据挖掘Data Mining从大量数据中寻找其规律的技术是统计学、数据库和人工智能等技术的综合是从大量、不完全、有噪声、模糊、随机的实际应用数据中提取隐含在其中、事先不知道、但有潜在的有用信息和知识的过程。
数据挖掘的四大核心任务关联分析、分类与预测、聚类分析、异常检测。
二、关联分析
关联某种事物发生时其他事物也会发生。 关联规则的表示形式 RX→Y其中X和Y是两个不相交的项集即XY⊂I 且X∩YΦ X称为规则的前提或前项Y称为结果或后项 概念
交易事务每一条购买记录成为一个交易。项集包含一个或多个项的集合。支持数σ一个项集在所有交易中出现的次数。支持度ssX→Y 同时包含X和Y的交易数 / 总交易数置信度ccX→Y 同时包含X和Y的交易数 / 以X作为前项的交易数
关联分析步骤
设定最小支持度minsup和最小置信度minconf找出s ≥ minsup∧c ≥ minconf的项集作为频繁项集由频繁项集产生强关联规则
用于寻找频繁项集的算法
算法一蛮力法
当有d个项时将产生2d2^d2d个候选项集产生的关联规则总个数有3d−2d13^d-2^d13d−2d1。
算法二Apriopri算法先验算法
算法基于的先验知识频繁项集的子集也一定是频繁的。例如如果{AB}是频繁项集则{A}和{B}也一定是频繁项集。
对于k各项从1到k递归地查找频繁项集。
三、分类与预测
分类用于预测离散的目标变量预测类别未知的数据项的类别。 预测用于预测连续的目标变量主要方法时回归。
分类的目的时获取分类函数或分类模型分类器该模型能把数据项映射到一个指定类别。 分类可用于提取描述重要数据类的模型或预测未来的数据趋势。步骤为1.创建模型2.使用模型。
k近邻算法kNN
给定测试样本和阈值k可以使用交叉检验确定基于某种距离度量如欧氏距离找出训练集中于测试样本最靠近的k个训练样本然后基于这k 个邻居的信息来进行预测在分类任务中采用“投票法”即选择这k个邻居中出现最对的类别作为预测结果在回归任务中采用“平均法”即将k个邻居的实际输出的平均值作为预测结果还可以基于距离远近进行加权平均或加权投票。
难点样本的非数值特征如何转化为数值、不同特征对距离度量的影响权值如何确定。 优点易于理解易于实现无需训练懒惰学习精度高对异常值不敏感。 缺点计算量大空间开销大。
四、聚类分析
无监督的分类是指把一组数据分成不同的簇每簇中的数据相似而不同簇间的数据距离较远。 原则最大化类内相似性、最小化类间相似性。
k均值算法k-means
是一种简便、使用的无监督聚类分析算法。在已知簇的个数时可以很好地实现数据的聚类分析。
首先随机选择K个点作为聚类中心计算其他样本与各个聚类中心的向量距离将每个样本都划入与其距离最近的聚类中心对应的簇中。对每一个簇计算其中所有样本的均值向量产生K个新的聚类中心。如此反复不断改变聚类中心的位置直到聚类中心不再变化或达到迭代上限为止。
五、异常分析
又称为偏差分析或离群点分析。离群点指异常对象属性是明显偏离期望或常见的属性值。
六、数据挖掘在电子商务中的应用
数据来源
服务器数据系统日志、访问日志在线销售数据订单、收藏信息Web页面数据浏览次数Web页面超链接关系客户注册信息……
常用数据挖掘技术
1.路径分析
用于判断在一个Web站点中最频繁访问的路径。 可以用于改进页面及网站结构的设计。
2.关联规则
找到客户对网站上各种文件和资源之间访问的相互联系。 可用于更好的组织站点实施有效的市场策略。
3.序列模式
找到与时间相关“一个项跟随另一个项”的内部事务模式。 能够用于预测用户的访问模式对客户开展有针对性的广告和促销服务。
4.分类
给出识别一个特殊群体的公共属性的描述可以用来分类预测新的项。 可以进行适合某一类客户的商务活动。
5.聚类
从Web访问信息数据中聚集出具有相似特性的客户。 能够便于开发和执行未来的市场战略。