当前位置：首页 > news >正文

网站开发哪一门语言更快湖南建设工程采购网站

news 2026/1/11 7:22:26

网站开发哪一门语言更快,湖南建设工程采购网站,木藕设计网站大全,网络营销seo招聘本文内容较长#xff0c;代码全部已展示在文中用户精细化分类也可以称做用户画像#xff0c;是目前很常见的一种运营手段#xff0c;目的是为了更好的服务不同性质的客户#xff0c;提高每个环节的转化率#xff0c;最大程度挖掘客户价值#xff0c;创造利润。那么如何构…本文内容较长代码全部已展示在文中用户精细化分类也可以称做用户画像是目前很常见的一种运营手段目的是为了更好的服务不同性质的客户提高每个环节的转化率最大程度挖掘客户价值创造利润。那么如何构建用户画像或者说构建精细化的运营体系这个过程的数据工作其实就是画像相关数据的整理和集中找到同业务场景强相关数据对数据进行分类和标签化(定量to定性)依据业务需求引入外部数据按照业务需求进行筛选客户(DMP的作用)本次案例就来分享如何通过数据挖掘的手段对用户进行精细化分类以保险行业为例。一、客户细分客户细分根据客户的分类维度进行细分保险行业的分类的维度一般包括5类分别是社会特征因素、自然属性因素、行为特征因素、态度偏好因素和生活状态与个性因素。前三者属于事前分类维度是表露在外的因素即通过接触就可知道的因素后两者是属于事后分类维度需要通过调研才能了解反应客户内在本质的区别。对客户细分我们往往通过事后分类维度做客户分类以保证分类的深入性再通过事前分类维度进行描述与验证以保证分类客户的差异性和可接触性。这里用Python读取调研的Excel数据将事后分类维度取出来并查看类型发现9个维度都是数字类型并且部分维度之间似乎存在一定的相关性这种相关性可能会造成重叠信息的扩大化增加分类偏差因此先对这9个维度进行因子分析。1.1 因子分析因子分析是将多个实测变量转换为少数几个综合指标(或称潜变量)它反映一种降维的思想。通过降维将相关性高的变量聚在一起从而减少需要分析的变量的数量而减少问题分析的复杂性。因子分析的前提是具有一定的相关性因此必须通过了kmo和bartlett球形度检验的数据才能进行因子分析。因子分析前首先进行KMO检验和巴特利球体检验KMO检验系数0.5(巴特利特球体检验的x2统计值的显著性概率)P值0.05时问卷才有结构效度才能进行因子分析因子分析主要是你自己做了一份调查问卷你要考量这份问卷调查来的数据信度和效度如何能不能对你想要调查的东西起代表性作用说得很通俗不知道能不能理解。球形检验主要是用于检验数据的分布以及各个变量间的独立情况。简单一点说按照理想情况如果我们有一个变量那么所有的数据都在一条线上。如果有两个完全独立的变量则所有的数据在两条垂直的线上。如果有三条完全独立的变量则所有的数据在三条相互垂直的线上。如果有n个变量那所有的数据就会在n条相互垂直的线上在每个变量取值范围大致相等的情况下所有数据分布就像在一个球形体里面。想象一下万剑穿心的情形大抵就是那个样子。如果不对数据分布进行球形检验在做因素分析的时候就会违背因素分析的假设——各个变量在一定程度上相互独立。通过了适用性检验后进行因子分析查看9个公因子的特征值以及方差贡献率一般选择方差累计贡献率大于0.8的公因子而文中选择了特征值大于1的公因子即方差累计贡献率为0.697的前4个公因子。接着根据4个公因子重新拟合。查看公因子的提取度发现当使用4个公因子时4个公因子对9个维度的解释率都超过0.6说明提取的4个公因子对原始维度有一定的解释力。接着查看4个公因子的因子载荷看看是否需要旋转。以第一个维度为例我们发现4个公因子对原始的第一个维度的解释程度分别为0.418-0.0460.6970.293表明公因子1与公因子3之间存在一定的相关性达不到因子分析的既定效果因此需要进行旋转使得各个公因子具有差异化的特征。还是以第一个维度为例我们发现经过最大方差法旋转之后4个公因子对原始的第一个维度的解释程度分别为-0.0690.1530.2030.824即公因子4对第一个维度的解释力较大。旋转后4个公因子在原始维度上被明显的区别出来即4个公因子具有差异性的特征。1.2 聚类分析经过因子分析之后我们把所有的客户分成了具有差异性特征的4类客户(代表了9个事后分类维度)接着我们通过因子类型以及保费金额两个维度进行聚类分析。聚类分析是针对数据的相似性和差异性将一组数据分为几个类别。常用的聚类分析方法有kmeans、DBSCAN以及层次聚类。这里使用的是层次聚类因为层次聚类对数据的类型要求不高而且事先不需要知道分为几类缺点在于计算量大。层次聚类(Hierarchical Clustering)是聚类算法的一种通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中不同类别的原始数据点是树的最低层树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。打个比方你作为一家公司的人力资源部经理你可以把所有的雇员组织成较大的簇如主管、经理和职员然后你可以进一步划分为较小的簇例如职员簇可以进一步划分为子簇高级职员一般职员和实习人员。所有的这些簇形成了层次结构可以很容易地对各层次上的数据进行汇总或者特征化# 因子类型以及保费金额的量纲不一致需进行标准化处理result[因子类型] result[因子类型].astype(int64)result[Z因子类型] (result[因子类型]-result[因子类型].mean())/result[因子类型].std()result[Z保费金额] (result[保费金额]-result[保费金额].mean())/result[保费金额].std()result result.set_index(result[问卷编号])#层次聚类分析Z hierarchy.linkage(result[[Z保费金额, Z因子类型]], methodward, metriceuclidean)hierarchy.dendrogram(Z, labelsresult.index)# 看效果图分为5类比较合适即高度大概在13左右label hierarchy.cut_tree(Z, height13)label label.reshape(label.size,)result[细分类型] list(label)通过层次聚类分析我们将所有客户分为了5类。接下来我们通过方法分析检验分类的效果。我们发现无论是保费金额还是因子类型通过层次聚类分组后p值都小于0.05即组间存在显著性差异聚类效果良好。#使用方差分析检验聚类效果a anova_lm(ols(保费金额~C(细分类型), dataresult[[保费金额, 细分类型]]).fit())[:1]b anova_lm(ols(因子类型~C(细分类型), dataresult[[因子类型, 细分类型]]).fit())[:1]f_oneway_result pd.concat([a.iloc[:, 3:], b.iloc[:, 3:]])f_oneway_result[列名] [保费金额, 因子类型]print(f_oneway_result) F PR(F) 列名C(细分类型) 306.108565 1.157673e-152 保费金额C(细分类型) 742.643495 1.999808e-251 因子类型通过单因素方差分析我们知道细分类型各组间存在显著性差异那么这种差异怎么表现出来呢对于类别型数据我们用占比比较对于数值型数据我们用均值进行比较然后根据保费金额以及因子类别对细分类型命名。#保费金额使用均值比较因子类别使用占比比较nor pd.crosstab(result[细分类型], result[因子类型], normalize0) # normalize 0按行求占比mean result.groupby(细分类型)[保费金额].mean()result_xf pd.concat([nor, mean], axis1)print(result_xf) 1 2 3 4 保费金额细分类型 0 0.000000 0.603774 0.396226 0.000000 1481.7962261 0.657407 0.342593 0.000000 0.000000 2098.2680562 0.000000 0.000000 0.578947 0.421053 2779.9962413 0.000000 0.000000 0.000000 1.000000 1708.3268294 0.530864 0.259259 0.197531 0.012346 3780.096296#各细分类型命名result[细分类型] result[细分类型].map( {0: 低端居家型客户, 1: 中端享受型客户, 2: 中端外向型客户, 3: 中端自信型客户, 4: 高端享受型客户})二、目标客户选取细分客户之后要选取目标客户。选取目标客户主要从两个维度来度量客户吸引力和企业竞争力。企业吸引力主要体现在各个保险公司拥有各个细分类型客户的数量即市场占有率。客户吸引力包括两个方面一是客户规模二是保费金额根据其公司需要按权重64进行计算得出客户吸引力。#统计客户吸引力和企业竞争力result_final pd.DataFrame()result_final[客户数量] result.groupby(细分类型)[问卷编号].count()result_final[保费金额] result.groupby(细分类型)[保费金额].mean()result_final[客户规模] result_final[客户数量]/result_final[客户数量].sum()result_final[客户规模标准化] ( result_final[客户规模]-result_final[客户规模].mean())/result_final[客户规模].std()result_final[保费金额标准化] ( result_final[保费金额]-result_final[保费金额].mean())/result_final[保费金额].std()result_final[客户吸引力] 0.6*result_final[客户规模标准化]0.4*result_final[保费金额标准化]result2 pd.crosstab(result[细分类型], result[保险公司的选择], normalize0)result2.columns [甲, 乙, 丙, 丁]result_final[企业竞争力] result2[甲]print(result_final) 客户数量保费金额客户规模客户规模标准化保费金额标准化客户吸引力企业竞争力细分类型中端享受型客户 216 2098.268056 0.303371 1.477388 -0.291968 0.769645 0.240741中端外向型客户 133 2779.996241 0.186798 -0.188688 0.441347 0.063326 0.458647中端自信型客户 123 1708.326829 0.172753 -0.389420 -0.711415 -0.518218 0.162602低端居家型客户 159 1481.796226 0.223315 0.333215 -0.955087 -0.182106 0.119497高端享受型客户 81 3780.096296 0.113764 -1.232494 1.517124 -0.132647 0.320988#矩阵分析图plt.rcParams[font.sans-serif] Simheiplt.rcParams[axes.unicode_minus] Falseplt.subplot(1, 1, 1)plt.scatter(result_final[企业竞争力], result_final[客户吸引力], s200, cr, markero)plt.hlines(y0, xmin0, xmax0.5)plt.vlines(x0.25, ymin-1.2, ymax1.2)plt.xlabel(企业竞争力)plt.ylabel(客户吸引力)for a, b, c in zip(result_final[企业竞争力], result_final[客户吸引力], result_final.index): plt.text(a, b, c, hacenter, vabottom, fontsize10)由上图可知中端外向型客户是甲公司的首选客户其次是中端享受型客户和高端享受型客户而低端居家型客户和中端自信型客户在资源不足的情况下暂可放弃。三、目标客户定位目标客户定位包括两部分一是目标客户长什么样也就是用户画像通过事前分类维度描述目标客户画像二是目标客户需求是什么针对需求进行精准营销。分析过程依然是先进行方差分析通过方差分析的维度用均值或者占比表现差异性最后通过对应分析展示效果。3.1 目标客户画像事前分类维度一共由6个分别是城市、年龄、性别、家庭月收入、汽车价格、学历以及职业。通过方差分析发现学历以及职业在细分类型组间没有显著性差异故忽略这两个维度继续分析。#事前分类维度方差分析result[职业] result[职业].replace( , 6).astype(int64)target_sd []for i in [性别, 年龄, 城市, 家庭月收入, 汽车价格, 学历, 职业]: formula ( str(i) ~ C( 细分类型) ) a anova_lm(ols(formula, dataresult[[i, 细分类型]]).fit())[:1] target_sd.append(pd.DataFrame( {c: str(i), F: a[F], PR(F): a[PR(F)]}))target_result pd.concat(target_sd)target_result target_result[target_result[PR(F)] 0.05]#具有显著性差异的维度结果展示print(target_result) c F PR(F)C(细分类型) 性别 57.940193 2.614665e-42C(细分类型) 年龄 553.274636 4.801252e-216C(细分类型) 城市 3629.629395 0.000000e00C(细分类型) 家庭月收入 268.460859 3.193752e-140C(细分类型) 汽车价格 901.193079 7.780527e-276#具有显著性差异的维度命名Y result[[性别, 年龄, 城市, 家庭月收入, 汽车价格, 细分类型]]Y[性别] Y[性别].map({1: 男, 2: 女})Y[年龄] Y[年龄].map({1: 18-30岁, 2: 31-40岁, 3: 41岁以上})Y[城市] Y[城市].map( {1: 北京, 2: 上海, 3: 武汉, 4: 沈阳, 5: 广州, 6: 西安, 7: 成都})Y[家庭月收入] Y[家庭月收入].map( {1: 小于7000元, 2: 7000-10000元, 3: 10000-15000元, 4: 15000-20000元, 5: 20000元以上})Y[汽车价格] Y[汽车价格].map( {1: 10万元以下, 2: 10-20万元, 3: 20-30万元, 4: 30万元以上})# 多因子对应分析mca prince.MCA(n_components2, n_iter10, random_state1)mca mca.fit(Y)ax mca.plot_coordinates( XY, axNone, figsize(10, 6), show_row_pointsFalse, show_column_pointsTrue, column_points_size100, show_column_labelsTrue, legend_n_cols1)从对应分析效果图可知甲公司首选目标客户中端外向型客户主要分布在北京。武汉的分布比例也比其他细分类型要高年龄集中在31-40之间性别为男家庭月收入在1.5万到2万元之间汽车价格在20-30万元间。3.2 目标客户需求分析目标客户关注哪些需求如何分析依然是选定各细分类型客户然后对各个维度进行方差分析通过方差分析检验后的维度用均值或者占比进行比较。而未通过方差分析的维度则直接用中端外向型客户进行各个维度的比较数值型用均值类型用占比。具体见下#事前分类维度方差分析result[职业] result[职业].replace( , 6).astype(int64)target_sd []for i in [性别, 年龄, 城市, 家庭月收入, 汽车价格, 学历, 职业]: formula ( str(i) ~ C( 细分类型) ) a anova_lm(ols(formula, dataresult[[i, 细分类型]]).fit())[:1] target_sd.append(pd.DataFrame( {c: str(i), F: a[F], PR(F): a[PR(F)]}))target_result pd.concat(target_sd)target_result target_result[target_result[PR(F)] 0.05]#具有显著性差异的维度结果展示print(target_result) c F PR(F)C(细分类型) 性别 57.940193 2.614665e-42C(细分类型) 年龄 553.274636 4.801252e-216C(细分类型) 城市 3629.629395 0.000000e00C(细分类型) 家庭月收入 268.460859 3.193752e-140C(细分类型) 汽车价格 901.193079 7.780527e-276#具有显著性差异的维度命名Y result[[性别, 年龄, 城市, 家庭月收入, 汽车价格, 细分类型]]Y[性别] Y[性别].map({1: 男, 2: 女})Y[年龄] Y[年龄].map({1: 18-30岁, 2: 31-40岁, 3: 41岁以上})Y[城市] Y[城市].map( {1: 北京, 2: 上海, 3: 武汉, 4: 沈阳, 5: 广州, 6: 西安, 7: 成都})Y[家庭月收入] Y[家庭月收入].map( {1: 小于7000元, 2: 7000-10000元, 3: 10000-15000元, 4: 15000-20000元, 5: 20000元以上})Y[汽车价格] Y[汽车价格].map( {1: 10万元以下, 2: 10-20万元, 3: 20-30万元, 4: 30万元以上})# 多因子对应分析mca prince.MCA(n_components2, n_iter10, random_state1)mca mca.fit(Y)ax mca.plot_coordinates( XY, axNone, figsize(10, 6), show_row_pointsFalse, show_column_pointsTrue, column_points_size100, show_column_labelsTrue, legend_n_cols1)由上面的分析可知甲公司的目标客户中端外向型客户在选择保险公司考虑的因素中比较关注服务网点多、亲朋推荐和信任销售人员其中尤其关注亲朋的推荐。在满意度分析中发现中端外向型客户对目前购买的车险并不满意满意度只有1.5%还有很大提升空间不满意的具体原因还需进一步调研。中端外向型客户车险平均保费在2780元比其他细分客户更注重产品个性化所以可以研究下定价策略和一些个性化产品。总结最后市场上用户画像的方法很多许多企业也提供用户画像服务将用户画像提升到很有逼格一件事。金融企业是最早开始用户画像的行业由于拥有丰富的数据金融企业在进行用户画像时对众多纬度的数据无从下手总是认为用户画像数据纬度越多越好画像数据越丰富越好某些输入的数据还设定了权重甚至建立了模型搞的用户画像是一个巨大而复杂的工程。但是费力很大力气进行了画像之后却发现只剩下了用户画像和业务相聚甚远没有办法直接支持业务运营投入精力巨大但是回报微小可以说是得不偿失无法向领导交代。事实上用户画像涉及数据的纬度需要业务场景结合既要简单干练又要和业务强相关既要筛选便捷又要方便进一步操作。用户画像需要坚持三个原则分别是人口属性和信用信息为主强相关信息为主定性数据为主。1、信用信息和人口属性为主描述一个用户的信息很多信用信息是用户画像中重要的信息信用信息是描述一个人在社会中的消费能力信息。任何企业进行用户画像的目的是寻找目标客户其必须是具有潜在消费能力的用户。信用信息可以直接证明客户的消费能力是用户画像中最重要和基础的信息。一句戏言所有的信息都是信用信息就是这个道理。其包含消费者工作、收入、学历、财产等信息。定位完目标客户之后企业需要触达客户人口属性信息就是起到触达客户的作用人口属性信息包含姓名、性别电话号码邮件地址家庭住址等信息。这些信息可以帮助联系客户将产品和服务推销给客户2、采用强相关信息忽略弱相关信息强相关信息就是同场景需求直接相关的信息其可以是因果信息也可以是相关程度很高的信息。如果定义采用0到1作为相关系数取值范围的化0.6以上的相关系数就应该定义为强相关信息。例如在其他条件相同的前提下35岁左右人的平均工资高于平均年龄为30岁的人计算机专业毕业的学生平均工资高于哲学专业学生从事金融行业工作的平均工资高于从事纺织行业的平均工资上海的平均工资超过海南省平均工资。从这些信息可以看出来人的年龄、学历、职业、地点对收入的影响较大同收入高低是强相关关系。简单的将对信用信息影响较大的信息就是强相关信息反之则是弱相关信息。用户其他的信息例如用户的身高、体重、姓名、星座等信息很难从概率上分析出其对消费能力的影响这些弱相关信息这些信息就不应该放到用户画像中进行分析对用户的信用消费能力影响很小不具有较大的商业价值。用户画像和用户分析时需要考虑强相关信息不要考虑弱相关信息这是用户画像的一个原则。3、将定量的信息归类为定性的信息用户画像的目的是为产品筛选出目标客户定量的信息不利于对客户进行筛选需要将定量信息转化为定性信息通过信息类别来筛选人群。例如可以将年龄段对客户进行划分18岁-25岁定义为年轻人25岁-35岁定义为中青年36-45定义为中年人等。可以参考个人收入信息将人群定义为高收入人群中等收入人群低收入人群。参考资产信息也可以将客户定义为高、中、低级别。定性信息的类别和方式方法金融可以从自身业务出发没有固定的模式。将企业各类定量信息集中在一起对定性信息进行分类并进行定性化有利与对用户进行筛选快速定位目标客户是用户画像的另外一个原则。4、用户画像的方法介绍不要太复杂需要结合业务需求进行用户画像从实用角度出发比如这里我们将用户画像信息分成五类信息。分别是社会特征因素、自然属性因素、行为特征因素、态度偏好因素和生活状态与个性因素。它们基本覆盖了业务需求所需要的强相关信息结合外部场景数据将会产生巨大的商业价值。特别复杂的用户画像纬度例如八个纬度十个纬度信息都不利于商业应用其他具有价值的信息基本上都可以归纳到这五个纬度。过于复杂用户画像这个工作对商业意义也不太大。最后以上就是本篇分享希望对大家有用。

查看全文

http://wiki.neutronadmin.com/news/479382/