做app找哪个网站,扫码进入网站如何做,电子商城采购流程,灰色网站怎么做卡方检验主要可以用于处理计数数据的拟合问题。具体说#xff0c;它可以检验单变量多项分类上的实计数和理论次数分布之间的差异显著性。 它是卡方检验中的一个主要测试指标#xff0c;卡方检验是一种用途很广的计数资料的假设检验方法#xff0c;它属于非参数检验的范畴它可以检验单变量多项分类上的实计数和理论次数分布之间的差异显著性。 它是卡方检验中的一个主要测试指标卡方检验是一种用途很广的计数资料的假设检验方法它属于非参数检验的范畴主要是比较两个及两个以上样本率( 构成比以及两个分类变量的关联性分析其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 卡方值是非参数检验中的一个统计量主要用于非参数统计分析中。它的作用是检验数据的相关性。如果卡方值的显著性即SIG.小于0.05说明两个变量是显著相关的。
卡方检测的详细原理看这篇文章https://www.freesion.com/article/37741515017/
1. 首先import包和实验数据
from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 from sklearn.datasets import load_iris
导入IRIS数据集
iris load_iris() print(iris.data) # 查看数据
结果输出
array([[ 5.1, 3.5, 1.4, 0.2], [ 4.9, 3. , 1.4, 0.2], [ 4.7, 3.2, 1.3, 0.2], [ 4.6, 3.1, 1.5, 0.2], [ 5. , 3.6, 1.4, 0.2], [ 5.4, 3.9, 1.7, 0.4], [ 4.6, 3.4, 1.4, 0.3], …)
2. 使用卡方检验来选择特征
# 选择k个最佳特征model1 SelectKBest(chi2, k2) # iris.data是特征数据iris.target是标签数据该函数可以选择出k个特征 model1.fit_transform(iris.data, iris.target)
结果输出为
array([[ 1.4, 0.2], [ 1.4, 0.2], [ 1.3, 0.2], [ 1.5, 0.2], [ 1.4, 0.2], [ 1.7, 0.4], [ 1.4, 0.3], …)
可以看出后使用卡方检验选择出了后两个特征。如果我们还想查看卡方检验的p值和得分可以使用第3步。
3. 查看p-values和scores
# 得分print(model1.scores_ ) # 得分输出为可以看出后两个特征得分最高与我们第二步的结果一致 array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])
查看P值
print(model1.pvalues_) # p值输出为可以看出后两个特征的p值最小置信度也最高与前面的结果一致。