浅谈数据处理中的相关分析

作者&投稿:赧舒 (若有异议请与网页底部的电邮联系)
如何进行两列数据的相关性分析~

用Eviews按如下步骤:
1:打开Eviews,点击FILE-New-Workfile 弹出一个对话框workfile create
在workfile structure的下拉菜单选择数据类型面板数据、时间序列还是均衡的小组。然后在右侧选择序列波动范围。
2:在上面菜单栏quick里点击empty group,把现有的数据copy到里面,在上面输入序列的名称,(点OBS 把上面的修改为你要的列的名称,弹出对话框点YES),然后关闭这个表,弹出对话框,点右侧的NAME,然后给表起个名字,他就保存了。
3:点上面菜单栏的quick-equation estimation,在中间的大空白处输入你想形成的方程,比如你想知道数列Y与X的方程关系,那就输入Y C X 回车 就可以出来结果了,C是常数项,后面的数字是C的值,Y和X以此类推。下面的R-squared后的数值代表拟合优度,也就是X 和Y的相关性系数,越接近1越有线性相关性。

这是一个两个变量之间的相关性分析结果。
使用的参数是Pearson指数。
Pearson correlation是一个相关系数,它指出了两个变量之间相关的亲密程度和方向。这个数值的绝对值越大越说明两个变量的关系越亲密,它的绝对值为0-1之间。在你的分析结果中,这个数值的绝对值为 0.622,说明检验的两个变量之间相关亲密程度比较强。如果这个绝对值< 0.3的话,那就是弱相关。
这个相关系数的正负符号说明相关性的方向,如果为正值,你可以说这两个变量之间是正相关(一个变量的增高引起另一个变量的增高),如果为负号,则为负相关(一个变量的增高引起另一个变量的降低 )。
从Pearson correlation系数来看,这两个变量之间存在较强的负相关。

Sig. (2-tailed)是一个相关显著性系数,它指出上面所说的相关系数是否具有统计学意义。Sig. (2-tailed) =0.018说明在(1-0.018)* 100=98.2%的几率上,上面的Pearson correlation成立。一般而言,sig. <=0.05的情况下,Pearson correlation具有统计学意义。从你的结果来看:
两个变量之间为显著正相关(r = 0.622, p = 0.018)。

N,是number的缩写,就是指出你的两个变量共多少个数据,从你的结果来看,共14个数据参加了运算。

* Correlation is significant at the 0.05 level (2-tailed).是指:
在95%的几率下,相关性是显著的。实际上,你不看这一行,从上面的sig.值就可以看出来了。

浅谈数据处理中的相关分析

大数据的发展经历了从因果分析到相关分析的转变。宏观上来讲,如果两个事务存在某种统计学意义上的依赖性就称两者具有相关性。这里我们就简单聊聊各种相关分析的方法。
 

1、 先以电商中的商品推荐为例,来看看最基本的相关分析方法:

我们经常会用到的比如计算两个商品的相似度,或计算两个用户之间的相似度,如下图所示,是基于商品的购买行为,来计算两个商品之间的相似程度。我们先基于此例来说明。这里每个商品可以表示成用户购买行为的特征向量,其中1表示此用户购买,0表示此用户未购买。

设商品a的特征向量为向量A, 商品b的特征向量为向量B,那么常用的计算相关性的方法有以下:

Jaccard相关是基于计算集合之间的相似度方法,而Cosine和Pearson都属于积差相关的范畴。通过简单对比,我们看得出A和B的Pearson相关系数就是向量A和B归一化后再计算Cosine相关系数的结果。
 

2、 等级相关分析

如果在某些情况下,我们不需要顾及计算向量中值的相对大小,那么还可以计算等级相关性系数,如Spearman等级相关和Kendall等级相关等。等级相关没有积差相关要求那样严格,相同的情况下,等级相关的精确度要低于积差相关。
 

3 、偏相关分析

如果我们想除去共同噪声的影响,可以选择偏相关分析的方法(在频域上叫偏相干)。其结果与先回归掉噪声再计算相关的结果是一样的。
 

4、 频域上的相关分析

如果我们的处理对象是时间序列,除了以上谈到的方法外,我们还可以度量频域上的相关性,如使用相干谱分析的方法,如小波相干等。即您可以得到不同时间点不同频率上的线性相关性系数,同时还可以平衡时间和空间上的分辨率。
 

但是在什么情况下,要选用哪个的相关性系数呢?

如果有时间建议大家不妨多做些实验,而且要定期做,因为数据集的变化(稀疏度、噪声等因素)可能导致相似度指标效果的变化。比如对于一个电商平台的商品推荐系统,初期时可能使用方法x效果最好,当用户数逐渐增加,商品越来越丰富,可能方法y效果最好,直到系统越来越复杂,可能这时方法z是最好的了。所以建议定期做些离线试验来选择此时效果最好的方法。

我们常用的如Jaccard相关, Cosine相关,Pearson 相关都是属于线性相关的范畴,复杂的还有非线性相关的方法,如多谱分析,互信息等。但这些在我们电商的场景中很少用到。

以上是小编为大家分享的关于浅谈数据处理中的相关分析的相关内容,更多信息可以关注环球青藤分享更多干货



常用的数据分析思路是什么?
答:收集数据是按照确定的数据分析框架收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据比如公司自己的业务数据库中的业务数据,第二手数据主要指经过加工整理后得到的数据例如一些公开出版物或者第三方的数据网站。3、处理数据 ...

关于SPSS的数据处理问题,两个不同指标之间的相关性分析,懂的留言,求...
答:不知“两个不同指标”是指什么?一般,SPSS相关系数的计算:Analyze > Correlate > Bivariate...,两指标均服从正态分布,选择Pearson(皮尔逊相关系数),否则选择Spearman(斯皮尔曼相关系数)。两个指标是否独立的检验:Analyze > Descriptive Statistics > Crosstabs...,Statistics(统计量)选择Chi-square(...

如何进行大数据分析及处理?
答:另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的...

数据处理的三种方法
答:4、数据拆分:将一个数据集拆分为多个数据集,以便于进行分析。5、数据透视表:将数据进行透视,以便于进行数据分析和比较。三、数据分析 数据分析是指对数据进行统计、分析和建模,以挖掘数据中的信息和规律。数据分析是数据处理的最终目的,也是数据处理中最具有价值的一部分。数据分析的具体方法包括以下...

...因变量有两个,做相关分析和回归分析,该如何处理数据啊?
答:处理数据是在做分析之前就要做好的,一般是处理缺失值(方法百度“如何处理缺失值”)。如果做相关分析,那就直接用SPSS,点击分析——相关——双变量,将自变量和因变量加进去然后选择皮尔逊相关Pearson相关分析和双侧。如果做回归分析,那就点击分析——回归——线性(这个做不出来再用曲线做方法可以百度)...

数据处理一般包括什么、什么、什么、和分析数据等过程。
答:2、收集数据 有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:将识别的需求转化为具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据;明确由谁在何时何处,通过何种渠道和方法收集数据;记录表应便于...

数据分析的步骤是什么?
答:3.数据预处理现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据分析,或分析结果差强人意。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。把这些影响分析的数据处理好,才能获得更加精确地分析结果。比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是...

如何对问卷数据进行分析处理?
答:相关性分析:SPSSPRO支持Pearson(适用于正态分布)和Spearman(非正态分布)的相关系数计算,帮助揭示定量变量间的线性或非线性相关性。 方差分析:多用于多分类数据,无论是单因素还是多因素。在SPSSPRO上,通过上传数据并选择【方差分析】,系统将分析数据间的差异性,超出T检验的二分类范畴。尽管方差...

数据处理的相关信息
答:它能产生操作报告、金融分析报告和统计报告等。数据处理技术涉及到文卷系统、数据库管理系统、分布式数据处理系统等方面的技术。此外,由于数据或信息大量地应用于各种各样的企业和事业机构,工业化社会中已形成一个独立的信息处理业。数据和信息,本身已经成为人类社会中极其宝贵的资源。信息处理业对这些资源...

大数据在经济统计中的应用分析
答:大数据分析,不再仅仅是海量数据的堆砌,而是通过可视化分析、数据挖掘算法、预测性分析等多元方法,将复杂的数据转化为洞察力。其中,可视化分析以直观的图形呈现数据特性,数据挖掘算法则在海量数据中挖掘有价值的信息,预测性分析则预见未来趋势。这些技术的结合,让数据处理更加精准高效。大数据视角下,经济...