摘要:本文以地区限额以上工业主要评价指标体系为例,讨论了主成分分析、聚类分析以及主成分聚类分析在多指标评估体系中的应用,显示了主成分分析在简化指标体系、突出主要因素方面的作用,体现了聚类分析将相似样本进行聚类,简化数据处理难度的优点,同时也证明了主成分聚类分析的可行性。
0 引言
为全面评价对象,往往给出一个由许多指标构成的评价指标体系。为使信息集中,又经常使用加权平均。这存在以下几个问题:(1)一般评价体系指标众多,由于信息的重叠,一些指标之间存在一定的相关关系;(2)简单的加权平均的权重分配有较大的人为因素;(3)简单的加权平均损失大量信息,主要因素不突出。
本文以地区限额以上工业主要评价指标体系为例,利用主成分分析法,构造少数几个综合指标以充分揭示隐藏在样本数据后的大量信息,突出主要影响因素,以对评价对象作出科学评价;利用聚类分析方法,根据各指标之间的相似性逐步进行归群成类,客观地反映了这些指标之间的内在组合关系,对指标进行群聚,大大简化了数据的处理难度,为评价过程提供有力的依据。利用主成分聚类分析减少了数据的冗余,原理清晰,计算简单,所得的结论客观,为分析问题提供了有力的依据。
1 主成分分析法
主成分分析基本思想是通过原有变量(指标)的少数几个线性组合来解释原有变量所体现的样本变差。由于原有变量之间的相关性,原有p个变量的大部分样本变差能够由k(比p小很多)个主成分(特殊的线性组合)来概括。在新的综合指标体系(指标数将大为减少)中,对评价对象进行分析、类比。
Rrijpp设X1,X2,,Xp为原有的p个指标;Xxijnp为其标准化观察矩阵;
为其相关系数矩阵;Lil1i,l2i,,lpiTi1,2,,p为p个常数向量。
考虑如下线性组合:ZilkiXk,i1,2,p为p个新指标(主成分)。Zi的样
k1T本方差varZiLTiRLi,协方差CovZiZjLiRLji,j1,2,,p。希望用较少的新指标
p代替原来的p个指标,就要求它们含有尽可能多的原指标信息且互不相关。指标中所含信息量的大小通常用该指标的方差来表示。
设R的特征值和对应的正交单位化特征向量分别为12p0;e1,
e2,…,ep,则取Liei时,varZii,covZiZj0i,j1,2,,p。
可以证明原有指标的标准化样本总方差为p,称
i为第i个主成分的贡献率;pi1ki为前k个主成分的累积贡献率。累积贡献率表明了前k个主成分提取了原p有指标总信息量的分额, 当其达到一定数值时,用k个主成分代替原有指标将不致于损失太多信息,从而达到减少指标的目的。
2 聚类分析法
聚类分析(Cluster Analysis)是统计学所研究的“物以类聚”问题的一种方法,它属于多变量统计分析的范畴。它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,一个类就是一个具有相似的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。
系统聚类法(Hierarchical Clustering Methods)也称层次聚类分析法,是目前国内外使用得最多的一种方法。这种方法的基本思想是:先将n个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类和其他类的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品都成一类为止。由此可见,系统聚类方法中,度量数据之间的亲疏程度是极为关键的。这里并没有给定分类的标准,也没有给出所有数据分成几类,而要求比较客观地从数据自身出发进行分类。类与类之间的亲疏程度有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法等。
3 应用实例
以年全国个省市的项限额以上工业主要评价指标为例(数据来自统计年鉴),见表1,分别用主成分分析和聚类的方法对其进行分析。
3.1 用主成分分析进行分析 3.1.1 程序:
data a01;
input group $ x1-x7; cards;
北京 1857.46 380.47 101.86 5.89 109.77 62.37 43925.20 天津 2034.65 445.08 104.58 7.02 115.95 61.36 33414.17 河北 2907.36 490.70 104.00 8.41 105.67 64.37 28311.56 山西 975.46 318.06 69.03 5.02 101.50 67.70 16453.57 上海 4987.44 1083.91 127.04 8.24 108.65 52.30 62870.09 江苏 8343.14 1363.77 105.89 8.37 112.27 61.95 35613.99 浙江 4814.59 744.35 124.25 11.38 114.38 58.86 41074.00 安徽 1400.46 280.31 81.10 7.16 104.51 63.02 22859.46 福建 1951.38 341.76 108.36 9.13 114.67 55.83 29443.326 山东 6566.99 856.04 109.68 9.55 109.60 63.36 36249.00 广东 9678.50 1786.91 109.22 7.26 106.03 61.12 45812.17 广西 848.91 163.86 77.73 6.55 105.27 69.37 24264.62 重庆 816.74 224.61 67.87 5.88 109.94 69.08 20617.75 四川 1853.21 447.25 85.19 6.83 108.09 41.81 22346.29 贵州 433.72 157.88 71.50 7.05 104.87 71.78 21684.85 陕西 922.56 266.69 67.67 5.54 107.12 69.90 19011.00 甘肃 575.39 164.68 59.69 5.44 93.60 68.59 15767.15
;
proc princomp data=a01 prefix=z out=a02; var x1-x7; run;
options ps=42 ls=85; proc plot data=a02;
plot z2*z1 $ group='*'/href=-1 href=2 vref=0; run;
proc sort data=a02; by z1; run;
proc print data=a02; var number z1 z2 x1-x4; run;
3.1.2 运行结果:
散点图:
通过运行结果我们可以看出:
运行结果中,特征值按降序排列,对应特征值大的主成分对总变差的贡献率也大。从结果中可以看出看出,最大特征值的近似值为为4.377,贡献率为62.53%,即第1主成分反映了原有指标体系样本总变差的62.53%,而前2个主成分的累积贡献率已接近80%。这就意味着在新的指标体系中2个指标就能反映样本差异
近80%。第1,第2特征值对应的特征向量(主成分系数向量)如下图所示:
从上图中我们可以看出,z1中各分量(即对应各Xi系数)的值除X6外均为正值,绝对值都在0.27—0.46。其中以X3和X7为最大。原有各项指标反映良好,则第1主成分得分就高;原有各项指标反映差,则第1主成分得分就低。这表明第1主成分反映了一个地区工业企业的综合发展水平。
Z2中各分量有正有负,绝对值较大的正项有X4;负项有X1,X2,X6。正项对应的是反映地区工业企业资本运作、资产保值增值方面的各项指标;而负项对应的是反映地区工业企业产品销售、经营状况等各项指标。第2主成分分值大的地区,其工业企业资本运作、资产保值增值方面做得较好而产品销售、经营状况略差;第2主成分分值小的地区,则反之;而第2主成分分值绝对值较小的地区,其工业企业各方面做得比较均衡。
计算17个样本的主成分得分:
Z1Xz1,Z2Xz2
从表中可以看出,上海地区第1主成分得分为3.1466,显示了上海地区工业企业较高的综合发展水平,尤其是在经济效益综合指数和全员劳动生产率上表现突出;而第2主成分得分为-0.2215,显示了的工业企业各方面都做得较好;浙江
与广东第1主成分相差无几,而第2主成分相差较大,分析其原因,广东地区有很高的产品销售收入,浙江地区则有较高的经济效益综合指数,较高的总资产贡献率及较高的资产保值增值率。显示出这两个地区在产品销售与资本运作上各有千秋。 3.2 聚类分析 3.2.1 程序:
title;
options flext=“宋体”; data a01;
input group $ x1-x7; cards;
北京 1857.46 380.47 101.86 5.89 109.77 62.37 43925.20 天津 2034.65 445.08 104.58 7.02 115.95 61.36 33414.17 河北 2907.36 490.70 104.00 8.41 105.67 64.37 28311.56 山西 975.46 318.06 69.03 5.02 101.50 67.70 16453.57 上海 4987.44 1083.91 127.04 8.24 108.65 52.30 62870.09 江苏 8343.14 1363.77 105.89 8.37 112.27 61.95 35613.99 浙江 4814.59 744.35 124.25 11.38 114.38 58.86 41074.00 安徽 1400.46 280.31 81.10 7.16 104.51 63.02 22859.46 福建 1951.38 341.76 108.36 9.13 114.67 55.83 29443.326 山东 6566.99 856.04 109.68 9.55 109.60 63.36 36249.00 广东 9678.50 1786.91 109.22 7.26 106.03 61.12 45812.17 广西 848.91 163.86 77.73 6.55 105.27 69.37 24264.62 重庆 816.74 224.61 67.87 5.88 109.94 69.08 20617.75 四川 1853.21 447.25 85.19 6.83 108.09 41.81 22346.29 贵州 433.72 157.88 71.50 7.05 104.87 71.78 21684.85 陕西 922.56 266.69 67.67 5.54 107.12 69.90 19011.00 甘肃 575.39 164.68 59.69 5.44 93.60 68.59 15767.15 ;
proc print data=a01; run;
proc cluster data=a01 method=ave std pseudo ccc outtree=b01; var x1-x7; id group;
proc tree data=b01 horizontal graphics; title '使用类平均法的谱系聚类图'; run; title;
3.2.2 运行结果:
谱系聚类图:
3.2.3 结果分析
由输出的谱系聚类图,易得出分为二类、三类、四类等的分类结果。应该分为几类,应该进行进一步的分析。
2(1)RNCL统计量(列标题为RSQ)用于评价每次合并成NCL个类时的聚2类效果,现在考察RNCL的值随NCL的变化。在分为四个类之前(NCL>4)的并220.690,而下一类过程中RNCL的减少是逐渐的,改变不大;当分为四个类时的R4220.582,以及下一次合并为两个类时,R20.469,次合并后分为三个类时,R3这两次的R2的变化都比较大,因此,通过对R2统计量的变化分析可得出分为四个类和三个类都是比较合理的。
22(2)查看RNCL变化的大小可以由半偏RNCL(列标题为SPRSQ)得到,根据2222半偏RNCL的值是上一步骤RNCL1与该步骤RNCL的差值,故某步骤的半偏RNCL值越2大,说明上一步骤的合并效果越好。从运行结果可以看出,半偏RNCL最大和次大
分别为1,2和3,说明根据半偏R2准则分为两个类、三个类或四个类是比较合适的。
(3)伪F统计量(列标题为RSP)用于评价分为NCL个类的聚类效果。伪
FNCL统计量值越大表示这些观测样本可以较显著分为NCL个类,从运行结果中
可以看出,FNCL最大和次大的分别为2和5,说明根据伪F准则,将样本分为两个类或五个类是比较合适的。
(4)伪t2统计量(列标题为PST2)用以评价此步骤合并类的效果。由该统计量的定义可知,伪t2值较大标明上次合并的两个类是很分开的,也就是说上次聚类的效果是好的。从运行结果中可以看出,t2最大和次大的分别是NCL=1,2,说明根据伪t2准则分为两个类或三个类是比较合适的。
由以上分析可以看出:半偏R2准则支持分为四个类和三个类,半偏R2准则支持分为两个类、三个类或四个类,F准则支持将样本分为两个类或五个类,伪t2准则支持分为两个类或三个类。综合分析,认为采用类平均法分类,将17
3四川个地区分为两类或三类较合适。分为三类的结果为G1(一个地区),3G2甘肃、陕西、重庆、贵州、广西、安徽、山西(7个地区),
(9个地区)。若分为
3G3北京、天津、福建、河北、江苏、山东、浙江、上海、广东23323两类,则G1G1,G2,G2G3。
3.3 运用主成分聚类分析法进行分析
主成分聚类分析法就是先用主成分分析法对指标分析,分析指标间的关系,剔除一些没有明显分异作用的指标或相互间存在明显的线性相关关系的指标,以确定最终的指标。然后采用类平均的聚类方法对该系统进行分析聚类。
从主成分分析的运行结果我们可以看出,第六主成分和第七主成分对系统的作用很小,
可以忽略,只对前5个主成分进行分析。用各主成分的方差贡献率作为权重,线性加权求和得到综合评价函数
qzimyimm1,2,,p
m1zi即反映了第
i 个地区的综合实力,zi越高说明该地区的综合实力越高,反之则
越低。
综合评价函数为:
Z0.6253z0.1588z0.0980z0.0603z0.0516z i12345将各地区数据代入上式求得结果如下表所示:
程序:
title;
options flext=“宋体”;
data a03;
input group $ z; cards; 北京 15033.91 天津 11685.63 河北 10302.32 山西 5786.84 上海 22380.32 江苏 14631.53 浙江 15125.57 安徽 7996.15
福建 10337.14 山东 17230.12 广东 18460.78 广西 8249.34 重庆 7067.53 四川 8019.38 贵州 7278.79 陕西 6588.67 甘肃 5391.23 ;
proc cluster data=a03 method=ave std pseudo ccc outtree=b03; var z; id group;
proc tree data=b03 horizonal graphics; run; title;
运行结果:
谱系聚类图:
22(1)RNCL统计量:在分为三个类之前(NCL>3)的并类过程中RNCL的减少
20.875,而下一次合并后分为两个类是逐渐的,改变不大;当分为三个类时的R320.783,这两次的R2的变化都比较大,因此,通过对R2统计量的变化时,R2分析可得出三个类是比较合理的。
22(2)半偏RNCL:半偏RNCL最大为1,说明根据半偏R2准则分为两个类是比
较合适的。
(3)伪F统计量:FNCL最大和次大的分别为2,说明根据伪F准则,将样本分为两个类是比较合适的。
(4)伪t2统计量:t2最大的是NCL=1,说明根据伪t2准则分为两个类是比较合适的。
由以上分析可以看出:半偏R2准则支持分为三个类,半偏R2准则支持分为两个类,F准则支持将样本分为两个类,伪t2准则支持分为两个类。综合分析,认为采用类平均法分类,将17个地区分为两类较合适。分为两类的结果为:
G12天津、河北、福建、山西、甘肃、安徽、四川、广西、陕西、重庆、贵州(11个地区),
2G2北京、浙江、江苏、山东、上海、广东(6个地区)。
从分类结果来看,与前面聚类分析的结果稍有不同,但从各个城市的数据概况来分析,通过主成分聚类分析法得到的结果中,各类中的城市的相似程度也很高,说明该方法的可行性和可靠性,为问题的分析和评价提供了重要的参考和依
据。
4 结论
主成分分析,简化指标体系、突出主要因素;聚类分析,将相似样本进行聚类,简化数据处理难度;主成分聚类分析,减少了数据的冗余,原理清晰,计算简单,所得的结论客观。三种方法特点各异,在分析问题时视问题具体情况选择合适的分
析方法。
参考文献
[1]李玉民,李旭宏,毛海军,顾志康 主成分聚类分析在省域物流规划中的应用[J]东南大学学报(自然科学版)2004,34(4)549-552 .
[2]盛子宁 多指标评估体系的主成分分析及应用[J]上海海运学院学报2003,,24(3)251-253.
[3]鲍艳,胡振琪 主成分聚类分析在土地利用生态安全评价中的应用[J]农业工程报2006,,22(8)87-90.
[4]谢长浩 对高校学生评价指标体系主成分分析[J]云南财贸学院学报2004,,20(4)113-117. [5]应用统计方法[M]
因篇幅问题不能全部显示,请点此查看更多更全内容