阐释面板多指标面板数据聚类SAS实现科技

最后更新时间：2024-01-17 作者：用户投稿原创标记

本站原创点赞:6572 浏览:21416

论文导读：
摘要：基于多指标面板数据聚类的理论，以全国31个省市的城市化水平为例，介绍利用SAS编程实现此聚类方法的过程，结果表明，该SAS程序显示了良好的应用性，为多指标面板数据聚类的实现提供了参考和依据。
关键词：面板数据；聚类；SAS程序
1673-291X（2013）26-0255-04
引言
面板数据作为时间序列数据和截面数据的结合，能够提供更多信息，因而受到学者的广泛关注。国内对面板数据的研究主要集中在计量模型，在统计方法领域的研究较少，而且在仅有的研究中，大多是关于理论和思路的介绍，并没有相关实践操作的说明，阻碍了面板数据的推广和发展。国内已有面板数据聚类相关的理论研究，但实际操作过程不明晰，因此，本文拟在多指标面板数据聚类理论的基础上，给出具体的SAS程序。

一、多指标面板数据聚类介绍

(一)样本间距离的定义

面板数据包含样本、时间和指标3个维度的信息，为充分利用面板数据信息，分别用全时绝对量、全时增长速度和全时变异系数定义样本间距离。
全时变异系数距离dij（VCED）：
其中α、β、γ分别表示3种距离的权重。综合距离dij（CED）是全时绝对量距离、全时增长速度距离和全时变异系数距离的加权平均。

(二)类间距离的定义

多指标面板数据，类离差平方和与总离差平方和表示如下：
其中，Wlt为类内离差平方和，W为总离差平方和，α、β、γ相加等于1，其仍分别表示3种距离的权重。

二、多指标面板数据聚类的SAS实现程序

以全国31省市的城市化水平为例，说明以上聚类过程的SAS实现程序，用SAS程序实现面板数据聚类前，首先应将需要的数据导入SAS系统中。

(一)数据导入

data语句用来指定要建立数据集的名称，此处建立了名为“yssj”的数据集，存储读入的原始数据；input选项用来指定需要导入数据的变量名，数值型变量的变量属性可以省略，字符型变量后需用“$”符号加以识别，此处pro变量后边的$符号表明此变量为字符型变量；label选项用于设定变量的标签；cards选项用于读入数据，此处读入的数据以时间、省份和x1-x6为列变量，以时间变量为标准进行升序排列。

(二)数据标准化

为消除指标间量纲的影响，需对数据进行标准化处理，数据标准化程序如下：
ods listing exclude all；ods html file="E：＼标准化数据.xls"；proc standard data=yssj out= zyssj mean=0 std=1；var x1-x6；run；proc print data=zyssj；run；ods html close；ods listing exclude none；
ods语句控制程序输出结果的存放位置和文件名称；proc standard表示执行数据标准化过程，data语句指定需要进行标准化的数据集，mean和std 语句分别表明标准化数据后的均值和方差，此处表明对数据进行0-1标准化，out语句指定标准化数据的输出数据集，var语句指定需要进行标准化的变量；print过程表示打印输出数据集，此处打印输出的结果存入E盘中的“标准化数据”表格中。

(三)全时绝对量距离的计算

为便于计算地区间距离，需变换数据排列方式，将地区变为列变量。通过数据变换，则任意两列相减，可得到相应两个地区的距离。
Data tzyssj；Input t var $ a1-a31；Label t=”时间” var=”变量” a1="北京" " …… a31="新疆"；cards；
；Run；
%macro dif； data aqed（drop =a1-a31）；set tzyss摘自：学年论文范文www.7ctime.com
j；%do i=1 %to 30；%do j=%eval（&i.） %to 31；d&i.&j.=（a&i.-a&j.）*（a&i.-a&j.）； %end；%end；run； %mend dif； %dif
ods listing exclude all；ods html file="E：＼全时绝对距离求和.xls"；proc means data= aqed sum；
var d11-论文导读：出结果导出为excel格式，ods语句控制输出结果的存放位置和形式。（四）全时增长速度距离的计算在计算全时增长速度距离之前，应构造指标增长速度，分别构造两个矩阵a、b，a矩阵包括1995—2011年X1-X5和1995—2010年X6的数据，b矩阵包括1996—2011年X1和1995—2011年X2-X6的数据，a、b矩阵的对比如表1。两个矩阵相减，再除以
d19…… d3031； output out=total；ods html close；ods listing exclude none；
data数据步表示将经过变换后的标准化数据输入数据集tzyssj中，程序与上文中原始数据的输入相似，仅是读入数据的排列方式发生了变化；macro dif 过程用于计算31地区中两两地区间的距离，地区i和地区j间的距离用变量dij表示，%do用于控制计算31地区两两间距离的循环；d&i.&j.=（a&i.-a&j.）*（a&i.-a&j.）为地区间欧式距离的计算公式，此过程计算得到了地区间不同年份和不同指标的距离，生成465个变量；means过程用于地区间距离的汇总，var表示用于求和的变量，即上一步生成的465个变量，并将输出结果导出为excel格式，ods语句控制输出结果的存放位置和形式。

(四)全时增长速度距离的计算

在计算全时增长速度距离之前，应构造指标增长速度，分别构造两个矩阵a、b，a矩阵包括1995—2011年X1-X5和1995—2010年X6的数据，b矩阵包括1996—2011年X1 和1995—2011年 X2-X6的数据，a、b矩阵的对比如表1。两个矩阵相减，再除以a矩阵中对应的数据，即为指标增长速度矩阵。摘自：毕业论文下载www.7ctime.com

快捷导航：

推荐正文相关热门排行榜猜你喜欢

排行榜