多元统计分析及R语言建模（王斌会）第十、十一、十二章答案_随笔

多元统计分析及R语言建模（王斌会）第十、十一、十二章答案

3)我国工农业产业系统的典型相关分析:首先将工业内部五个结构比重变量作为第一组分析变量:以农业产品为原料的生产部门的产值占总工业部门产值的比重；以非农业产品为原料的生产部门的产值占总工业部门产值的比重；采掘工业部门的产值占总工业部门产值的比重;原料工业部门的产值占总工业部门产值的比重;加工工业部门的产值占总工业部门立值的比重。然后把农业内部四个部门产值的比重变量作为第二组分析变量:农业部门的产值占总行业产值的比重;林业部门的产值占总行业产值的比重;牧业部门的产值占总行业产值的比重;渔业部门的产值占总行业产值的比重;原始数据分别为各个部门的年产值，如表11-3所示。

表11-3 我国工农业产业发展状况

33.73 15.83 6.41 18.38 25.65 74.09 5.03 18.24 2.65

33.2 16.4 5.8 17.9 26.7 69.28 5.21 22.02 3.48

32.51 14 6.63 20.64 26.22 69.12 5.01 21.77 4.1

32.77 13.99 6.59 20.68 25.97 58.85 6.04 29 6.12

32.34 14.84 5.99 20.38 26.45 62.57 4.69 27.24 5.5

32.2 14.44 6.14 21.31 25.91 62.75 4.36 27.55 5.34

32.74 14.22 6.21 22.27 24.56 64.66 4.31 25.67 5.36

31.69 14.62 6.28 22.4 25.01 63.09 4.51 26.47 5.93

29.86 14.21 5.87 22.96 27.1 61.51 4.65 27.08 6.75

26.38 13.67 6.18 25.86 27.9 60.07 4.49 27.41 8.02

28.48 13.72 6.32 23.81 27.67 58.22 3.88 29.66 8.24

28.88 13.87 6.35 23.26 27.64 58.43 3.49 29.72 8.36

28.67 14.37 6.61 22.15 28.2 60.57 3.48 26.91 9.04

27.95 14.79 6.86 21.99 28.41 58.23 3.44 28.73 9.6

27.16 15.77 5.97 22.32 28.77 58.03 3.47 28.63 9.87

26.04 15.93 5.83 22.89 29.31 57.53 3.61 28.54 10.31

24.59 15.2 6.3 24.38 29.52 55.68 3.76 29.67 10.89

24.73 14.7 5.59 24.46 30.52 55.24 3.59 30.42 10.75

24.5 14.64 5.3 23.61 31.95 54.51 3.77 30.87 10.85

请对该资料进行全面的典型相关分析。

R语言程序代码如下：

> library(openxlsx)

> a = read.xlsx('E:/mvexer5.xlsx','E11.3',rowNames = T);a #读取例题数据

> round(cor(a),3) #计算变量间相关系数

> plot(a,gap=0) #变量散点图矩阵

> A=scale(a) #数据标准化

> ca=cancor(A[,1:5],A[,6:9]);ca #典型相关分析

> source('E:/msaR.R')

> msa.cancor(A[,1:5],A[,6:9],plot=T) #利用自定义函数进行典型相关分析

在Rstudio中运行结果如下：

由两组变量的组间相关系数矩阵可以看出，各种变量的相关系数正负概率几乎一致，且与和，与和的相关系数的绝对值都达到0.9以上。

在第一组典型变量，中，为工业内部五个结构比重变量的线性组合，其中（以农业产品为原料的生产部门的产值占总工业部门产值的比重）较其他变量有较大的载荷，这说明工业内部主要受以农业产品为原料的生产部门的影响。而为农业内部四个部门产值的比重变量的线性组合，其中（农业部门的产值占总行业产值的比重）较其他变量有较大的载荷，这说明农业内部主要受农业部门的产值的影响。

将原始数据代入第一对典型变量中，可得到典型变量，的得分，根据各个部门的得分，可画出得分平面等值图。从等值图中可以看出，代表各个部门的点形成近似直线分布，表明用典型相关分析的方法能很好地说明我国工农业产品系统的相关关系。

1）简述多维标度法的基本思想

用r维空间(r待定)中的点分别表示各样品，使得各样品间距离的次序能完全反映原始输入的相似次序(两样品间的距离越短，则越相似)。通常，要通过两步来完成。首先构造一个f维坐标空间，并用该空间中的点分别表示各样品，此时点间的距离未必和原始输入次序相同，通常把这一步称为构造初步图形结构。其次是逐步修改初步图形结构，以得到一个新图形结构，使得在新结构中，各样品的点间距离次序和原始输入次序尽量一致。

3) 2005年广东省社会经济发展水平分析。社会经济发展水平的评价必须从两方面考虑，首先是经济水平的评价，也可以说是对物质文明的建设进行评价。其次是对精神文明建设的评价,这包括教育，文化等因素。本文一共采取6个指标:

人均地区生产总值(元)x1;

居民人均可支配收入(元) x2;

居民人均消费支出(元) x3;

人均博物馆数(所/百万人) x4;

人均公共图书馆数(所/百万人) x5;

人均文化艺术馆数(所/百万人) x6。

试对该数据进行多维标度分析。

R语言程序代码如下：

> library(openxlsx)

> a = read.xlsx('E:/mvexer5.xlsx','E12.3',rowNames = T);a #读取例题数据

> A = dist(a); #计算距离矩阵

> MDS = isoMDS(A);MDS #多维标度的非度量法求解

> plot(MDS$points);abline(h=0,v=0,lty=3) #降维数据作散点图

> text(MDS$points,row.names(a),cex=0.8)

在Rstudio中运行结果如下：

由下面二维图可知：广州、深圳、珠海、佛山、中山、东莞等地与其他地区有较大差异。

惠州、江门、汕头茂名等地处于慢慢变化中，而其他地区之间的差异很小。

由图可知广州省经济发展水平正处于上升水平。

5)互联网区域发展情况的综合评价:在对各地区互联网发展的优势和劣势研究后，发现中国的互联网发展存在地区的不均衡性,但究竟哪个地区发展得好、哪个地区发展得差目前还没有一个综合的定论，下面应用本章介绍的综合评价方法对我国互联网区域发展情况进行综合评价，通过综合排名了解不同地区在我国互联网发展过程中处于什么水平。

根据以上建立中国互联网区域发展状况指标体系的意义和构建指标体系所遵循的原则，这里把互联网区域发展状况各项评价指标划分为三块:互联网的发展规模指标、互联网信息量指标、互联网信息时效性指标。

从2007年1月的《中国互联网络发展状况统计报告》中得知，截至2006年年底全国31个省、市、自治区的网民占人口的比例(x1)、拥有域名数(x2)、拥有网站数(x3) IPv4地址占全国总数的比例(x4)、网站平均网页数(x5)、网站平均字节数(x6)、网页平均更新周期(x7)。

（1）应用综合评分法进行综合评价。

R语言程序代码如下：

> library(openxlsx)

> a = read.xlsx('E:/mvexer5.xlsx','E13.5',rowNames = T);a

> zf<-function(x){ z=(x-min(x))/(max(x)-min(x))*60+40; z } #自编规格化变换函数

> A_Z = apply(a,2,zf);A_Z

> A_S = apply(A_Z,1,mean);A_S #按行求综合得分

> cbind(A_Z,A_S,A_R=rank(-A_S)) #按综合得分排名

在Rstudio中运行结果如下：

由下面运行结果可知：从综合评价上来看北京、上海、广州、天津和浙江等地的互联网发展水平比较好，得分较高且排名靠前。其中北京的得分86.12以绝对的优势居于榜首，远高于第二第三的72。从总体上来看，我国各地的互联网发展水平差异较大。从运行结果上来看，可以很清楚的知道各地的互联网发展水平。

（2）应用层次分析方法确定各指标的权重。

设互联网发展规模指标为，互联网信息量指标为，互联网信息时效性指标为

确定权重（见表13-1、13-2、13-3、13-4）：

表13-1判断矩阵A-P（相对于评价目标而言，各指标相对重要性比较）

1/2

1/3

1/2

表13-2 判断矩阵-P（相对于互联网发展规模而言，各指标相对重要性比较）

1/2

表13-3 判断矩阵B2-P（相对于互联网信息量而言，各指标相对重要性比较）

1/2

表13-4 判断矩阵B3-P（相对于互联网信息时效性而言，各指标相对重要性比较）

R语言程序代码如下：

> source('E:/msaR.R')

> A = c(1,2,3,1/2,1,2,1/3,1/2,1)

> A_W=msa.AHP(A);A_W #A的权重

> B1 = c(1,2,2,1,1/2,1,1,2,1/2,1,1,2,1,1/2,1/2,1)

> B1_W=msa.AHP(B1);B1_W #B1的权重

> B2 = c(1,2,1/2,1)

> B2_W=msa.AHP(B2);B2_W

其中互联网信息时效性指标只有一组数据网页平均更新周期()，所以它的权重B3_W为1.

在Rstudio中运行结果如下：

（3）应用层次分析法进行综合评价。

R语言程序代码如下：

> library(openxlsx)

> a = read.xlsx('E:/mvexer5.xlsx','E13.5',rowNames = T);a

> zf<-function(x){ z=(x-min(x))/(max(x)-min(x))*60+40; z }

> Z = apply(a,2,zf);Z

> S1 = Z[,1:4]%*%B1_W #层次法综合得分

> S2 = Z[,5:6]%*%B2_W

> S3 = Z[,7]

> S = cbind(S1,S2,S3)%*%A_W;S

> data.frame(S1,R1=rank(-S1),S2,R2=rank(-S2),S3,R3=rank(-S3),S,R=rank(-S)) #层次法综合排名

> B=barplot(S[,1],las=3);text(B,R,labels=R,pos = 3)

在Rstudio中运行结果如下：

由下面运行结果可知全国各地的互联网发展水平的排名及得分，从互联网发展规模上来看，北京、广州、上海这三个重点一线城市的得分较高，排名前三。从互联网信息量上来看，重庆、天津、甘肃这三个地区的得分较高，排名前三。从互联网信息时效性上来看，内蒙古、西藏、新疆这三个地区的得分较高，排名前三。总的来说互联网发展水平较好的几个城市分别是北京、上海、广州、天津、浙江。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/zaji/5701601.html

多元统计分析及R语言建模（王斌会）第十、十一、十二章答案

发表评论

评论列表（0条）