R语言学习笔记二-CDA数据分析师官网

热线电话：13121318867

R语言学习笔记二

2017-02-17

R语言学习笔记二

今天主要学习了两个统计学的基本概念：峰度和偏度，并且用 R语言语言来描述。

> vars<-c("mpg","hp","wt")
> head(mtcars[vars])
                   mpg hp    wt
Mazda RX4         21.0 110 2.620
Mazda RX4 Wag     21.0 110 2.875
Datsun 710        22.8 93 2.320
Hornet 4 Drive    21.4 110 3.215
Hornet Sportabout 18.7 175 3.440
Valiant           18.1 105 3.460

> mystats <- function(x, na.omit = FALSE) {
    if (na.omit)
        x <- x[!is.na(x)]　　#将缺失值置零，如果想单纯的忽略的话也ok
    m <- mean(x)
    n <- length(x)
    s <- sd(x)
    skew <- sum((x - m)^3/s^3)/n　　　　#偏度
    kurt <- sum((x - m)^4/s^4)/n - 3　 #峰度
    return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt))
}
> sapply(mtcars[vars], mystats)
               mpg          hp          wt
n        32.000000 32.0000000 32.00000000
mean     20.090625 146.6875000 3.21725000
stdev     6.026948 68.5628685 0.97845744
skew      0.610655   0.7260237 0.42314646　　#mpg的偏度为+0.61，正态分布图往右偏
kurtosis -0.372766 -0.1355511 -0.02271075　　#mpg的峰度为-0.37，较正太分布平缓一些

再巩固一下几个概念：

1、正态分布：也叫高斯分布，用最浅显的话来说就是一种“中间多，两边少”的分布；反映在数据上，就是数值在所有数据中间的数量多，偏离中间的数据少；

2、偏度：偏度分布是正态分布的父集，即正态分布的偏度为0；右偏分布（正偏分布）的偏度>0，左偏分布（负偏分布）的偏度<0.如下图所示：

<a href='/map/r/' style='color:#000;font-size:inherit;'>R语言</a>学习笔记（二）0

3、峰度：正态分布的偏度值为3；厚尾（峰度>3），瘦尾（峰度<3）；主要是看概率密度函数的两侧（尾部）：

<a href='/map/r/' style='color:#000;font-size:inherit;'>R语言</a>学习笔记（二）1

九、数组与矩阵
R提供了简单的工具处理数组以及矩阵。
1)数组
维数向量是元素都非负的向量，指示数组或矩阵的维数
矩阵的维数是2维
> dim(my_num)<-c(2,5)
> my_num
      [,1] [,2] [,3] [,4] [,5]
[1,]   11   34   14   21   11
[2,]   22   71   68   22   34
数组的维数是1维
> dim(my_num)<-c(10)
> my_num
[1] 11 22 34 71 14 68 21 22 11 34
一维数组
> c(x[1],x[3])
[1]   11 3388
> x
[1]   11   22 3388
二维数组
使用维数向量设置数组维数：
> dim(h)<-c(2,3)
> h
      [,1] [,2] [,3]
[1,]   12   15 982
[2,]   32   67 321
数组切片操作:
> c(h[1,2],h[2,3])
[1] 15 321
> h[2,]
[1] 32 67 321
如果我们切片仅使用一个下标或一个索引向量，则会直接取适合位置的元素，不受数组维数影响
> h[c(1,2,3)]
[1] 12 32 15
> h[6]
[1] 321
> h[4]
[1] 67
2)索引矩阵
> array(10:20,dim=c(2,5))->x
> x
      [,1] [,2] [,3] [,4] [,5]
[1,]   10   12   14   16   18
[2,]   11   13   15   17   19
> array(c(1:3,5:4,3:5),dim=c(2,3))->i
> i
      [,1] [,2] [,3]
[1,]    1    3    4
[2,]    2    5    3
将索引向量指向的元素提取出来，形成一个向量
> x[i]
[1] 10 11 12 14 13 12
对指向的元素赋值
> x[i]<-111
> x
      [,1] [,2] [,3] [,4] [,5]
[1,] 111 111 111   16   18
[2,] 111 111   15   17   19
3)array使用
Array函数的参数有3个，第一个是需要形成数组元素的数据，第二个是dim参数提示维度
> c(1:20)->h
> mya<-array(h,dim=c(4,5))
> mya
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9   13   17
[2,]    2    6   10   14   18
[3,]    3    7   11   15   19
[4,]    4    8   12   16   20
> mydim<-c(2,10)
> mya<-array(h,dim=c(2,10))
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    3    5    7    9   11   13   15   17    19
[2,]    2    4    6    8   10   12   14   16   18    20
> dim(mya)
[1] 2 10
第一个参数既可以是向量也可以是单个值
> mya<-array(1,dim=c(2,10))
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    1    1    1    1    1    1    1    1     1
[2,]    1    1    1    1    1    1    1    1    1     1
4)数组运算
    逐元素运算
> mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    1    3    5    7    9   11   13   15   17    19
[2,]    2    4    6    8   10   12   14   16   18    20
> myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    2    2    2    2    2    2    2    2    2     2
[2,]    2    2    2    2    2    2    2    2    2     2
> mya+myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    3    5    7    9   11   13   15   17   19    21
[2,]    4    6    8   10   12   14   16   18   20    22
> mya*myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    2    6   10   14   18   22   26   30   34    38
[2,]    4    8   12   16   20   24   28   32   36    40
> 3*mya*myb
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    6   18   30   42   54   66   78   90 102   114
[2,]   12   24   36   48   60   72   84   96 108   120
> mya*myb+mya
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,]    3    9   15   21   27   33   39   45   51    57
[2,]    6   12   18   24   30   36   42   48   54    60
2个数组的外积
定义以下向量:
   列向量 u(b1,b2,b3,b4)
   行向量 v(a1,a2,a3)
它们的外积%o%被定义为:
R语言学习笔记四0
> b<-array(c(1:4))
> a<-array(c(5:6))
> b%o%a
      [,1] [,2]
[1,]    5    6
[2,]   10   12
[3,]   15   18
[4,]   20   24
> b
[1] 1 2 3 4
> a
[1] 5 6
    再举一个例子
> b<-array(c(1:4))
> a<-array(c(5:8))
> a*b
[1] 5 12 21 32
> b
[1] 1 2 3 4
> a
[1] 5 6 7 8
> a%o%b
      [,1] [,2] [,3] [,4]
[1,]    5   10   15   20
[2,]    6   12   18   24
[3,]    7   14   21   28
[4,]    8   16   24   32
生成的数组向量则由 2个数数组向量元素所有可能乘积得到
矩阵转置
5)、使用t完成标准的矩阵转置
> array(h,dim=c(2,5))->mya
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> t(mya)
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
2、使用aperm函数实现矩阵转置
aperm有2个常用的参数
第一个参数是需要转置的矩阵，第二个参数perm指示新矩阵相对于第一个参数矩阵的维度的下标，比如说，将行转换为列，将列转换为行，将行列次序更换，将第一维的元素与第二维的元素互换,perm设为c(2,1)，perm中是维度下标，不是矩阵下标。数据分析培训
> array(h,dim=c(2,5))->mya
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> aperm(mya)->myb
> myb
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
> aperm(mya,perm=c(2,1))->myb
> myb
      [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
[4,]    7    8
[5,]    9   10
如果将perm设为c(1,2)表示不交换原矩阵的维度，即不做操作
> mya
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> aperm(mya,perm=c(1,2))->myb
> myb
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
我们再来看一个3维数组
> array(mya,c(2,2,5))->mya1
> mya1
, , 1
      [,1] [,2]
[1,]    1    3
[2,]    2    4
, , 2
      [,1] [,2]
[1,]    5    7
[2,]    6    8
, , 3
      [,1] [,2]
[1,]    9    1
[2,]   10    2
, , 4
      [,1] [,2]
[1,]    3    5
[2,]    4    6
, , 5
      [,1] [,2]
[1,]    7    9
[2,]    8   10
> aperm(mya1,perm=c(2,1,3))->myb1
> myb1
, , 1
      [,1] [,2]
[1,]    1    2
[2,]    3    4
, , 2
      [,1] [,2]
[1,]    5    6
[2,]    7    8
, , 3
       [,1] [,2]
[1,]    9   10
[2,]    1    2
, , 4
      [,1] [,2]
[1,]    3    4
[2,]    5    6
, , 5
      [,1] [,2]
[1,]    7    8
[2,]    9   10
> aperm(mya1,perm=c(1,3,2))->myb1
> myb1
, , 1
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9    3    7
[2,]    2    6   10    4    8
, , 2
      [,1] [,2] [,3] [,4] [,5]
[1,]    3    7    1    5    9
[2,]    4    8    2    6   10
矩阵的维数与行列数
> ncol(mya)
[1] 5
> nrow(mya)
[1] 2
> dim(mya)
[1] 2 5
6)矩阵乘积
若A为m×n矩阵，B为n×r矩阵，则他们的乘积AB(有时记做A· B)会是一个m×r矩阵，但前提是m与n相同时才有定义。
> a
      [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> b
      [,1] [,2]
[1,]    1    6
[2,]    2    7
[3,]    3    8
[4,]    4    9
[5,]    5   10
> a %*% b
      [,1] [,2]
[1,]   95 220
[2,] 110 260
7)内积
使用crossprod函数求内积。
A.向量内积
设向量A=[x1,x2,...xn]，B=[y1,y2,...yn],则矢量A和B的内积表示为:A·B=x1×y1+x2×y2+……+xn×yn。
> a<-c(1:3)
> b<-c(4:6)
> crossprod(a,b)
      [,1]
[1,]   32
B.矩阵内积
矩阵内积的计算方式相当于第一个参数的转置乘以第二个参数，这个乘法是矩阵乘法。
> b<-array(c(4:6),dim=c(1,3))
> a<-array(c(1:3),dim=c(1,3))
> a
      [,1] [,2] [,3]
[1,]    1    2    3
> b
      [,1] [,2] [,3]
[1,]    4    5    6
> crossprod(a,b)
      [,1] [,2] [,3]
[1,]    4    5    6
[2,]    8   10   12
[3,]   12   15   18
> t(a) %*% b
      [,1] [,2] [,3]
[1,]    4    5    6
[2,]    8   10   12
[3,]   12   15   18
C.对角矩阵
通过向量生成矩阵
> a
[1] 1 2 3 4 5 6 7 8
> diag(a)
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,]    1    0    0    0    0    0    0    0
[2,]    0    2    0    0    0    0    0    0
[3,]    0    0    3    0    0    0    0    0
[4,]    0    0    0    4    0    0    0    0
[5,]    0    0    0    0    5    0    0    0
[6,]    0    0    0    0    0    6    0    0
[7,]    0    0    0    0    0    0    7    0
[8,]    0    0    0    0    0    0    0    8
取矩阵的对角线元素组成向量
> a<-array(c(1:16),dim=c(4,4))
> diag(a)
[1] 1 6 11 16
> a
      [,1] [,2] [,3] [,4]
[1,]    1    5    9   13
[2,]    2    6   10   14
[3,]    3    7   11   15
[4,]    4    8   12   16