🧄R分析可视化实用数据(航班_教育_餐厅_租户_变迁_寿命_安全)
数据编程 | R | 图形 | 统计 | 回归 | 变量分析 | 功效分析 | 重采样 | 置信区间 | 线性模型 | 主成分分析(PCA) | 时间序列
R数据科学
图形
统计
描述性统计 | 频率和列联表 | 相关性和协方差 | t-测试 | 非参数统计
通过 sapply() 进行描述性统计
> mystats <- function(x, na.omit=FALSE){
if (na.omit)
x <- x[!is.na(x)]
m <- mean(x)
n <- length(x)
s <- sd(x)
skew <- sum((x-m)^3/s^3)/n
kurt <- sum((x-m)^4/s^4)/n - 3
return(c(n=n, mean=m, stdev=s,
skew=skew, kurtosis=kurt))
}
> myvars <- c("mpg", "hp", "wt")
> sapply(mtcars[myvars], mystats)
mpg hp wt
n 32.000 32.000 32.0000
mean 20.091 146.688 3.2172
stdev 6.027 68.563 0.9785
skew 0.611 0.726 0.4231
kurtosis -0.373 -0.136 -0.0227
使用 by() 分组的描述性统计
> dstats <- function(x)sapply(x, mystats)
> myvars <- c("mpg", "hp", "wt")
> by(mtcars[myvars], mtcars$am, dstats)
mtcars$am: 0
mpg hp wt
n 19.000 19.0000 19.000
mean 17.147 160.2632 3.769
stdev 3.834 53.9082 0.777
skew 0.014 -0.0142 0.976
kurtosis -0.803 -1.2097 0.142
----------------------------------------
mtcars$am: 1
mpg hp wt
n 13.0000 13.000 13.000
mean 24.3923 126.846 2.411
stdev 6.1665 84.062 0.617
skew 0.0526 1.360 0.210
kurtosis -1.4554 0.563 -1.174
回归
拟合和解释线性模型 | 评估模型假设 | 在竞争模型中进行选择
变量分析
使用 R 对基本实验设计进行建模 | 拟合和解释 ANOVA 类型模型 | 评估模型假设
功效分析
确定样本量要求 | 计算效应大小 | 评估统计功效
中级图形
可视化双变量和多变量关系 | 使用散点图和折线图 | 理解 corrgram | 使用马赛克图和关联图
重采样统计数据和自举
理解置换测试的逻辑 | 将置换检验应用于线性模型 | 使用自举获得置信区间
广义线性模型
制定广义线性模型 | 预测分类结果 | 建模计数数据
主成分和因子分析
主成分分析 | 探索性因子分析 | 了解其他潜变量模型
时间序列
创建时间序列 | 将时间序列分解为成分 | 开发预测模型 | 预测未来数据
R分析可视化实用数据
应用1:探索航班延误
应用2:探索教育水平
应用3:特色餐厅在地图上位置
应用4:租户的热图显示
应用5:城市变迁分析
应用6:寿命预期分析
应用7:公共安全分析
Last updated