🧄R降维预测癌症良性或恶性
R | 主成分分析(PCA) | 线性判别分析(LDA) | 探索性数据分析(EDA) | 降维 | 模型 | 癌细胞 | 预测 | 数据清理
详细解释了选择主成分分析 (PCA) 等降维技术的原因。 构造一个线性判别函数来预测新的观察结果。
使用这个测量细胞核大小和形状的 32 个变量的数据集,目标是创建一个模型,使我们能够预测乳腺癌细胞是良性还是恶性。
特征是根据乳房肿块的细针抽吸 (FNA) 的数字化图像计算的。 它们描述了图像中存在的细胞核的特征。 我们的数据集由 569 个观测值和 32 个变量组成。 有一个 ID 变量、一个显示它们是良性还是恶性的诊断变量,以及 30 个详细描述细胞核大小和形状的测量变量。 诊断是一个分类变量,是我们的响应变量,30 个测量变量都是连续的,是我们模型的潜在解释变量。 这 30 个测量变量实际上只是核的 10 个不同特征,但每个变量都有 3 个不同的测量值; 平均值、标准误差和“最差”或最大(三个最大值的平均值)。 包含的 10 个特征包括:
半径 - 从中心到周边点的距离平均值
纹理 - 灰度值的标准偏差
周长
面积
平滑度 - 半径长度的局部变化
紧凑性 - 周长^2 / 面积 - 1.0
凹度 - 轮廓凹入部分的严重程度
凹点 - 轮廓的凹入部分的数量
对称性
分形维数 - “海岸线近似” - 1
数据清理
使用 read.csv 我们可以下载数据集,如下所示:
wdbc <- read.csv("../input/data.csv")
library(dplyr)
glimpse(wdbc)
## Observations: 569
## Variables: 33
## $ id <int> 842302, 842517, 84300903, 84348301, 84...
## $ diagnosis <fctr> M, M, M, M, M, M, M, M, M, M, M, M, M...
## $ radius_mean <dbl> 17.990, 20.570, 19.690, 11.420, 20.290...
## $ texture_mean <dbl> 10.38, 17.77, 21.25, 20.38, 14.34, 15....
## $ perimeter_mean <dbl> 122.80, 132.90, 130.00, 77.58, 135.10,...
## $ area_mean <dbl> 1001.0, 1326.0, 1203.0, 386.1, 1297.0,...
## $ smoothness_mean <dbl> 0.11840, 0.08474, 0.10960, 0.14250, 0....
## $ compactness_mean <dbl> 0.27760, 0.07864, 0.15990, 0.28390, 0....
## $ concavity_mean <dbl> 0.30010, 0.08690, 0.19740, 0.24140, 0....
## $ concave.points_mean <dbl> 0.14710, 0.07017, 0.12790, 0.10520, 0....
## $ symmetry_mean <dbl> 0.2419, 0.1812, 0.2069, 0.2597, 0.1809...
## $ fractal_dimension_mean <dbl> 0.07871, 0.05667, 0.05999, 0.09744, 0....
## $ radius_se <dbl> 1.0950, 0.5435, 0.7456, 0.4956, 0.7572...
## $ texture_se <dbl> 0.9053, 0.7339, 0.7869, 1.1560, 0.7813...
## $ perimeter_se <dbl> 8.589, 3.398, 4.585, 3.445, 5.438, 2.2...
## $ area_se <dbl> 153.40, 74.08, 94.03, 27.23, 94.44, 27...
## $ smoothness_se <dbl> 0.006399, 0.005225, 0.006150, 0.009110...
## $ compactness_se <dbl> 0.049040, 0.013080, 0.040060, 0.074580...
## $ concavity_se <dbl> 0.05373, 0.01860, 0.03832, 0.05661, 0....
## $ concave.points_se <dbl> 0.015870, 0.013400, 0.020580, 0.018670...
## $ symmetry_se <dbl> 0.03003, 0.01389, 0.02250, 0.05963, 0....
## $ fractal_dimension_se <dbl> 0.006193, 0.003532, 0.004571, 0.009208...
## $ radius_worst <dbl> 25.38, 24.99, 23.57, 14.91, 22.54, 15....
## $ texture_worst <dbl> 17.33, 23.41, 25.53, 26.50, 16.67, 23....
## $ perimeter_worst <dbl> 184.60, 158.80, 152.50, 98.87, 152.20,...
## $ area_worst <dbl> 2019.0, 1956.0, 1709.0, 567.7, 1575.0,...
## $ smoothness_worst <dbl> 0.1622, 0.1238, 0.1444, 0.2098, 0.1374...
## $ compactness_worst <dbl> 0.6656, 0.1866, 0.4245, 0.8663, 0.2050...
## $ concavity_worst <dbl> 0.71190, 0.24160, 0.45040, 0.68690, 0....
## $ concave.points_worst <dbl> 0.26540, 0.18600, 0.24300, 0.25750, 0....
## $ symmetry_worst <dbl> 0.4601, 0.2750, 0.3613, 0.6638, 0.2364...
## $ fractal_dimension_worst <dbl> 0.11890, 0.08902, 0.08758, 0.17300, 0....
## $ X <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA...
探索性数据分析
主成分分析
线性判别分析
Last updated