软件学院 综合实 验 报 告 实验课程 数据分析综合实验 开课时间 2022 至 2022 学年 第 2 学期 年 级 2022 专业班 5 班 姓 名 王帅兵 学 号 20227710541 总 成 绩 教师签名 软件学院制
机器学习在乳腺癌分类上的应用 1.选题依据 机器学习是人工智能领域及其重要的分支,随着技术的不断革新其在医疗方面的应用也日趋广泛和深入。
本文针对当前人眼判别的不稳定性和经验上的不足问题,提出运用机器学习的方法,通过对乳腺癌各种属性数据进行训练,让乳腺癌诊断系统可以自动诊断出恶性乳腺癌患者,减少人的操作存在时间和经验上的影响。
2.背景 乳腺癌是女性最常见的癌症,也是中国女性癌症死亡的首要原因。虽然乳腺癌是女性癌症死亡的主要原因,但其生存能力很高。早期诊断治疗后女性乳腺癌5 年生存率达到 97%。尽管早期发现乳腺癌是可以治愈的,但大约三分之一的女性乳腺癌患者仍死于该疾病。然而,尽管早期发现和选择新的治疗方法,多达50%的女性依然会发生转移,目前由于尚未确定乳腺癌的原因,精确的早期发现对于降低死亡率至关重要。
而且,乳腺癌的患病人群也越来越年轻化。因此,乳腺癌的诊断与治疗已经成为医学研究的重中之重。乳腺癌影响因素多样,如何提高乳腺癌的诊断效率已经成为急需解决的问题。
针对上述情况,我们将使用 UCI 机器学习数据库中的乳腺癌威斯康星州数据集作为研究对象,分别采用逻辑回归算法,K-近邻算法,支持向量机,贝叶斯分类器,决策树及随机森林建立乳腺癌诊断分类器,并对研究结果进行对比分析,找到最优分类器。经过对分类器的参数进行网格搜索,进一步提高了分类器的分类性能。实验结果发现 KNN 的表现优异,准确率高达 97.37%。该应用有助于帮助医生对病情进行更加精准的诊断。
3.题目分析 1 3.1 数据来源:
UCI 公开数据集-Breast Cancer Wisconsin,属性信息如下: 1)ID number(患者 ID 编号,无实际意义,实际测试时候可以省去不用)2)Diagnosis(M = malignant, B = benign)3-32)Ten real-valued features are computed for each cell nucleus: a)radius(mean of distances from center to points on the perimeter)b)texture(standard deviation of gray-scale values)c)perimeter d)area e)smoothness(local variation in radius lengths)f)compactness(perimeter^2 / area-1.0)g)concavity(severity of concave portions of the contour)h)concave points(number of concave portions of the contour)i)symmetry j)fractal dimension("coastline approximation"-1)2 3.2 数据格式:
序数属性,数值属性,标称属性。
3 3.3 合适的算法类型:
选择分类算法预测乳腺癌。
分类是在一群已经知道类别标号的样本中,训练一种分类器,让其能够对某种未知的样本进行分类。分类算法属于一种有监督的学习。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。分类的目的就是使用分类对新的数据集进行划分,其主要涉及分类规则的准确性、过拟合、矛盾划分的取舍等。
4.实验过程 1 4.1 数据探索和可视化 良性和恶性肿瘤比率 恶行肿瘤患者和良性肿瘤患者的各项平均指标
部分特征分布 观察 radius_mean-texture_mean-患病三者关系
热力图分析属性相关性
主成分分析
4.2 2 数据预处理:
4.3 3 算法选择:
选择六种经典的分类算法:
逻辑回归算法 K近邻算法 支持向量机 贝叶斯分类器 决策树 随机森林 4.4 4 算法调优:
主要使用网格调参 逻辑回归算法
K K近邻算法
支持向量机 贝叶斯分类
决策树
随机森林 5.结果分析 六种模型准确率的直方图
混淆矩阵 N KNN 算法精度和召回率变化曲线 N KNN 的 的 C ROC 曲线
C ROC 的面积 N KNN 算法不同 K K 取值的准确度
通过对六种模型网格调参后的比较,可以看出 KNN 算法在 k 取值 7-15 时的分类准确率最高,为 97.37%,其 ROC 面积达到 0.996。
6.结论 本文采用真实的乳腺癌数据样本,构建出逻辑回归、SVM、决策树、贝叶斯、KNN、随机森林六种经典机器学习模型对样本进行训练。
实施的实验结果明确,经过对六种算法进行建立模型以及网格搜索参数优化,得到的诊断分类器中 K近邻算法性能最优,具有明显的优势。其分类准确率为97.37%,而贝叶斯、决策树分类器经过网格搜索优化参数后,分类准确率均不超过 95%。而使用网格搜索对 K近邻算法进行参数优化后,其 ROC 面积达到 0.996。
依据本实验结论,可将 KNN 分类器运用于生产实践中。借助现有医疗手段测定人体九种医学指标数值,将各测定的属性数值输入到分类器中,便可以快速的诊断出该患者是否患有恶性乳腺癌。也许可以辅助医生提高诊断的准确率和效率,帮助更多的人早发现早治疗。
机器学习实验报告完整
什么是机器学习
第七章,机器学习
机器学习算法2
机器行业实践学习总结