乳腺癌数据的处理.docx
《乳腺癌数据的处理.docx》由会员分享,可在线阅读,更多相关《乳腺癌数据的处理.docx(21页珍藏版)》请在优知文库上搜索。
1、科技学院第十一组:刘晶晶向雄峰余涛乳腺癌的判别数学模型摘要本文解决的问题是利用9项指标,综合来判别乳腺肿痛是良性还是恶性。我们通过初步数据分析,得出各个指标与肿痛乩恶性存在一定的线性关系,F是我们建立了多元线性回归模型。对于问题一,我们先将附录表一中1-60组数据运用VAT1.AB中回归分析命令regress作初步的回归分析。根据所得的残差及其置信区间图,我们将其中6组离群点予以剔除.然后将余下的54组数据运用EXCe1.作回归分析,由回归统计表中可以得出回归方程中常量和各个系数,由此可以得到判别乳腺癌是良性还是恶性的多元线性回旧方程:y=-0.328580.060725.v,-0.08212
2、x,+0.105Mt,0.01.5509.v40.01.0307x,+0.042092.+0.001685x7+0.031964x,+0.034681.r.同时依据得到的回归统计、方差分析、残差分析等数据作出r检验,?-0.90732,尸检验F=47.86I35,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好,均一致认为所建立的多元线性回归模型的回归效果显著,于是我们认可所得的多元线性回归方程可以依据9项指标来判别乳腺肿痛是良性还是恶性。最后我们再将表中61-78组数据回代入上述多元线性回归方程,经由计算分析得出所得的回归方程判别乳腺肿痛是良性还是恶性的正确率高达10
3、0%,预测能力显著,明显可以看出所得到回归方程判别乳腺肿瘤是良性还是恶性方法是合理正确的。至此我们得到了依据9项指标综合判别乳腺肿痛是良性还是恶性的方法:将待判别病例的9项指标的数据代入回归方程,计算出的估计值,并对其值作四舍五入取盛,J=O,肿痛是乩性:yI,肿瘤是恶性.对于问题二,将附录表二中20组需要判别的病例的数据代入模型一中所得回归方程中计算出),的估计值,依据问通的判别方法判别得出20个病例中第1,4,5,7,10,11,15,19组共8个病例是恶性肿痛,余下12个病例是良性肿瘤.对于问题三,回归参数表中回归系数的统计量:的线性系数显著性值,表征了该系数的显著性水平,也表征了该项因
4、素对于因变员判定的影响程度,我们通过对模型一进行逐步回归分析,剔除模型中那些时因变盘作用不显著的自变量,得到最优化的线性回归模型,那些保留下来的自变量,即是区分乳腺肿痛是“良性”还是“恶性”的主要指标。作逐步回归分析后,最终所得结果为:乳腺肿霜肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核、正常的核仁、有丝分裂是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,得到城优化的回妇模型为:V-0.32092+0.063858.T,-0.0702Ix2O.O977O2.r,+0.47744x4+0.035044xi+0.4545k,关键词:多元线性回归模型逐步回归显著性水平检验1 .问题重述全世界
5、每年约有120万妇女患乳腺癌,50万人死于乳腺短,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。下面是某医院乳腺肿痛患者的组数据见附录表,其中前面9个指标分别表示乳腺肿痛肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为恶性,数据已经归一化为0到10之间的自然数,问题一、根据以上数据,请提出一种或多种判别乳腺肿痛属“良性”还是“恶性”的方法,并检验你提出的方法的正确性。问题二、现有一组乳腺肿痛患者的九个指标数据见附录一表二,谙你按照你在问题-中提出的方法分别判别属于“良性”还是“恶性”。
6、问题三、减确定哪些指标是区分乳腺肿痛是“乩性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性”乳腺肿癖的模型,以便用于乳腺肿痛的辅助诊断时可以减少化物的指标。2 .模型的假设与符号说明2.1模型的假设假设1:题目所给数据是合理、正确的。假设2:假设表中给出化验数据科学可信。确诊病例确诊情况(患病、健康)准确无误.假设3:假设各位被测患者无其他疾病,不会干扰被测数值。假设4:假设医生不会仅仅依靠化验结果对患病情况作出最终判断.化验仅仅作为医生诊断的一种辅助手段,所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。假设5:题目中给出的原始数据有两组无效,将其舍去认为对解题无影响
7、。2.2符号说明jr乳腺肿瘤肿块的厚度指标:X2细胞大小的均匀性指标;XJ细胞形状的均匀性指标:X,边缘的粘连指标:X,单层上皮细胞的大小指标:X、裸核指标;X,温和的染色质指标:A正常的核仁指标:Xe有丝分裂指标:y诊断结果;y诊断结果估计值:A回归常数;,回归系数;回归常数估计值:A回归系数估计值;%随机误差项;a显著性水平:ST总变差平方和;St残差平方和:S回归平方和;n被分析数据的组数:9第i个指标作显著性水平检验;“1偏回归平方和:3 .问题分析此题研究的是修学上常用几个指标来综合判别乳腺肿瘤是良性还是恶性的数学模型。针对问逐一,题目要求我们提出判别方法,依据9项指标的数据,判别肿
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 乳腺癌 数据 处理