2011-12-30 来源:www.nearlw.com
摘 要:研究了人工智能辅助诊断的支持向量机模型,构造了支持向量机疾病确诊模型,设计了症状规范化、从识别域可信度知识规则到SVM分类器训练数值样本的转移方法、样本预处理、SVM模型构造、训练、确诊的过程及方法,以羊为例开展模型和专家的对比实验。实验数据表明,SVM方法能获得85%以上的诊断正确率,具备较好诊断效果。
关键词:支持向量机;训练;辅助诊断;特征提取;识别域 0 引 言
准确诊断及有效治疗疾病是生命科学研究的重要课题,对于农村养殖经济的繁荣发展及现代化农业有着积极意义。
人工智能与计算机技术、医学结合发展产生了疾病诊断系统,它提高了诊断治疗效率,成为实用的信息化医疗工具。专家系统的经典结构是产生式系统,反复的使用过程,它被发现有以下几个问题:①诊断效率受规则数量影响较大“ ;② 主要采用类似”IF.THEN“强烈专业化的规则表达形式致使规则结构复杂,知识工程语义理解困难,交流失畅。基于此,一些研究采用混合知识结构 ,应用模糊推理及模式识别算法实现了疾病的机器诊断。支持向量机在治疗领域应用中应用。 和支持向量机的蛋白质结构域边界预测方法 。
支持向量机通过标注样本学习分类决策经验性知识,而后反演求解领域问题,其智能过程与领域专家在培训及执业中积累行业经验性知识,再应用其诊疗疾病的生理智能过程的类似,论文构造研究了基于支持向量机的疾病确诊模型,围绕该模型涉及的问题展开了探讨研究。
1 支持向量机的基本理论
1.1 风险和分类器VVapnik等人研究了泛函数空间的大数定律与学习过程的关系,他们于1995年提出支持向量机(support-vector-ma—chine)方法,SVM方法在对特定训练样本的学习精度和识别任意样本的正确率之间寻求最佳平衡,期望获得最低风险和最好泛化性。 定义1 经验风险,真实风险和置信风险:分类器在样本数据上的分类结果与已经标注过的真实结果之间的差值,称为经验风险R (w)(empirical risk)。未标注样本的分类结果与真实结果的误差称为真实风险Rm(practical risk)。
定义2 超平面和线性分类器:设有n维变量向量:和n维常量向量,又称法向量,W(w , ,?, ),一个常量标量值b,组合如式(2),在1维空间式(2)表示与x轴垂直的直线,在2维空间式(2)表示直线,在3维空间式(2)表示平面,推广到 维空间式(2)表示的平面称为超平面H(hyperplane)。 维空间中,有n个向量样本,如图l所示,求某个超平面 分类面,又称为线性分类器)分之为2类,而且和 是平行于 ,且分别通过离H最近的两类样本的两个超平面, 和 之间的距离D称为分类间隔,D越大分类性能越高,这个模型不仅达到
了分类效果,同时提供一个衡量分类性能的指标D,这是其它方法所不及的。
1.2 近似线性划分和非线性划分对于近似线性可分的问题,不要求所有训练点都满足约束条件: ((w ·x。)+6)≥1,引入松弛变量 ,”软化“约束条件,放松到。y ((w·x。)+6)+ ≥1, 体现了训练集被错分的程度,可以采用Σ ( )作为一种度量来描述错划程度。然而事实上应避免错划程度Σ( 太大,引入一个惩罚参数C>O。
1.3 K分类支持向量机单个支持向量机只能处理二分问题,对于多分类问题,即k类问题,可组合多个支持向量机求解。目前有3种组合方法,一对多SVM (one.against—all—SVM,OAASVM) 、一对一SVM(one—against.one.SVM,0A0SVM)、有向无环决策图SVM(decision directed acyclic graph SVM,DDAGSVM)。
(1)‘一对多”支持向量机(OAASVM)它才用“非此即彼”的处理方法,把其中属于某个类别i的样本标识为一个类别,剩余其它不属于已标识类的样本当作另一个类别,这个二分问题需要分隔平面记为H,对k分类问题,这种方法需要构造k个支持向量机。
2 SVM疾病确诊建模确诊过程是医生一个从观测得到病体的症状模式,根据自身执业经验,在已经认知的某疾病库中进行比对查找的过程旧。根据支持向量机原理和疾病诊断特点,疾病诊断SVM模型构造如图2所示。
2.1 疾病库的整理与规范收集过程整理了200多种疾病,一级病类12个,如:猝死类、贫血类、消化异常疾病、呼吸异常类等;二级病类40余种,有:普通病、传染病、中毒病等。原则上,不同疾病有不同观察点。诊断是从某个有一定嫌疑度的疾病库确定最可能的、嫌疑最大疾病的过程。合理大小的疾病库称为识别域,考虑到规范化症状在的结构相似性,确定每个一级病类下辖的每个二级疾病类设置一个识别域,其目标疾病数量原则上多于3个,不超过1O个。识别域划分接受专家评估,这样即使出现了某些特殊情况,也使得识别域有尽量贴近行业实际的设计。
2.2 疾病SVM 训练样本特征提取和样本集构造提取疾病特征是SVM 诊断的关键环节,也是构造样本集的基础。一旦获得疾病样本原始数据,要把原始数据映射到样本空间中的点或者向量“ 。这些数据包含病体各个观测部位生理上的本征表象信息如:视觉,触觉等方面的变化及烈度,表象及其烈度组合是确诊疾病的关键依据。
一般来说,原始数据包含了冗余信息,需要经过适当的处理变换以求有效地提取疾病特征。将提取到的疾病特征的样本数据处理成适合支持向量机处理的数据的过程称为数据预处理 。首先通过删除数据中的冗余信息把样本空间映射到数据空间,在此基础上,再次提取数据中的本质特征和有特征信息。原则上,所有的数据在训练中应该具有同等作用。常用数据预处理方法是进行尺度变换,它将数据样本按统一标准映射到同一个范围固定之内,如[一1,1]。当数据样本值变化范围较大时,变换可以避免较大数据在SVM训练中产生的”强势地位干扰“,而影响了弱势数据所应该起的作用 。
在传统专家系统中,知识工程师沿用了CF的规则形式,即IF—THEN—ELSE的表达方法,并整理了大量的知识规则。根据现成产生式规则整理样本,以约定的语言方式描述目标结论和症状分量的展现烈度,在采用专家评价的办法确定”自然语言“到”展现程度数量值“的映射。专家
结果以”隶属度“或者”评分“的方式给出感染指数,描述目标语言分值参考” ,默认值为0。通过规范语言描述的病例,称为标注样本 。实例见表2。通过多位专家评定,完成了从一个“自然语言”描述的病例到数值“向量一目标”的标注样本提取过程。
2.3 支持向量机的确诊过程实施由分训练和疾病诊断两个阶段进行。首先,获取已认识疾病的典型样本,进行特征提取和数据预处理,获得特征样本对SVM模型进行训练,找到训练样本中的支持向量,确定SVM 模型参数;然后,把待诊断的临床样本输入到已经参数化的SVM模型对其进行诊断。
步骤1:选择某个识别域,提取识别域内疾病的特征样本,并将样本数据归一化处理到[0,1】,构造样本集 , ,i=1,?, 。
是疾病特征向量,y,E{1,一1)为类别标签。如果Y =1,表示感染某疾病;则 一1,表示病体没有感染某疾病。
步骤2:选择适当的核函数等设计支持向量机模型,在进行样本训练得到SVM模型的参数,即分类函数,也就是疾病诊断的参数化SVM模型。
步骤3:把待诊断的病体样本输入到参数化SVM模型进行诊断,对于待诊断的样本 ,根据式(10)输出值进行决策。
3 实验与分析
当地,某些农场,在疾病流行季节,农户报告传染病交叉感染导致羊猝死的案例相当普遍。实验前,整理了猝死识别域的40个疾病样本,疾病标签由D,表示,识别域规范临床表象由只表示,样本向量的某个局部视图如表2所示。SVM 核函数用高斯径向基函数m 。其训练参数结果如下:obj(目标值)=一1.07928;p(决策常数):0.002310,nSV(支持向量个数)=4。 为了检验模型效果,同时,聘请了羊病专家E。~B 和模型进行了对比性诊断测试。在测试过程中,从最近诊历中抽取40个SVM模型已经学习和标注的疾病历史样例进行测试,同时将临床观察数据打印单递送给羊病专家单独诊断,结论模糊语言给出疾病染病指数 ,分析结果如表3所示。SVM模型准确率指标为88%,远高于人类专家。可看出:SVM诊断模型具有较好的学习能力和泛化能力,专家结论还有“不确定”一项,这个或许能从某个角度反映出某类信息,结论的丰富性是模型所欠缺的。
4 结束语
论文分析了支持向量机决策分类求解领域问题的人工智能过程与自然人专家应用知识诊断治疗疾病的人类智能过程的相似性,构造了基于支持向量机和CF向量的确诊模型、症状描述规范模型、识别域划分模型、CF知识规则到SVM样本的转换模型、及相关过程,并开展该模型和自然人专家就山羊疾病确诊的对比性实验。数据显示:SVM方法能获得较高诊断正确率,具备良好的综合诊断性能,向开发实用型人工智能辅助诊疗系统发出了积极的意义的信号。此后,项目组将会同相关单位,组织项目组以外的兽医专家开展不同识别域的批量对比性试验,进一步完善模型,条件成熟的前提下,偕同医务部门进行SVM疾病辅助性诊断模型应用于人类医疗的研究。
京都名师论文中心成立于2000年,是中国最顶级的论文工作平台,致力于为全国各类客户提供论文指导、发表论文服务,以提供高品质毕业论文服务为己任,是全国唯一一家依托北京各大高校学术资源、设置在北京大学校内的论文发表服务机构。一直以来,京都名师论文网致力于对高品质本科毕业论文、经济管理毕业论文的传承与传播,对中国高品质原创论文事业的推动,已得到社会各界的广泛认可和赞誉。
因篇幅问题不能全部显示,请点此查看更多更全内容