基于序列标注的中医症状名识别技术研究.docx
《基于序列标注的中医症状名识别技术研究.docx》由会员分享,可在线阅读,更多相关《基于序列标注的中医症状名识别技术研究.docx(6页珍藏版)》请在优知文库上搜索。
1、基于序列标注的中医症状名识别技术研究作者:魏尊强舒红平王亚强来源:山东工业技术2015年第08期摘要:传统中医学博大精深,随着计算机技术在医学领域应用的不断深入,大量中医临床记录得以保留,为中医学研究学习提供了有效途径,而症状名识别是中医临床记录研究的重要前提。中医症状名识别可以看作一般文本中命名实体识别技术在中医学领域的特殊应用。我们采用命名实体识别中序列标注技术对中医临床记录进行研究,并结合中医临床记录领域特点,进行序列标注策略改进。通过HMM算法在序列标注策略改进前后实验结果对比,改进后HMM算法在性能评价指标上优于未改进之前,说明根据中医临床记录特点进行的序列标注策略改进是有效的C关键
2、词:中医症状名;命名实体;识别1引言传统中医学博大精深,是我国历代中医工作者在无数临床诊断和不断摸索中得出的智慧结晶经过多年积累,大量中医临床记录得以保存,包含众多名老中医经验和诊疗方法。我们可以寻找一条发现中医诊断经验和规律的途径,帮助现代中医工作者更好认清疾病和临床诊断之间的关系,为患者提供更有效的治疗。近年来计算机相关技术发展迅速,人们在使用时产生了大量数据信息,这些信息关系到人们生活的方方面面C同时,人们对于计算机技术的使用要求逐步提高。正是在这些不断增加的数据信息及计算机使用要求的推动下,大数据相关技术应运而生,并取得迅猛发展。数据挖掘、机器学习等技术逐步应用到人们日常生活中2,帮助
3、我们从浩瀚的数据信息中发现隐藏在数据背后的知识和规律,发现数据之间的关联。鉴于此,如何从大量中医临床记录中寻找出诊断规律的研究就有了一个新的方向。我们通过对中医临床记录的研究发现,中医症状名识别是中医临床记录研究的重要前提,它可以看作是一般文本中命名实体识别技术在中医学领域的特殊应用。因此在本文以下内容中,将从命名实体识别技术的角度进行中医临床记录中症状名识别的研究。2命名实体识别技术2.1命名实体识别技术介绍命名实体的概念最初在MUC-6上提出。命名实体具有独立意义,常常作为一个整体出现在语句中,主要包括人、地名、机构名、专有名词等。命名实体识别是指识别文本中具有特定含义的实体3。命名实体识
4、别技术研究至今已有多年,成为自然语言处理领域的一项重要技术,并取得众多成果。命名实体识别技术的研究最初在英文文本中兴起的,中文文本中命名实体识别研究仍处于初级阶段。22命名实体识别的分类命名实体识别技术按照原理可以分为三类方法:基于词典的方法、基于规则的方法、基于序列标注的方法。基于词典的方法中主要有完全匹配和模糊匹配两种方式。完全匹配要求当前词与词典中的每个字符完全一致才能匹配。例如,当前词为“腹部疼痛”,词典中同样存在词“腹部疼痛才可以匹配C模糊匹配只需部分字符匹配即可。例如,若当前词为“腹部疼痛”,而字典中存在词“腹痛”才可认为两词是匹配的。基于规则的识别方法是在基于词典的方法基础上发展
5、而来,在识别时加入相关的词法、语法、语义规则,从而获取到更好识别效果。基于规则的方法曾在命名实体识别研究初期占有重要地位。在MUC命名实体评测时,几乎所有参加评测的系统都是基于规则的。基于序列标注的方法通过对命名实体概率值的使用,对含有相关命名实体的语料集进行训练,当某字段的概率值大于限定阈值时,该字段被确定为命名实体。基于序列标注的命名实体识别方法有很多种,包括隐马尔科夫模型(HMM).条件随机场(CRF)等。3中医症状名识别技术研究3.1 一般文本的序列标注策略由上文可知,中医临床记录中症状名识别可看作一般文本中命名实体识别技术在中医学领域的一个分支。在一般文本处理过程中,研究对象通常是字
6、符串形式的句子。语言不同,语言最小单位(简称“语素”)可能不同。例如,在中文中最小单位是字;而在英文中最小单位是单词。尽管如此,句子仍可看作由语素构成的序列。对一般文本中命名实体的识别可看作序列标注任务,即为句子中的每个语素标注具有特殊含义的符号,并且每个位置只能标注一个符号。这些特殊符号称为“标签例如,定义一组表示命名实体描述开始(Beginning、“B”)、中间(Intermediate,4T)和其它(OUtSide,“0”)等指示文本中命名实体特殊位置的标签。由此可知,一般文本中序列标注任务包括三个要素:(1)标注序列:一般情况下序列标注以句子作为一个处理单元。(2)标注单元:一般情况
7、下标注单元为词语。由于中文词语之间没有自然分隔符号(如“空格”),中文命名实体识别被分成两部分任务,首先对待标注序列进行中文分词,然后在此基础上以中文词语为标注单元,完成命名实体的识别。(3)标签集:如前文所述,标签集会被定义为“BIO”。3.2 中医临床记录中症状名标注策略中医临床记录具有鲜明的领域特点。在中医症状名识别过程中,我们需要根据中医临床记录领域特点进行改进:(1)如3.1所述,一般情况下中文命名实体识别任务需要对标注序列进行分词,在此基础上完成命名实体识别。然而在中医临床记录中,中医症状名通常由病位、病势和病性三部分组成,这三部分内容通常连续出现。因此,我们可以将字作为中医症状名
8、识别任务的标注单(2)为提高工作效率,中医工作人员在记录病人病情时通常不会进行重新组织和改写,导致临床记录内容丧失上下文连贯性。例如,“昨日肠鸣,失气多,心中不适”可能会有多种内容不连贯的描述方式,如“肠鸣昨日,心中不适,失气多”或者“肠鸣,心、中不适,失气多(昨天)同时,为方便记录,大多数中医工作人员习惯使用逗号代替其他标点,导致中医临床记录句子被合并成一句话。因此,我们定义中医临床记录中包含的“子句”代替原来的“句子”作为新的标注序列。“昨日肠鸣,心中不适,失气多”按照新标注序列被划分成“昨日肠鸣”,“心中不适”和“失气多”三个“子句”序列。这样不仅可以有效保持子句内容的连贯性,还有效降低
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 序列 标注 中医 症状 识别 技术研究