生物医学文本挖掘目前研究工作综述.ppt
《生物医学文本挖掘目前研究工作综述.ppt》由会员分享,可在线阅读,更多相关《生物医学文本挖掘目前研究工作综述.ppt(61页珍藏版)》请在优知文库上搜索。
1、Aaron M.Cohen,MD is a postdoctoral fellow in the medical informatics programme at OHSU.Dr Cohen works in the area of text mining,focusing on issues and applications important to biomedical researchers.He was chairman of the W3Cworking group that produced version 2 of the Synchronized Multimedia Inte
2、gration Language(SMIL 2.0).William Hersh,MD is Professor and Chair of the Department of Medical Informatics&Clinical Epidemiology in the School of Medicine at Oregon Health&Science University(OHSU)in Portland,Oregon.Dr Hershs research focuses on the development and evaluation of information retrieva
3、l systems for biomedical practitioners and researchers.HENRY STEWART PUBLICATIONS 1467-5463.BRIEFINGS IN BIOINFORMATICS.VOL 6.NO 1.5771.MARCH 2005Aaron M.Cohen,医学博士,俄勒冈卫生科学大学医学信息学项目的博士后研究员,研究方向是文本挖掘,主要集中在文本挖掘的应用及存在的问题,他是W3C工作组的主席,创建了同步多媒体整合语言版本2(SMIL 2.0).William Hersh,医学博士,是俄勒冈州波特兰市俄勒冈卫生科学大学医学院,医学信
4、息学和临床流行病学专业的教授和主席,研究方向是信息检索系统的开发和评价。BRIEFINGS IN BIOINFORMATICS.VOL 6.NO 1.5771.MARCH 2005公开发表的生物医学研究成果以及由此带来的潜在的生物医学知识正以越来越快的速度增长,几个世纪以来科技信息通常都是以指数增长2004年MEDLINE数据库含有1250多万条记录,目前仍以每年50万条记录的速度增长。生物医学研究的目标是发现知识并以诊断、预防和治疗的方式把知识应用到实践。人们很可能没有发现生物医学知识各个要素之间的重要联系,因为没有人建立必要的联系。必须建立一些方法来帮助研究者和内科医生高效地利用现有的研究
5、成果,并把这些研究成果应用到实践文本挖掘和知识抽取是帮助研究者处理信息过载的方法文本挖掘不同于信息检索(IR)和文本摘要(TS)文本挖掘也不同于自然语言处理(NLP)文本挖掘和知识提取主要集中在解决特定领域的具体问题例如:寻找与偏头痛的生物学过程有关的药理学物质来确定偏头痛可能的新的治疗方法生物医学文本挖掘的目的是帮助研究者更加有效地识别所需要的信息以及发现被大量的可获得信息掩盖的关系就是通过对文献中及生物医学数据库自由文本中的大量生物医学知识应用算法、统计方法和数据处理方法,把信息过载的压力从研究者转嫁给计算机。命名实体识别文本分类关系抽取同义词缩写词提取假说形成集成框架目的是在文本集合中识
6、别出特定类型事物的所有名称,例如在期刊论文集中识别出所有药物的名称,在medline摘要中识别出所有基因名称及符号不存在一个完整的包含各种类型的生物医学命名实体的字典相同的词或短语由于上下文不同表达的是不同的事物许多生物学实体有多个名称 PTEN和MMAC1 需要解决候选名称重复的问题可能是由多个词构成的词组 例如:颈动脉 carotid artery 因此需要判断实体名称的边界基于字典的方法:将自然语言文本与事先存在的包括大量生物医学命名实体名称的字典词条进行比对,根据匹配的结果进行实体识别。精确、模糊匹配基于规则的方法:通过规则的定义将实体与其他文本划分为不同的类,进而识别出来,大写字母+
7、符号+数字基于统计的方法:将命名实体识别问题转化为分类问题。通过使用分类工具,对训练文本进行机器学习,进而区分出各种命名实体类型,最终识别出测试文本中的命名实体。混合方法准确率(预测正确的命名实体数除以预测命名实体总数)召回率(预测正确的命名实体数除以文本中的命名实体总数)召回率和准确率的调和均值 F-measure=2PR/P+R召回率和准确率的平衡点Tanabe和Wilbur开发的AbGene系统是比较成功的基于规则曾被多个研究者作为命名实体识别组件用于关系抽取研究当中。AbGene系统把Brill的词性标注扩展到包括基因和蛋白质名称作为标记类型使用生物医学文本的7000个手工标注的句子作
8、为训练语料之后AbGene使用手工生成的基于语言统计特性的后处理规则进一步识别基因名称的上下文以及消除假阳性假阴性系统达到了85.7%的准确率和66.7%的召回率。Chang创建了GAPSCORE系统根据词的外观、形态和上下文对句子中的每个词打分,然后采用分类器训练这些特征。分数较高的词更可能是基因或蛋白质名称或符号。利用Yapex语料库进行训练,根据精确匹配和模糊匹配分别计算召回率、准确率和F值模糊匹配(召回率81%、准确率74%、F值77%)的系统性能好于精确匹配(召回率50%、准确率59%、F值54%)。Hanisch等人利用基因与蛋白质名称的大型词典语义分类可能在蛋白质名称附近出现的词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物医学 文本 挖掘 目前 研究工作 综述