自然语言处理发展及应用综述.docx
《自然语言处理发展及应用综述.docx》由会员分享,可在线阅读,更多相关《自然语言处理发展及应用综述.docx(58页珍藏版)》请在优知文库上搜索。
1、自然语言处理发展及应用综述二、自然语言处理的发展历程在20世纪50年代之前,自然语言处理的研究主要处于基础阶段。这个时期,人们开始探索如何使用计算机来处理和理解人类语言。1949年,美国人威弗提出了机器翻译的设计方案,成为自然语言处理领域的早期研究之一。由于当时对自然语言的复杂性认识不足,技术手段有限,这个时期的研究进展相对较慢。1956年,人工智能的概念被正式提出,自然语言处理作为人工智能的一个重要分支,开始得到快速发展。这个时期,基于规则和基于概率的两种不同方法在自然语言处理领域形成了两大阵营。符号派(symbolic)主要采用基于规则的方法,而随机派(stochastic)则采用基于概率
2、的统计学方法。这个时期的重要研究成果包括形式语言理论和生成句法的研究,以及形式逻辑系统的研究。在20世纪70年代到90年代初,自然语言处理的发展进入了一个相对低谷的时期。这个时期,由于计算机技术的限制和对自然语言理解的困难,研究进展相对较慢。这个时期也为后来的技术发展奠定了基础,包括大规模真实语料库的研制和大规模、信息丰富的词典的编制工作。从20世纪90年代中期开始,自然语言处理领域逐渐复苏,并进入了一个融合发展的新阶段。这个时期的主要特点是大规模真实文本的处理和信息抽取技术的发展。随着计算机技术的进步和互联网的兴起,大规模的语料库和计算资源变得越来越容易获得,为自然语言处理的研究提供了新的机
3、遇。同时,机器学习和深度学习等新技术的应用,也为自然语言处理带来了新的突破。自然语言处理的发展历程是一个不断探索和创新的过程,从早期的规则驱动方法到后来的统计学习和深度学习方法,研究者们一直在努力寻找更有效的方法来处理和理解人类语言。随着技术的不断进步,自然语言处理在各个领域的应用也越来越广泛,为人们的生活和工作带来了巨大的便利。1 .萌芽期(1956年以前)在1956年以前,自然语言处理(N1.P)处于其基础研究阶段,这个时期可以被称为N1.P的萌芽期。这个阶段的研究主要依赖于数学、语言学和物理学等学科的知识积累。电子计算机的诞生为机器翻译和自然语言处理提供了物质基础。1946年,电子计算机
4、的出现使得处理和分析大量语言数据成为可能。一些关键的理论和技术在这个时期得到了发展。1948年,Shannon将离散马尔可夫过程的概率模型应用于描述语言的自动机,并将热力学中的“婚”概念引入到语言处理的概率算法中。在20世纪50年代初,KIeene研究了有限自动机和正则表达式。1956年,ChOnISky提出了上下文无关语法,并将其应用于自然语言处理。这些工作直接导致了基于规则和基于概率的两种不同的自然语言处理技术的产生,这两种方法在后来的几十年里引发了关于其优劣的争论。这个时期还出现了一些重要的研究成果。1959年,宾夕法尼亚大学研制成功了TDAP系统,这是早期的机器翻译系统之一。同时,布朗
5、美国英语语料库的建立也为自然语言处理的研究提供了宝贵的资源。1967年,美国心理学家NeiSSer提出了认知心理学的概念,将自然语言处理与人类的认知直接联系起来。在N1.P的萌芽期,研究人员主要关注于建立自然语言处理的理论基础,并开发了一些早期的系统和工具。这些工作为后来N1.P的发展奠定了基础,并引领了后续的研究和应用方向。2 .快速发展期(19571970年)自然语言处理在这一时期迅速融入了人工智能的研究领域。由于基于规则和基于概率这两种不同方法的存在,自然语言处理的研究分为了两大阵营:一个是基于规则方法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)0从
6、20世纪50年代中期到60年代中期,以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究。他们试图通过形式化的语言规则来描述和解析自然语言。这些研究为后来的语法分析、语义分析和机器翻译等任务奠定了基础。随机派学者则采用基于概率的方法来处理自然语言。他们使用统计模型来分析语言数据,并基于概率来推断语言结构和意义。这一时期,随机派学者在语音识别、语言模型构建等方面取得了重要进展。1957年,IBM的研究者开发了第一个基于规则的机器翻译系统。1964年,美国国防部高级研究计划局(DARPA)启动了A1.PAC项目,旨在评估机器翻译的研究进展。1966年,1.R.Baker发表了关于语
7、言形式化和语义表示的重要论文。1969年,美国国家标准局(NBS)组织了一次机器翻译评测,推动了自然语言处理技术的发展和标准化。这些研究成果不仅丰富了自然语言处理的技术手段,也拓宽了其在社会中的应用范围。这一时期的研究也暴露出一些问题,如基于规则的方法过于依赖人工设计,而基于概率的方法则受限于当时的计算能力。这些问题将在随后的阶段中得到进一步的研究和解决。3 .低谷的发展期(19711993年)尽管自然语言处理(N1.P)在这一时期经历了低谷,但一些发达国家的研究人员仍然坚持不懈地继续研究。在这个时期,N1.P领域取得了一些重要的成果。在20世纪70年代,基于隐马尔可夫模型(HiddenMar
8、kovModel,HMM)的统计方法在语音识别领域获得了成功。这标志着N1.P开始从基于规则的方法转向基于统计的方法。到了80年代初,话语分析取得了重大进展。研究者开始关注语言在实际应用中的使用方式,而不仅仅是孤立的句子或单词。在这一时期,N1.P研究者对过去的研究进行了反思,有限状态模型和经验主义研究方法也开始复苏。这些方法强调从实际数据中学习和构建模型,而不是仅仅依赖于人工制定的规则。这一时期还出现了一些令人瞩目的研究成果。例如,1946年Kenig进行了关于声谱的研究,1952年Bell实验室进行了语音识别系统的研究,1956年人工智能的诞生为N1.P翻开了新的篇章。这些研究成果在后来的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 发展 应用 综述