2023人工自能机器算法自然语言处理.docx
《2023人工自能机器算法自然语言处理.docx》由会员分享,可在线阅读,更多相关《2023人工自能机器算法自然语言处理.docx(77页珍藏版)》请在优知文库上搜索。
1、人工自能机器算法自然语言处理目录第1章自然语言处理21.1 语言模型31.2 文法181.3 句法分析211.4 扩展文法291.5 真实自然语言的复杂性361.6 自然语言任务41第2章自然语言处理中的深度学习451.1 词嵌入461.2 自然语言处理中的循环神经网络511.3 序列到序列模型57第1章自然语言处理在本文中,我们将看到计算机如何使用自然语言与人类进行交流,并从人类所书写的内容中学习。大约10万年前,人类学会了如何说话,大约5千年前,人类又学会了如何写字。人类语言的复杂性和多样性使得智人区别于其他所有物种。当然,人类还有一些其他的特有属性:没有任何其他物种像人类那样穿衣服,进行
2、艺术创作,或者每天花两小时在社交媒体上交流。但是,艾伦图灵所提出的智能测试是基于语言,而非艺术或服饰,也许是因为语言具有普适性,并且捕捉到了如此多的智能行为:一个演讲者演讲(或作家写作)的目标是交流知识,他组织语言来表示这些知识,然后采取行动以实现这一目标。听众(或读者)感知他们的语言并推断其中的含义。这种通过语言的交流促进了文明的发展,是我们传播文化、法律、科学和技术知识的主要方式。计算机进行自然语言处理(naturallanguageprocessing,NLP)有以下3个主要原因。 与人类交流。在很多情况下,人类使用语音与计算机进行交互是很方便的,而且在大多数情况下,使用自然语言要比使用
3、一阶谓词演算等形式语言更加方便。 学习。人类已经用自然语言记录了很多知识。仅维基百科就有30()()万页事实知识,例如“婴猴是一种夜间活动的小型灵长类动物”,然而几乎没有任何一个这样的知识来源是用形式逻辑写成的。如果我们想让计算机系统知道很多知识,它最好能理解自然语言。 使用人工智能工具结合语言学、认知心理学和神经科学,促进对语言和语言使用的科学理解。在本文中,我们将探讨语言的各种数学模型,并讨论使用这些模型可以完成的任务。1.l语言模型正如我们在第8章中所看到的,形式语言(如一阶逻辑)是精确定义的。文法(grammar)定义合法句的句法(syntax)m,语义规则(semanticrule)
4、定义其含义。11在形式语言学和计算机学科中,“grammar”的标准翻译是“文法”,而在计算语言学中则多译作悟法”(摘自中国计算机学会通讯第5卷,第4期,2009,4),而“syntax”有时也译作“语法L在本书中为了区分两个概念,我们将“grammar”译作“文法”,将“syntax”译作“句法”。译者注然而,自然语言(如英语或汉语)无法如此清晰地表示。不同的人在不同的时间对于语言的判断会有所差别。所有人都会认为“Nottobeinvitedissad.”是一个合乎文法的英语语句,但是对于“Tobenotinvitedissad.”的合乎文法性则存在分歧。自然语言是存在歧义的(“Hesawh
5、erduck”可以理解为“他看到了她的鸭子”,也可以理解为“他看到她躲避某物“),也是模糊不清的LThWsgreat!”没有准确说明它有多么好,也没有说明它是什么)。自然语言没有正式定义从符号到对象的映射。在一阶逻辑中,“Richard”符号的两次使用必须指同一个人,但在自然语言中,同一单词或短语的两次出现可能指代世界上不同的事物。如果我们不能在合乎文法字符串和不合文法字符串之间做出明确的布尔判别,我们至少可以知道每个字符串的可能性或不可能性有多大。我们将语言模型(IangUagemodel)定义为描述任意字符串可能性的概率分布。这样一个模型应该认为“DoIdaredisturbtheUniV
6、erse?”作为一个英语字符串具有合理的概率,而“UniversedaretheIdisturbdo?是英语字符串的可能性极低。通过语言模型,我们可以预测文本中接下来可能出现的单词,从而为电子邮件或短信息提供补全建议。我们可以计算出对文本进行哪些更改会使其具有更高的概率,从而提供拼写或文法更正建议。通过一对语言模型,我们可以计算出一个句子最可能的翻译。用一些示例问题答案”对作为训练数据,我们可以计算出针对某一问题的最可能的答案。因此,语言模型是各种自然语言任务的核心。语言建模任务本身也可以作为衡量语言理解进度的通用基准。自然语言是复杂的,因此任何语言模型充其量只能是自然语言的一个近似。语言学家
7、爱德华萨丕尔(EdwardSwir)曾说“没有一种语言是绝对一成不变的,任何文法都会有所遗漏“(S叩ir,1921)o哲学家唐纳德戴维森(DonaldDavidson)说过“如果语言是一个明确定义的共享结构的话,就不存在语言这种东西”(DaVidSon,1986),他的意思是说,没有一种像PythOn3.8那样的确定性的英语语言模型,我们都有不同的模型,但我们仍然设法应对过去了,并进行交流。在本节中,我们将介绍一些简单的语言模型,这些模型显然是错误的,但是对某些任务来说仍然有用。1.1.1词袋模型1261节介绍了基于特定单词的朴素贝叶斯模型如何可靠地将句子分类。例如,下面的句子1被分类为bus
8、iness,句子2被分类为Weather。(1) StocksralliedonMonday,withmajorindexesgaining1%asoptimismpersistedoverthefirstquarterearningsseason.(2) HeavyraincontinuedtopoundmuchoftheeastcoastonMonday,withfloodwarningsissuedinNewYorkCityandotherlocations.在这一节,我们将回顾朴素贝叶斯模型,并将其转换为完整的语言模型。这意味着我们不仅想知道每个句子最可能属于哪一类别,我们还想知道所有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 人工 自能 机器 算法 自然语言 处理