多粒度分词演示系统设计和实现计算机科学与技术专业.docx
《多粒度分词演示系统设计和实现计算机科学与技术专业.docx》由会员分享,可在线阅读,更多相关《多粒度分词演示系统设计和实现计算机科学与技术专业.docx(32页珍藏版)》请在优知文库上搜索。
1、摘要.1Abstract.2前言.3第1章绪论.41.1研究背景.41.2分词概述.51.3本文的主要工作.6第2章基于词典匹配和动态规划树状解码的多粒度分词算法.82.1算法实现.82.2优化.102.3评价.11第3章基于神经网络分类模型和动态规划序列解码的多粒度分词方法133.1介绍.133.2模型搭建.143.3模型训练.163.4模型结果处理.173.5评价.19第4章多粒度分词演示系统构建.224.1后端程序.224.2网页前端.234.3效果展示.24第5章总结与展望.275.1本文总结.275.2后续工作展望.27致谢.错误!未定义书签。参考文献.29附录.31中文分词一直是中
2、文信息处理领域的一项重要技术,它是机器翻译,搜索引擎,文本分类等应用不可或缺的基础部分。中文分词方法也在不断地发展,但是这些方法仅仅聚焦于单粒度分词,即一个句子被分割成唯一的一个词序列。于是,最近有人系统地在数据驱动的机器学习框架下正式提出并解决了中文多粒度分词任务。该毕业设计旨在实现一个多粒度分词演示系统,让用户在浏览器一端输入中文句子,网页能够即时的显示多粒度分词结果。因此本文的工作大体上可以分为两部分。第一部分,实现多粒度分词算法。主要尝试了两种算法,第一种基于词典匹配的动态规划解码算法,第二种基于深度学习的前馈神经网络模型。最后用两者在1500个测试句子上进行评价,比较它们的优劣。第二
3、部分为Web网页的设计,前端选用普通的css+JavaScript+html技术,后端则选用python的Flask框架搭建,通过调用前面设计好的算法实现分词,把结果传到前端,最后再将结果以合适的形式展现出来。关键词:自然语言处理;中文信息处理;中文分词;多粒度分词;Web开发AbstractChinesewordsegmentationhasalwaysbeenanimportanttechnologyinthefieldofChineseinformationprocessing.Itisanindispensablepartofmachinetranslation,searchengin
4、e,textclassificationandotherapplications.Chinesewordsegmentationmethodsarealsoconstantlyevolving,butthesemethodsfocusonlyonsingle-grainedsegmentation.Asaresult,ithasrecentlybeensystematicallyproposedandsolvedinthedata-drivenmachinelearningframeworkforChinesemulti-grainedwordsegmentationtasks.Thegrad
5、uationprojectaimstoimplementamulti-grainedwordsegmentationdemonstrationsystem,allowinguserstoinputChinesesentencesatthebrowser,andthewebpagescaninstantlydisplaymulti-grainedwordsegmentationresults.Therefore,thisworkcanberoughlydividedintotwoparts.Thefirstpart,toimplementmulti-grainedwordsegmentation
6、algorithm.Twoalgorithmsaremainlytried,thefirstonebasedonscoreswhichiscalledCKYdecodingalgorithmandthesecondonebasedondeeplearningusingthefeedforwardneuralnetworkmodel.Finally,thetwowereevaluatedon1500testsentencestocomparetheirmerits.Thesecondpartisthedesignofawebpage.Thefrontendusestheordinarycss+J
7、avaScript+htmitechnology,andthebackendusestheflaskframeworkofpython.Bycallingthepreviouslydesignedalgorithm,thewordsegmentationisachieved,theresultispassedtothefrontend,andtheresultisfinallyshowninasuitableform.Keywords:Naturallanguageprocessing;Chineseinformationprocessing;Chinesewordsegmentation;m
8、ulti-grainedwordsegmentation;Webdevelopment和大部分西方语言不同,一个汉语句子中间没有明显的分隔符,它是由连续的字序列构成的。因此对中文进行处理的第一步就是进行自动分词,即将字串转变成词串。自动分词的重要前提是确定词的分界要按什么标准进行划分。中文中具有意义的最小单位是词(含单字词),但是词的定义非常抽象且因人而异。给定某文本,按照不同的标准的分词结果往往不同。词的标准成为分词问题一个很大的难点,没有一种标准是被公认的。作为中文信息处理的第一步,分词已经在过去几十年里被广泛研究并且做出巨大进步。同时分词的方法也在逐渐地改进,从基于词典的最大匹配,到基于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 粒度 分词 演示 系统 设计 实现 计算机科学 技术 专业