欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    自然语言处理NPL-最大概率分词算法.docx

    • 资源ID:1758798       资源大小:69.81KB        全文页数:13页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    自然语言处理NPL-最大概率分词算法.docx

    N1.P基于最大概率的汉语切分Ytinrete要求:基于最大概率的汉语切分目标:采用最大概率法进行汉语切分。其中:n-gram用bigmm.平济方法至少用1.ap1.acc平滑.输入:接收一个文本,文本名称为:COrPUS_foresixi输出:切分结果文本.其中:切分表示:用一个字节的空格"”分隔,如:我们在学习.姆个标点符号都总算一个切分单元。输出文件名为;学号ixiBigram参数训练诏料:corpus_1.brjrain.txt注:请严格按此格式输出,以便得到正研评冽结果切分性能评价:什切分结果评测F100zF=2PR(P+R)特别注怠:代码缶同问题本次作业取后得分会保合考虑:切分性能、代码、文档等几个方面.第三次作业上交的截止时间I2014年1月7I1.24:001.关于最大概率分词根本思想是:一个待切分的汉字串UJ能包含多种分词结果,将其中概率用大的作为该字中的分词结果.根据:由于谱吉的规律性,句子中前面出现的词对后面可能出现的诃有很强的预示作用。公式I:其中W表示词,S去示待切分字符串,?WS)=笔产”(W)P(W)=P(vv1,vv2,.,1)P(vv1.)*P(vv2)*.*P(vv.)例如:S:有意见分歧£然蓝在语料库中的出现次数n户语料库中的总词数NP(W1.)=P(Yi)XP(JS见)XP(分歧)=1.8*10-9P(W2)=P(有意)XK见XP(分歧)=1*10-11P(WI)>P(W2)所以选择WI历史信息过长,计算存在困魔P(Wi1.W1.W2*1)为了便于计律,通常考虑的历史不能太长,一般只考虑的面n1个词构成的历史.即:P(Wikyin+1-wi1.)n-gramn较大时:提供了更多的语境信息,语境更具区别性。但是,。数个数多、计算代价大、训练语料需要多、参数估计不可谥”n较小时:语境信息少,不具区别性.但是,参数个数少、计算代价小、训练语料,无需太多、参数估计可搪。JI目要求使用bigram,即考虑前一个词,即考虑左邻词.左邻词假设对字申从左到右进行扫描,可以得到w1.,w2.wi1.wi,等假设干候选词,如果的的尾字跟Wi的首字邻接,就称Wi-I为Wi的左邻词,比方上面例中,候选词“有”就是候选词“意见”的左邻诃,“意见”和“见”都是“分歧”的左匏诃.字部最左边的词没有左邻词.量正确左邻词如果某个候选词Wi有假设干个左邻词Wj,Wk.等等,其中累计概率必大的候选词称为Wi的最正确左邻词.比方候选词“意见”只有一个左领词“有”.因此,“有”同时也就是“意见”的最正确左邻词:快选诃“分歧”有两个左邻词“意见”和“见”,其中“意见”的累计概率大于“见”累计概率,因此“意见”是“分歧”的最正确左邻词。假设某n-gram在训练语料中没有出现,那么该n-gram的概率必定是0,解决的方法是Ir大训练语料的规模。但是无论怎样扩大训练语料,都不可能保证所有的词在训练语料中均出现,由于训练样本缺乏而导致所估计的分布不可犯的问题,称为数据稀疏问题。在N1.P领域中,数据林疏何趣永远存在,不太可能有一个足修大的训练语料,因为谙言中的大局部词都M干低侦诃.斛决触平相财把在训练样本中出现过的事件的概率适当收小.把破小得到的概率密度分配给训练评科中没有出现过的事件.这个过程有时也称为disc。Unting(战值).目前已经提出了很多数据平滑技术,如:Add-one平滑AddYC1.ta平滑Witten-Be1.1.平滑GtKx1.-Turing平JttChurch-Ga1.c平滑Jc1.inck-Mcrccr平滑Katz平滑这里我使用IaP1.aCe平滑ddone平常(I.ap1.ace's1.aw)规定任何个n-gram在训练语料至少出现一次(即规定没有出现过的n-gram在训练语料中出现了一次)。没有出现过的n-gram的概率不再是0.2.算法描述I)对一个待分词的字串S,按照从左到右的顺序取出全部候选词W1.w2j,Wi-IWi,-Wn;#inc1.*dc<iostream>#inc1.udc<stdio.h>#incIdc<fsream>#inc1.ude<map>#inc1.ude<s1.ring>usingnamespaces(d;constchar*(ruin_1.ex(="corpU1.fbrJnIin.tx1.":训练文件constchardic-tcxt=Pic.tXf检出诃典文件map<string.in1.>diczi!衣map<string.int>:iteratordiejt:/ma><string.doub1.e>dic_in_iext/(estintnain()IFI1.E*f_in:Cin=1.bpen(1.rain_(ex1.*r*):ofstream匚OUMdiCdoub1.erae=O;iniCQUnt=O:charch;stringword;ch=ecc(Un);whi1.e(EOF!=ch>IChM词的一历剖(word.appc11d(1.ch>if(".w=word)word.c1.car();Idsc”单词结束jf(,'=word0=word.sizd>)word.c1.car();ch=fgec(Ci11);cn1.inue:dic-i1.=dic.find(word):if(dic.it!=d()找到dicjt->sccond=di<j(->sccond+1;word.c1.ead):Ie1.se<新单词count÷÷dic.insert(air<string,int>(word,I);wn1.c1.car():ch=fgctc(fjn):Uif('n'=chW吸收换行"ch=fgec(Cin);Cout<<count<<endkdic_it=dic.bcgin():whi1.c(dicjt!=d()I1.out<<dicjt->firsi<<end:ratc=(doub1.c)(dic_it->sccond)/counUf_out«ratc«cnd1.;dicj(÷+;f_outc1.osc();fc1.ose(Cin);了测试用ifstrcamfi1.c(dic-tcxt);intcountjcxt;fi1.e»count_(ext;siringwon1._1.ext:doub1.eratc_tcxt:for<inti=0;i<coumjcxc;i÷÷)fi1.c»word_(ext:f1.e>>ratejex;di_in_(ext.inser1.(pair<Mring.doub1.e>(word_1.ext.ra1.c_tex1.):fi1.e.c1.ose。;*/returnO;3.dg1.-fc,i.cpp读入词典die.tx1.和带切分文本Iarge"x输出分词结果201I366znc1.udc<iostrcam>Winc1.udc<stdio.h>*inc1.ude<fs(ream>inc1.dc<nap>Winc1.udc<string>Winc1.dc<vcctor>#inc1.ude<stack>usingnamespacestd:constchar*e<arge="argeJKT'W输入文件constchars*oukpu1.="2011211366.1.x火输出文件constchardicjcxt=Pictx1.W输入词典文件constinimax_won1.=20W假设一个词展长包括IO个汉字doub1.eIap1.accW1.aPbCC平滑map<siring.doub1.e>die词典map<string.doub!c>:iteratordieJt:typedefsrctWOn1.PN单词池内元素Iintnum:标记in(p_bcgin;起始<也imp_endW结束位置doub1.ewordajaate:单词本身概率doub1.ep1.usjatu”单词累进柢率intbest;“最正确左邻词stringthis_woM:词本身|word_pre:forttni=0;i<word_poo1.sizeO:i+÷)if(max=(word_poo1.at(i).p_end”/是结尾诃(end_woixi_temp.push_kick(i);imbe$1.em1.wOfd=0;初始化fortinti=1.:i<end_won1._1.einp.sizd);i+>Iif(woixJ_poo1.a«end_word_(emp.a1.(i),p1.us_i,ate>(woni_poo1.ai(end_w<Md_(emp.a(best_end_woixi),p1.us_rate>(bcsi_cnd_word=i;Iintp<)sition=cnd_wordtcmp.at(bcst_cnd_wwd);voctor<string>p1.c(c;Whi1.e(O!=(WOn1.P<x)1.aupoSmOn),p_begin)往回找Iwond_comp1.ctc.push_back(won1._poo1.at(position).this_won1.):position=(word,poo1.at(position),bcst;word_comp1.etc.pu*h_back(w。Tx1.POOIpo疝ion)<his_word%/j”后一个"分词完成,每个词都放在wp1.ctc里面siringcomp1.ete;for(inti=wordcomp!ctc.sizc()-1:i>=<kiM用空格分开拼成成品1comp1.ee÷=word-con)1.ee.a(i);if(0!=i)comp1.ete+=*u;returncomp!ctci1.u1.int11uin()dicjni();FI1.E*fjn:ofstrcamf_out(out_put);U11=fpcn(targcc,T);charch1=0,ch2=0;siringwn1.scn1.ance.s_comp1.e1.e;ch1.=fgetc(U11);if(EOF=dd)cou1.<<,fi1.eidemp<y":ch2=fgctc(fjn);whi1.e(EOF!=ch1.&&EOF!=ch2>Iwond.appci(1.,ch1.);wond.append(I.d)2);if(”=word)一个句子(s_comp1.ecc.c1.car();s_comp1.e(e=zdg1._fenci(sentance);1.ComPIC1.C+='Q":加上"J1.out<

    注意事项

    本文(自然语言处理NPL-最大概率分词算法.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开