自然语言处理NPL-最大概率分词算法.docx

资源ID：1758798 资源大小：69.81KB 全文页数：13页
资源格式： DOCX 下载积分：5金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要5金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

自然语言处理NPL-最大概率分词算法.docx

N1.P基于最大概率的汉语切分Ytinrete要求：基于最大概率的汉语切分目标：采用最大概率法进行汉语切分。其中：n-gram用bigmm.平济方法至少用1.ap1.acc平滑.输入：接收一个文本，文本名称为：COrPUS_foresixi输出：切分结果文本.其中：切分表示：用一个字节的空格"”分隔,如：我们在学习.姆个标点符号都总算一个切分单元。输出文件名为；学号ixiBigram参数训练诏料：corpus_1.brjrain.txt注：请严格按此格式输出,以便得到正研评冽结果切分性能评价:什切分结果评测F100zF=2PR(P+R)特别注怠:代码缶同问题本次作业取后得分会保合考虑：切分性能、代码、文档等几个方面.第三次作业上交的截止时间I2014年1月7I1.24:001.关于最大概率分词根本思想是：一个待切分的汉字串UJ能包含多种分词结果，将其中概率用大的作为该字中的分词结果.根据：由于谱吉的规律性,句子中前面出现的词对后面可能出现的诃有很强的预示作用。公式I：其中W表示词，S去示待切分字符串，?WS)=笔产”(W)P(W)=P(vv1,vv2,.,1)P(vv1.)*P(vv2)*.*P(vv.)例如：S：有意见分歧£然蓝在语料库中的出现次数n户语料库中的总词数NP(W1.)=P(Yi)XP(JS见)XP(分歧)=1.8*10-9P(W2)=P(有意)XK见XP(分歧)=1*10-11P(WI)>P(W2)所以选择WI历史信息过长，计算存在困魔P(Wi1.W1.W2*1)为了便于计律,通常考虑的历史不能太长，一般只考虑的面n1个词构成的历史.即：P(Wikyin+1-wi1.)n-gramn较大时：提供了更多的语境信息,语境更具区别性。但是，。数个数多、计算代价大、训练语料需要多、参数估计不可谥”n较小时：语境信息少，不具区别性.但是，参数个数少、计算代价小、训练语料，无需太多、参数估计可搪。JI目要求使用bigram,即考虑前一个词，即考虑左邻词.左邻词假设对字申从左到右进行扫描，可以得到w1.,w2.wi1.wi,等假设干候选词，如果的的尾字跟Wi的首字邻接，就称Wi-I为Wi的左邻词,比方上面例中,候选词“有”就是候选词“意见”的左邻诃,“意见”和“见”都是“分歧”的左匏诃.字部最左边的词没有左邻词.量正确左邻词如果某个候选词Wi有假设干个左邻词Wj,Wk.等等，其中累计概率必大的候选词称为Wi的最正确左邻词.比方候选词“意见”只有一个左领词“有”.因此，“有”同时也就是“意见”的最正确左邻词：快选诃“分歧”有两个左邻词“意见”和“见”，其中“意见”的累计概率大于“见”累计概率，因此“意见”是“分歧”的最正确左邻词。假设某n-gram在训练语料中没有出现,那么该n-gram的概率必定是0,解决的方法是Ir大训练语料的规模。但是无论怎样扩大训练语料，都不可能保证所有的词在训练语料中均出现，由于训练样本缺乏而导致所估计的分布不可犯的问题,称为数据稀疏问题。在N1.P领域中，数据林疏何趣永远存在,不太可能有一个足修大的训练语料,因为谙言中的大局部词都M干低侦诃.斛决触平相财把在训练样本中出现过的事件的概率适当收小.把破小得到的概率密度分配给训练评科中没有出现过的事件.这个过程有时也称为disc。Unting（战值）.目前已经提出了很多数据平滑技术，如：Add-one平滑AddYC1.ta平滑Witten-Be1.1.平滑GtKx1.-Turing平JttChurch-Ga1.c平滑Jc1.inck-Mcrccr平滑Katz平滑这里我使用IaP1.aCe平滑ddone平常（I.ap1.ace's1.aw）规定任何个n-gram在训练语料至少出现一次（即规定没有出现过的n-gram在训练语料中出现了一次）。没有出现过的n-gram的概率不再是0.2.算法描述I）对一个待分词的字串S,按照从左到右的顺序取出全部候选词W1.w2j,Wi-IWi,-Wn；#inc1.*dc<iostream>#inc1.udc<stdio.h>#incIdc<fsream>#inc1.ude<map>#inc1.ude<s1.ring>usingnamespaces(d;constchar*(ruin_1.ex(="corpU1.fbrJnIin.tx1.":训练文件constchardic-tcxt=Pic.tXf检出诃典文件map<string.in1.>diczi!衣map<string.int>:iteratordiejt:/ma><string.doub1.e>dic_in_iext/(estintnain()IFI1.E*f_in：Cin=1.bpen(1.rain_(ex1.*r*):ofstream匚OUMdiCdoub1.erae=O;iniCQUnt=O:charch;stringword;ch=ecc(Un);whi1.e(EOF!=ch>IChM词的一历剖(word.appc11d(1.ch>if(".w=word)word.c1.car();Idsc”单词结束jf(,'=word0=word.sizd>)word.c1.car();ch=fgec(Ci11);cn1.inue:dic-i1.=dic.find(word):if(dic.it!=d()找到dicjt->sccond=di<j(->sccond+1;word.c1.ead):Ie1.se<新单词count÷÷dic.insert(air<string,int>(word,I);wn1.c1.car():ch=fgctc(fjn):Uif('n'=chW吸收换行"ch=fgec(Cin);Cout<<count<<endkdic_it=dic.bcgin():whi1.c(dicjt!=d()I1.out<<dicjt->firsi<<end:ratc=(doub1.c)(dic_it->sccond)/counUf_out«ratc«cnd1.;dicj(÷+;f_outc1.osc();fc1.ose(Cin);了测试用ifstrcamfi1.c(dic-tcxt);intcountjcxt;fi1.e»count_(ext;siringwon1._1.ext:doub1.eratc_tcxt:for<inti=0;i<coumjcxc;i÷÷)fi1.c»word_(ext:f1.e>>ratejex;di_in_(ext.inser1.(pair<Mring.doub1.e>(word_1.ext.ra1.c_tex1.):fi1.e.c1.ose。；*/returnO;3.dg1.-fc,i.cpp读入词典die.tx1.和带切分文本Iarge"x输出分词结果201I366znc1.udc<iostrcam>Winc1.udc<stdio.h>*inc1.ude<fs(ream>inc1.dc<nap>Winc1.udc<string>Winc1.dc<vcctor>#inc1.ude<stack>usingnamespacestd:constchar*e<arge="argeJKT'W输入文件constchars*oukpu1.="2011211366.1.x火输出文件constchardicjcxt=Pictx1.W输入词典文件constinimax_won1.=20W假设一个词展长包括IO个汉字doub1.eIap1.accW1.aPbCC平滑map<siring.doub1.e>die词典map<string.doub!c>:iteratordieJt:typedefsrctWOn1.PN单词池内元素Iintnum:标记in(p_bcgin;起始<也imp_endW结束位置doub1.ewordajaate:单词本身概率doub1.ep1.usjatu”单词累进柢率intbest;“最正确左邻词stringthis_woM：词本身|word_pre:forttni=0;i<word_poo1.sizeO：i+÷)if(max=(word_poo1.at(i).p_end”/是结尾诃(end_woixi_temp.push_kick(i);imbe$1.em1.wOfd=0;初始化fortinti=1.:i<end_won1._1.einp.sizd);i+>Iif(woixJ_poo1.a«end_word_(emp.a1.(i),p1.us_i,ate>(woni_poo1.ai(end_w<Md_(emp.a(best_end_woixi),p1.us_rate>(bcsi_cnd_word=i;Iintp<)sition=cnd_wordtcmp.at(bcst_cnd_wwd);voctor<string>p1.c(c;Whi1.e(O!=(WOn1.P<x)1.aupoSmOn),p_begin)往回找Iwond_comp1.ctc.push_back(won1._poo1.at(position).this_won1.):position=(word,poo1.at(position),bcst;word_comp1.etc.pu*h_back(w。Tx1.POOIpo疝ion)<his_word%/j”后一个"分词完成，每个词都放在wp1.ctc里面siringcomp1.ete;for(inti=wordcomp!ctc.sizc()-1:i>=<kiM用空格分开拼成成品1comp1.ee÷=word-con)1.ee.a(i);if(0!=i)comp1.ete+=*u;returncomp!ctci1.u1.int11uin()dicjni();FI1.E*fjn:ofstrcamf_out(out_put);U11=fpcn(targcc,T);charch1=0,ch2=0;siringwn1.scn1.ance.s_comp1.e1.e;ch1.=fgetc(U11);if(EOF=dd)cou1.<<,fi1.eidemp<y":ch2=fgctc(fjn);whi1.e(EOF!=ch1.&&EOF!=ch2>Iwond.appci(1.,ch1.);wond.append(I.d)2);if(”=word)一个句子(s_comp1.ecc.c1.car();s_comp1.e(e=zdg1._fenci(sentance);1.ComPIC1.C+='Q"：加上"J1.out<

注意事项

本文（自然语言处理NPL-最大概率分词算法.docx）为本站会员（王**）主动上传，优知文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知优知文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。