自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx
《自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx》由会员分享,可在线阅读,更多相关《自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx(8页珍藏版)》请在优知文库上搜索。
1、附录A(规范性)自然语言处理系统功能有效性评估指标计算方法A.1自然语言理解功能有效性评估指标计算方法自然语言理解功能有效性的评估应包括但不限于下列内容:1)混淆矩阵:在二分类任务中,混淆矩阵是通过样本的采集和模型分类器的输出结果形成的2X2的矩阵,其中,左上角为真阳样本数(真实值为真,模型预测值为真,TP),左下角为假阳样本数(真实值为假,模型预测值为真,FP,统计学上的第二类错误),右上角为假阴样本数(真实值为真,模型预测值为假,FN,统计学上的第一类错误),右下角为真阴样本数(真实值为假,模型预测值为假,TN),如表A.1。表A.1二分类混淆矩阵真实值预测值PositiveXegativ
2、ePositive真阳TP假阴FNNegative假阳FP真阴TN在多分类任务中,混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。第i行第j列的数值表示第i类数据被预测为第j类的数目。2)3)4)5)6)7)8)准确率:对于给定的数据集,正确分类的样本数占全部样本数的比率。精确率:9)准确率TP+TNTP+FP+TN+FN 100%对于给定的数据集,被预测为正样本的集合中正样本的比率。召回率:对于给定的数据集,精确率=芳 X100%被正确预测的正样本占全部正样本的比率召回率=遥100%真阴率:
3、对于给定的数据集,预测正确的负例样本占所有实际为负例样本的比率。真阴率=品X100%错误接受率:对于给定的数据集,预测错误的负例样本占所有实际为负例样本的比率。错误接受率=高三XlOo%FP+TN错误拒绝率:对于给定的数据集,预测错误的正例样本占所有实际为正例样本的比率。错误拒绝率=磊XloO%TP+FNFl测度:精确率和召回率的调和平均值。Fl测度=2精度X召回率精度+召回率(4)(6)多分类任务下的指标计算:在n分类任务中,根据表2的多分类混淆矩阵得到了所有种类的预测值分布情况,并基于这些数据计算多分类任务的准确率、精确率、召回率、Fl测度等指标,在此基础上,进一步采用宏平均和微平均来评价
4、整个多分类任务的功能有效性。宏平均:对每一个类别分别计算统计指标值,即把每个类别视作二分类情况进行统计,然后再对所有类的结果取算术平均值。如:宏准确率=1 nslTPj+TNiTPi + FPi+TNi+FNi 100%(8)微平均:把所有类别的真阳、真阴、假阳型类相加,计算类别预测的统计指标。如:微准确率一价+而+而+X 100%(9)10) ROC曲线:ROC的横轴是假正率,代表所有负样本中错误预测为正样本的概率。ROC的纵轴是召回率,代表所有正样本中预测正确的概率。每次选取一个不同的正负判定阈值,就可以得到一组假正率和召回率,即ROC曲线上的一点。将正负判定阈值从0到1取不同的值时,可以
5、得到一系列(假阳率,召回率)点。将这些点连接起来,就得到了ROC曲线。ROC曲线的对角线坐标对应于随机猜测,而坐标点(OJ)也即是左上角坐标对应理想模型。曲线越接近左上角代表模型的效果越好。ROC曲线如图A.1所示:OO000204060810False Posve Rite0 8 6 4 2 LQOOO图A.1ROC曲线11)AUC:即为ROC曲线下的面积,AUC越接近于1,分类性能越好。A.2自然语言生成功能有效性评估指标计算方法自然语言生成功能有效性的评估应包括但不限于下列内容:1)BLEU-N:假定人工给出的译文为reference,机器翻译给出的译文为Candidate,C表示Can
6、didate中的单个句子,N-gram指包含N个连续单词的短句,N一般取1至4,CoUnt(n-gram)表示C中n-gram的个数,Countciip(N-gram)表示C的某个N-gram在reference中的截断计数,即如果candidatc中有多个相同的N-gram,只计算一次COUntClip(N-gram)。BLEUNECECandidateSn-gramecCOUntCHP(N-gram)(0)cecandidatesn-gram,c,Count(N-gram,)2)编辑距离:定义IeVab(i,j)表示字符串a中前i个字符和字符串b中前j个字符的编辑距离,贝必与b的编辑距离可
7、由如下公式迭代计算得到,其表示字符a最少经过多少次编辑可以转换为b,这里一次编辑指插入一位字符、删除一位字符或是替换一位字符。max(i,j)mineva,b(i T,j) + 1leva,b(i,j - 1) + 1leVa,b(i - IJ - 1) + Iaiwbjotherwise(11)3) mAP:用C表示机器输出的答案集,A表示正确答案集,U表示所有测试用例,k表示每个案例生成 的答案集中的第k个被检索出的答案句子,In表示案例的正确答案的句子数,n表示被检索出的句子数(答 案集的大小),P(k)表示答案句的真实排名/模型给出的排名,rel(k)表示给出的排序k的句子是不是真实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 系统 功能 有效性 评估 指标 计算方法 数据 评价 规范