基于lda的文本情感分析研究信息管理与信息系统专业.docx
《基于lda的文本情感分析研究信息管理与信息系统专业.docx》由会员分享,可在线阅读,更多相关《基于lda的文本情感分析研究信息管理与信息系统专业.docx(38页珍藏版)》请在优知文库上搜索。
1、摘要1前言3第一章雌41.I情感分析概述41.1主要研究内容41.1.2文本情感分析的分类51.1 .3主题模型在情感分析中的应用61.2 国内外研究现状61.3 本文内容安排7第二章数据预处理82. 1概述82.1 分词以及简繁体转换82.2 去除停用词82.3 抽取情感信息924.1情感词典的构建92.4.2抽取情感信息92. 4.3数据92.5本章小结10第三章LDA建模113. 1LDA概念113.1.1概率主题概念的提出113.1.2LDA模型123.2实验133.2.1划分数据集133.2.2数据词典133.2.3向量化143.2.4使用TFrDF作为特征值153. 2.5LDA模
2、型训练163.3本章小结17第四章SVM分类184. 1SVM概念184.1.1 线性分类184.1.2 软间隔最大化204.1.3 1.3非线性支持向量机204.2本文中的SVC224.2.1算法描述224.3实验234.3.1特征选取234.3.2数据转换244.3.3将数据随机分为训练集和测试集244. 3.4SVM训练和预测254.3本章总结25第五章贝叶斯分类265. 1概念265.2贝叶斯定理265.2.1朴素贝叶斯265.2.2伯努利模型275.3本文中的朴素贝叶斯275.3.1算法描述275.3实验285.3.1特征选取285.3.2向量化285.3.3朴素贝叶斯分类训练285
3、. 3.4测试286. 3.5准确率295.4本章总结30第六章总结与展望317. 1本文主要内容总结316.2存在的问题以及未来展望31参考文献33致谢34互联网的快速发展让各类社交媒体与日俱增,人们在网络上发表各种各样的评论、博客等信息。这些信息很大一部分表达了用户的情感倾向,如微博评论可能表达对某个明星的喜爱,虎扑评论可能表达对某个球队的支持和狂热,去哪儿、蚂蚁蜂窝等网站上的酒店评论集表达了客户对该酒店的喜爱程度,也侧面表达出该酒店的好坏层度。评论集这种简练却信息丰富的数据集具有重要的研究价值。情感分析,也称意见抽取、意见挖掘和倾向性分析8。主要是通过对带有情感色彩的主观性文本进行分析、
4、处理、归纳然后进行推理的过程1。本文对酒店评论数据集进行了如下的工作:首先,整合网络上表现较好的情感词典,然后将数据集进行常见的预处理操作,包括去掉停用词等操作,根据情感词典抽取数据集中的极性词。其次,对预处理过后的文本进行LDA建模,其目的是以文档-主题分布取代文档-词矩阵,从而实现降维的效果。最后分别使用SVM和贝叶斯分类器,以LDA中得到的文档主题分布作为特征向量,来对文本进行分类。这些情感信息具有宝贵的作用,当评论非常多时,我们不可能人工地去观察每一条评论。通过情感分析,我们可以了解客户的心情,对某件事情或者物品的看法,从而挖掘其中潜在的商业价值。关键词:情感分析文本分类支持向量机数据
5、挖掘主题模型LDA朴素贝叶斯AbstractWiththerapiddevelopmentoftheInternet,variouskindsofsocialmediaareincreasingdaybyday,andpeoplepublishvariouskindsofcomments,blogsandotherinformationontheInternet.Alargepartofthisinformationexpressesausersemotionaltendencies,suchasamicro-blogcommentthatmayexpressaloveforastar,the
6、tigerreviewmayexpressthesupportfanaticismofateam,wherethehotelreviewsonsitessuchastheanthoneycombexpressthedegreeofcustomerloveforthehotel.Commentingonthisconcisebutinformativedatasethasimportantresearchvalue.Affectiveanalysis,alsocalledopinionextraction,opinionminingandtendentiousnessanalysis.Itism
7、ainlythroughtheanalysis,processing,inductionandreasoningprocessofsubjectivetextwithemotionalcolor.Thispaperhasdonethefollowingworkforhotelreviewsdataset:First,agoodemotionaldictionaryonthenetworkisintegrated,andthenthedatasetisusedforcommonpreprocessingoperations,includingtheremovalofthedisusewordsa
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 lda 文本 情感 分析研究 信息管理 信息系统 专业