基于知识图谱的热点文章发现算法研究分析计算机科学与技术专业.docx
《基于知识图谱的热点文章发现算法研究分析计算机科学与技术专业.docx》由会员分享,可在线阅读,更多相关《基于知识图谱的热点文章发现算法研究分析计算机科学与技术专业.docx(36页珍藏版)》请在优知文库上搜索。
1、摘要1Abstract2前言3第一章绪论41.1 研究背景及意义41.2 论文主要工作51.3 本文组织结构5第二章相关知识及技术简介72.1 知识图谱简介72.2 Neo4j图形数据库与CyPher简介72.3 网络爬虫介绍82.4 PageRank算法简介92.5 Sigmoid函数简介102.6 本章小结11第三章问题描述与算法设计123.1 问题描述与基本思路123.2 具体算法设计143.2.1 知识图谱构建15322期刊排名爬取16323论文引用网络权重模型的设计163.2.4 作者合作网络权重模型的设计173.2.5 系统运行流程183.3 本章小结19第四章算法实现与结果分析2
2、04.1 算法实现204.2 结果分析244.2.1 系统运行时间分析244.2.2 平均引用次数分析254.2.3 期刊均分分析294.2.4 结果分析总述33第五章总结与展望345.1 本文总结345.2 未来展望34参考文献35错误!未定义书签。摘要论文推荐是一个有趣并且有挑战的研究工作,其目标在于根据用户的需求向用户推荐相关论文。论文推荐研究已经进行了数十年,GoogleScholar等学术搜索引擎可以有效地帮助用户根据输入关键字和约束条件来查找论文,但由于理解用户需求的困难以及发布的快速增长,返回的结果并不总能满足用户的要求。近年来,在论文推荐方面的研究已经很多了。主流方法是根据内容
3、的相关性(包括标题,关键词,摘要或全文)找到与输入关键词最相关的论文。然而,由于总是有大量的论文共享相同的关键词,就使得推荐结果不具有高精度。因此,作为补充,往往可以研究论文之间的引用关系,以期达到提高推荐精度的目的。本文就着眼于研究论文之间的引用关系,以达到推荐出当前的热点文章的目的。所谓热点文章,指的是综合得分较高,具有典型代表性的文章。这个综合得分不仅取决于当年某篇论文被引用的次数以及它引用的论文的得分,还取决于该篇论文所发表的期刊、会议的排名以及写作该篇文章的作者们的影响力。基于以上想法,我使用DBLP中的DBLP-citation-network-Oct-19文件中所提供的数据构建了
4、一个知识图谱,记录了每篇论文的相关信息(作者、主题、关键词、发表的期刊和发表的年份等),各论文之间的引用关系。基于这个知识图谱,设计了一个基于PageRank的算法来计算各篇论文的综合得分,通过这个综合得分来达到发现热点文章的目的。所推荐出来的热点文章应当在期刊排名、被引用次数、引用论文的得分和作者影响力这几个或者某几个方面具有较好的排名。因此,对于推荐出来的热点文章我在以上几个方面进行验证,并调整算法参数以期整个系统能更加合理。关键词:引文网络;知识图谱;论文推荐;PageRank;热点发现AbstractPaperrecommendationisaninterestingandchalle
5、ngingresearchtask.Itsgoalistorecommendrelevantpaperstousersbasedontheirneeds.Thepaperrecommendationresearchhasbeenconductedfordecades.AcademicsearchenginessuchasGoogleScholarcaneffectivelyhelpusersfindarticlesbasedoninputkeywordsandconstraints.However,duetothedifficultyinunderstandinguserneedsandthe
6、rapidgrowthofpublications,thereturnedresultsarenotalwaysmeettheusersrequirements.Inrecentyears,therearemanystudiesonpaperrecommendation.Themainstreammethodistofindthepaperthatismostrelevanttotheinputkeywordsbasedontherelevanceofthecontent(includingtitle,keywords,abstractorfulltext).However,sincether
7、earealwaysalargenumberofpaperssharingthesamekeywords,therecommendationresultsdonothavehighaccuracy.Therefore,asasupplement,citationsbetweenpapersareoftenstudiedinordertoachievethepurposeofimprovingtheaccuracyofrecommendationresults.Myarticlefocusesonthestudyofcitationsbetweenpapersandthentoachieveth
8、epurposeofrecommendingcurrenthotpapers.Theso-calledhotpapersrefertopaperswithhighcompositescoreandtypicalrepresentativeness.Thiscompositescoreofapaperdependsnotonlyonthenumberofpapersthatciteditintheyearandthescoreofthepapersitcited,butalsoonthepublicationofthepaper,therankingoftheconference,andthei
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 图谱 热点 文章 发现 算法 研究 分析 计算机科学 技术 专业