基于知识图谱的电影知识问答系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:chenshengli406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济的不断发展,人们对精神文化的需求推动了电影行业的快速发展,2019年中国内地电影票房已破600亿,年观影人次达17.3亿人。在过去,人们获取电影信息的途径主要通过电影海报、媒体新闻、搜索引擎等。通过这样的方式,人们得到的电影信息十分有限,无法准确查询搜集到自己感兴趣的电影信息。基于知识图谱的问答系统是把问题答案存储在知识图谱中的问答系统。基于知识图谱的电影知识问答系统,通过建立基于电影领域的知识图谱库,以问答系统的形式,为人们提供更准确、更全面的电影信息,推动电影产业更好的发展。本文研究并开发了基于知识图谱的电影知识问答系统,使用网络爬虫从电影网站获取专业电影数据,利用网页解析工具Xpath和beautifulsoup对下载的原网页进行提取解析,根据爬取的电影数据构建电影节点信息,制定不同节点之间的关系,形成一个较为完整的电影领域的知识图谱。通过查阅知识图谱相关论文、实际体验其他平台的问答系统,从技术可行性、社会可行性和经济可行性的角度出发,确定了该系统的需求,在完成对系统的需求分析之后,对系统进行概要设计,采用层次体系架构的方式,降低了层与层之间的依赖,明确了系统的功能模块。在概要设计的基础上,依照软件工程的开发流程,对功能模块进行了详细的设计编码开发,系统核心功能模块主要包括:数据采集模块、实体数据存储模块、问题预处理模块、问题查询引擎模块和后台管理模块。最后对整个系统进行系统测试,根据测试结果不断对系统进行改进。本文研究的主要内容有:1.利用Scrapy爬虫框架对豆瓣电影网站进行大规模爬取,并对数据进行结构化处理,分析电影知识领域的问答实体属性和实体间关系,构建面向电影领域的知识图谱。2.对问题进行解析,包括分词、词性标注、去掉无效字符等预处理操作,jieba加载已经爬取的电影名和电影演员名,完成电影命名实体识别。按照问题主题对问题类型分类,设计问题主题抽象模板,覆盖更多的电影问题。通过朴素贝叶斯分类算法,完成用户意图识别,查询图形数据库Neo4j,得到问题回答结果。3.基于知识图谱的电影知识问答系统,根据系统不同功能模块的划分,该系统分为服务器端和用户前端。利用Python Tornado框架实现后台服务器的功能模块,前端开发技术采用Vue.js框架,结合Element的UI组件完成前端界面构建。
其他文献
基于完全信息静态博弈模型和完全信息动态博弈模型,分别建立了在政府不参与和参与博弈两种情况下的伴有环境税收的寡头垄断竞争模型,对模型分别求得其纳什均衡和子博弈精炼纳
考虑边坡稳定性受多种随机因素影响,笔者尝试建立一种新的边坡可靠性分析模型,借助人工神经网络收敛快和精度高度的优点,进行边坡最小可靠度指标的求解,并进行临界滑动面的搜
电子皮肤(E-skins)是指通过将各种外部刺激转换为电信号来模仿人类皮肤的柔性和传感性能的电子设备。由于它们在智能服装、生物医学假肢、机器人等方面的潜在应用,它们受到越
分析了Feng等提出的简单自适应全搜索比特面匹配运动估计算法的不足,对其中比特面的计算方法、搜索起点的选择及比特面匹配准则搜索失败后的处理策略等方面作了改进.实验结果
随着新课程改革的推进,部分学校已经实施了语文分层选课走班教学模式。《国务院办公厅关于新时代推进普通高中育人方式改革的指导意见》中明确提出有序推进选课走班制度,以适
探讨了电子商务下分销模式的变化,分析了基于Agent的几种电子商务交易方式,并对网络分销方式的类型进行了研究.在此基础上探索了智能代理技术在网络分销管理中的应用,提出了
历史教材是教师在课堂教学中进行历史教学的依据,同时它也是学生学习知识的重要依据,它还是历史知识的重要载体。随着国家基础课程教材改革的进一步深化,历史教材就是国家基
简要叙述了技术创新、组织创新、市场创新各自的含义与在整体系统中的地位和重要性,分析了三者之间的互动作用模式,提出为了实现企业创新目标,提升企业市场竞争力与生命力,必
医用化学是医学院校专科学生一年级开设的一门重要的医学教育基础课,学习目的是使学生掌握与医学有关的化学基本概念、基本理论及其应用知识.但多数学生认为来到医学院主要是