影评文法设计与影视作品标签抽取研究

被引量 : 0次 | 上传用户:jianfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息数据呈现几何级数膨胀,从大数据中获取有价值的知识日益成为数据挖掘领域热门的研究方向。目前国内外已经大量展开知识抽取以及分析方面的研究,同时基于中文数据的知识获取研究也得到快速发展。本文将通过分析影视作品评论数据,研究一种基于影评文法与影评知识本体的知识获取方法,该方法是一种面向非结构化中文数据的知识获取方法,旨在从大量以非结构化形式存在的影视领域重要知识中,获取到有价值、具有代表性的影视领域知识。该方法也称基于EKEL(Executable Knowledge Extraction Language)的影评挖掘分析方法,是针对影评文本进行自动获取有用的电影基本信息和电影评价信息。基于EKEL的影评挖掘分析方法是一种结合影评文法的文本处理方法,运用设计好的影评文法结合EKEL形成一个文本知识挖掘系统,可以有效且准确地对影视领域中的评论信息和知识进行获取。对获取出来的影视领域知识作进一步分析,获取影视领域中更具代表性的知识,然后将这些影视领域知识加以处理,通过转化为RDF(Reflective Display Film)或者owl(Web Ontology Language)形式,以便可以运用于某些特定领域,比如电影推荐系统中,问答系统。本文首先介绍了影评初始本体的定义方法,以及其在影视作品标签抽取中的作用。然后详细说明了影评文法体系的四个组成部分,分别为载入影评初始本体文件,影视作品常量,影评文法模式,影评知识处理主体。详细说明了各部分的定义方法以及其在影评文法体系中的作用。之后介绍了EKEL系统的运行机制及功能,并说明了如何利用影评文法体系,结合EKEL系统对影视作品中标签进行抽取。然后研究了如何完整系统的设计影评文法体系,并详细说明了影评文法体系设计技术路线。通过对具体影评文法的设计,总结了影评文法体系中各部分的设计方法和应遵循的规范。之后利用设计好的影评文法体系,同时结合EKEL系统,利用事先获取的影视作品文本语料进行影视作品标签抽取,产生EKEL分析树,然后是对EKEL分析树的深入分析及后处理,对获取到的影视作品标签进行精细化处理,逐步扩充完善影评文法体系,优化后的影评文法体系具有结构清晰,描述合理完善,较强的泛化能力与抽取标签能力。为了验证利用本文研究的知识抽取方法的有效性,设计影视作品标签抽取实验。在抽取实验过程中,研究了一种针对影视作品标签抽取效果的分析方法,本文通过计算对影视作品中一类标签集抽取的精确率和召回率,分析实验结果并总结利用本文所研究的知识抽取方法具有的优点及需要改进的地方。最后总结了基于影评文法与影评领域知识本体的知识获取方法意义,且对该知识获取方法的下一部研究作了展望。
其他文献
我国教育部发布的《教育部关于深化基础教育课程改革进一步推进素质教育的意见》“要求全面贯彻党的教育方针,实施素质教育,更新教育观念,深化教学内容方式改革”,而《普通高
研究目的:辨明农村土地承包经营权可抵押的约束条件,为农地抵押试点提供可靠的理论依据和可行的政策建议。研究方法:基于湖北天门和江苏新沂的典型案例,从经济条件、职能分工
邓小平关于爱国主义教育的思想可归纳为:要教育人民勿忘国耻,振兴中华;走社会主义道路,反对资产阶级自由化;发扬爱国主义精神,增强民族自尊心、自信心和自豪感;热爱共产党领
<正> 中子嬗变掺杂(NTD)硅单晶具有轴向和径向电阻率均匀等重要特点,用这种材料制得的高压整流元件具有雪崩特性好、电压分散小、等级合格率高和过载能力强等电学特性。本文
会议
本文从发射机输出功率到馈线、天线,阐述了地网对空间传播的影响,地面发射波与发射塔电磁波的场强叠加原理,及如何实现增强发射传输效率。正确认识中波天线地网在发送传播技
体育舞蹈作为新兴综合性体育项目,从1960年国际体育舞蹈中的拉丁舞正式成为世界公认的比赛项目发展至今,拉丁舞经历了几十年的发展演变,转变为现今舞步复杂多变、风格迥异、引人
健身气功是以自身形体活动、呼吸吐纳、心理调节相结合为主要运动形式的民族传统体育项目。它以独特的运动方式,柔和缓慢的运动风格,调身、调息、调心,三调合一的健身理念,以其简
影像是当代艺术表达和日常生活中应用广泛的传播符号。它特殊的符号性和传达不同意义的无限可能性在大众传播中创造出一个又一个视觉神奇,显示出越来越明显的独立性。过多的
针对Web对象激增导致网站层次结构复杂难辨的问题,提出一种基于页面聚类的Web概念化建模方法。首先基于用户访问路径建立Web层次结构模型(WHM),然后依据页面相似度对位于同一