论文部分内容阅读
随着信息数据呈现几何级数膨胀,从大数据中获取有价值的知识日益成为数据挖掘领域热门的研究方向。目前国内外已经大量展开知识抽取以及分析方面的研究,同时基于中文数据的知识获取研究也得到快速发展。本文将通过分析影视作品评论数据,研究一种基于影评文法与影评知识本体的知识获取方法,该方法是一种面向非结构化中文数据的知识获取方法,旨在从大量以非结构化形式存在的影视领域重要知识中,获取到有价值、具有代表性的影视领域知识。该方法也称基于EKEL(Executable Knowledge Extraction Language)的影评挖掘分析方法,是针对影评文本进行自动获取有用的电影基本信息和电影评价信息。基于EKEL的影评挖掘分析方法是一种结合影评文法的文本处理方法,运用设计好的影评文法结合EKEL形成一个文本知识挖掘系统,可以有效且准确地对影视领域中的评论信息和知识进行获取。对获取出来的影视领域知识作进一步分析,获取影视领域中更具代表性的知识,然后将这些影视领域知识加以处理,通过转化为RDF(Reflective Display Film)或者owl(Web Ontology Language)形式,以便可以运用于某些特定领域,比如电影推荐系统中,问答系统。本文首先介绍了影评初始本体的定义方法,以及其在影视作品标签抽取中的作用。然后详细说明了影评文法体系的四个组成部分,分别为载入影评初始本体文件,影视作品常量,影评文法模式,影评知识处理主体。详细说明了各部分的定义方法以及其在影评文法体系中的作用。之后介绍了EKEL系统的运行机制及功能,并说明了如何利用影评文法体系,结合EKEL系统对影视作品中标签进行抽取。然后研究了如何完整系统的设计影评文法体系,并详细说明了影评文法体系设计技术路线。通过对具体影评文法的设计,总结了影评文法体系中各部分的设计方法和应遵循的规范。之后利用设计好的影评文法体系,同时结合EKEL系统,利用事先获取的影视作品文本语料进行影视作品标签抽取,产生EKEL分析树,然后是对EKEL分析树的深入分析及后处理,对获取到的影视作品标签进行精细化处理,逐步扩充完善影评文法体系,优化后的影评文法体系具有结构清晰,描述合理完善,较强的泛化能力与抽取标签能力。为了验证利用本文研究的知识抽取方法的有效性,设计影视作品标签抽取实验。在抽取实验过程中,研究了一种针对影视作品标签抽取效果的分析方法,本文通过计算对影视作品中一类标签集抽取的精确率和召回率,分析实验结果并总结利用本文所研究的知识抽取方法具有的优点及需要改进的地方。最后总结了基于影评文法与影评领域知识本体的知识获取方法意义,且对该知识获取方法的下一部研究作了展望。