论文部分内容阅读
产品评论是对商品的生产和销售都具有重要价值的一类信息。产品生产者可利用产品评论来改进功能或提高质量,消费者可利用产品评论来为购买决策提供参考。然而,由于当前的搜索引擎在检索粒度、评论识别以及极性分类等方面功能上的限制,很多评论信息不能由商业搜索引擎直接得到,用户需要在返回的结果文档集中做大量的筛选和分类工作。另一方面,当前的产品评论检索研究在应用上采取了借助通用搜索引擎的方式,对完整的评论检索系统应该涉及到的评论内容的特征化、检索粒度的选择、评论与关键词的相关性计算、评价单元分析等方面的难点问题,目前尚未得到系统化的解决。在上述背景下,本文开展了对产品评论检索技术的研究,采取偏重语言理论应用的技术路线,从产品评论检索模型、句法分析技术、产品属性获取方法、评价单元分析方法以及评价词获取方法等方面着手,目标是通过对web文档的收集、整理和保存后,通过专门系统为用户提供产品评论检索服务,取得了如下创新性研究成果:第一、提出了一种产品评论检索模型。通过综合考虑产品相关性、评论的主观特性以及极性分析等评论检索中的关键要素,提出了一种专门用于产品评论检索的模型,避免了传统主观内容检索技术中所采用的二阶段方法,为系统化地提高评论检索性能打下了理论基础。该模型按照语言学中对句群的定义,使用动态规划方法对文档按句群进行划分,并以句群作为检索单位,检索粒度更为合理,可更好地对评论内容进行特征化。第二、提出了一种基于结合关系的句法分析方法。研究利用自然语言语法的依存公理和结合关系的方向性,将句法分析过程转换为对句子中词语之间结合关系的分析,并利用词语之间结合关系所表现出来概念层次上的本质结合特性,通过建立结合关系知识库,利用词语之间的结合关系的类比,对语句中词语之间的关系进行判断,从而达到句法分析的目的。该方法将词语、句法和语义分析有机地统一起来,具有很强的实用性,在评价单元的分析以及评价词的获取研究中得到应用,并可用于其他文本信息处理领域。第三、提出了一种基于结合关系知识库的评价单元的分析方法。将评价单元的分析看成序列标注问题,并使用最大熵模型按照结合关系句法进行标注。训练所需的概率在结合关系知识库中计算得到,训练效率得到了很大提高,并取得了较高的标注准确率。第四、提出了一种产品属性集的获取方法。通过对网络文本中产品属性和特征的分析,将含有产品属性的页面分为综述型、汇总型和表格型等三种类型,使用有指导学习的网页分类器对页面数据进行分类,然后分别定义模板抽取其中的所属关系,最后将不同的来源的属性数据合并汇总得到产品的属性集。第五、提出了一种自举的评价词获取方法。通过种子词和抽取模板的迭代学习,进行自举扩充词集,对候选词或候选模板打分时,除了考虑候选评价词的在种子词集中的比例外,还考虑了候选词与种子词之间在结合关系知识库中的相似度,提高了方法的准确率和稳定性。最后,在对所涉及的关键技术进行研究的基础上,构建一个产品评论检索系统,检索给定产品名称或型号的评论,并按评论对象和极性分类汇总后返回给用户。