论文部分内容阅读
近年来,随着Web2.0的发展,用户不仅是网页内容的浏览者,同时也是网页内容的编辑者,随之产生了大量的用户产生内容型(User Generated Content)的网络应用,互动问答社区(Question Answering Community)就是在此背景下产生的网络应用。互动问答社区的基本模式是用户根据自身的需求提出问题,由其他用户给出回答。在互动问答社区中,由于给出答案的用户具有多样性的特征,所以不同用户给出的回答可信性也高低不一,不同可信性的回答会对问题提问者和问题的浏览者产生重要的影响。因此,互动问答社区中问题回答的可信性判别成了问答社区主要的问题。基于此,本文主要针对互动问答社区中回答可信性分析进行研究,将课题研究分为三部分:互动问答社区问句中多字词表达抽取、互动问答社区中回答可信性分类、互动问答社区中最可信回答辨析。第一,互动问答社区中多字词表达抽取研究。对互动问答社区问句中多字词表达进行抽取主要应用于问句理解和构建可信信息库。基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法。该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串四类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计了候选多字词表达校正方法,实现对多字词表达的提取。以新浪爱问知识人问题库里的问句进行实验,结果表明多字词表达抽取的准确率、召回率、F值分别达到了84%、52%、0.64,具有较好的实验效果。第二,互动问答社区中回答可信性分类研究。针对互动问答社区中的特点,提出回答文本规范性特征和不确定性语气特征,从更多的角度对回答可信性进行分类。利用Logistic Regression模型,结合经典的文本特征、统计特征和用户特征,对回答可信性进行分析。以新浪爱问知识人中医疗与健康领域的问答对进行实验表明,在经典特征的基础之上,所提的回答文本规范性特征和不确定性语气特征能够较好提高回答可信性分类的准确率,验证了所提特征的有效性。第三,最可信回答辨析研究。提出了构建可信信息库的方法,并提出应用可信信息库与传统的问答对基本特征进行结合的最可信回答辨析思路,使得辨析结果得到了较大提高。选取可信问答对和与问题相关的可信资料作为可信信息库的主要内容,并设计了恰当的组织结构将这两部分联系起来,为可信信息库的使用提供了便利。提出了一种使用可信信息库的方法,并以实验验证了构建可信信息库对最可信回答辨析的有效性。应用本文提出的最可信回答辨析方法,使得最可信回答辨析达到了较好的实验效果。