论文部分内容阅读
社区问答系统已成为互联网上信息获取和知识分享的重要媒介。例如Yahoo!Answers、百度知道等社区问答网站每天发布有数以万计的问题。与此同时,社区问答系统也积累了数以亿计的已有问题和答案对。社区问答系统中的问题代表用户需求,如何利用这些问题(当前的、已有的),对更好地满足用户的信息需求,提高用户体验,具有重要研究价值。
本文就社区问答系统中问题分析关键技术进行了系统的研究,涉及了以下几个方面:包括问题分类、相似问题检索、问题新类别标签生成以及问题推送。
本文的主要贡献如下:
·提出了基于语义知识扩展的大类别问题分类的方法
社区问答系统中问题分类通常是难度较大的工作。相对于传统文本分类任务主要有两个难点:目标类别数目庞大和分类特征稀疏。本文针对这个问题,提出了一个两段式解决方法。在第一阶段中,首先通过检索手段挖掘已有问题集中语义相似问题的类别信息,把大类别分类问题转化为常规分类问题。在第二阶段中,利用维基百科的结构化语义知识扩展问题分类的特征,降低了分类特征稀疏对分类结果的负面影响,有效提高了分类准确率。实验结果显示,相比于传统的基于词袋子模型的分类方法,基于语义知识扩展的大类别问题分类的方法提升了10%-15%的分类性能。
·提出了融合类别信息和隐含主题的相似问题检索模型
社区问答系统经过几年的发展,已经积累了数以亿计的已有问题和答案。从大量已回答的已有问题中,找到与查询问题语义相似的已有问题,既可以立刻满足用户的信息需求,又可以避免重复提问,提高己有资源使用效率。相对传统文本或网页,问题包含的文本长度短很多。信息检索中的难题-“词汇鸿沟”问题,在相似问题检索中更加突出。相对于完全非结构化的文档或网页,本文提出将已有问题的类别信息融入到隐含主题模型;然后,将融合类别信息和隐含主题的相似问题检索模型和基于翻译的语言模型融合成一个新的相似问题检索模型。本文在Yahoo! Answers实验数据集上进行了实验。实验结果表明,与几种基本检索方法相比较,本文提出的问题检索方法提升了10%-20%的检索性能。
·提出了融入已有类别体系信息的问题的新类别标签生成方法
社区问答系统对提问用户输入的查询问题通常用一个类别体系进行组织和管理。由编辑来维护这个类别体系存在准确性和实时性两个问题。前人的工作没有考虑生成类别标签与已有的类别体系一致性。本文的主要动机就是将已有的类别体系信息融入到类别标签生成过程中。本文提出了融入已有类别体系信息的问题的新类别标签生成方法,首先将问题映射到维基百科的概念上,利用概念在不同领域和类别上的分布信息,计算概念权重,抽取出权重高的概念然后利用维基百科提供的分类图,挖掘权重高的概念和分类图的信息,生成候选标签。最后对候选标签进行过滤和重排,使候选标签与已有的类别体系更加一致。本文在实验中设计了一个评价手段,利用现有的类别体系验证了本文提出的方法,实验结果表明,相比于最好的基准系统,本文提出的方法也能取得约10%的性能提升。
·提出了融入答案质量的问题推送的方法
随着社区问答系统,参与的用户人数越来越多,为查询问题推荐合适的回答用户,对提高用户体验意义重大。问题推送中最重要的是对用户兴趣建模。传统方法对用户兴趣建模存在的数据稀疏问题和回答质量不可信两个问题。本文提出基于单语翻译模型并融入答案质量的用户兴趣建模方法,首先利用单语翻译模型一定程度上解决用户兴趣建模中存在的数据稀疏问题;然后将用户答案质量融入到基于单语翻译模型的用户兴趣建模方法中,一定程度上解决用户回答质量不可信的问题。实验结果表明,融入答案质量的问题推送的方法能够取得良好的性能:相比于几个基准方法,该方法能够取得10%-15%的性能提升。