面向社区问答的问题分析与处理关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:oishiocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区问答系统已成为互联网上信息获取和知识分享的重要媒介。例如Yahoo!Answers、百度知道等社区问答网站每天发布有数以万计的问题。与此同时,社区问答系统也积累了数以亿计的已有问题和答案对。社区问答系统中的问题代表用户需求,如何利用这些问题(当前的、已有的),对更好地满足用户的信息需求,提高用户体验,具有重要研究价值。   本文就社区问答系统中问题分析关键技术进行了系统的研究,涉及了以下几个方面:包括问题分类、相似问题检索、问题新类别标签生成以及问题推送。   本文的主要贡献如下:   ·提出了基于语义知识扩展的大类别问题分类的方法   社区问答系统中问题分类通常是难度较大的工作。相对于传统文本分类任务主要有两个难点:目标类别数目庞大和分类特征稀疏。本文针对这个问题,提出了一个两段式解决方法。在第一阶段中,首先通过检索手段挖掘已有问题集中语义相似问题的类别信息,把大类别分类问题转化为常规分类问题。在第二阶段中,利用维基百科的结构化语义知识扩展问题分类的特征,降低了分类特征稀疏对分类结果的负面影响,有效提高了分类准确率。实验结果显示,相比于传统的基于词袋子模型的分类方法,基于语义知识扩展的大类别问题分类的方法提升了10%-15%的分类性能。   ·提出了融合类别信息和隐含主题的相似问题检索模型   社区问答系统经过几年的发展,已经积累了数以亿计的已有问题和答案。从大量已回答的已有问题中,找到与查询问题语义相似的已有问题,既可以立刻满足用户的信息需求,又可以避免重复提问,提高己有资源使用效率。相对传统文本或网页,问题包含的文本长度短很多。信息检索中的难题-“词汇鸿沟”问题,在相似问题检索中更加突出。相对于完全非结构化的文档或网页,本文提出将已有问题的类别信息融入到隐含主题模型;然后,将融合类别信息和隐含主题的相似问题检索模型和基于翻译的语言模型融合成一个新的相似问题检索模型。本文在Yahoo! Answers实验数据集上进行了实验。实验结果表明,与几种基本检索方法相比较,本文提出的问题检索方法提升了10%-20%的检索性能。   ·提出了融入已有类别体系信息的问题的新类别标签生成方法   社区问答系统对提问用户输入的查询问题通常用一个类别体系进行组织和管理。由编辑来维护这个类别体系存在准确性和实时性两个问题。前人的工作没有考虑生成类别标签与已有的类别体系一致性。本文的主要动机就是将已有的类别体系信息融入到类别标签生成过程中。本文提出了融入已有类别体系信息的问题的新类别标签生成方法,首先将问题映射到维基百科的概念上,利用概念在不同领域和类别上的分布信息,计算概念权重,抽取出权重高的概念然后利用维基百科提供的分类图,挖掘权重高的概念和分类图的信息,生成候选标签。最后对候选标签进行过滤和重排,使候选标签与已有的类别体系更加一致。本文在实验中设计了一个评价手段,利用现有的类别体系验证了本文提出的方法,实验结果表明,相比于最好的基准系统,本文提出的方法也能取得约10%的性能提升。   ·提出了融入答案质量的问题推送的方法   随着社区问答系统,参与的用户人数越来越多,为查询问题推荐合适的回答用户,对提高用户体验意义重大。问题推送中最重要的是对用户兴趣建模。传统方法对用户兴趣建模存在的数据稀疏问题和回答质量不可信两个问题。本文提出基于单语翻译模型并融入答案质量的用户兴趣建模方法,首先利用单语翻译模型一定程度上解决用户兴趣建模中存在的数据稀疏问题;然后将用户答案质量融入到基于单语翻译模型的用户兴趣建模方法中,一定程度上解决用户回答质量不可信的问题。实验结果表明,融入答案质量的问题推送的方法能够取得良好的性能:相比于几个基准方法,该方法能够取得10%-15%的性能提升。
其他文献
随着信息技术的飞速发展,IT行业对信息安全的需求与日俱增。虽然安全研究人员从信息系统机密性和完整性的角度提出多种安全策略以实现高强度的访问控制,却仍然无法阻止基于隐蔽
软件演化是软件生命周期中的一个重要活动。软件演化的目的是为了满足用户不断提出的新需求或修改软件现有缺陷。在软件演化过程中,新需求是导致软件系统不断演化的根本动力之
信息科技的发展正在改变着世界,数据库也从最简单的存储数据的表格发展到海量数据存储的大型数据库系统,并在互联网、金融、医疗、电力、电子商务等领域等到了广泛应用。数据库
入侵检测是一种用于检测计算机网络系统中入侵行为的网络信息安全技术。在计算机安全中,伪装者试图扮演合法用户的角色进入系统,是一种入侵活动。及早有效地发现入侵是保障计算
如今环境污染越来越严重,水资源紧缺问题愈益突出,如何才能有效地保护水资源已提上了人们的议程。森林作为陆地生态系统的主体,在水源涵养方面发挥着巨大的作用。在水资源短缺的
作为云计算和新兴Web2.0互联网应用的核心技术之一,分布式文件系统是当前存储系统技术领域的研究热点。分布式文件系统的资源共享、对存储平台的抽象性和隔离性、大规模扩展
高性能计算是科技创新的重要手段,随着国民经济的迅速发展,提供高效快捷的应用服务成为高性能计算应用领域研究的热点。本文从高性能应用的需求出发,分析了当前高性能应用的不足
随着多媒体技术、互联网技术、移动通信技术和VLSI技术的飞速发展,数字视频在人们日常生活中扮演着越来越重要的角色。数字视频资源的爆炸式增长和新应用需求的不断涌现,向视频
近年来,大部分高校,企业或者政府的业务基本都是通过MIS系统来实现,MIS系统涉及的领域越来越广。MIS(管理信息系统,Management InformationSystem)系统,主要指的是进行日常事
心率变异性(Heart rate variability,HRV)是指心率节奏快慢随时间所发生的变化。HRV的研究目的是分析逐个心动周期的细微的时间变化及其规律。这种变化在体表记录的常规心电