社区问答服务中的问题分类方法研究

来源 :苏州大学 | 被引量 : 2次 | 上传用户:lhc300266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区问答服务能够为用户提出的自然语言问题提供一个简明、准确的答案。随着网络中用户交互信息的迅猛发展,问答社区越来越受到人们的关注。问题分类是社区问答中的一个基本任务,该任务不仅可以有效地减小答案的候选空间,也会影响答案的抽取策略。例如,根据问题的不同类别,问答系统采用不同的答案选择策略和知识库。问题分类可以看作一种特殊的文本分类任务。然而,问题分类与一般的文本分类任务存在明显的差别。首先,问题文本通常比较短,问题中包含的词汇数目非常有限。仅利用问题文本进行分类,会存在信息量非常缺乏的问题。其次,传统的词袋模型并不能捕捉文本中词的语义关系,因而会丢失大量有用信息;此外,已标注的问题资源比较匮乏,语料标注需要消耗大量的人力和物力。因此,如何加入更多的辅助特征扩充问题信息并充分利用未标注样本信息提升分类性能,是问题分类任务迫切需要解决的重要问题。本文主要针对社区问答服务中的问题分类方法展开深入研究,主要研究内容包括以下三个方面:一、本文提出了一种基于标签传播的半监督问题分类方法。其核心思想是:首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,基于标签传播的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。二、本文提出了一种基于表示学习的半监督问题分类方法。该方法的特色在于,利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案共同学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,基于表示学习的半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。三、本文提出了一种基于双通道LSTM模型的双语问题分类方法。其核心思想是:首先,利用翻译语料分别扩充中文和英文语料,有效地减小单语语料标注的工作量;其次,将两种语言语料中的样本都分别用原始问题文本和其翻译文本表示,丰富训练样本的信息量;最后,提出了基于双通道的长短期记忆网络分类方法,充分利用这两组特征,构建问题分类器。实验结果表明,该方法可以获得较好的问题分类效果,优于其他基准方法。
其他文献
规范主义是法学对社会现象的基本研究方法,国际法学亦复如是。本文以规范主义为基本研究方向,对欧盟民航碳税和美国产品碳关税问题分别在国际公法和WTO框架下展开分析。第一
内网信任机制默认机构内部接触网络的相关人员都是安全可信任的。但是,对于一个机构来说,外来人员到访进行工作上的用户操作确是常态,这是造成内网不安全因素之一。内网用户
本文归纳和总结了国内外对技校学生考试作弊的研究成果,对考试作弊的动因、方法和对策进行了系统的归纳。在总结前人研究经验、访谈多位学校管理者、学生和老师的基础上,向50
随着移动设备的繁荣,位置服务(LBS)在各领域都得到广泛流行。用户在享受LBS服务的同时需要向不可信的LBS服务提供商泄露查询属性(如个人位置,运动轨迹等)。通过对这些查询的
以纳米岛为代表的低维半导体材料由于其独特的性能而受到国内外学者的广泛关注,并在纳米岛发光二极管、纳米岛激光器、纳米岛红外探测器以及纳米岛半导体光放大器等领域取得
在最近几年里云计算技术作为一种新型的互联网技术,其发展迅速,技术手段日益成熟,而高可用的云计算网络离不开其资源的合理管理。云计算环境下资源管理是根据用户需要将资源
微波光子学将强大的光子技术融入微波系统中,利用光纤传输低损耗、重量轻、高带宽、抗电磁干扰等诸多优点,能够实现电域内难以甚至是无法完成的任务。微波光子链路在信号处理
噪声在日常生产生活中作为一个负面因素无时无刻不在困扰着人们。世界卫生组织的一份调查报告表明噪声污染危害程度仅次于空气污染。目前,在传统自适应滤波算法的研究工作中,
随着Internet业务的爆炸式发展,IP数据流量迅速增长,人们对信息业务的需求不断提高,“最后一公里”解决方案成为大家日益关心的焦点,以无源光网络为主的光接入网成为网络应用
随着信息技术的发展,互联网上的图像数据迅速增长。如何从海量的图像数据中快速准确地检索出人们感兴趣的图像已成为一个亟待解决的问题。图像检索技术应运而生,并成为了计算