社区问答系统中答案排序和问题检索算法研究与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lizhicong521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区问答(Community Question Answering,CQA)系统是一种较高级别的信息检索系统。与搜索引擎不同,CQA系统中存在大量由社区成员长期维护的问题和答案,信息质量较高;CQA系统返回的信息通常更符合用户的真实需求,而搜引擎通常返回若干相关网页。目前,利用CQA系统知识获取已经成为一个研究热点,但如何高效的从CQA系统中检索信息仍是一个研究难点。本文的研究内容主要围绕CQA系统的答案排序和问题检索任务,工作分为以下三个方面:  1)提出了改进主题模型。传统的LDA主题模型未考虑到垃圾主题和相似主题的存在,影响主题相似度计算的准确率,第三章提出了垃圾主题过滤算法和主题相似度检测算法用于移除垃圾主题和检测相似主题,以构造语义关系更强的主题向量。在中文语料库上的实验结果验证了改进主题模型能够提升文本分类的准确率,第三章还将改进主题模型应用到CQA系统中,在SemEval问答数据集上的实验结果一方面确定了答案排序和问题检索任务的最优特征组合,另一方面验证了改进主题模型同样能够提升答案分类的准确率。  2)提出了一种针对CQA系统的信息增强方法。第四章利用原始问题、相似问题和答案三者的关系,构造答案与原始问题的标注数据集,作为额外的训练集融入到原始数据集中,额外数据集是对原始数据集的信息增强,在CQA系统两个子任务上的实验结果验证了信息增强方法的高效性。第四章还探索了五种神经网络对答案排序和问题检索任务的建模方法和应用效果,发现BiLSTM网络和Attention网络整体上具有较高的答案分类准确率和MRR值,实验发现数据清洗对神经网络影响较大,在大多数场景中数据清洗都是必要的,但对某些场景(如小规模数据集,BiLSTM网络等)数据清洗会降低网络的性能。  3)设计了CQA系统的实现流程图。首先分析了系统存在的问题,然后介绍了设计中涉及的关键技术,最后分模块阐述CQA系统中各个问题的解决方案。各问题与解决方案可以概括为:针对海量知识库的信息抽取计算复杂度较高的问题,提出了一种两阶段文本排序方法;针对内容实时更新和外部请求重合度较高的问题,使用Spark流式计算引擎进行实时内部答案排序和信息更新,并将预先计算的部分文本特征和热门问题缓存,使用LRU算法发现、更新热门问题。该流程设计的目的是将提出的上述方法应用到实际场景中,通过将其与大数据组件结合,综合提高问题和答案分类的准确率,缩短系统响应时间。
其他文献
随着近年来半导体技术的快速发展,图形处理器计算速度和功能得到了极大的增强。由于通用GPU计算具有高度并行的特点,在处理矢量数据时拥有普通CPU串行计算所不具有的优势,因
研究面向应用的果实采摘机器人是实现果实收获作业机械化、自动化,保证果实的实时采收、降低收获作业费用,促进果实种植生产增效的重要途径;同时对于解决当前国家正面临的劳动
由于现代工业过程的复杂化、大型化、自动化,使得各个环节的可靠性要求更高,若一个环节出现问题,那么整个系统就可能出现崩溃,为此,对工业过程进行故障诊断变得越来越重要。而基于
广播发射机一般都设置在高山或偏远地区,为及时了解发射机的工作状态,降低工作人员的工作强度,加强对各个发射机的管理与控制,有必要研制工作可靠的发射机远程监控系统。本文针对
喷涂机器人在工业生产中具有广泛的应用,在出现了静电喷涂技术后,涂料转移率更是得到了飞跃性的改善。当前,喷涂机器人对汽车工业的飞速发展起到了不可忽视的作用。其中喷涂机器
为监控猪的行为,本文分析了视频帧图像中目标猪与周围背景特征的差异,从中提取出猪的二值轮廓图。对猪的正常行走、低头行走、抬头行走、躺卧这四种姿态提取Zernike矩特征,采用
近年来,电力电子器件的跟新换代,推动了多电平逆变器的飞速发展,这也使得人们在电能质量方面有了更高的要求。如何更好的改善电能利用率,提高电能质量,减少电路中的无功功率,是当下研究的一个热门课题。无功对供电网络的危害是有目共睹的,它不仅破坏电力系统的稳定性,使得系统安全运行系数变低,更会造成工业用电中功率因数的降低,增加用电成本,怎么对电网中的无功功率进行动态检测,并给予实时补偿是一个需要解决的问题。
随着城市车辆增多、驾驶员驾驶行为不规范,城市交通事故频发,造成巨大的人员伤亡及经济损失。统计结果表明,车辆驾驶员驾驶未能及时全面察觉所处环境的危险因素是各类交通事故的
煤矿环境复杂多变,造成了煤矿开采过程中的不安全性,经常导致恶性事故的发生。目前,我国的煤矿安全生产形势十分严峻,特别是近年来重大矿难时有发生,造成了巨大的生命和财产
本文针对机器学习中的数据不平衡问题进行研究,提出了一种均衡采样的方法。该方法采取过采样和欠采样相结合的策略,使少数类数据增加的同时,多数类数据集相应地减少,当数据集