基于论坛数据的问答挖掘

来源 :天津大学 | 被引量 : 0次 | 上传用户:sirius1394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的MRR、MAP等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。
其他文献
高斯混合模型能够用参数化的方法描述样本空间中的数据分布,将高斯混合模型的参数作为图像的特征具有简洁高效的优点。层次性图像检索在图片高斯混合特征的基础上通过聚类得
为了解决计算能力有限的对象(用户)所面临的大维数方阵的高次幂计算问题,作者利用云计算平台(云服务端),提出了一个方阵幂可验证安全云计算外包方案。该方案中包含两个不同的
蒙特卡罗马可夫链(MCMC)算法是概率推理中的重要方法,在统计学、人工智能、图形学、统计物理等有重要应用。MCMC算法对机器的计算速度和存储空间有很高的要求。并行计算机能
在现代社会中,随着科技与经济的飞速发展,人们对身份识别技术的重视程度也进一步提高。但是,传统的身份识别技术由于其自身固有的缺点已经不能满足社会发展的要求,生物特征识
随着网络信息技术、移动通信技术以及移动数字终端技术的快速发展,移动商务应用越来越广泛,尤其在企业级的应用更是前景无限。OLAP(Online Analyical Processing,联机分析处
随着互联网的出现和普及,在互联网上传播的资讯浩如烟海。面对海量的互联网媒体资讯,人们需要一种手段能够快速、准确地获取自己感兴趣的有关某一话题的相关信息。话题检测与追
随着实时系统在各个领域的广泛应用,新的实时通信问题、异构问题便逐渐显现出来。新一代动态实时系统日趋大型化、复杂化,并且要求更高的灵活性、自治性、可靠性和适应性,这
随着Internet的发展,各种信息飞速增长,人们对信息的反应速度远远低于信息的传播速度,大量无关的冗余的信息严重干扰了受众对相关有用信息的准确分析和正确选择,搜索引擎在一
物联网是科技和生活的结晶。在物联网生活中,各种智能设备已经成为了应用的主角,其中之一便有无线传感器网络,它受到的关注度越来越高,被广泛使用在生活、环保、军事等活动中
当前信息化技术的高速发展给人们的日常生活带来极大的便捷。一方面互联互通的互联网所具备的开放特性在很大程度上方便了各种信息资源的共享,开创并且拓宽了共享资源的途径;