论文部分内容阅读
随着互联网技术的日益发展,在线问答社区正逐渐成为一种广受用户喜爱的信息分享与获取平台。用户可以在其中以提问或者是查询相似问题的形式从其他用户的答案中获取满足自己需求的信息。然而,用户提供的答案的质量良莠不齐,要从众多答案中抽取质量高、过滤语义重复、生成语序正确的答案子句已成为问答社区研究中一个极具挑战性的难题。结合某安全工程研究院搭建智能问答系统中,亟需自动构建化工领域问答对的研究需求,本文以化工领域规模最大、最具权威性的海川化工论坛数据为研究对象,主要从以下三方面开展智能问答系统中答案抽取技术的研究:(1)参与社区问答的用户特征可在答案质量预测中表征丰富的辅助数据,本文构建了海川化工论坛用户问答异质信息网络,设计了两种元路径,利用Node2vec算法提取社区用户向量表示。消融实验证明,本文构建的社区论坛异质信息网络对于海川化工社区划分的有效性。(2)从论坛问题的众多回答中筛选出少量高质量答案,作为答案抽取的数据集,可提升答案抽取算法的准确性。但是海川化工论坛中存在大量没有积分评价的答案,无法直接根据积分判断答案质量,因此本文构建了一种针对化工领域的论坛答案质量预测算法。首先结合化工领域词库进行问答对分词,利用基于TF-IDF的加权词向量生成问题和答案的文本向量。然后融合问答对文本向量表示、文本静态特征、用户向量表示、用户静态特征共四个维度的信息,利用因子分解机(FM)算法训练化工领域论坛答案质量预测模型。实验证明,本文构建的化工领域论坛答案质量预测算法在MSE、EVS、准确率等评价指标上优于LSTM、WideDeep构建的预测模型。(3)针对海川化工论坛中含有大量观点描述型的提问,单个候选答案不能同时覆盖问题的所有方面,不同候选答案子句间又可能存在语义冗余的问题,本文提出了一种社区论坛答案抽取算法。首先利用多维特征和FM算法构建候选答案子句选择模型,筛选候选答案中质量不高的子句。然后利用改进的子句质量评价公式过滤语义冗余的子句,再利用FM算法构建两个子句间前后关系预测模型。最后利用遗传算法搜索最佳子句排序序列。实验证明,本文构建的答案抽取算法能较好的完成海川化工论坛中的答案抽取任务。