智能问答系统中答案抽取技术的研究

来源 :青岛科技大学 | 被引量 : 1次 | 上传用户:jiyhgniewvlfdjtoopre
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的日益发展,在线问答社区正逐渐成为一种广受用户喜爱的信息分享与获取平台。用户可以在其中以提问或者是查询相似问题的形式从其他用户的答案中获取满足自己需求的信息。然而,用户提供的答案的质量良莠不齐,要从众多答案中抽取质量高、过滤语义重复、生成语序正确的答案子句已成为问答社区研究中一个极具挑战性的难题。结合某安全工程研究院搭建智能问答系统中,亟需自动构建化工领域问答对的研究需求,本文以化工领域规模最大、最具权威性的海川化工论坛数据为研究对象,主要从以下三方面开展智能问答系统中答案抽取技术的研究:(1)参与社区问答的用户特征可在答案质量预测中表征丰富的辅助数据,本文构建了海川化工论坛用户问答异质信息网络,设计了两种元路径,利用Node2vec算法提取社区用户向量表示。消融实验证明,本文构建的社区论坛异质信息网络对于海川化工社区划分的有效性。(2)从论坛问题的众多回答中筛选出少量高质量答案,作为答案抽取的数据集,可提升答案抽取算法的准确性。但是海川化工论坛中存在大量没有积分评价的答案,无法直接根据积分判断答案质量,因此本文构建了一种针对化工领域的论坛答案质量预测算法。首先结合化工领域词库进行问答对分词,利用基于TF-IDF的加权词向量生成问题和答案的文本向量。然后融合问答对文本向量表示、文本静态特征、用户向量表示、用户静态特征共四个维度的信息,利用因子分解机(FM)算法训练化工领域论坛答案质量预测模型。实验证明,本文构建的化工领域论坛答案质量预测算法在MSE、EVS、准确率等评价指标上优于LSTM、WideDeep构建的预测模型。(3)针对海川化工论坛中含有大量观点描述型的提问,单个候选答案不能同时覆盖问题的所有方面,不同候选答案子句间又可能存在语义冗余的问题,本文提出了一种社区论坛答案抽取算法。首先利用多维特征和FM算法构建候选答案子句选择模型,筛选候选答案中质量不高的子句。然后利用改进的子句质量评价公式过滤语义冗余的子句,再利用FM算法构建两个子句间前后关系预测模型。最后利用遗传算法搜索最佳子句排序序列。实验证明,本文构建的答案抽取算法能较好的完成海川化工论坛中的答案抽取任务。
其他文献
随着人工智能技术的发展,人体行为识别成为机器人视觉领域的重要研究方向之一,被人们广泛应用于安防监控系统、医疗诊断监护、人机交互等领域。如何使得机器人能够识别人体的
预判就是指对当前还未发生或正在发生、还不够明确的事件进行预先的估计,并推测事物将来的发展趋势,以此帮助其掌握事物发展的规律等状况,以此做出最合理的判断与决策。网球
机器人系统具有快速、准确、高效等优点,因此机器人被广泛应用于工业、农业、军事等各个领域。在实际应用中,机器人又是具有强耦合、不确定性和干扰的非线性系统,如未建模动
眼睛是人体最重要的感觉器官,里面充满了房水,正常的房水流动能够为眼部组织提供必要的营养物质,维持正常的生理活动。然而,许多眼科疾病的发病机制、发展过程以及药物治疗等
QG学院的基建需要大量资金,若采用传统模式建设教育部门将承担沉重的资金压力。引进社会资本采用PPP模式,既可增加优质高等工科教育供给,满足社会公共需要,又可缓解政府资金
当前软件的规模和复杂度日益增长,因此软件可靠性备受关注。在软件工程中,如果可以找出软件系统中有可能存在缺陷的模块及其分布,对软件开发者合理配置资源及提高软件质量起
目前,幕墙在建筑行业中广泛应用于建筑物的外墙,尤其是高层建筑。尽管应用较广泛,但幕墙技术并未得到充分发展,AEC行业在幕墙的设计、制造及建造方面仍然面临着一系列问题。
在道路桥梁工程施工中监理的作用是非常重要的,是保证工程顺利实施的关键,能够影响到道路桥梁工程的安全运行以及人们的行车安全。本文首先探讨了道路桥梁施工监理的重要性,
纤维素是地球上丰富的可再生资源,其发酵生产的生物质燃料对解决目前能源问题具有十分重要意义。然而纤维素酶水解效率较低,极大地限制了纤维素在酶解发酵方面的高效应用。近
相较于机载InSAR系统,星载InSAR(Spaceborne SAR Interferometry)以更高、更稳定的平台进行对地观测,可以在飞机观测不到的地方工作,覆盖范围更广,并以全天时、全天候的工作