论文部分内容阅读
随着互联网问答社区的兴起,问答社区中的答案排序和内容筛选问题获得越来越多的关注和研究。相较于目前问答社区中广泛采用的投票机制等内容筛选方案,基于机器学习的答案排序方法更具通用性和时效性,排序结果也更加可靠。但是,现有的机器学习答案排序方法要么从答案以及和答案相关的问题、用户和评论中抽取可以区分答案质量的特征,然后使用学习排序方法训练排序模型进行答案排序;要么使用链接分析方法计算回答者在问题所属领域的权威性评分,将权威性评分用于答案排序。这些排序方法都将每一个问题当作一个单独的实体进行处理,但实际上问答社区中的每一个问题都不是独立的,相同的问题会被用不同的表达方式先后提出,先提出的问题往往已经有了比较可靠的答案,这些已经解决的问题可以用来对新问题的答案进行排序。基于以上事实,本文提出了利用已解决问题对新问题进行排序的答案排序方法。课题的主要研究内容如下:1)问题相似度计算。本文提出了基于Word2vec词向量的文本表示方法,并使用这一新的文本表示方法计算问题的相似度。与现有方法的对比实验证实了本文提出的问题相似度计算方法的有效性;2)关键词提取。本文使用Word2vec词向量对经典TextRank算法在词节点权值初始化和迭代计算中权值分配比例两方面存在的不足进行了改进,提出了融合TextRank和Word2vec的关键词提取方法,并通过对比实验证实了此方法的有效性;3)基于加权关键词的答案排序方法。本文通过问题相似度计算过程从已解决问题库中得到与待排序问题相似的问题集合,然后使用关键词自动提取方法从相似问题的答案中提取出关键词,并对这些关键词回答问题的重要性进行评价。最后利用这些加权关键词对待排序的答案进行质量评价并得到排序结果。此外,为了进一步地提高排序方法的效果,本文将基于加权关键词的答案排序方法和基于特征提取的学习排序方法以及基于链接分析的排序方法结合起来,提出了融合三种方法的答案排序方法。在取自Stack Overflow和Yahoo! Answers社区的数据集上进行的对比实验证实了本文提出的答案排序方法的有效性。综上所述,课题研究并提出了新的问题相似度计算方法和关键词自动抽取方法,并在这两种方法的基础上提出了基于加权关键词的答案排序方法。与现有答案排序方法的对比实验证实了本文提出的排序方法的有效性。