论文部分内容阅读
社会化问答网站是区别于传统问答网站(如百度知道,新浪爱问等)的新兴问答网站。最初提出社会化问答网站的概念的公司是美国的Quora(www.quora.com)。该网站由Facebook前雇员查理·切沃(Charlie Cheever)和亚当·安捷罗(Adam D’Angelo)于2009年创办。Quora令人兴奋的地方在于,用户可以找到最适合的答案,被称为“流动的维基百科”。该网站的模式是:任何网民成为该网站的注册用户后,可使用各自真实身份回答其他用户提出的问题。这种问答服务与维基百科颇为相似。更为重要的是,Quora引进了社会化关系的概念,用户可以可以关注一个话题、一个问题,也可以关注一个人的所有问答,用户还可对同一个问题的多个答案进行投票等。过去两年里,Web2.0时代的新型问答网站——社会化问答网站如雨后春笋般涌现出来,这类网站将问答与社交结合起来,通过引入用户之间的关系来发现和筛选问题及答案。目前,社会化问答网站还只是在起步的阶段,用户发掘优质内容的方式还很单一,搜索引擎仍然是最重要的入口,那么,如何利用数据挖掘和自然语言处理的相关技术来为社会化问答系统设计一套推荐算法就成了亟待解决的问题。本文结合自然语言处理以及数据挖掘中的相关技术,对中文社会化问答网站的数据进行分析建模,根据中文语言的特点,设计了一套基于隐语义模型的话题推荐算法。主要的贡献有:提出了一种基于编码Trie树的分词词典数据结构,实验结果表明,与传统的分词词典构造结构相比,在分词的效率上有较大提升;话题识别是问答网站中的重要功能,针对传统的搜索引擎搜索话题在相关性和多样性上的不足,本文提出了一种基于LDA与KNN结合的话题抽取算法。实验结果表明,该算法在准确率以及召回率上相较传统算法有较大提升。