论文部分内容阅读
话题发现中常用的VSM向量空间模型将语言学的文本内容转化为数学上的空间向量坐标,进而把抽象的文本间相似性问题转换为空间向量坐标间的距离问题,直观且易于理解,但存在的问题是:语义缺失,即忽视了文本中包含的语义信息。本文考虑改进VSM模型中权值算法TFIDF,通过引入LDA主题模型的主题概念来增加特征词权重的主旨语义信息,以期达到对文本的空间向量坐标增加语义信息(因为坐标值即是权重值)。算法的改进策略分为两种:首先,通过构建LDA模型,得出概率分布函数θ和φ值,计算出语义影响力SI,提出SI-TFIDF算法;其次,主题-词的概率分布φ值中,判定最大的前K/1的φ值对应的特征词属于该主题,用以计算主题分布频率TDF即:语义分布,提出了TFIDF-TDF算法。实验采用sougou实验室的精简版数据,实验结果显示:两种改进的算法提取的特征词用在文本聚类上F值都有明显的提升,SI-TFIDF算法的提升效果稳定,而TFIDF-TDF算法在文本主题数较多时聚类效果要优于SI-TFIDF算法。最后,将改进的两种算法用于网络新闻热点话题的提取,从搜狐新闻网提取一定时期内的新闻数据进行试验,实验结果得到的新闻热点话题与事实一致,进一步证明算法改进和算法应用的可行性和有效性。