论文部分内容阅读
评论文本含有大量信息,是进一步数据分析的重要数据源。由于网络文本的爆炸增长和评论文本本身的信息冗余性,不能有效的利用评论文本,从中获得有用信息。评论文本的对立观点摘要是很重要的课题。 评论文本的对立观点摘要包括输入数据的预处理、评论文本主题和情感属性的计算、评论文本的基于主题特征的分类、评论文本向心强度的评估和对立观点摘要的生成6个步骤。 LDA适用于分析文本的主题属性,TAM适用于分析文本的主题和情感属性。本文利用TAM模型对评论文本进行建模,用吉比斯采样对该模型进行参数估计,实现了评论文本的主题和情感属性的计算。 本文实现了basic LexRank、Comparative LexRank和Biased LexRank算法,提出并实现了Topic-sensitive TF-IDF LexRank,Topic-sensitive TF-IDF&ComparativeLexRank以及Biased&Comparative LexRank算法。Topic-sensitive TF-IDF LexRank算法利用评论文本具有多重主题的特征,修改了TF-IDF的计算方法,使该算法对主题属性敏感。Topic-sensitive TF-IDF&Comparative LexRank以及Biased&Comparative LexRank算法考虑了评论文的主题和情感属性,使其对主题和情感敏感。Comparative LexRank和Biased LexRank算法分别对情感和主题敏感。 实验表明,采用Topic-sensitive TF-IDF&Comparative LexRank为评论文本向心强度算法的TAM-TC LR摘要算法效果最好,生成的对立观点摘要质量最好。