论文部分内容阅读
随着互联网规模的不断增长和互联网媒体的日趋多元化,人们更愿意在网络上对社会重大敏感事件表达自己的思想、态度和情感。互联网已经成为当前公众舆情的最主要载体。因此,对互联网舆情信息的分析和监管成为国家、政府乃至企业、组织亟待解决的问题。本文重点研究网络舆情分析中的话题识别与追踪技术,它作为网络舆情分析中其它应用的基础,研究如何从海量的舆情信息中识别描述同一话题的信息并对话题的后续信息进行追踪的一项新兴课题,它是对信息检索、文本挖掘、自然语言处理等领域知识的综合应用。本文主要研究Web门户新闻的话题识别与追踪技术,阐述了TDT的概念和研究现状,介绍了舆情信息采集与预处理技术,在此基础上,重点进行了如下研究:在话题识别技术研究中,对于话题识别模型,在介绍了多种表示模型的基础上,重点研究VSM向量空间模型,针对VSM不足和新闻报道的特点,提出一种适用于话题检测的TD-VSM模型,它使用信息熵和新闻报道的结构特征来改进TF-IDF权重计算,结合新闻报道的时间特征来改进Cos余弦相似度计算;对于话题识别算法,在介绍了多种话题识别算法的基础上,针对传统话题识别算法Single-Pass单遍聚类的不足和话题识别任务的特点,提出一种多策略改进的两层聚类算法MSTLC来提高话题识别的性能,算法在第一层聚类中采用改进的DBS-BIC-K-Means算法将报道聚合成微类,在第二层聚类中采用改进的多中心Single-Pass算法将微类进行二次聚类,从而得到最终的话题类。在话题追踪技术研究中,对于话题追踪模型,在TD-VSM的基础上,结合话题追踪任务的特点,提出一种适用于话题追踪的TT-VSM模型;对于话题追踪算法,介绍了多种话题追踪算法,其中重点研究KNN算法与SVM算法,并结合话题追踪任务的特点,提出一种改进的I-B-SVM-KNN算法来提高话题追踪的性能,算法通过样本到最优超平面的距离来决定所使用的分类算法,同时采用类别数目补偿来解决样本不平衡问题对KNN的影响,最后通过边界凸包向量BHV来实现算法的增量学习。最后,通过仿真实验和图表分析验证了本文改进的可行性和有效性。