基于Web舆情的话题识别与追踪技术研究

来源 :福州大学 | 被引量 : 7次 | 上传用户:bombwang1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的不断增长和互联网媒体的日趋多元化,人们更愿意在网络上对社会重大敏感事件表达自己的思想、态度和情感。互联网已经成为当前公众舆情的最主要载体。因此,对互联网舆情信息的分析和监管成为国家、政府乃至企业、组织亟待解决的问题。本文重点研究网络舆情分析中的话题识别与追踪技术,它作为网络舆情分析中其它应用的基础,研究如何从海量的舆情信息中识别描述同一话题的信息并对话题的后续信息进行追踪的一项新兴课题,它是对信息检索、文本挖掘、自然语言处理等领域知识的综合应用。本文主要研究Web门户新闻的话题识别与追踪技术,阐述了TDT的概念和研究现状,介绍了舆情信息采集与预处理技术,在此基础上,重点进行了如下研究:在话题识别技术研究中,对于话题识别模型,在介绍了多种表示模型的基础上,重点研究VSM向量空间模型,针对VSM不足和新闻报道的特点,提出一种适用于话题检测的TD-VSM模型,它使用信息熵和新闻报道的结构特征来改进TF-IDF权重计算,结合新闻报道的时间特征来改进Cos余弦相似度计算;对于话题识别算法,在介绍了多种话题识别算法的基础上,针对传统话题识别算法Single-Pass单遍聚类的不足和话题识别任务的特点,提出一种多策略改进的两层聚类算法MSTLC来提高话题识别的性能,算法在第一层聚类中采用改进的DBS-BIC-K-Means算法将报道聚合成微类,在第二层聚类中采用改进的多中心Single-Pass算法将微类进行二次聚类,从而得到最终的话题类。在话题追踪技术研究中,对于话题追踪模型,在TD-VSM的基础上,结合话题追踪任务的特点,提出一种适用于话题追踪的TT-VSM模型;对于话题追踪算法,介绍了多种话题追踪算法,其中重点研究KNN算法与SVM算法,并结合话题追踪任务的特点,提出一种改进的I-B-SVM-KNN算法来提高话题追踪的性能,算法通过样本到最优超平面的距离来决定所使用的分类算法,同时采用类别数目补偿来解决样本不平衡问题对KNN的影响,最后通过边界凸包向量BHV来实现算法的增量学习。最后,通过仿真实验和图表分析验证了本文改进的可行性和有效性。
其他文献
大体积混凝土基础施工在核电工程基础施工中普遍存在.如何避免有害裂缝产生、保证结构的整体性和耐久性,往往是设计院和施工单位最关注的技术问题.本文从设计的角度以及合理
以商业银行为支柱的金融体系占据重要的地位,而经营货币作为银行的主要业务,比其他众多的普通行业在经营上要承担更大的风险。我国商业银行自身内部控制的不足随着经济的发展
目的评估宫腔内水囊压迫治疗剖宫产术中大出血的可行性。方法选择2006年3月~2009年3月行子宫下段剖宫产,术中发生大出血患者106例,常规方法处理无效后,应用宫腔内水囊压迫止
说理文微言大义,言近旨远,文章谋篇布局讲究,一字一句无不紧扣观点,使人信服,言语表达闪烁着耀眼的智慧之光。现代素读理念倡导,说理文的教学不能仅满足于读文明理,而是要通
勇于自我革命是我们党鲜明的品格,也是最大的优势。思想政治工作者树立勇于自我革命精神,必须加强理论学习、提高党性修养、树立辩证科学的问题观、勇于开展思想斗争、注重革
在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学
目的观察急性冠脉综合症(ACS)早期患者给予不同剂量辛他汀治疗的临床疗效,并观察其安全性。方法2011年2月~2012年2月我科收治并确诊为ACS的患者80例随机分为两组,大剂量组(40例)与