论文部分内容阅读
互联网信息繁多且良莠不齐,用户很难获取到自己想要的信息。搜索引擎的出现帮助用户高效率的选择自己想要的信息。但这些信息是分散且无组织性的,需要用户有先验的搜索条件。在线热点话题发现能得到规模相对较小、具有完整描述的话题。通过一定的策略,将话题按照其影响力的大小进行排序,使得互联网用户能节省更多的时间,在无先验知识的情况下,了解当前社会上发生的大大小小事件,追踪事件的来龙去脉。首先,本文使用中科院的汉语词法分析系统对新闻的标题和导语进行分词、词性标注、命名实体识别以及去停用词。使用空间向量模型对新闻报道进行建模,在一定程度上降低了向量的维度,减少了建模的复杂性;同时提出基于位置信息、命名实体、特征词突发性大小改进的增量TF-IDF权重计算公式,实时修正特征项权重值,在一定程度提高了新闻报道表示模型的准确性。其次,本文基于经典的增量Single Pass聚类算法的改进,提出基于时间窗口的话题多中心模型的增量K-Means聚类算法,改善话题中心漂移的现象,减少话题模型不充分带来的误差,提高聚类的准确度。话题往往有多个事件,随着时间的推进,话题的中心也逐渐发生改变,之前的话题模型很难准确表示话题。通过引入话题多中心模型,使用多话题中心表示话题,能有效的解决话题漂移的现象。经典的Single Pass聚类算法处理速度快,但是聚类结果不够准确,结果受新闻报道输入的顺序影响较大。通过对SinglePass初聚类结果进行K-Means重聚类,将各话题中心而非单个报道作为迭代聚类的对象,这样能高效的提高聚类的准确性。最后,本文提出新的能量积累函数,利用媒体关注度、话题的竞争度、话题突发性以及话题内聚性计算话题的热度,能更好的区分冷门话题和热门话题。基于话题衰退理论,提出感兴趣用户范围的概念,给予不同的话题不同的衰退速度。结合话题发展变化曲线图分析话题在整个生命周期中热度变化情况,以及在同一时刻不同话题热度大小排序情况,筛选出最终的热点话题。