论文部分内容阅读
在现代互联网技术快速发展的带动下,以万维网作为信息的核心载体给人们搜索信息、共享信息提供了丰富的数据源,但在网络资源中快速获取精准有效信息变得越来越难,而且信息的置信程度也难以保证。现有搜索引擎技术和产品,如Google、百度、HotBot等,在很大程度上满足了人们获取网络信息资源的需求。但是,如何面对不同的用户偏好、用户背景等,识别用户潜在的搜索意图,挖掘用户背后真正需要的信息,对搜索引擎系统设计的重要性毋庸置疑。本文在对已有搜索系统研究基础上,研究个性化搜索的应用,并开展了搜索系统在舆情分析中的应用研究。主要内容包括:阐述了个性化搜索系统中的用户兴趣模型、网络信息抓取、网页信息分析与挖掘、文本聚类分类等关键技术,并基于系统的功能需求分析,设计了个性化搜索系统的总体框架和各个模块,通过个性化搜索系统在网络舆情分析中的应用,对舆情分析的关键技术进行了研究,并给出了系统的性能测试和分析结果。本文工作主要体现在以下两个方面:1)通过整合网络爬虫、文本分类与聚类、及索引技术,设计了一种基于用户兴趣模型的舆情热点信息挖掘框架。该框架通过网络爬虫中的信息抓取、信息过滤与更新策略,获取网络中有效的信息;然后采用改进的文本分类与聚类技术,挖掘出网页中的舆情分布、来源等热点信息,并且与用户进行交互,通过用户的反馈,构建相应的用户兴趣模型库。该框架为基于用户的个性化搜索系统设计提供了良好的参考。2)针对传统K-Means聚类算法对文本初始化聚类中心较为敏感及容易陷入局部极小点的问题,提出了一种基于向量空间模型的K-Means改进聚类算法。该算法提高了文本聚类及分类的准确率,有效解决了传统K-Means聚类算法在文本挖掘中的问题,并且也提高了文本挖掘的效率。