论文部分内容阅读
随着互联网应用成为生活中不可缺少的工具,网络用户在查找相关信息时不得不面对各种主题混杂的海量网页信息。快速变化的信息需求使传统搜索引擎越来越难以满足用户更加专业和个性化的需求,用户已经不仅仅满足于相关信息的检索,越来越多的网络用户需要更加专业和个性化的信息服务来获取当前网络上发生的事件和领域信息相关的热点。本文将自然语言处理方法和数据挖掘方法相结合,研究了面向专业领域信息采集的自适应增量更新模型以及领域信息主题检测和新闻推荐的问题,使用自然语言处理技术对领域信息进行精细划分,向网络用户提供专业和个性化的知识服务。及时而完备的信息采集是提供专业领域知识服务的前提。在信息采集技术方面,有关通用网络爬虫采集器部分已经有比较完善的研究,但是对于大规模专业领域信息的增量、自适应采集问题依然没有较好的解决方案。领域信息的增量自适应采集是提供在线领域知识服务的基础。本文针对这一问题提出了领域信息采集的自适应增量更新的模型,有效的提高了在线知识服务系信息采集的效率和质量。面向专业领域的主题检测和热点推荐是知识服务的重要组成部分。在传统主题检测的相关研究中,基于文本聚类算法已经给出了基本的解决方案。但传统的基于文档特征共现的特征提取方法,无法满足专业领域在线主题检测的要求。对于领域信息在线主题检测和新闻推荐系统,网页文本的维度过大是增加系统开销的主要原因。本文提出了一种基于容错粗糙集的特征提取和在线主题检测方法。对于在线主题检测问题,采用以特征词为单位的聚类方法,提出了以半结构化文档中主题性较强区域出现的特征词和名词性词为基础,以容错粗糙集扩展为辅的特征选择和压缩方法,缓解了由于文档数目增加带来的系统开销。实验表明,本文的特征提取和主题聚类方法,可以有效的降低特征空间维数,加快在线主题检测速度,降低聚类结果中不同主题类别之间的覆盖度,提高在线主题检测的准确率。同时,对基于Single-Pass聚类方法的新事件检测问题进行了改进,使用增量TF-IDF模型和时间线分析方法,提出了一种基于时间线分析的Single-Pass在线新事件检测方法。为了进一步提高专业领域主题检测的准确率,本文研究了主题模型在网络主题检测问题中的应用,提出了一种面向专业领域的自适应主题检测方法。对领域信息使用浅层语义分析的方法,提取领域信息基于主题的共现特征。对概率假设不同的几个具有代表性的主题模型进行了比较研究,对比了常见主题模型在主题检测问题中的应用效果。针对传统的基于文档共现特征对语义描述不足的问题,提出了基于主题模型的主题共现特征提取和文档距离描述方法。文本经过主题模型的主题分解过程被映射到潜在语义空间,根据潜在语义结构可以抽取文档的“主题共现”特征。文档潜在的主题结构也可以在语义空间中得到更好的描述。相关实验表明,主题模型可以更有效的抽取文档的主题共现特征,提高领域信息主题检测的准确率,缓解网页规模增加带来的系统性能下降问题。真实网络环境中存在的主题数目是未知且不断变化的。面向专业领域的主题新闻推荐系统,需要自适应的检测出增量更新的网页信息中存在的主题。本文结合LDA主题模型和仿射传播算法提出了一种自适应网络主题检测和基于主题的新闻推荐算法。实验表明,本文提出的自适应主题检测和主题新闻推荐算法,可以根据增量更新网页集的变化,自适应发现接近于真实主题结构的领域信息主题,抓住领域信息的热点,有效的进行基于主题的新闻推荐。