论文部分内容阅读
本文对网页的关键短语自动生成进行了研究,提出了KEA算法的改进算法WKEA,并设计和实现了基于WKEA算法的自动网页摘要浏览原型系统——KNM系统(KeyPhrasesNavigationMapSystem)。
首先,对数据挖掘技术进行了综述,介绍了Web数据挖掘的基本概念及其常用算法和各研究分支,阐述了自动网页摘要系统产生的必要性,总结了当前比较有代表性的两类网页摘要算法研究现状,并给出了对自动网页摘要算法的有效评价方法。
然后,重点研究了网页候选关键短语的提取算法和基于回归分析模型的短语内容重要性程度预测算法,提出和实现了一种基于多元线性回归模型的短语摘要提取及其内容重要性程度预测算法WKEA,并对其学习和预测效果进行了评价。该算法结合网页文本的结构特征抽取的候选关键短语,以多元线性回归对候选关键短语的内容重要性程度进行预测。同时,提出了一种基于模糊匹配的短语摘要的效果评价方法,并采用此方法对WKEA算法进行了有效性评价。
最后,描述了智能网页浏览系统KNM原型系统的设计思想,设计和实现了该系统采用的WKEA算法、短语聚类算法以及新颖的网页缩略图界面。本文还设计了多套用户体验测试对系统的实际可用性进行了评价分析。