英文网页短语摘要自动生成的研究与应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zhangyutinglzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对网页的关键短语自动生成进行了研究,提出了KEA算法的改进算法WKEA,并设计和实现了基于WKEA算法的自动网页摘要浏览原型系统——KNM系统(KeyPhrasesNavigationMapSystem)。 首先,对数据挖掘技术进行了综述,介绍了Web数据挖掘的基本概念及其常用算法和各研究分支,阐述了自动网页摘要系统产生的必要性,总结了当前比较有代表性的两类网页摘要算法研究现状,并给出了对自动网页摘要算法的有效评价方法。 然后,重点研究了网页候选关键短语的提取算法和基于回归分析模型的短语内容重要性程度预测算法,提出和实现了一种基于多元线性回归模型的短语摘要提取及其内容重要性程度预测算法WKEA,并对其学习和预测效果进行了评价。该算法结合网页文本的结构特征抽取的候选关键短语,以多元线性回归对候选关键短语的内容重要性程度进行预测。同时,提出了一种基于模糊匹配的短语摘要的效果评价方法,并采用此方法对WKEA算法进行了有效性评价。 最后,描述了智能网页浏览系统KNM原型系统的设计思想,设计和实现了该系统采用的WKEA算法、短语聚类算法以及新颖的网页缩略图界面。本文还设计了多套用户体验测试对系统的实际可用性进行了评价分析。
其他文献
“计算机支持的协同工作”(ComputerSupportCooperativeWork,CSCW)的概念自80年代中期提出后,正受到越来越多的重视,至今已成为发展最快的研究方向之一。随着信息时代的到来和网
本文在分析以往压缩算法的基础上,针对网格细节信息分布的局部性以及网上传输三维数据的特点,提出了一种率-失真优化的渐进几何压缩算法。该算法首先对半规则网格进行分块,而后
近年来,随着星间链路(ISL)技术的成熟以及星上处理能力的增强,卫星系统的服务不再是简单的“弯管”模式,星座网络成为卫星系统发展的重要趋势。然而,随着太空中卫星的日益增
为了使不同用户对XML文档具有不同的查看能力,保证查询的安全、可靠,现代数据源,包括结构化的和半结构化的,经常导出用XQuery定义的XML视图。XML视图分为实视图和虚视图两种,具有
本文研究的重点是探讨一个基于Agent技术构造分布式地理信息系统的方法,以及在此基础之上如何提供给用户一种简单方便的应用模式。本文的研究工作,概括起来主要包括以下几个方
IP电话是在国际互联网上进行语音传输的一种业务。IP电话主要的相关协议有H.323和SIP。目前在中国,H.323协议的市场占有率最高,并且最为成熟,本文研究的IP电话终端即是基于H.323
节目图像质量在交互式网络电视中占有非常重要的地位。由于各种编解码器、网络和信道传输等都会造成节目图像质量下降;为了提高节目图像质量,对接收视频的图像质量进行准确评估
Internet应用的普及,要求企业内部网的职能范围超越了物理位置的限制,同时网络上传输的数据也需要越来越高的安全保障。随着应用程序从C/S结构向Web迁移,如何在不影响外部用户使
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法,相应研究向着更深入
随着流媒体技术的进步和宽带网络的建设,IPTV在全球已得到较快发展。IPTV核心业务VOD需要将各种各样的节目源转码为符合IPTV系统的格式,这对现存数十万个小时的节目内容提供商