基于Web文本挖掘的研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:forsanwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。本文对Web数据挖掘技术,尤其是Web文本挖掘的关键技术特征词的抽取和聚类分析进行了较为系统地分析和研究。 聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,就是将物理或抽象对象的集合划分成为由类似的对象组成的多个类的过程。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象相似性较小。 由于聚类分析的重要性和特殊性,近年来该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如基于划分(Partition-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。 本文首先对W eb文本聚类中的数据表示方法、特征表示、分词技术、特征项的抽取进行了系统的研究,随后对文本聚类算法进行了研究,主要是对典型的聚类算法(如:K_means、CURE、DBSCAN、SOM、 FCM等)进行了详细的研究与比较,并提出了两种改进算法:一个是对SOM算法进行改进,另一个是基于SOM和K-means的聚类组合算法。
其他文献
目前矿井提升机电控系统大量运用各种现场总线和网络,以提高系统的自动化程度,方便监控和管理。对工业网络来说,通信质量非常重要,通信的稳定性直接关系到生产安全和效率,因
本文就图的哈密顿指数、类指数以及线图的次泛圈性进行了讨论,得出了如下一些结果(1) 设 G 为连通图,h(G)≥k≥2 ( k 为整数),G′=G|(i≤2k+3),若h(G′)≥k,那么h(G)=h(G′). (2)
图表能让相似的概念和生理过程易于辨析,让繁杂的知识一目了然.把教学中的有关内容处理后,绘制成各种图表用于辅助课堂教学,是一种可行且高效的教学方式,不仅可以让学生学得
墙体节能建筑外墙挤塑保温板应用较广泛,但存在着裂缝不易控制的质量通病,本文以工程实例阐述墙体裂缝预防措施和保证措施。
期刊
本文通过具体工程实例,论述了高空超长悬挑高架支模的施工,采取有效措施,进行标高控制和变形控制,保证施工安全,解决了施工难题。
期刊
工程施工管理是提高企业市场竞争力、实施成本管理的一个有效手段,提高企业的工程施工管理水平,对企业的发展有着非常重要的作用。本文结合当前我国建筑工程施工管理的现状针
期刊
本文主要研究沿旋转曲面的粗糙核奇异积分算子在Lebesgue空间的有界性。 第一章致力于研究沿旋转曲面的单参数Marcinkiewicz积分算子,在积分核属于Hardy空间H1(Sn-1)或Orli
一个3-(n,4,1)-填充设计是指一个有序对(X,B),其中X是一个n元集合,B是由X中的一些四元子集(称为区组)构成的集合,满足X中的任意三元子集最多出现在一个区组中。如果不存在3-(n,4
党的先进性,是党的生命线。在农村,基层党组织如何保持党的先进性,发挥党员应有的作用?挂兰峪镇党委的做法是:实行党员公示化管理,即“两明一公开”制度。“两明一公开”制度
本文首先介绍了辛流形的基本概念和性质,在此基础上介绍了辛流形上的辛Sk作用和Hamiltonian S、作用。Hamiltonian S、作用对应着辛流形上的一个实函数,称为矩映射。然后我们