基于向量空间模型的数据挖掘技术的研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:chinamp3jgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当前国际学术界一项前沿的研究课题,融合了数据库、人工智能、机器学习、统计学等多个领域的理论知识。所谓数据挖掘(Data Mining)就是指从大型数据库或数据仓库中提取隐含的、未知的、有潜在应用价值的信息或模式的过程。它是数据库研究中的一个很有应用价值的新领域,对人们在经济科技等方面的决策具有极大的指导作用。由于每个用户真正需要的信息只是海量信息中很小的一部分,大量的无关信息会干扰甚至淹没其感兴趣的内容。如何快速、准确地从浩瀚的信息资源中提取出用户所需信息以成为一个及待解决的问题。从用户的角度来看,当前的搜索引擎主要存在以下两个不足:查询结果中无关信息过多,大多查询动辄被返回成百上千其至上万条信息;查询结果的显示顺序比较混乱;另外,查询结果的摘要或简介文字(大多数是对应全文的开头部分)的准确性、对复杂查询的支持也有待改进。本文首先详细介绍了数据挖掘概念、数据挖掘技术、常用算法等。其次讨论了文本数据库挖掘过程、文本信息检索算法。然后对向量空间模型进行了系统、深入的分析研究。介绍了基于向量空间模型的中文文档分类、聚类方法,在此基础上开发了小型的信息信息检索系统,用来对东北师范大学学生论文进行检索。
其他文献
随着因特网业务量的不断壮大,网络宽带化已成为建设信息高速公路的重点。宽带城域网的建设为远程医疗提供了高速的业务平台,而Web技术无疑已经占据信息平台的主导地位。我们
领域工程是实现系统化软件复用的关键技术,它为特定领域建立可复用的软件资产,并提供了复用这些软件资产的机制和方法。本文根据电子政务应用系统的特点,研究了网上项目审批
组播通信中,发送者向特定的组播地址发送一份信息,由支持组播的路由器尽最大努力转发给组里的所有成员,利用组播可以减轻网络负载和发送者负担。由于TCP/IP 在网络层缺乏访问
互联网应用的兴起使计算模式继主机计算和桌面计算之后进入一种全新的模式,这就是普适计算模式。这种新的计算模式强调把计算机嵌入到人们日常生活和工作环境中,形成一个“无
本文就焊点的无损检测方法进行了分析和研究,主要集中在两个方面,一 个是基于X射线的BGA(Ball Grid Array)焊点的检测方法研究,一个是CCD(Charge Coupled Device)摄像的SMT(S
随着Internet网络不断增多的业务流,不能满足用户对服务质量的要求成了传统的IP网络日益突出的问题。在这样的背景下,IP网络的发展必须依靠IP QoS技术获得服务质量的保证。队列
语义链网络是基于语义链的语义网模型。语义链是对当前互联网超级链接的自然扩展。语义链网络构造工具(SLN-Builder)是一个语义链操作工具,它能对语义链网络进行定义、修改、
RS 与GPS 为空间信息的采集提供了技术支持,GIS 从定量的角度建立了空间信息处理与应用的理论和技术体系。但是,空间信息是复杂的,从量上来看是海量级的;从种类上看不仅包含
如今,随着越来越多的银行业务系统的出现,对于银行领域而言,这既是个机会也是个挑战。因此能否对大量的业务信息快速地做出决策关系到银行的兴衰成败。其实,大多数企业并不缺少决
随着Internet的普及和企业门户技术的发展,高校信息化建设也得到了极大的发展。而数字化校园是推动教育信息化的重要系统工程,特别是基于企业门户技术的数字化校园能够实现统