基于潜在语义索引的文本聚类技术研究

来源 :沈阳航空工业学院 沈阳航空航天大学 | 被引量 : 2次 | 上传用户:lincystar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们需要对大量的文本资源进行有效的组织,以利于主题发现、信息检索等。于是,文本聚类技术应运而生,它是自然语言处理领域的重要课题。文本聚类技术的研究取得了良好的成果,同时文本聚类中存在大量同义词、近义词等特有的自然语言现象。本文利用潜在语义索引探讨和研究这种语言现象,改善文本聚类的性能。潜在语义索引中的奇异值分解技术将原始特征空间转化到相应较小的潜在语义空间。本文分析了原始特征空间投影到潜在语义空间的过程,发现文档集合中文档频率较高的特征给潜在语义空间引入一些不合理的特征传递关系,影响了特征与特征和文档与文档的相似度。利用潜在语义空间中文档内特征与特征和文档间特征与特征之间的传递关系,提出了一种潜在语义索引特征优化技术,对潜在语义空间中特征之间的传递关系进行选择。实验结果表明,该方法有效地提高了潜在语义索引的性能。在文本聚类算法的研究过程中,针对划分聚类算法对初始点选择敏感,易陷入局部最优的问题。本文分析了初始点的特征,考虑将文本集合中K个文本作为不同类别的初始点使得这K个文本之间相似度和最小,提出了一种基于文本最小相似度的初始中心选取方法,避免了将大类拆分成小类及边界点作为初始点。实验结果表明,该方法有效地减少了聚类算法的迭代过程并提高了聚类性能。最后本文实现了一个基于潜在语义索引的文本检索系统,对检索的初始结果进行特征传递关系选择并通过聚类手段调整检索结果。在NTCIR-7国际评测中IR4QA的部分语料上进行测试。实验表明,该方法能有效地提高检索效果。
其他文献
主题发现与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过博客实时发现并跟踪国内外热点事件,以实时地反馈给用户。由于传
入侵检测技术能够同时检测来自系统外部和内部的攻击,并对检测到的入侵行为作出响应。随着网络技术的发展和网络带宽的迅速增长,入侵检测系统的处理速度由于无法与高速网络带
随着各种医学影像设备的大量涌现,医学图像成为现代临床诊断和医学研究中不可或缺的工具。面对这些海量的医学图像数据,如何有效地组织、管理和检索大规模的医学图像数据,已
随着互联网规模逐渐扩大,域间路由安全问题日益加剧。近年来国内外已经发生多起路由安全事件,对整个互联网也造成很大影响。BGP作为互联网的核心路由协议,其本身却缺乏有效的
作为自然语言处理的基本操作,词性标注能提供关于单词及其邻近成分的大量有用信息,因此常常是组成复杂应用的模块之一。词性标注任务是文本理解、文本生成等自然语言处理领域
随着Linux操作系统应用范围不断扩大,其所面临的安全威胁也不断增多,而其中非常重要的一种威胁就是提权攻击。攻击者一旦利用系统中应用程序或内核中存在的提权漏洞成功将用
随着Internet的快速发展,Web上的信息量越来越大,为了帮助人们在浩如烟海的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的需求越来越专业化、
近年来,医疗仪器技术发展非常迅速,在人类的健康检测,疾病辅助诊治方面发挥了重要的作用。特别是医疗B超,因其无创伤,无痛苦,无辐射等诸多优点,被广泛应用于医疗诊断。本文针对当前B
随着在线社交网络的高速发展,社交网络平台(如Twitter,Facebook.人人网,微博等)近几年迎来了爆炸式增长,社交网络已经深入到人们日常生活中的方方面面。人们在社交网络上与人
互联网的不断发展使其面临着越来越多的网络安全威胁,如何实时准确地检测复杂网络威胁行为是当前亟需解决的关键技术问题。基于警报关联的网络威胁行为检测技术因其与网络上大