基于表层文本信息的科技文献集多主题划分方法的研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:zhangyanfangzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献是人们获得科技信息的重要来源之一,通过对科技文献进行有效的处理,可以揭示文献内部潜在的信息和知识,进而使人们可以快速、高效地获取文献信息。科技文献的自动分类是信息检索和数据挖掘领域的一个重要研究内容,已成为当今文献信息处理方法的研究热点。对科技文献进行自动分类和评价需要深入分析文献的信息特征,同时要把机器学习、自然语言处理等多种方法合理运用到文献分析领域,并研究其有效的实现方法。基于文献的概括性短篇幅文本信息(如标题、摘要、关键词等)实现对文献集的自动分类是具有较高使用价值的研究课题。概括性短篇幅文本信息特征词稀少,难以体现文献之间的相关性,且因交叉学科和多类别科技文献的存在,通过一般方法对科技文献进行硬性的划分归类显然是不科学的。为此,本学位论文分析了科技文献特有的行文特点,根据表现文献的概括性特征的表层文本信息,采用多标记聚类方法对文献集进行了多主题自动分类,按照不同的主题把同一个文献划分到不同类别,从而可从多角度体现文献主题,有利于表现文献的多学科特征,并给出了基于自动划分的文献集丰富性评价方法。首先,通过词频选择特征词,利用向量空间模型(VSM)表示文档集,并针对传统文本信息处理存在的问题,引入潜在语义分析模型,通过基于奇异值分解(SVD)的语义降维方法对所建立的特征词-文档关联矩阵进行分解降维,获得了文献集的低维潜在语义空间表示,揭示出文献之间的语义关系。其次,基于改进的K-means算法,对文献集进行了聚类处理,同时通过文献聚类粒度的自适应确定,解决了对文献的多主题标定,实现了适合于科技文献集特征的多主题聚类分析。最后,通过多样性指数和均匀度对文献数据的多样性进行了定量刻画,为文献集的丰富性评价提供了依据。仿真实验表明,本学位论文提出的多标记聚类分析方法可以对科技文献进行聚类划分并对划分结果进行合理的多主题标定,有利于实现文献的合理、准确的分类,可为科技论文文献库的建设和使用提供有效、可行的智能化手段。
其他文献
为了使人和计算机能够更加人性化和自然化地交流,怎样让计算机具有情感识别的功能逐渐成为各领域研究的热点。其中,语音情感识别在情感识别中扮演着重要的角色,为了提高语音
互联网已成为当前应用程序的默认平台。但是随着应用程序复杂程度的增加,传统的“点击?等待”式Web应用程序渐渐不能满足用户对快速响应的需求,RIA(Rich Internet Applicatio
数字服装的试衣效果研究是近年来服装CAD领域中普遍关注和研究的重要课题。作为三维服装CAD系统集成的重要组成部分,它可以有效地克服传统二维的服装CAD系统中普遍存在的缺陷,
随着Internet应用的逐渐扩大,网络创造了越来越多的经济效益,也承载了更多的社会价值,随之而来的是越来越猛的网络攻击和网络犯罪。面对技术不断翻新、不断增强的攻击,计算机
数据挖掘(Data Mining)作为数据库研究领域中的热点,正受到越来越多的关注,其任务是从大量数据中发现有用的数据,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知
王国俊教授提出的三I方法是一种新的模糊推理算法,是传统的CRI方法的修改和完善。对于三I方法的研究构成了模糊推理算法中的一个重要的研究领域。关于三I方法研究在理论和实际
特征匹配问题是计算机视觉、对象识别和机器人技术的核心问题。在传统的模式识别中,图像与视频的识别在过去的十年中发展了很多方法。近来,匹配算法由二维图像扩展到三维图形。
随着多媒体技术和网络技术的飞速发展,数字作品的版权保护逐渐成为了人们关心的问题。数字视频水印是版权保护和安全认证的有力工具,已成为学术界研究的一个热点。H.264作为
集装箱运输是现代物流产业中的重要环节,其中涉及到的两个关键问题是如何设计合理的车辆行驶路线和高质量的装箱方案。这两个问题分别都已经得到了广泛的研究,但对于两者的混合
空间数据库和基于移动用户位置的信息服务正得到日益广泛的应用,对访问控制模型也具有特殊要求:用户地理位置的变化通常会引起用户权限的动态变化。因此,空间信息在访问控制