论文部分内容阅读
科技文献是人们获得科技信息的重要来源之一,通过对科技文献进行有效的处理,可以揭示文献内部潜在的信息和知识,进而使人们可以快速、高效地获取文献信息。科技文献的自动分类是信息检索和数据挖掘领域的一个重要研究内容,已成为当今文献信息处理方法的研究热点。对科技文献进行自动分类和评价需要深入分析文献的信息特征,同时要把机器学习、自然语言处理等多种方法合理运用到文献分析领域,并研究其有效的实现方法。基于文献的概括性短篇幅文本信息(如标题、摘要、关键词等)实现对文献集的自动分类是具有较高使用价值的研究课题。概括性短篇幅文本信息特征词稀少,难以体现文献之间的相关性,且因交叉学科和多类别科技文献的存在,通过一般方法对科技文献进行硬性的划分归类显然是不科学的。为此,本学位论文分析了科技文献特有的行文特点,根据表现文献的概括性特征的表层文本信息,采用多标记聚类方法对文献集进行了多主题自动分类,按照不同的主题把同一个文献划分到不同类别,从而可从多角度体现文献主题,有利于表现文献的多学科特征,并给出了基于自动划分的文献集丰富性评价方法。首先,通过词频选择特征词,利用向量空间模型(VSM)表示文档集,并针对传统文本信息处理存在的问题,引入潜在语义分析模型,通过基于奇异值分解(SVD)的语义降维方法对所建立的特征词-文档关联矩阵进行分解降维,获得了文献集的低维潜在语义空间表示,揭示出文献之间的语义关系。其次,基于改进的K-means算法,对文献集进行了聚类处理,同时通过文献聚类粒度的自适应确定,解决了对文献的多主题标定,实现了适合于科技文献集特征的多主题聚类分析。最后,通过多样性指数和均匀度对文献数据的多样性进行了定量刻画,为文献集的丰富性评价提供了依据。仿真实验表明,本学位论文提出的多标记聚类分析方法可以对科技文献进行聚类划分并对划分结果进行合理的多主题标定,有利于实现文献的合理、准确的分类,可为科技论文文献库的建设和使用提供有效、可行的智能化手段。