论文部分内容阅读
在基础研究的科研项目管理中,项目的相似性分析是一个基本的管理问题,依据相似性可以对项目进行分类,避免重复申报、重复立项,还可以为相似项目的评审选择合适的同行专家。项目的相似性分析一般是根据项目建议书的标题、摘要和关键词并结合项目管理人员的经验进行。但是由于一方面项目数量逐年快速增加,另一方面基础研究具有创新性、不确定性、学科交叉融合及新观点、新概念和新的知识点不断涌现等特点,科研项目管理人员很难根据基础研究项目的真正内涵进行相似性分析,从而给管理工作带来了极大的挑战。因此,从项目的知识内涵中进行相似性分析就成为现实的需求,这就需要对项目进行知识挖掘,并从知识管理的角度探讨项目管理问题。 科研项目建议书是由自然语言撰写的文本,特别是我国基础研究的建议书绝大部分是中文文本。因此对项目进行知识挖掘就转变为对项目建议书的文本挖掘。本文针对基础研究项目建设书的特点,研究了文本挖掘中的基本方法。本文的主要工作如下: 1.提出了符合中文科研项目文本特点的长度优先的无词典切分思路。与英文相比,文本切分是中文文本挖掘中的基本问题。科研项目文本中包含大量的语义不可分割的专业术语,并且不断涌现新术语,特别是基础研究项目的中文文本更是如此。现有的文本切分方法不适合于解决基础研究项目的文本切分问题,因此,本文提出了长度优先的无词典切分思路。 2.提出了中文科研项目文本的切分方法。依据上述的切分思路,提出了科研项目文本的三种切分方法:正向串频最大匹配法、逆向串频最大匹配法和双向串频最大匹配法,实验结果表明双向串频最大匹配法可以达到更好的切分精度。结合统计学习与规则筛选,这几种方法可以切分出专指语义串、短语和词。给出了专指语义串的定义,并从系统整体性和语义优先性的角度对其表示科研项目建议书内容的合理性进行了分析。上述方法既可以解决中文基础研究项目建议书文本的切分问题,又可以应用于一般文本的切分。 3.提出了科研项目文本的层次特征项获取和建模方法。针对科研项目的特征项之间在语义上具有层次性的特点,在文本切分结果的基础上,提出了基于迭代学习的层次特征项获取方法。通过迭代学习不仅可以获取切分结果中包含的层次特征项,而且可以获取切分结果中所不包含的层次特征项,从而更全面地表示文本。在层次特征项的基础上,采用网络作为语义层次结构关系的表示工具,从而实现科研项目文本建模。与通常的向量空间模型相比,该模型既可以表示特征项信息,又可以表示特征项之间的语义关系。该模型对单个文本的表示、领域文本的表示及本体等的自动构建具有重要意义。