论文部分内容阅读
随着计算机和网络技术的不断发展,以自然语言为特征的领域文本信息不断喷涌,这些文本信息是进行科学研究、企业竞争情报研究的宝贵知识源泉,如何处理和利用这些文本型数据至关重要。中文文本信息在这些年亦是飞速增长。然而较之于那些通过空格分隔语义单元的语种信息来说,中文文本信息缺乏在计算机化信息处理方面的天然便利,处理工作困难重重。这其中首先要解决的问题是如何对中文文本信息进行预处理,以正确地识别和理解中文文本信息中的语义单元(即词语单元),包括如何进行语义单元的自动切分(即分词),如何对切分的歧义进行有效消解,如何智能化地识别和提取文本中所包含的新的命名实体、概念、术语等。正是因为这些问题的存在,传统中文文本信息处理对文本中所包含的内容特征的识别和理解能力不足。再者,现有文本信息处理的研究与应用主要基于“文档词语映射”来建立信息组织模型,例如将文档表示成词语的向量。词语间的独立性假设在这些模型中广泛使用。尽管这个假设使得信息组织、检索和处理模型的设计变得简单,但语言中词语间的严格独立性显然不成立。更具体地,自然语言中存在某些内在的、潜在的语义结构,这种语义结构支配着词语的使用、出现和文档的构成。文档的语义是由词语组成的,而词语又要放到文档中去理解,其中存在着一种“词语-文档”双重概率关系。文档可被视为以词语为维度的空间中的点,一个包含语义的文档出现在这种空间中,其分布绝对不是随机的,而是服从某种语义结构;词语也可视为以文档为维度的空间中的点,一个词语出现在某个文档中也同其它出现在该文档中的词语有密切的关系,其分布同样服从某种语义结构。然而,因为自然语言中词语使用的不一致性以及文档主题的不确定性等因素的存在,支配自然语言中词语使用和文档构成的语义结构在一定程度上被“噪音”所干扰和掩藏。传统信息处理方式忽略了这种语义结构的存在,因而无法更有效地形成对文档、词语等知识单元的正确表示。更为理想的信息处理方式是考虑文本信息中所包含的语义单元(特征词语)之间的语义关系,在此基础上实现对文档、概念本身、作者、机构等知识单元的语义表示和信息处理。这里特征词语之间的语义关联,可以是形式化的关联,如包含、隶属、等同、同义、反义等,抑或是本体(Ontology)意义上的概念的属性、函数、公理、实例等语义特征,还可以是超乎这种形式化、很难准确定性却又客观存在的潜在关联。而不管是哪一种,都是智能化领域文本信息处理应该去揭示的。进一步地,传统文本信息处理的高维稀疏文档表示模型也为大规模特定领域的文本信息检索、聚类、分类、相似测度等典型应用工作的效率、准确率和召回率都提出了严重的挑战。为解决上述问题,本论文试图研究一套全流程、自动化的机制(包括理论模型和方法体系)来解决传统面向领域的文本信息处理和文本挖掘的语义缺失问题。具体的,论文的主要研究工作包括以下几个部分:1)中文领域文本粗分词与词性标注主要研究了面向中文领域文本信息深度处理和潜在语义分析的粗分词与词性标注等预处理的方法:(1)首先基于对中科院计算所ICTCLAS分词系统的词典结构和最短路径算法的改进,研究并实现一种有效的中文粗分词系统;(2)在此基础上,基于隐性马尔科夫模型,针对粗分词结果进行词性标注,并根据各种不同粗分词结果的词性标注概率优选最佳词语切分方案。2)中文领域术语的边界标注与识别提取分析面向中文文本信息处理的领域术语界定、识别和提取方面的实际需求和特征,在比较众多模型(如隐性马尔科夫模型、最大熵模型、条件随机场模型等)的基础上,研究和探索了一套基于条件随机场模型的领域概念识别和提取方案,根据领域概念的位置特征、语法特征(主要为词性特征)、独立成词概率概率、语境概率特征、领域语言规则特征等选定模型所需的条件特征集合,构造各特征的势函数,确定各特征的权重,设计模型的算法,实现了基于条件随机场模型的领域中文术语识别和提取系统。3)面向潜在语义分析的术语权重模型研究主要研究了两个方面的问题:(1)基于术语区域分类的领域术语甄选:在领域文本信息预处理的基础上,借助于若干对比领域语料,测度术语的领域相关性、领域间一致性、领域内部一致性和术语新奇性,进而将术语划分到通用词语、领域一般术语、主题术语、新奇术语等四个术语区域中,基于分类思想对具有特定领域意义的术语进行甄选。(2)术语文档权重模型研究:在领域术语甄选的基础,研究一种包括术语局部权重、术语全局权重,文档全局权重及归一除数等四个部分的术语综合权重方案,测度术语在不同文档中的权重进而对文档予以正确表示,构建术语文档权重矩阵,为面向领域文本信息处理的潜在语义分析或主题加权采样提供支撑。4)基于矩阵分解的潜在语义分析研究主要研究了以下几种基于矩阵分解的潜在语义分析方法:(1)基于矩阵分解的潜在语义分析的基本方法:包括基于奇异值分解(SVD)的LSA的基本思想、等价特征值问题、Lanczos迭代算法及其理论解释;基于半离散分解(SDD)的LSA的基本思想,整数规划原理以及实现SDD的迭代方法。(2)基于Σ调整的潜在语义分析方法——μ-SVD/SDD方法:作为本课题的创新研究之一,提出并研究一种基于Σ调整的潜在语义分析方法——μ-SVD/SDD方法,通过有监督的机器学习方法,获取SVD/SDD分解结果中对角矩阵Σ的分配调整向量,以改进传统基于SVD/SDD方法将Σ的对角元素作为潜在维度的重要性时对对角元素向量进行同指数分配的思想缺陷和精度不足问题。(3)基于稀疏约束的非负矩阵分解(NMF)方法:作为本课题的探索性研究之一,本部分在对NMF的基本思想、损失函数、乘性迭代规则等基本问题的研究基础上,考虑领域文本信息处理对于矩阵分解结果的稀疏性要求,研究了稀疏约束下的NMF分解算法。5)基于主题模型的潜在语义分析研究作为本论文的主要创新点之一,本部分将在对概率潜在语义分析模型、潜在狄利克雷分配模型、相关主题模型、弹珠机分配模型、基于中式餐厅处理分布的层次主题模型等的原理、模型学习、瓶颈问题的理论分析以及对潜在狄利克雷分配模型、相关主题模型、弹珠机分配模型等应用于潜在语义分析的实验分析基础上,提出并研究一种基于加权采样的层次主题模型(WS-HTM)的理论框架,以解决已有主题模型在采样和学习效率、主题层次路径、精度等方面的不足。6)潜在语义分析在领域中文文本信息处理的应用研究对基于潜在语义分析的领域文本信息处理的典型应用问题进行了方法设计,包括:设计了面向潜在语义分析的大规模稀疏矩阵的文件存储和内存装载机制;重点研究了基于压缩编码过滤和语义倒排的领域文本信息检索方法;阐述了基于潜在语义分析的领域知识单元关联挖掘的基本方案;研究了一种基于二分k-Means的高效领域文本信息聚类方法,分析了潜在语义(主题)维度与聚类意义上的类目之间的等价性问题;研究了基于潜在语义分析的领域文本信息可视化的途径并重点就基于力导算法的领域知识单元网络化语义关联自适应可视化进行了方法设计。论文在进行理论和方法研究的同时,通过实验和对比,对论文所研究理论和方法进行了实证分析,相关实验分析结果表明,论文在领域中文文本信息处理的每一个流程上所研究的方法和理论较之于传统的方法,具有一定的科学性和实践可参考性。