面向领域中文文本信息的潜在语义分析研究

来源 :南京大学 | 被引量 : 2次 | 上传用户:bbx978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的不断发展,以自然语言为特征的领域文本信息不断喷涌,这些文本信息是进行科学研究、企业竞争情报研究的宝贵知识源泉,如何处理和利用这些文本型数据至关重要。中文文本信息在这些年亦是飞速增长。然而较之于那些通过空格分隔语义单元的语种信息来说,中文文本信息缺乏在计算机化信息处理方面的天然便利,处理工作困难重重。这其中首先要解决的问题是如何对中文文本信息进行预处理,以正确地识别和理解中文文本信息中的语义单元(即词语单元),包括如何进行语义单元的自动切分(即分词),如何对切分的歧义进行有效消解,如何智能化地识别和提取文本中所包含的新的命名实体、概念、术语等。正是因为这些问题的存在,传统中文文本信息处理对文本中所包含的内容特征的识别和理解能力不足。再者,现有文本信息处理的研究与应用主要基于“文档词语映射”来建立信息组织模型,例如将文档表示成词语的向量。词语间的独立性假设在这些模型中广泛使用。尽管这个假设使得信息组织、检索和处理模型的设计变得简单,但语言中词语间的严格独立性显然不成立。更具体地,自然语言中存在某些内在的、潜在的语义结构,这种语义结构支配着词语的使用、出现和文档的构成。文档的语义是由词语组成的,而词语又要放到文档中去理解,其中存在着一种“词语-文档”双重概率关系。文档可被视为以词语为维度的空间中的点,一个包含语义的文档出现在这种空间中,其分布绝对不是随机的,而是服从某种语义结构;词语也可视为以文档为维度的空间中的点,一个词语出现在某个文档中也同其它出现在该文档中的词语有密切的关系,其分布同样服从某种语义结构。然而,因为自然语言中词语使用的不一致性以及文档主题的不确定性等因素的存在,支配自然语言中词语使用和文档构成的语义结构在一定程度上被“噪音”所干扰和掩藏。传统信息处理方式忽略了这种语义结构的存在,因而无法更有效地形成对文档、词语等知识单元的正确表示。更为理想的信息处理方式是考虑文本信息中所包含的语义单元(特征词语)之间的语义关系,在此基础上实现对文档、概念本身、作者、机构等知识单元的语义表示和信息处理。这里特征词语之间的语义关联,可以是形式化的关联,如包含、隶属、等同、同义、反义等,抑或是本体(Ontology)意义上的概念的属性、函数、公理、实例等语义特征,还可以是超乎这种形式化、很难准确定性却又客观存在的潜在关联。而不管是哪一种,都是智能化领域文本信息处理应该去揭示的。进一步地,传统文本信息处理的高维稀疏文档表示模型也为大规模特定领域的文本信息检索、聚类、分类、相似测度等典型应用工作的效率、准确率和召回率都提出了严重的挑战。为解决上述问题,本论文试图研究一套全流程、自动化的机制(包括理论模型和方法体系)来解决传统面向领域的文本信息处理和文本挖掘的语义缺失问题。具体的,论文的主要研究工作包括以下几个部分:1)中文领域文本粗分词与词性标注主要研究了面向中文领域文本信息深度处理和潜在语义分析的粗分词与词性标注等预处理的方法:(1)首先基于对中科院计算所ICTCLAS分词系统的词典结构和最短路径算法的改进,研究并实现一种有效的中文粗分词系统;(2)在此基础上,基于隐性马尔科夫模型,针对粗分词结果进行词性标注,并根据各种不同粗分词结果的词性标注概率优选最佳词语切分方案。2)中文领域术语的边界标注与识别提取分析面向中文文本信息处理的领域术语界定、识别和提取方面的实际需求和特征,在比较众多模型(如隐性马尔科夫模型、最大熵模型、条件随机场模型等)的基础上,研究和探索了一套基于条件随机场模型的领域概念识别和提取方案,根据领域概念的位置特征、语法特征(主要为词性特征)、独立成词概率概率、语境概率特征、领域语言规则特征等选定模型所需的条件特征集合,构造各特征的势函数,确定各特征的权重,设计模型的算法,实现了基于条件随机场模型的领域中文术语识别和提取系统。3)面向潜在语义分析的术语权重模型研究主要研究了两个方面的问题:(1)基于术语区域分类的领域术语甄选:在领域文本信息预处理的基础上,借助于若干对比领域语料,测度术语的领域相关性、领域间一致性、领域内部一致性和术语新奇性,进而将术语划分到通用词语、领域一般术语、主题术语、新奇术语等四个术语区域中,基于分类思想对具有特定领域意义的术语进行甄选。(2)术语文档权重模型研究:在领域术语甄选的基础,研究一种包括术语局部权重、术语全局权重,文档全局权重及归一除数等四个部分的术语综合权重方案,测度术语在不同文档中的权重进而对文档予以正确表示,构建术语文档权重矩阵,为面向领域文本信息处理的潜在语义分析或主题加权采样提供支撑。4)基于矩阵分解的潜在语义分析研究主要研究了以下几种基于矩阵分解的潜在语义分析方法:(1)基于矩阵分解的潜在语义分析的基本方法:包括基于奇异值分解(SVD)的LSA的基本思想、等价特征值问题、Lanczos迭代算法及其理论解释;基于半离散分解(SDD)的LSA的基本思想,整数规划原理以及实现SDD的迭代方法。(2)基于Σ调整的潜在语义分析方法——μ-SVD/SDD方法:作为本课题的创新研究之一,提出并研究一种基于Σ调整的潜在语义分析方法——μ-SVD/SDD方法,通过有监督的机器学习方法,获取SVD/SDD分解结果中对角矩阵Σ的分配调整向量,以改进传统基于SVD/SDD方法将Σ的对角元素作为潜在维度的重要性时对对角元素向量进行同指数分配的思想缺陷和精度不足问题。(3)基于稀疏约束的非负矩阵分解(NMF)方法:作为本课题的探索性研究之一,本部分在对NMF的基本思想、损失函数、乘性迭代规则等基本问题的研究基础上,考虑领域文本信息处理对于矩阵分解结果的稀疏性要求,研究了稀疏约束下的NMF分解算法。5)基于主题模型的潜在语义分析研究作为本论文的主要创新点之一,本部分将在对概率潜在语义分析模型、潜在狄利克雷分配模型、相关主题模型、弹珠机分配模型、基于中式餐厅处理分布的层次主题模型等的原理、模型学习、瓶颈问题的理论分析以及对潜在狄利克雷分配模型、相关主题模型、弹珠机分配模型等应用于潜在语义分析的实验分析基础上,提出并研究一种基于加权采样的层次主题模型(WS-HTM)的理论框架,以解决已有主题模型在采样和学习效率、主题层次路径、精度等方面的不足。6)潜在语义分析在领域中文文本信息处理的应用研究对基于潜在语义分析的领域文本信息处理的典型应用问题进行了方法设计,包括:设计了面向潜在语义分析的大规模稀疏矩阵的文件存储和内存装载机制;重点研究了基于压缩编码过滤和语义倒排的领域文本信息检索方法;阐述了基于潜在语义分析的领域知识单元关联挖掘的基本方案;研究了一种基于二分k-Means的高效领域文本信息聚类方法,分析了潜在语义(主题)维度与聚类意义上的类目之间的等价性问题;研究了基于潜在语义分析的领域文本信息可视化的途径并重点就基于力导算法的领域知识单元网络化语义关联自适应可视化进行了方法设计。论文在进行理论和方法研究的同时,通过实验和对比,对论文所研究理论和方法进行了实证分析,相关实验分析结果表明,论文在领域中文文本信息处理的每一个流程上所研究的方法和理论较之于传统的方法,具有一定的科学性和实践可参考性。
其他文献
江苏省是全国最早先进入老龄化的省份之一,老年人的养老问题显得尤为突出。家庭养老和机构养老作为传统的养老方式,仍然是目前老年人主要的养老方式。但随着老年人自身健康状况的恶化以及老年家庭结构“空巢化”趋势,家庭养老已逐渐不能满足老年人的需求;机构养老拥有较多的服务内容,但一方面大多老年人受传统观念的影响不愿住进养老机构,另一方面因养老机构入住费用高、入住门槛高、可接受人数有限等原因,机构养老方式在整个
永平铜钼矿田位于钦杭成矿带北东段江西省上饶市铅山县城南东13km永平镇。它包括一个大型永平铜矿和一个中型十字头钼矿。对永平铜矿一直以来存在海西期喷流沉积和燕山期岩浆热液两种成因观点,但是缺乏详细的成岩成矿年代学、成矿流体和矿床地球化学的研究。十字头钼矿是近年危机矿山找矿新发现的矿体,其与永平铜矿是否为同期产物,其成因类型和成矿模式都缺乏约束和探讨。永平铜矿体主要呈层状、似层状赋存在藕塘底组,与火烧
英国学者吉本斯等人研究发现,在传统的学科导向的知识生产模式Ⅰ外,一种面向应用情境中的知识生产新模式正在出现。它从传统的知识生产模式Ⅰ中演化发展而来,与传统的知识生产模式相互补充、相互影响,称之为知识生产模式Ⅱ。因此,根据研究需要和研究条件,本研究以首批入选国家“2011计划”的两个协同创新中心:南京大学牵头的“中国南海研究协同创新中心”(简称“南海中心”)和南京工业大学牵头的“江苏先进生物与化学制
大学生就业问题一直是国家与社会关注的热门话题,如何高效地找到匹配的、满意的职业依然是大学生求职者亟待解决的问题。随着社会化网络招聘的兴起,以社会性、交互性、个性化推荐等为主要特征的社会化求职平台开始在求职招聘领域崭露头角并呈现迅速发展的趋势,社会化求职平台在降低求职不确定性、提高就业效率方面具有巨大的潜力。但实际上,尽管社会化求职平台运营商不断改进社会化服务功能来吸引求职用户,但这些平台的用户活跃
当下中国在存在的收入分配不公、贫富差距扩大问题,不仅已成为社会各界强烈关注的焦点问题,并且已经引起政府的高度重视。根据国家统计局公布的数据,2014年中国基尼系数为0.469,处于较高位域。此外,本世纪以来,收入差距的代际传递趋势突显,“富、贫、官”等阶层的“二代”现象受到社会的广泛关注与讨论。在现代市场经济的条件下,代际收入流动性的高低意味着,国民的子孙辈之间是有着更多平等竞争的机会,还是主要受
开展"主题党日"活动,是加强党员理想信念教育、落实基层组织制度的重要抓手,是规范基层党支部组织生活、从严教育管理党员的有效途径,是推进"两学一做"学习教育的基本载体。主题党日活动的开展必须以解决工程建设实际困难、推进工程建设进度为出发点和落脚点,如何使党日活动主题更突显、效果更明显,是当前基层党建工作必须思考和探索的重要课题。荔浦至玉林高速公路开展了"交投先锋+主题党日"活动,
期刊
近年来,二型糖尿病(type 2 diabetes)成为全球范围内威胁人类健康的一种内分泌代谢紊乱疾病,引起了广泛的关注。该疾病往往会伴随着多种并发症的发生,其中糖尿病心脏病是造成患者死亡的主要原因。因此,对糖尿病心脏病发病机制的研究非常重要,可以为临床治疗提供相关的理论依据。胰岛素抵抗是二型糖尿病的主要特征,而在胰岛素抵抗的心肌细胞中,由于肌浆网/内质网钙离子ATP酶2a(SERCA2a)功能的
细胞凋亡是一种不引起炎症反应的程序性细胞死亡。它在生物医学界一直是被重点研究的对象。多年来,研究者们在细胞凋亡领域积累了丰富的知识,这些知识不仅能够帮我们更好地理解凋亡这一基本过程,更能使我们利用对细胞凋亡的理解有效地治疗疾病。典型的凋亡途径分为内源性和外源性两种,这其中的信号通路、调节因子以及分子机制已被很好地研究和描述。而基于细胞凋亡设计的药物和治疗措施也已经被广泛使用。比如小分子细胞凋亡诱导
G.A.柯亨是英美分析马克思主义的三个代表人物之一,其成名作《卡尔-马克思的历史理论——一个辩护》一书为学界理解马克思的唯物史观提供了一条不同于苏联传统马克思主义和结构马克思主义的“分析”之路,在英语世界产生了持续的重大影响。在20世纪60年代柯亨进入马克思研究时,苏联传统的马克思主义已经陷入僵化状态,尤其是斯大林主义模式已经受到了西方思想界的普遍抵触,因为传统的研究往往依据马克思的表述和论证本身
奈格里早期的政治本体论不仅确定了其后来政治批判理论的核心构架与方法论前提,而且构成他创建后社会主义政治规划的关健切入点。奈格里致力于通过挖掘传统形而上学的政治内涵,并以形而上学-政治学-历史情势之间的链接关系,来实现对马克思主义的本体论建构。对他而言,本体论以去目的论、决定论、超验论和辩证法为基本前提,它并不追溯事物的超验起源和基础,而是将视角专注于无限开放的历史创构过程,以从中筹划指向差异和未来