论文部分内容阅读
词语是语言的建筑材料,语是比词更大的重要的建筑材料。但是,语言学界对于语的研究却一向比较薄弱。目前,对于成语、谚语、歇后语和惯用语之外的语的关注越来越多。语言信息处理领域不但需要成语、谚语、歇后语、惯用语这些传统称为“熟语”的固定短语,而且更需要面向实际应用的“结合紧密、使用稳定”的其他固定短语。信息处理领域定义的“结合紧密、使用稳定”的“分词单位”既包括词也包括语,但对于“结合紧密、使用稳定”的语却没有办法大量收录。“结合紧密、使用稳定”是中文信息处理领域定义“分词单位”的基本原则,但是中文信息处理界所定义的“分词单位”没有一个具体标准去实施,判断是否“结合紧密、使用稳定”主要依靠人的语感,在自动分词时具有不可操作性。本文的研究目标是对“结合紧密、使用稳定”的固定短语提取方法研究,并基本实现对教育领域的固定短语的自动提取。论文以北京语言大学“国家语言资源监测与研究中心”(平面媒体分中心)的动态流通语料库中的2006~2008年十五份主流媒体报纸的教育领域文本作为考察对象,对教育领域“结合紧密、使用稳定”的固定短语进行提取研究。教育领域3年语料总计文本数量142,069个,总计字节数量216,154,807字节。本文所处理的候选串3年总计24,116,507个。论文首先提出了“结合紧密、使用稳定”固定短语的定义,然后利用统计加规则的方法分别从频次、互信息、熵、句法、语义、历时考察角度对固定短语候选串分年度分步筛选,并基本实现了“结合紧密、使用稳定”固定短语的自动提取,提取出的固定短语是660条。本论文为“结合紧密、使用稳定”原则的具体实施提供了基本的方法和手段,为“结合紧密、使用稳定”的固定短语的研究提供了一种量化考察途径。研究内容主要包括:◇高频领域种子词的选取和固定短语候选串长度确定:高频领域种子词的选取需经过文本预处理、文本领域分类、词语切分过程。文本预处理主要是把网页格式语料转化为纯文本格式语料。本文的研究对象是特定领域的固定短语,首先要对语料进行领域分类,所用语料是基于DCC语料库2006~2008年3年全部语料,语料规模是文本总数2,500,169个,总字节数3,614,364,074字节。利用DCC文本分类软件提取2006~2008年的教育、经济、娱乐、体育四个领域文本,这4类文本语料规模是文本总数921,529个,总字节数1,213,283,890字节。本文所提取的固定短语是以分词软件的切分单位为基础,词语切分是必须的工作。论文用中科院自动化所赵军提供的分词软件对教育、经济、娱乐、体育四个领域文本进行了切分。本文用序比的方法提取高频领域种子词,在教育领域提取了5000词作为高频领域种子词。通过对文本字串长度的考察,确定了固定短语候选串提取长度为2~5个切分单位。利用高频领域种子词提取固定短语候选串,固定短语候选串3年总计24,116,507条。◇基于统计量对固定短语候选串的筛选:通过对频次、互信息值、熵值阈值的研究与设定,对24,116,507条固定短语候选串从统计量的角度筛选得到满足条件的16,896条固定短语候选串。◇基于句法规则对固定短语候选串从句法的角度筛选:利用句法规则确定了汉语的五类类联接模式,分别是“a+n、n+v、n+n、v+n、v+v”。通过这五类模式从句法的角度对固定短语候选串进行筛选。从16,896条候选串中选取了满足类联接模式的固定短语候选串,经过合并去重后得到785条固定短语候选串。◇基于语义的方法对固定短语候选串从语义的角度确认合法性。利用《知网》的语义模式对固定短语候选串从语义的角度确认。确认后的结果是785条。◇通过历时考察方法对固定短语候选串的“使用稳定”性进行考察和筛选。本文对3年的结合紧密的固定短语串进行了历时考察,从中选取了3年都出现的固定短语候选串,作为“结合紧密、使用稳定”的固定短语,数量是660条。本研究的创新点及主要贡献体现在如下几个方面:◇本文界定了“结合紧密、使用稳定”的固定短语。基于DCC语料库,首次对2006-2008年的报纸语料中教育领域语料的2个切分单位进行大规模的统计计算和句法、语义考察,并在历时层面进行了考察,最后提取出教育领域“结合紧密、使用稳定”的固定短语660条。◇首次对“结合紧密、使用稳定”原则确定了机器可操作的具体办法。在多特征融合的框架内从统计、句法、语义的角度,对“结合紧密”程度进行量度;从历时考察的角度对“使用稳定”进行量度。◇提出了一种短语固定程度的考察方法,为固定短语的考察提供了一种从定量到定性分析的方法。◇提取“结合紧密、使用稳定”的固定短语的研究方法可以由特定领域推广到通用领域。本文的研究方法对于中文信息处理领域“分词单位”的“结合紧密、使用稳定”的语的补充,对于语言资源监测领域固定短语的监测、对于汉语语言学领域语的研究、词典编纂领域固定短语的收录都有一定的意义。本文的研究方法既可以推广到这些领域,又可以提取固定短语直接为这些领域服务。