论文部分内容阅读
能够独立成句的一词结构和三词结构作为特殊的语言现象,存在于各种汉语文本中,有一定的研究价值。本文所做的工作,主要是对大规模中文语料库文本中能够独立运用的一词结构和三词结构进行分类统计和结构分析,这些都是在对语料库文本分词与词性标注的基础上进行的。本文的结构内容设计共分为五章:第一章,是对语料库的发展进行概述,简单介绍了语料库的国内外发展情况,介绍了本论文的选题缘由、研究目的、意义和内容结构设置。第二章,首先对汉语词语切分的基本定义做了简要概括,再介绍汉语词语切分的难点以及切分效果的评价。以此为依据,来证明本文运用的词语切分工具的切分准确率是比较高的,可以忽略语料库文本词语切分中的一些噪音。第三章和第四章为论文的主要部分,这两部分是通过几个实验来得出结论的。第三章抽取测试文本中夹在两个中文标点之间的能够独立运用的一个词语的结构,按照词频统计数据得出独立成句的结论,然后对这些词语进行分类,得出能够独立成句的词语所属词类所占的比例,再通过计算各成句词语所属词类独立成句的条件概率,计算出不同词类的词语在实际应用过程中独立出现的次数与总共出现的次数的比值。判断出哪类词语被独立运用的概率高。第四章实验步骤与第三章相似,抽取小规模测试文本中的夹在两个中文标点之间的能够独立成句的三个词语的结构,绘制相应的词表,并计算各个词条的t-测试值,设定阈值判断出三个词语中的中间词更倾向于同前、后两个词中的哪一个先结合,划分出(A+B)+C和A+(B+C)两种类型。最后再对这些能够成句的三词结构进行结构类型的划分。通过统计的方式判断出哪种结构类型的三词结构更容易被独立运用。第五章为总结与展望,对本论文的两大主要章节得出的结论进行总结,并对本论文未完成的工作以及对将来的进一步研究进行介绍。对大规模的语料库进行中文信息处理之后发现,能够独立成句的高频词和中频词,在文本中出现的次数越多,能够独立成句的机会越大。而低频词部分随着在测试文本中出现次数的减少,能够独立使用的机会基本不变。另外,还得出大部分实词是可以独立成句的,虚词中只有少量的词类能独立成句,但是实词中的名词、动词、形容词等更多的是同其他成分组合构成句子,相对来说独立成句的机会不是很大。相反,虚词中的拟声词、叹词等,独立出现次数虽然很少,但是,它们在文本中出现的总次数也不多,它们独立使用的机会相对来说比较大。三词句在组合形式上有(A+B)+C与A+(B+C)两种,在一定的阈值范围内可以通过t-测试值来确定三词结构在形式上属于哪一种类型。超出一定阈值范围内的结构,不能仅仅凭借t-测试值来判断,要根据具体的词条来确定其类型。另外,从句子结构上来看,三词句多以主谓结构、动宾结构和偏正结构形式出现。