基于统计方法的文本风格分析研究

被引量 : 0次 | 上传用户:hn_hcg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算语言学,是一门横跨计算机科学、数学和语言学的新兴边缘学科,它使用形式化数学模型和计算机技术对自然语言进行处理与分析。文本分析是计算语言学的一个重要研究领域。目前以单一字、词、句为研究对象的语言研究已经取得了丰硕的成果,这为使用计算语言学的方法对整个文本进行风格分析打下了重要基础,也促生了本文使用计算语言学方法进行文本风格分析的研究需求。从方法论角度来看,计算语言学的研究方法可以分为基于规则的方法和基于统计的方法两大类。文本分析的计算语言学研究方法大多运用基于统计方法的语料库语言学。以整个文本为研究对象进行风格分析需要大量的各类语料库作为基础,本文通过对网络文本进行搜索、采集、提取、描述,生成并实时更新各类语料库。研究中涉及的语料库有公共语料库、生语料库、字频/词频语料库、中英文词典语料库、标准汉语词汇与短语基础语料库、分级英文词汇语料库、专业英语术语语料库、英语助记语料库、测试语料库等。创建生成并维护更新这些语料库的方法有四:一是网络获取素材,本地创建为主,如标准汉语词汇与短语基础语料库等;二是通过网络知识发现技术采集、抽取,如谷歌提供的公共语料库、词典语料库等;三是通过网络知识发现技术创建并动态更新,如字频/词频库等;四是通过网络发现获取生语料后使用算法生成,如专业英语术语语料库就是结合条件随机场和隐马尔可夫模型由算法生成,并可通过网络发现动态更新。基于上述语料库,对生语料文本使用预处理和统计等关键算法处理之后,本文作了面向中文文本写作风格的统计分析研究、面向英文文本教学风格的统计分析方法研究,并给出在英语网络教学领域的应用。本文的工作主要分为两大部分,一是文本风格分析的语料与技术支持,这部分工作主要是语料库生成方法和文本预处理和统计分析算法;二是中英文文本风格统计分析方法理论与应用研究。包括以下几个方面:1、面向文本风格分析的语料库生成方法创建语料库是使用计算语言学统计方法进行文本风格分析的先决条件,虽然目前己存在大量的实用语料库,但是应语料在文本研究中的历时和共时需要,同时应文本风格分析研究的需要,本文给出标准汉语词汇与短语基础语料库和分级英语词汇基础语料库的创建方法,并通过基于条件随机场和隐马尔可夫模型的算法生成英语专业术语语料库,以供专业英文文本风格分析研究之用。为了通用性,使用国际组织通用的XML/RDF描述本文中出现的各类语料库,以满足不同应用的需求。2、文本预处理与统计分析算法作为对后续文本风格分析的技术支持,针对上述特制语料库,给出文本预处理和统计分析两大类算法,其中预处理算法主要包括文本正则化处理算法、文本截取算法、中文文本分词算法等,统计分析算法包括字数统计,相异字统计,字频/词频统计,句子数量统计,句长统计等。3、面向中文文本写作风格的统计分析方法用前述的文本预处理和统计分析算法对中文文本进行预处理和统计之后,建立中文文本风格统计分析模型,对文本的字、词、句进行定量统计分析,给出界定文本通俗性、从众性和文本节奏等写作风格的参数指标-字频熵、词聚类度和句子离散度。4、面向英文文本教学风格的统计分析方法针对英文文本特点,提出了英文文本教学风格分析的框架,建立了英文文本教学风格统计模型,给出通用英语文本定量分析参数-单词的秩、新词覆盖率、文本难易度和专业英语文本定量分析参数-平均共现次数,阐释了英文文本教学风格分析在英语网络教学中的应用。作为语言学的一门分支科学,风格学研究可以追溯到18世纪。本文则基于计算语言学方法,利用计算机技术和形式化数学模型对文本风格进行定量分析研究。其创新点体现在以下几个方面:1、提出了一种集成多种分词方法的自适应最优优先汉字分词算法该算法针对写作风格分析涉及词组、成语、歇后语、谚语、警句、名言、骈文名句等复杂语料素材的特点,通过自适应选择分词算法的多趟切分,得到最优分词效果。与其它主流分词算法相比,该算法不仅能够有效地切分体现写作风格的多种语料素材以有效保证写作风格分析对聚类度的计算需求,而且提高了成词的查全率和消歧的准确率2、建立了一种面向中文文本写作风格的统计分析模型给出了字频熵、词聚类度和句子离散度的定义及其计算公式,以字频熵、词聚类度和句子离散度为评测指标,建立了能够定量揭示文本通俗性、从众性、文本节奏等写作风格的统计模型。以《羊脂球》四个中文译本为实验样本,实例验证了本文建立的中文文本写作风格统计分析模型的有效性和实用性。3、建立了一种基于条件随机场的专业术语识别和抽取模型在对条件随机场、隐马尔可夫链和条件熵、最大熵原理进行改进和补充的基础上,设计了嵌入自然语言语法的专业术语识别抽取模型,有效提高了专业词汇识别的有效性和分级适用性。在此基础上建立英语专业术语词汇语料库。4、建立了一种面向英文文本教学风格的统计分析模型该模型用单词的秩、生词覆盖率、难度系数等评测通用英语文本中词汇的等级、阅读的有效性和文本的难度,用平均共现概率评测专业英语文本的专业度,并阐释了英文文本教学风格分析在英语网络教学中的应用。实验结果与分析表明了方法的有效性和实用性。使用更多的计算机技术理论解决更多的语言学问题是计算机语言学的研究目标,本文进一步的工作主要包括:1、新的网络语言不断涌现,某些习惯用语可能不再使用,由此导致了文本风格的多变性。不论是中文语料库还是英文语料库,都要适应网络语言的变化。因此,建立面向网络语言变化的语料库动态演进模型和方法,是本文的进一步工作。2、通常,基于统计方法抽取的文本特征之间存在相关性,因此,建立面向文本风格识别的多特征关联分析算法,是本文的进一步工作当然,对统计特征、结构特征、语义特征进行关联分析,也是一个重要的研究课题。3、本文建立的中文文本计量指标及计算方法还可以进一步用于中文文本分类、基于写作风格的信息检索、作者身份认证和基于文本的犯罪心理分析等领域,因此,相关的应用研究是本文的进一步工作。4、本文建立的英语文本统计分析方法也可以用于英语考试卷面风格分析、英语文本写作风格分析、网络博客英文文本作者身份辨识等领域,因此,扩展应用研究领域,是本文进一步的工作。
其他文献
组合评价法是近年来发展起来的一类综合评价方法。在分析单一综合评价法的基础上,本文引入了组合评价法,详细阐述了目前国内文献中出现的各种组合方法,对组合评价法的优点和
中国古代数学从滥觞之时就表现出明显的政治功利性。天文历算作为中国古代建立“天人合一”政治哲学体系的有力工具,历来受到统治者的重视,数学由此被赋予更强烈的政治文化色彩
公正与效率一直以来都是诉讼程序的价值追求。一项好的诉讼制度不仅要体现公正,保障人民权利,还要实现诉讼效率,以最少的资源投入获得最大的诉讼效益。我国行政诉讼法自1990
随着经济的快速发展和改革的不断深入,我国城镇化和农业现代化进程不断推进。但是,在城镇化和农业现代化进程中,诸如农村劳动力无序转移、农村土地缺乏规模经营效率等一系列
国际快递行业在中国经过近30年的发展,已经较为成熟。四大快递巨头凭借自身的优势,共享着国际快递的市场蛋糕。由于市场竞争日益激烈,各快递公司也在不断寻找新的竞争优势,来
万事达卡(Master Card)近日宣布将在欧洲12个国家推出一项新功能,将帮助用户简化网上购物流程。这项称为“Identity Check Mobile”的新功能将允许用户通过人脸识别和指纹识别
活跃于春秋战国时期的少数民族国家义渠,其具体族属仍有许多争议。义渠一族有火葬的传统,是羌族的特征之一。东羌这个概念出现于两汉,但其范畴早在先秦时期就已经产生。战国
目的研究综合护理干预对预防骨科手术部位出现感染的临床效果。方法采用回顾性统计方法 ,整群选取该院2012年3月—2014年10月作植入物的Ⅰ与Ⅱ类骨科手术2099例患者的临床资
<正> 英国的百安居、德国的欧倍德这些国外建材连锁业的巨鳄正在狼吞虎咽着“肥得流油的建材市场”,国内各路诸侯也都在扩军备战,为争夺建材市场抢占先机。最终谁能在这场世
随着我国国际贸易的快速发展,商业银行国际贸易融资业务取得了长足发展,商业银行对国际贸易融资业务的重视程度也日益提高,并将其作为重点发展的项金融业务。伴随着商业银行