基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究

被引量 : 17次 | 上传用户:JWPMP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以对外汉语报刊新闻教学改革为动因,以中国主流报纸动态流通语料库为研究基础,进行了报刊新闻资源库的初步建设,基本形成一个报刊新闻分类资源库。该资源库对报刊新闻文本按领域分类,利用计算机语言信息处理技术对文本进行分词处理和统计,得出各类领域词表。从各类领域词表中用领域相交的方法提取各领域间的通用词语;再利用通用词表用词汇分离的方法提取各领域一级主题词群、各领域中的二级子领域主题词群、子领域中更下位的三级主题词群。主题词群的提取研究是在几个不同的层级上进行的。提取的主题词群带有很强的主题特征。在单文本的主题词群提取实验中,这些主题特征词语对判断文章的主题相关度有较好的效果。本文还对主题词群和报刊新闻主题教学的关系进行了探讨,对主题词群提取的准确度进行了测试,也初步探索了报刊新闻文本的主题相关度和难易度的测量方法。主题词群的研究为报刊新闻教学提供了一个科学、实用的研究平台,同时也为词汇研究探索了一条新的研究思路和方法。 研究路线: 报刊新闻资源库——通用词语——主题词群提取及相关研究——主题教学 围绕主题词群提取这个中心,本文取得了以下的研究成果: 1、构建了一个基于主流报纸动态流通语料库的汉语报刊新闻资源库。 该报刊新闻资源库目前的语料有1.7亿字,33545个文本。利用计算机技术对大规模的真实语料进行了处理,初步建立了对外汉语报刊新闻教学资源库,使报刊新闻素材能够及时得到动态更新。也为报刊新闻教学研究提供了一个科学、实用的研究平台,填补了对外汉语教学研究领域的一项空白。 2、基于报刊新闻资源库初步建立了一个报刊新闻教学分类体系 参考了各种权威的分类法,考察了网页文本分类,对现有的几种对外汉语报刊新闻教材的主题分类作了考察,最后综合各种相关因素提出了报刊新闻资源库的分类框架。在报刊新闻资源库内初步建立了一个有19个领域、91个子领域、189个下位主题的报刊新闻教学领域分类体系,基本涵盖了报刊新闻的主要领域,为报刊新闻和其他课程的教学提供支持。 3、基于十九个领域的分类词表提取了报刊新闻通用词表 本研究的重点是主题词群的提取研究,提取报刊新闻通用词表的目的是为了用词汇分离的方法有效地提取主题词群。因此本通用词表是为词语的领域分类服务的。我们在报刊新闻资源库内提取了在十九个领域间都通用的词语,由于通用词表是在大规模中国主流报纸语料库的基础上产生的,具有领域通用和动态更新的特点,对主题词群的提取具有良好的效果。 4、运用词汇分离的方法提取了不同层级的主题词群 用词汇分离的方法将领域词表、子领域词表中的通用词语和专用词语进行
其他文献
<正>2019年,北京市水务局认真贯彻落实习近平总书记对北京和关于保障水安全的重要讲话精神,全面推进"安全、洁净、生态、优美、为民"水务发展目标,大力实施"转观念、抓统筹、
量词数量丰富、用法灵活是现代汉语的重要特征之一。在现代汉语中,大多数量词总是与名词搭配使用,在我们看来,名词与量词的搭配关系所反映的实际上是人们对名词所代表的范畴
中国移动是中国电信产业改革的成果。中国移动在1997年从中国电信内分离出来,借助于中国经济快速发展的浪潮,中国移动的用户数量和利润一度呈现出了跳跃式的增长势头。在2001年
本文用语料库语言学的工具和方法来描写、分析和解释当代汉语翻译小说中的翻译规范。本文所谓的“翻译规范”是指:特定社会文化条件下,人们对什么是翻译和应当如何翻译等问题达
本文的研究工作围绕高性能机床主轴永磁同步电动机及其传动系统的设计研究展开,所做工作主要包括五部分: 首先,根据机床主轴传动系统的运行特点,从降低主轴永磁同步电动机温
中国已经连续3年成为世界第一大涂料生产国和消费国,2011年涂料产量在国内经济调整情况下仍创出1080万吨的新高,中国的涂料产业已经成为全球涂料产业发展的风向标。但目前我国
本文是关于“很多”、“很少”的用法及其相关性质的研究,力图挖掘前人所没有涉及到的用法及其性质,以结构主义的分布分析为基础,结合进行语义、语用分析和认知解释,在描写的基础
汽车转向系统是影响汽车操纵稳定性、行驶安全性和驾驶舒适性的关键部件。在追求高效节能、高舒适性和高安全性的今天,电动助力转向系统(EPS)作为一种全新的汽车动力转向系统
本文创造性地界定了我国地方商业银行的概念,从现有银行体系中抽象出地方商业银行的一般特征,即资产规模小型化、经营范围区域化和资本构成本地化,并以此为基础对地方商业银行的
金属燃料电池是用锌、铝、镁等活泼金属代替氢氧燃料电池中的氢作为电池负极材料而得,具有成本低、无毒、无污染、放电电压平稳、高比能量、高比功率、资源丰富、可再生等诸