基于现代汉语动态流通语料库的通用词汇自动提取方法研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:digitalmachineu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类社会正在从工业社会迈向信息社会,信息的主要载体是自然语言,即人类彼此交流所使用的语言。自然语言处理研究如何让计算机理解人类语言并开发有关的适用系统,然而自然语言中的通用词汇是一个民族的语言系统中最常见,使用频率较高的那些词汇,无论在汉语言教学上,还是在字典的编写上,甚至在计算机信息处理上,汉语言的通用词汇范围的准确界定都有着深远的意义。在某一时段内,通用词汇既是一个相对稳定又是一个开放的集合,既是一个相对动态又是一个静态的集合;传统的统计方法以及语言学家的经验法则等等都根本无法给与通用词汇准确界定。因此把计算机应用到具体语言学的通用词汇提取领域,就更体现其应用价值和意义。运用“语料库”的科学数据方法来研究语言已经成为必然的趋势和必要的手段。本论文选择的是基于中国主流报纸的动态流通语料库,动态性和流通性是其本质特征。动态流通语料库的“动态性”贯穿着“历时中包含着共时”和“共时中包含有历时”的语言知识变化原则。也就是说,这种语料库既可以提供语言的共时描写,也可以提供语言的历时描写。流通性体现在栏目信息尽可能多样的报纸,发行地区应尽可能多样,语料的覆盖量要足够大。本论文主要做了以下工作:1.原始语料领域分类(自编程序)用程序实现按照报纸语料的栏目信息,将原始语料分为10类,分类结果见表4-3。2.原始语料格式转换(自编程序)原始下载语料为HTMLHML网页格式,需要按/领域分类/媒体/年月分别将原始语料转化为纯文本格式语料,同时应该滤除网页格式中的垃圾信息,只保留有效的文本信息内容。转换后文件格式为xml文件。3.文本文件切分词(引用程序)、入库(自编程序)按领域分类/媒体/年月分别将文本文件切分成词,将切分后的文件以词语为单位导入到数据库中等待进一步处理,实验时数据库软件使用的是SQL Server7.0。4.对其进行校对使用自行开发的人工校对系统(java语言编写)进行检查式校对,对其上面分词中不可避免的错误进行纠正,使结果更科学更准确。5.词汇统计计算每个词按月“词频度”、“领域通用度”、“时间通用度”。实验时使用的软件是微软的excel 2003。6.通用词汇提取按照词语的年“词汇通用度Ok”降序排序,提取通用词汇表,使通用词汇表中词语的总词次能覆盖全部语料词语总词次的85-95%。
其他文献
粗糙集理论是一种处理不精确、不一致、不完整等问题的数学工具,无需提供问题所需处理的数据集合之外的任何先验信息,可直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的
随着互联网媒体的发展及智能设备的技术革新,智能电视已经成为人们家庭娱乐的中心。尽管人们可以使用多种方式来看视频、听音乐及玩游戏,然而手机的屏幕较小且声音播放单元简
宽带综合业务网(integrated service digital network,ISDN)实际上是一个多速率业务的系统,它旨在为用户提供多样性的服务,传输语音、视频、电子邮件(E-mail)以及计算机文件
目前网络连接的一个重要方式是无线局域网(WLAN)连接,它具有灵活的移动能力,适合一些人员流动性大的场所,如机场、车站、学校、酒店等。在这些场所无线用户(WLC)在WLAN中的切
要构建一个实际应用的多主体规划系统往往是一个非常复杂的工作。我们需要对系统进行建模,抽象出核心的要素,简化许多不需要的因素。然后在这种抽象的模型上讨论系统的性质和系
本文在研究了偏振模色散(PMD)补偿反馈方式的基础上,着重研究了前馈补偿方法,主要工作包括:(1)介绍了偏振模色散的相关基础知识,包括偏振模色散的定义、形成原因、表示方法和
随着互联网的飞速发展,数量巨大、种类繁多的数据涌入互联网,大数据时代随之到来。在数据量大、种类繁多的海量数据中快速、准确的查找到满足条件的数据具有重要的现实意义。
碰撞检测问题是计算机仿真、CAD、机器人中的一个基本问题,主要用于提高虚拟场景的真实感或进行机器人的路径规划等。不同的碰撞检测基于不同的应用,因此提供的信息也不同。
随着互联网技术和电子商务的飞速发展,可扩展标记语言XML由于其自身的优点迅速成为网络数据表示和信息交换的事实标准。XML数据在存储和交换传输时的安全问题成为一个不容忽视
工作流技术的研究正日益受到人们的重视。然而,作为一个新兴的研究领域,工作流还存在着很多问题有待进一步研究和解决,其中之一就是系统的安全问题。本文的研究重点是工作流