面向互联网数据的中文组块分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yusaihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国互联网用户的爆炸式增长,中文信息处理技术在互联网领域受到越来越多的重视。中文组块分析,因其在具有词法分析效率的同时又具有接近于完全句法的分析深度,在互联网领域有广泛的应用前景。  本文面向阿里巴巴电子商务系统,重点研究了中文组块的定义、标注与自动分析,主要内容如下:  第一,在语料标注过程中,由于人与人之间的认识差异,存在一致性问题。而基于统计机器学习的方法,对于相同的实例,可以根据具体的上下文给出一致的标注。基于以上考虑,一种基于人机互动的标注方法被本文所采纳,且有效的解决了一致性问题。  第二,研究了基于判别式模型的中文组块分析方法。通过将组块边界与类别合成一个标签,把组块识别问题转换为序列化标注问题。最大熵马尔科夫模型被应用到组块分析任务中,且取得了相当好的效果。本文在前人工作的基础上,对比研究了最大熵马尔科夫模型的两种变型,并提出了候选标签过滤算法,以提升最大熵马尔科夫模型的处理效率。条件随机域模型克服了最大熵马尔科夫模型中的标注偏置问题,取得了最优的组块分析结果。  第三,在应用条件随机域模型进行组块分析以前,有一关键而计算量巨大的工作——特征模板选择。为了改进这一步工作的效率,我们基于模型间的同源性,采用最大熵或者最大熵马尔科夫模型来替代条件随机域模型进行特征模板选择。这种新方法的性能与效率在中文信息学会句法分析评测的基本块分析中得到了验证,并帮助我们取得了封闭测试第一的成绩。
其他文献
随着互联网的迅速普及,它已经成为我们生活中不可或缺的一部分,在它带给我们极大便利的同时,网络安全也越来越受到人们的关注。即时通讯,作为网络的一个重要分支,也自然成为
自动表情识别Automated Facial Expression Recognition,缩写FER)赋予计算机感知并尝试理解人类情感的能力。在计算机视觉、人机交互和情感计算领域都有着非常重大的研究和应
无线传感器网络是由大量具备感知、计算和通信能力的传感器节点组成的以数据为中心的自组网络,已经广泛应用于医疗监护、军事侦察、环境和交通监测、空间探索和灾难救助等领
对等网络作为一种新的网络应用模式提高了网络的工作效率、充分利用了网络带宽、开发了每个网络边缘节点的计算和存储能力、容错性好、可扩展性强,因此其在文件共享、多媒体
BitTorrent协议的出现,特别是DHT(Distributed Hash Table,简称DHT)网络的快速发展,给文件共享和下载方式带来了一场变革。DHT网络的用户规模和文件数量近几年来呈爆炸性的增
学位
随着互联网的普及和电子商务的发展,推荐系统在电子商务系统中起着越来越重要的作用。它可以将电子商务网站的浏览者变为购买者,提高电子商务网站的交叉销售能力,保留已有用
随着遥感技术以及高分辨卫星技术的发展,当今社会对高分辨率遥感卫星数据的存储以及访问的需求在越来越大,另外随着分布式技术在大数据的环境下发展也越来越成熟,也有越来越
本论文旨在研究统计机器翻译中的调序问题。特别地,我们选择了对基于层次短语的统计机器翻译模型的规则选取问题进行研究,这是因为基于层次短语的翻译模型的调序能力主要依赖
近几年,为了缩短软件的开发周期和提高软件的开发质量,柔性的软件开发模式被提出。柔性软件开发模式能灵活和快速地响应用户需求的变更。其主要特点有以下四点:模型是可模拟的