中文短文本命名实体识别方法与应用研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lyxxlyxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,以短文本形式出现的信息呈现爆炸式的增长,比如在线即时聊天信息、手机简讯、微博、短文本评论及电子商务网站中的产品标题等。在这种趋势下就给短文本信息智能处理提供了广阔的应用空间,而这些短文本都有一些共同的特点,一般文本的长度小于160字符从而比较短,同时信息概念描述有限。命名实体识别是作为信息自动处理的最为基础的关键技术之一,同时是文本分类预处理分词阶段不可或缺的组成部分。   针对短文本的中文组织名识别属于命名实体识别范畴,组织名作为一种复杂的命名实体类型,在短文本中它具有长度不稳定、结构无序及处处存在简写和略写的特点,还常常与人名地名出现组合嵌套的情况,所以业内对它的识别效果目前还不够理想。   本文提出了一种基于实体对关系库的中文短文本组织名识别方法。其主要思想分为三步:第一步,利用维基百科(Wikipedia)的结构特点提取实体对关系库。第二步,对实体对关系库上下文进行向量化并建立向量空间模型。第三步,利用相似度比较的方法并结合隐马尔科夫模型命名实体识别方法及搜索引擎重构方法,最终识别组织机构名。经实验,本方法召回率达到了58.49%,F1值达到了67.39%,较隐马尔科夫模型分别提高了13.6和9.19个百分点,实验证明本方法是有效的。   针对电子商务领域内的产品标题短文本分类,本文对产品标题的文本特点及类别特点进行深入的研究和分析,在分类的文本预处理分词阶段后引入命名实体识别方法,采用一种基于规则和朴素贝叶斯分类(Naive Bayes)相结合的文本分类方法。本方法分为二步:第一步,首先通过分析商务信息产品标题的文本及类别特点,提取类别的特征词形成一个规则特征表,该表每个类都对应一个或多个代表性的特征,然后利用特征规则表对测试文本进行分类。如果测试文本包含某个类的特征,将置信度置为1,然后将测试文本分到特征对应的类别,否则将将置信度置为0。第二步:将上一步置信度置为0的文本,再通过贝叶斯分类器进行重分类。本文采用13个类别,经过实验,取得了理想的预期效果,在准确率、召回率及F1值上分别达到了98.32%、99.3%及98.79%,相对于基于规则的方法百分点分别提高了0.92、24.0及15.52,相对于基于朴素贝叶斯的方法分别提高了0.75、0.16及0.47。实验表明,本文提出的面向商务信息短文本的分类方法是有效的。
其他文献
随着移动通信、移动终端和无线网络技术的不断扩大和发展,基于位置的服务快速发展,定位技术是基于位置服务的基础与关键技术。目前室外定位技术得到了广泛的发展,而室内定位技术
定性评价是从大量的统计数据中抽取出能反映事物本质的定性概念,是对评价对象做出定性结论的主要手段。当前随着我国高等教育规模的不断扩大,高校的教学管理任务日趋繁重,而学评
DNA计算是一种基于分子和相关酶之间某些生化反应过程的一种新的计算模式。不仅克服了电子计算机存储量小与运算速度慢这两个严重不足,而且表现出了高度并行性、海量存储能力
近年来,随着模式识别和计算机视觉的发展,根据人脸图像自动进行年龄估计在人机交互、安全监控和娱乐等领域已经成为一个非常热门的话题。人脸图像的自动年龄估计问题是指采用
粗糙集理论是1982年由波兰科学家Z.Pawlak年提出的一种分析不精确、模糊、不确定和不完备信息的数学工具。因为它不需要任何先验知识或者其他额外的信息,就能高效地分析和处理
在计算机发展的历史中,仿真技术一直是一个重要的研究热点,随着现代计算机仿真技术的发展,仿真技术已广泛应用于芯片设计、系统开发、网络安全等领域。由于芯片技术的快速发展,MC
随着Internet的迅猛发展,在互联网中存在有大量无用甚至是非法的信息,这些信息会影响人们的正常生活,并对社会造成不良的影响,因此需要对这些信息进行过滤。一个好的过滤系统应当
截至2015年底,我国普通铁路运营里程为10.2万公里,高铁运营里程为1.9万公里,所以钢轨的检测和维护显得愈加重要。传统的检测方法都是基于人工巡逻检测,每个铁路巡道工需要负
光化学反应模拟是指用计算机模拟激光与各种物质间发生的化学反应。由于其模拟结果与真实实验极为接近,可以通过调控模拟过程中不同的激光参数反复研究激光光子对物质的具体影
感知无线电(CR)是一种以伺机的方式共享频谱资源的技术,提高了在频谱共享环境下的频谱利用率。但是采用感知无线电技术实现频谱共享的前提是,必须保证对主用户不造成干扰,并且同