论文部分内容阅读
随着互联网的高速发展,以短文本形式出现的信息呈现爆炸式的增长,比如在线即时聊天信息、手机简讯、微博、短文本评论及电子商务网站中的产品标题等。在这种趋势下就给短文本信息智能处理提供了广阔的应用空间,而这些短文本都有一些共同的特点,一般文本的长度小于160字符从而比较短,同时信息概念描述有限。命名实体识别是作为信息自动处理的最为基础的关键技术之一,同时是文本分类预处理分词阶段不可或缺的组成部分。
针对短文本的中文组织名识别属于命名实体识别范畴,组织名作为一种复杂的命名实体类型,在短文本中它具有长度不稳定、结构无序及处处存在简写和略写的特点,还常常与人名地名出现组合嵌套的情况,所以业内对它的识别效果目前还不够理想。
本文提出了一种基于实体对关系库的中文短文本组织名识别方法。其主要思想分为三步:第一步,利用维基百科(Wikipedia)的结构特点提取实体对关系库。第二步,对实体对关系库上下文进行向量化并建立向量空间模型。第三步,利用相似度比较的方法并结合隐马尔科夫模型命名实体识别方法及搜索引擎重构方法,最终识别组织机构名。经实验,本方法召回率达到了58.49%,F1值达到了67.39%,较隐马尔科夫模型分别提高了13.6和9.19个百分点,实验证明本方法是有效的。
针对电子商务领域内的产品标题短文本分类,本文对产品标题的文本特点及类别特点进行深入的研究和分析,在分类的文本预处理分词阶段后引入命名实体识别方法,采用一种基于规则和朴素贝叶斯分类(Naive Bayes)相结合的文本分类方法。本方法分为二步:第一步,首先通过分析商务信息产品标题的文本及类别特点,提取类别的特征词形成一个规则特征表,该表每个类都对应一个或多个代表性的特征,然后利用特征规则表对测试文本进行分类。如果测试文本包含某个类的特征,将置信度置为1,然后将测试文本分到特征对应的类别,否则将将置信度置为0。第二步:将上一步置信度置为0的文本,再通过贝叶斯分类器进行重分类。本文采用13个类别,经过实验,取得了理想的预期效果,在准确率、召回率及F1值上分别达到了98.32%、99.3%及98.79%,相对于基于规则的方法百分点分别提高了0.92、24.0及15.52,相对于基于朴素贝叶斯的方法分别提高了0.75、0.16及0.47。实验表明,本文提出的面向商务信息短文本的分类方法是有效的。