面向特定领域的文本识别和分类

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhuyi9021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,越来越多的信息可以从网络上获得。但如何从大量的信息中抽取有用的信息仍然是一个问题。互联网上的信息大部分都是以文本方式存在的,文本的内容识别就构成了高效信息获取的基础。本文设计了一个面向特定领域的文本内容识别系统。该系统可以有效地将我们所需要的文本从大量的文本中分离出来。我们还可以把自动识别得到的文本进行更进一步细分,并对每一个文本生成一个摘要,这样就大大提高了信息获取的效率。 文本识别不但要考虑属于该领域的文本的内容特征,而且还要对不属于该领域的文本的内容特征进行研究。考虑不属于该领域的文本特征,可以有效地增加不同类文本特征模式之间的距离并优化其概率分布。文本表示方面采用近年来应用较多且效果较好的向量空间模型(VSM),给出了基于几何距离的可分性判据和基于后验概率的可分性判据。根据这些可分性判据,阐述了基于熵概念的特征提取方法和直接特征挑选法。 中文分词技术是文本识别的技术基础,也是近年来的研究热点。本文比较详细地介绍了分词的算法和步骤,并对多个分词算法的优劣进行了比较。阐述了分词中的难点。最后,在基于词典的分词算法的基础上,改进并给出了全词索引词典结构,大大提高了分词算法的速度。根据可分性判据,作者采用了直接次优搜索算法对初步特征进行提取和选择,还采用中文信息处理常用的标准TF-IDF公式进行特征提取和选择。 特征项权重的确定没有太多的理论基础,大多是根据训练样本库的统计知识和中文信息本身的语言特点来确定的。本文除了介绍了中文信息处理中的常用权重确定算法,还提出一种基于特征词语长度的权重确定方法。该方法主要基于较长的词语是由较短的词语或词根所组成这一特点而提出的。 本文以通信领域的文本识别为例,给出了文本识别的方法和整个过程。通过对文本的识别实验,验证了算法的有效性。本文还给出了文本的分类算法,并简要介绍了文本摘要的自动生成。
其他文献
对于传统的水下航行体来说,它的航行速度因为其所受到的表面摩擦阻力而造成了低航速的结果。然而,设计一种前端安装有空化器的航行体是有可能的,空化器能够产生和维持包裹航
移动机器人是机器人大家族中最重要的成员。准确定位是其核心技术,是实现其任务的关键,长期以来是研究的热点,并在理论和实际应用中取得了丰硕的研究成果。目前全球卫星导航
由于无线媒介的开放性,网络攻击方法层出不穷,入侵手段不断更新,特别是为传输政府信息和军事数据构建的Ad-Hoc 网络,使得Ad-Hoc 网络的安全性越来越受到人们重视。目前,将传
机动化水平是经济实力的体现,也是对城市空间拓展的适应,是城市发展所处阶段的一种反映。随着我国经济实力的迅速提升,城市对机动化的需求也空前高涨。城市交通系统作为机动
近年来,随着可穿戴计算的不断发展,基于惯性传感器的人体动作识别已逐渐成为模式识别领域内一个新兴的研究方向,它与传统的基于计算机视觉的动作识别相比,实时性更好、局限性
进化算法是一类借鉴生物界自然选择和遗传机制的随机搜索算法,进化算法与传统优化方法的主要区别是群体搜索策略和群体中个体间的信息交换,该文研究了基于进化算法的数值优化
欠驱动水面艇以其日渐凸显的商业价值和军事价值及其欠驱动控制特性,近年来得到了持续的关注。本文围绕欠驱动水面艇航迹控制器设计及其仿真系统开发,从欠驱动水面艇单艇模型
机器人足球赛的开展使得人工智能技术、计算机视觉等领域的研究成果与实践结合起来。机器人视觉要在一秒内给出十几次甚至几十次球场实体识别的结果,这种实时性要求属于图像处
自主移动机器人的一个基本能力就是通过传感器感知周围环境,躲避障碍物并能达到目标地点。世界各国研究人员在这方面做了深入研究,并将研究成果应用于军事、工农业生产、科学研
本文以可为电子政务系统提供密码安全服务的密码设备服务器密码机为研究对象。首先简要分析了网络信息安全所面临的威胁和关键技术需求,重点介绍了用于保障网络信息安全的关