基于维基百科的中文短文本分类研究

被引量 : 0次 | 上传用户:tyllr82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,快速准确地对文本进行分类作为信息处理的一个重要环节,受到了人们的高度重视。文本分类处理大多是针对长文本进行的,但短文本在现实世界中也是大量存在的,并呈现出爆炸式的增长趋势。短文本一般指160字以内的文本,其稀疏性、实时性、海量性、不规范性的特点,使传统的分类模型对短文分类缺乏一定的适用性。目前,引入外部知识来扩展短文本特征是较为热点的研究方向,如何有效地获得丰富的语义知识资源,并构建与之相适的短文本分类模型,成为当前的短文本研究的一个重要课题。针对上述问题并参考现有研究成果,本文引入特征扩展思想,将维基百科作为外部知识库,构建特征扩展词表对短文本特征进行扩充,在传统分类模型的基础上,提出了基于维基百科的中文短文本分类模型。本文首先在研究中文短文本特点和传统文本分类模型的基础上,指出了传统分类模型在进行短文本分类时面临的缺陷,探讨了外部知识库维基百科运用于短文本分类的优势;其次,对维基百科知识库进行语义信息挖掘,在分析维基百科语义结构的基础上构建了基于维基百科的特征扩展词表,详细研究了相关概念获取方法、概念间相关度计算方法及相关概念集合的建立过程,并运用JWPL工具对维基百科数据进行了结构化处理;再次,对传统分类模型从短文本预处理、文本表示等步骤进行改进,将短文本表示为概念向量,依照维基百科特征扩展词表对向量空间的概念进行了扩充,并运用支持向量机算法构建分类器。最后采用ICTCLAS和LIBSVM搭建文本分类平台,将本文提出的基于维基百科的短文本分类方法和传统的分类方法进行对比,实验结果表明本文所提出的方法较传统方法更适合短文本分类,取得了更好的分类效果。
其他文献
针对分布式异构空间信息的动态集成问题,在综合考虑集成的动态性、安全性和高效性的基础上,提出基于Web的分布式空间数据集成框架。该框架通过元数据和Web Services技术实现
<正>习近平总书记在庆祝人民政协成立65周年大会上的讲话中指出:"人民政协是国家治理体系的重要组成部分,要适应全面深化改革的要求,以改革思维、创新理念、务实举措推进履职
采用CAN(Controller Area Network)构建了汽车车灯控制系统,并基于SAE J1939协议设计了车灯控制报文格式。在硬件设计中,本文基于USBCAN-II接口卡实现开关控制功能,以P87C591
石墨烯独特的二维纳米结构使其具有优异的电子学、光学、热学和机械性能。目前,石墨烯已经在光电材料、能源材料和生物材料等方面显示了良好的应用前景。纳米电分析化学是当
现代雷达系统对信号处理实时性以及精度要求不断提高,信号处理方式也逐渐由模拟向数字转变。在中频频段对雷达信号进行数字化处理有许多模拟方式无法比拟的优势,它已经成为信号
目前,政府积极推动住房消费政策,转变住宅制度,一系列的措施大大加速了房地产行业的发展。其高利润、低风险的行业特征,吸引大批资金争相进入房地产行业,使得房地产价格突飞猛进。
简述了汽车制动摩擦材料的发展史,对常见汽车制动摩擦材料进行分类并对其性能进行了比较,介绍了现代汽车制动摩擦材料的发展趋势。
本论文主要内容是通过对法国新浪潮时期“左岸派”首领导演阿伦·雷乃(Alain Resnais)的“作家电影”的研究,探讨“左岸派”从文字到影像的改编模式。研究方法是对其代表作《
我国加入世贸组织后,国内企业特别是国有企业面临着严峻的挑战。要想在激烈的竞争中立于不败之地,就必须防范和控制财务风险,提高其自身的竞争能力。本文根据我国企业财务风
随着素质教育的发展和课程改革的深入,学生在课堂上表现出的差异性问题越来越受到人们的重视。在高中女生健美操教学中如何做到既面向全体学生,又关注学生的个体差异,能根据学生