基于语义的短文本分类算法研究

被引量 : 11次 | 上传用户:linsible1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展和移动通信设备的广泛普及,以微博、在线聊天记录、BBS标题、新闻标题、团购评价等形式的短文本数量增长迅猛。短文本大都是人们在相互交流中产生的信息,话题涉及政治、经济、军事、娱乐、生活等各个领域,包含着人们对社会各种现象的种种观点和立场,形式简短,内容丰富,信息量大。短文本的快速增长给人们的生活带来了极大的信息便利,但同时因为短文本产生的速度远远超过人们对其的利用效率,使得人们在海量的信息面前无所适从,难以有效获取被淹没的有用信息,给广大用户带来时间、金钱、精力的巨大浪费;另一方面海量信息中含有的有害和无用信息严重影响着政府部门、公司、企业等管理者的决策效率。面对海量文本数据,文本分类技术在如何准确有效获取所需资料和信息方面发挥着举足轻重的作用。特别是运用文本分类技术对短文本数据分类,可以在话题发现与跟踪、舆情预警与疏导、语言演变与进化等方面有着广泛的应用前景。如何对短文本分类,满足各种信息处理的要求,逐渐成为近年来相关领域的研究热点。虽然很多学者开始对中文短文本分类方法进行了研究,但总体水平仍处于起步阶段。本文以网络个性化信息定制采集与挖掘系统项目的子课题:Web个性化信息分析为依托,对短文本和文本分类技术深入分析后,提出了一种基于语义的短文本分类算法,具有重要的研究意义和现实意义。本文的主要贡献如下:1.通过深入研究短文本特征及文本分类算法的相关技术,总结了短文本分类的难点在于特征稀疏和高维数据问题,确定以概念作为短文本的特征项粒度,利用概念所包含的丰富语义信息可以有效提高短文本特征的语义表达能力。2.基于《知网》的短文本特征处理方法。在处理大规模短文本的情形下,通过基于《知网》的短文本特征处理方法可以有效降低短文本特征空间维数,提升特征空间的类别表达能力。该方法结合语义知识库《知网》对短文本关键词进行词义消岐,确定词语在语境中表示的概念,同时对训练集文本特征概念进行类别特征概念提取,加大相应权重,突出了有利于分类的主要特征,保持次要特征和噪音的稀疏性。3.提出一种基于语义的短文本分类算法。该算法是在基于《知网》的短文本特征处理的基础上,对传统KNN分类算法计算量大的弊端进行两方面的改进:一方面计算出训练集每个类别的中心向量,中心域和近似域半径,将每个类别划分为不同区域;另一方面对待分类文本进行初次判断类别,记入类别记录表。分类时根据待分类文本的类别记录表依次计算文本特征向量与训练集相应类别的中心向量的距离,对在类别中心域内的文本则直接可以判断为这个类别,对在近似域之外的文本则可直接判断必不为这个类别,真正需要进行KNN算法判断的文本只是落入类别近似域内的文本。实验结果表明该算法能够有效提高短文本分类的效率和性能。
其他文献
笔迹性别识别在取证分析中具有重要意义。近年来,虽然笔迹性别识别获得了越来越多的关注,但是目前提出的算法都基于人工设计的特征,难以准确地表达笔迹包含的信息,因而准确率
纵观宋辽金时代的“飞鸟衔花”纹饰玉佩的出土品与传世品,纹饰上的飞鸟不论是凤凰、孔雀、仙鹤、练鹊、天鹅还是大雁,都有一个共同的图纹结构特征:飞鸟皆以长喙衔物。所衔之
保税仓储是指在经海关批准设立的保税仓库内从事的专门存放保税货物及其他未办结海关手续货物的仓储业务。近年来,太原高新区保税仓库作为山西省保税仓储业发展的排头兵,发展
目的:研究云南重楼种苗繁育技术。方法:在对云南重楼种苗繁育技术多年试验研究的基础上,总结了云南重楼有性和无性繁育技术。结果:通过种子胚后熟催芽处理,当年出苗率达到30%
文章通过对植筋的受力分析以及施工工艺、技术原理的阐述,全面介绍了钢筋植筋技术,为类似工程施工提供借鉴。
背景:我国正迈入老龄化社会,高血压是最常见的老年慢性病之一,也是心脑血管病最主要的危险因素。近百年来人们围绕盐与血压的关系进行研究,基本上确定了盐是高血压的重要易患因素
2009年对措那木江浮游植物进行了取样调查,4个采样站共发现藻类36属,隶属4门20科.其中硅藻门和绿藻门分别占浮游植物总属数的41.7%,36.1%,优势属为桥弯藻属(Cymbella)、菱形
制备高分散的负载型催化剂是充分利用在自然界中储量极为有限的贵金属资源的重要手段.采用不同方法制备一系列负载Pd催化剂,考察了不同载体负载Pd催化剂的CO氧化性能.发现以
biángbiɑng面是秦人最喜爱的一种面食,"biáng"字,作为表达声音的字充分体现了秦人的强音特点,这个字由十个文化元素组成,包含了秦人秦地丰富的民俗文化内涵,向人们传达出
本研究探讨低剂量氟达拉滨、环磷酰胺联合供者异体反应性NK细胞(flu+cy+allo-NK)作为新的非清髓性单倍相合造血干细胞移植(haploidentical HSCT)预处理方案的可行性。利用免