论文部分内容阅读
随着互联网技术的迅速发展和移动通信设备的广泛普及,以微博、在线聊天记录、BBS标题、新闻标题、团购评价等形式的短文本数量增长迅猛。短文本大都是人们在相互交流中产生的信息,话题涉及政治、经济、军事、娱乐、生活等各个领域,包含着人们对社会各种现象的种种观点和立场,形式简短,内容丰富,信息量大。短文本的快速增长给人们的生活带来了极大的信息便利,但同时因为短文本产生的速度远远超过人们对其的利用效率,使得人们在海量的信息面前无所适从,难以有效获取被淹没的有用信息,给广大用户带来时间、金钱、精力的巨大浪费;另一方面海量信息中含有的有害和无用信息严重影响着政府部门、公司、企业等管理者的决策效率。面对海量文本数据,文本分类技术在如何准确有效获取所需资料和信息方面发挥着举足轻重的作用。特别是运用文本分类技术对短文本数据分类,可以在话题发现与跟踪、舆情预警与疏导、语言演变与进化等方面有着广泛的应用前景。如何对短文本分类,满足各种信息处理的要求,逐渐成为近年来相关领域的研究热点。虽然很多学者开始对中文短文本分类方法进行了研究,但总体水平仍处于起步阶段。本文以网络个性化信息定制采集与挖掘系统项目的子课题:Web个性化信息分析为依托,对短文本和文本分类技术深入分析后,提出了一种基于语义的短文本分类算法,具有重要的研究意义和现实意义。本文的主要贡献如下:1.通过深入研究短文本特征及文本分类算法的相关技术,总结了短文本分类的难点在于特征稀疏和高维数据问题,确定以概念作为短文本的特征项粒度,利用概念所包含的丰富语义信息可以有效提高短文本特征的语义表达能力。2.基于《知网》的短文本特征处理方法。在处理大规模短文本的情形下,通过基于《知网》的短文本特征处理方法可以有效降低短文本特征空间维数,提升特征空间的类别表达能力。该方法结合语义知识库《知网》对短文本关键词进行词义消岐,确定词语在语境中表示的概念,同时对训练集文本特征概念进行类别特征概念提取,加大相应权重,突出了有利于分类的主要特征,保持次要特征和噪音的稀疏性。3.提出一种基于语义的短文本分类算法。该算法是在基于《知网》的短文本特征处理的基础上,对传统KNN分类算法计算量大的弊端进行两方面的改进:一方面计算出训练集每个类别的中心向量,中心域和近似域半径,将每个类别划分为不同区域;另一方面对待分类文本进行初次判断类别,记入类别记录表。分类时根据待分类文本的类别记录表依次计算文本特征向量与训练集相应类别的中心向量的距离,对在类别中心域内的文本则直接可以判断为这个类别,对在近似域之外的文本则可直接判断必不为这个类别,真正需要进行KNN算法判断的文本只是落入类别近似域内的文本。实验结果表明该算法能够有效提高短文本分类的效率和性能。