论文部分内容阅读
近些年来随着互联网高速发展,使得互联网中的文本问题呈现向海量化发展的趋势。于此同时,文本分类技术这种处理文本数据的关键技术也随之向海量数据处理方向转化。原来的文本分类技术主要指长文本分类,而现在大量的新类型信息产生,大量的短文本信息也随之涌现,如微博、web搜索片段、论坛和聊天信息、评价、电影和产品简介等,人们的生活中短文本的应用越来越多。其中以微博客(简称微博)近年来最为流行,它为广大用户提供了一种信息共享、信息传播和信息获取的交流平台,使用者可以通过多种方式登录平台,获取个人感兴趣信息,或者进行信息分享。面向中文微博客分类问题,本文的主要工作包含以下几个方面:首先,针对中文微博客这种短文本向量表示时的文本特征少,导致的特征稀疏性的问题,本文提出了一种依赖于“百度百科”的特征词条解释进行特征扩展的方法,通过抽取有效特征词语在“百度百科”中的百科名片解释,构建特征词到解释语句的对应关系。其次,因为在使用百科名片解释特征词语时,可能出现一个特征词语对应多个百科名片解释语句,或者所有的百科名篇解释语句都与待扩展特征词语实际语境不相关的问题,设计了一种对这种特征扩展方法产生的噪音进行消除的方法。这种特征扩展结果噪音消除方法,通过计算每个解释语句有效词集对待扩展词原始语句有效词集的覆盖率,以及每个解释语句与待扩展词原始语句总体词集的匹配词语覆盖率。根据计算结果选择准确的特征扩展结果,对特征扩展结果进行处理,得到解释语句到最终特征扩展词集的映射。最后,本文使用微博客特征扩展方法、噪音消除方法并结合多种特征选择方法和多种分类器,设计了中文的微博客分类系统。在这个系统平台上针对中文微博客语料进行了多组对比试验。最终的实验结果表明,本文提出的特征扩展方法及特征扩展噪音消除方法能够很好地提高微博客文本的分类效果,达到了预期的目标。