微博客主题分类的特征扩展方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ah51616
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来随着互联网高速发展,使得互联网中的文本问题呈现向海量化发展的趋势。于此同时,文本分类技术这种处理文本数据的关键技术也随之向海量数据处理方向转化。原来的文本分类技术主要指长文本分类,而现在大量的新类型信息产生,大量的短文本信息也随之涌现,如微博、web搜索片段、论坛和聊天信息、评价、电影和产品简介等,人们的生活中短文本的应用越来越多。其中以微博客(简称微博)近年来最为流行,它为广大用户提供了一种信息共享、信息传播和信息获取的交流平台,使用者可以通过多种方式登录平台,获取个人感兴趣信息,或者进行信息分享。面向中文微博客分类问题,本文的主要工作包含以下几个方面:首先,针对中文微博客这种短文本向量表示时的文本特征少,导致的特征稀疏性的问题,本文提出了一种依赖于“百度百科”的特征词条解释进行特征扩展的方法,通过抽取有效特征词语在“百度百科”中的百科名片解释,构建特征词到解释语句的对应关系。其次,因为在使用百科名片解释特征词语时,可能出现一个特征词语对应多个百科名片解释语句,或者所有的百科名篇解释语句都与待扩展特征词语实际语境不相关的问题,设计了一种对这种特征扩展方法产生的噪音进行消除的方法。这种特征扩展结果噪音消除方法,通过计算每个解释语句有效词集对待扩展词原始语句有效词集的覆盖率,以及每个解释语句与待扩展词原始语句总体词集的匹配词语覆盖率。根据计算结果选择准确的特征扩展结果,对特征扩展结果进行处理,得到解释语句到最终特征扩展词集的映射。最后,本文使用微博客特征扩展方法、噪音消除方法并结合多种特征选择方法和多种分类器,设计了中文的微博客分类系统。在这个系统平台上针对中文微博客语料进行了多组对比试验。最终的实验结果表明,本文提出的特征扩展方法及特征扩展噪音消除方法能够很好地提高微博客文本的分类效果,达到了预期的目标。
其他文献
随着视频图像采集设备——摄像机的广泛使用,人们对图像中肤色区域分割的研究越来越多,进而肤色检测技术也越来越多的应用到相关的各种机器视觉系统中,这也显示了肤色检测具有巨
自2009年国内第一个大型微博平台—新浪微博上线以来,国内微博用户的数量每年都呈井喷式增长。微博特有的用户关系结构和巨大影响力使得它已经成为网络信息传播的新势力。现在
当前是信息触手可及的时代,各种各样的嵌入式产品层出不穷。因此,对于专用领域的嵌入式系统来说,构建一个安全的终端极为重要。TCG提出的可信计算跳出了传统解决信息安全问题的
随着信息技术的发展,知识流在企业管理中日益凸显出其重要作用。信息和知识传递交换的好坏,影响着企业乃至供应链的正常发展和运作。为了提高企业和供应链运作效率,需要对企
隐私集合交集(Private Set Intersection,PSI)是安全多方计算的一个重要组成部分,可表述为多方参与者想要利用各自的隐私集合数据协作完成特定的计算,同时保证计算结束后参与
随着互联网技术在教育领域应用的深入,个性化学习已经成为人们关注的热点。不断快速增长的学习资源(包括线上线下资源),让学习者面临着“信息过载”和“信息迷航”的困惑。面
视频拼接是指将若干个具有重叠区域的场景序列视频进行拼接,从而形成视角更大、分辨率更高的宽景或者全景视频的技术。作为视频应用领域的一个研究热门,视频拼接技术广泛的应用
伴随着计算机网络的快速发展,基于B/S架构的Web应用程序逐渐替代了C/S架构的应用程序,随之而来的Web应用程序的安全性也成为相关学者研究的热点。SQL注入攻击是影响Web应用程序
随着企业信息化建设的不断发展,企业内部应用系统也不断的增多,而用户使用这些系统需要频繁的进行登录认证,这样不仅影响了用户的工作效率,也给系统带来了许多安全隐患。本文针对
云计算使用虚拟化技术将各种计算、存储、网络宽带等实体资源整合成一个共享的云服务资源池,再通过任务调度算法为用户提交的任务分配资源。任务调度算法是云计算中最重要的