结合CHI统计和改进TF-IDF算法的微博特征项提取

来源 :电子世界 | 被引量 : 0次 | 上传用户:crosslightning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征项是微博话题检测中的重要因素,特征项的提取结果直接影响话题检测计算的复杂度和准确度。本文提出了一种结合CHI方法和改进TF-IDF算法的方法来提取特征项,从而来降低空间向量的维数。本文考虑到了中文词中存在一义多词或一词多义的缘故,对传统的归一化TF-IDF算法进行了一些改进,即在计算词的权重时结合了词的语义。通过该算法来提取特征项不仅可以降低建空间向量时的维度,而且还可以减少话题的重复性,但在计算权重后容易忽略一些有利于分类的低频词,故本文在改进TF-IDF算法的同时还结合了CHI统计方法,该方法可以
其他文献
目的观察肾脏病患儿24 h尿蛋白(24 hUp)与随机尿蛋白/尿肌酐比值(Up/Ucr)的相关性,探讨采用随机尿Up/Ucr代替24 h Up的可行性.方法162例肾脏病患儿分别留取24 h尿和随机尿及
机器人的运动学是机器人动力学、轨迹规划和控制的基础。利用根据D-H变换的方法,测绘RBT-6T/S03S型机器人相应的连杆长度,建立RBT-6T/S03S型机器人的运动学模型,并在matlab环
电力企业对电网日常管理与维护水平的高低与人们日常生活和工业生产用电有着直接影响,电企应确保变电运维设备工作正常,建立有效维护与管理变电运维及其仪器仪表的制度。工作
光场相机近年来已经引起越来越多人的关注,它采用在主透镜的焦平面处放置一个微透镜阵列,然后再投影到CCD上,使得图片能够记录下四维光场,从而记录光线的方向,使得图片具有重
通用验证方法学(UVM)融合了OVM和VMM两大验证方法学,使验证语言统一于SystemVerilog,验证方法学统一于UVM。在研究了UVM的基础上,重点研究了如何使用UVM搭建高效可重用的SoC验
实现农村配网的智能化对于电力系统提质有着重要意义。首先分析了当下农网在智能化建设中存在的问题,其次基于差异化原则就问题破解提出了方法,最后阐述了加强农村配网智能化
文字和图片是PPT排版的两大主要构成要素。文字、图片排列组合的好坏,直接影响着版面的效果。本文主要介绍了PPT中文字的排版,图片的选取、处理方法以及PPT中的音频与视频文件的处理。
期刊
数字电子技术课程是电气类、信息类等专业的专业基础课程。针对传统数字电子技术课程教学中存在忽视学生能力培养、实验结果安排不合理、现代教学手段不足等问题,通过在教学
目前越来越多的企业将信息化建设作为适应新时代发展的重要任务,在企业信息化建设中广泛应用虚拟技术、大数据技术以及云计算技术等。其中虚拟技术在信息化机房建设中的应用,不