基于文档类密度的特征权重算法

来源 :计算机应用研究 | 被引量 : 1次 | 上传用户:Konca
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量数据的管理和分析,文本自动分类技术必不可少。特征权重计算作为文本分类过程的基础,起到了至关重要的作用。为了提升文本分类的质量,针对传统特征权重算法的不足,提出了基于文档类密度的特征权重算法(TF-IDCD)。其中,文档类密度通过类内包含特征的文档数与类内总文档数的比值来度量。最后,在两个中文常见数据集上对五种算法进行实验对比。结果显示,提出的算法相比较其他特征权重算法在F1宏平均和F1微平均上都有较大的提升。
其他文献
针对作战编队可视化中背景对比不突出、整体感不强、美学性不足等问题,提出了基于视觉感知拓扑关系模型(VPTM)的作战编队可视化算法(3DCFV)。设计了作战编队可视化的基本原则,建立了作战编队的视觉感知拓扑关系模型。该模型通过采用图算法进行叠加处理,实现了作战编队中个体之间连接关系选择的优化,较好地刻画了作战编队的视觉整体范围及内部个体关联性等抽象信息。最后,基于该模型构建了3DCFV算法。实验结果
传统基于概率的特征权重算法,往往只对词频、逆文档频和逆类频等进行统计,忽略了类别之间的相互关系。而对于多分类问题,类别之间的关系对统计又有重要意义。为了提高文本分类的精确度,提出了基于类别方差的特征权重算法,通过计算类别方差来度量类别之间的联系。通过五种特征权重算法在搜狗新闻数据集上的实验,结果表明提出的算法在F1宏平均和F1微平均上都有较大的提高。通过实验验证,该算法提升了文本分类的效果。
研究离散线性切换系统非脆弱H_∞滤波器设计问题,假设滤波器增益含有区间不确定性,采用平均驻留时间技术,并利用LMIs给出非脆弱H_∞滤波器的设计方案。当采用经典的顶点方法时,需要求解的LMI数量呈指数级增长,系统维数较高时,可能超过当前的运算能力,故提出一种明确有效的概率算法。预先制定的概率水平可以保证鲁棒性,并给出为达到所需概率水平而需要的采样数量。该算法可以显著减少参与设计的LMI的数量。最后
对于SLP(superword level parallel)算法不能高效处理并行代码占有率较小的大型应用程序的问题,提出并评估了一种新型的基于改进的SLP算法的编译框架。它主要包括三个阶段:将代码中结构相似的异构语句通过改进的SLP算法尽可能地改为同构语句;用全局的观点,在优化目标代码之前获取其数据模型重用;联合数据布局优化进行进一步的性能提升。针对框架做了大量实验,实验结果表明该框架比SLP算
目前已有各种推荐算法来解决互联网的信息过载问题,其中物质扩散算法和热传导算法是近年来颇受关注的两种推荐算法。物质扩散算法虽然具有较高的准确率,但推荐结果集中在少数热门物品,缺乏多样性,而热传导算法虽然具有较好的多样性,但准确率又明显偏低。为了解决这对矛盾,提出了一个混合算法,新算法在相似性计算模型上融合了两种传统算法的优点,增加了一个调节参数来抑制系统对热门物品的过度推荐。实验结果表明,在一定的参