基于风险决策的文本语义分类算法

来源 :计算机应用 | 被引量 : 5次 | 上传用户:newboard
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类多以空间向量模型为基础,采用层次分类树模型进行统计分析,该模型多数没有结合特征项语义信息,因此可能产生大量频繁语义模式,增加了分类路径。结合基本显露模式(e EP)在分类上的良好区分特性和基于最小期望风险代价的决策粗糙集模型,提出了一种阈值优化的文本语义分类算法TSCTO:在获取文档特征项频率分布表之后,首先利用粗糙集联合决策分布密度矩阵,计算最小阈值,提取满足一定阈值的高频词;然后结合语义分析与逆向文档频率方法获取基于语义类内文档频率的高频词;采用e EP分类方法获得最简模式;最后利
其他文献
针对无线传感器网络(WSN)簇头节点能效低、网络能量负载不均衡问题,提出一种传感器网络分簇时间跨度优化(CTSO)聚类算法。该算法首先在簇头选举方式上关注了簇内成员数量和簇头间
概述了等离子体方法在材料表面改性方面的应用原理、工艺特点和最新进展,特别综述了近年来脉冲高能量密度等离子体(PHEDP)在表面改性方面所取得了令人注目的成就,并给出部分典型
针对传统糖尿病视网膜病变(糖网)分级诊断系统中,由于数据集中缺少病灶区域的标记和类别分布的不平衡性导致无法有效地进行监督性分类的问题,提出基于代价敏感的半监督Bagging(CS-SemiBagging)的糖网分级方法。首先,从眼底图像上删除视网膜血管,并在此图像上检测疑似的红色病灶(微动脉瘤(MAs)与出血斑(HEMs));然后,从颜色、形状和纹理方面提取22维的特征用于描述每个病灶区域;其次,
针对由存储带宽和数据访问速度导致的复杂数据集绘制性能低下等问题,提出了一种基于贪心优化策略的三角形排布算法,通过对绘制数据集进行重排以改善数据的空间局部性和时间局
实验表明在以工业级药品为原料的化学镀镍工艺中应用微过滤或超过滤技术,可显著地改善镀层的耐蚀性,其效果可与以试剂级药品为原料的化学镀镍层媲美.