不均衡大数据集下的文本特征基因提取方法

来源 :电子科技大学学报 | 被引量 : 0次 | 上传用户:virtualboxscdl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能.该文提出了一种文本特征基因提取方法.首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法.实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算
其他文献
根据现代遗侍育种原理和新的营林技术,利用欧美杨不同无性系(品种)问遗传特性的差异,采用多品系混合造林技术,营造混交林,进行定向培育配套技术组装,提高林分的稳定性和生产力,增强林
使用TEMPO/STA法和Baird-Parker平板计数法对速冻食品、生鲜乳、肉制品、冷食菜和调味品5类共150组样品进行金黄色葡萄球菌加标实验,结果表明两种方法检测结果符合率高达94.67
景东县在1997年森林资源二类调查的基础上,通过计算机数据库建立档案,实施计算机管理.该管理系统包括小班库管理、检索查巡、报表统计、报表汇总、报表打印及其他共6项功能.
协同过滤作为当前应用最成功的推荐技术之一,其推荐质量在很大程度上取决于近邻用户选取的准确性,而数据的稀疏性问题(sparsity)和相似度度量方式(similarity metrics)严重影响着
在现代市政桥梁工程的建设中,后张法是一种比较常用的施工技术,目前其技术应用也比较成熟。但是由于桥梁跨径总长的增加,预应力超长束对张拉施工提出了更高的要求。因此施工
目的:研究海参对链脲佐菌素(STZ)诱导的糖尿病大鼠肾脏的保护作用,并探讨其作用机制。方法:采用一次性腹腔注射STZ的方法建立糖尿病大鼠模型,在长期高血糖环境下造成对肾脏的损伤