基于ε-KLD的文本分类方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:killsmagicer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于Kullback—Leibler Distance(KLD)的文本分类作为一种新的分类方法在对大规模文本和高维特征向量进行分类时表现出较高的分类精度,超出了基于相似度量的TFIDF方法。对KLD文本分类方法进行研究,利用信息增益方法进行特征提取,将预定义参数ε引入KLD公式得到基于ε-KLD的文本分类方法。结果表明该方法简化了类和文档的特征向量的计算,并取得了和KLD相当的分类精度,其总体性能超过了KLDA-法。
其他文献
提出了基于表格结构及列表结构的Web页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构
"业以才兴,业由才广。"习近平在十九大上就不断提高党的执政能力和领导水平作出重要指示:"大力发现储备年轻干部,注重在基层一线和困难艰苦的地方培养锻炼年轻干部,源源不断
了解用户的兴趣是电子商务网站实现个性化的基础,该文提出了一种分析用户兴趣度的新方法,该方法首先根据网站主索引页上的超链接将网站上的网页模糊分类,并通过对Web日志的统计,
目的探索近10年内射血分数保留的心衰(HFpEF)研究领域现状、热点及发展趋势。方法在Web of Science Core Collection数据库中收集2009~2019年间HFpEF研究领域的相关文献,采用
水准测量的准确度对于测绘工作来说十分重要,本文着重探讨测绘中水准测量的误差分析与控制。
教师职业声望是体现教师社会地位的重要指标。基于2010-2020年统计年鉴和调查数据,分析近十年社会公众对教师职业声望评价的变化特征。结果表明,公众对教师职业声望持较高评
基于极大似然法的参数估计实质上是一个复杂的非线性优化问题,传统的优化方法计算效率较低且容易陷入局部极值。该文将单纯形法与并行遗传算法相结合,提出了一种新的并行遗传算
随着公路建设规模的不断增大,针对修筑材料进行改进使其具有更好的稳定性和经济性,是我国公路建筑行业不断研究的课题。水泥稳定碎石基层材料被广泛地运用到高速公路建设中,
本文基于DEA模型,从投入、产出的角度出发,选取各省市农业用水量、工业用水量、生活用水量与生态用水量为投入指标,地区生产总值为产出指标,对环渤海地区包括北京、天津、河
丝绸之路经济带核心区建设迫切需要金融的全力支持,做好金融工作是推进核心区建设的重要保障。当前核心区建设面临一系列具体难题,特别是数量充足的高素质、国际型金融人才缺