基于改进TF-IDF特征提取的文本分类模型研究

来源 :情报科学 | 被引量 : 0次 | 上传用户：whk213071596

【摘要】

：

【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-ID

【作者】

：

周源刘怀兰杜朋朋廖岭

【机构】

：

清华大学公共管理学院; 华中科技大学机械科学与工程学院;

【出处】

：

情报科学

【发表日期】

：

2017年05期

【关键词】

：

特征提取 TF-IDF 文本分类文本网络 Page Rank

【基金项目】

：

国家自然科学基金项目(91646102;L1624045;L1624041;L1524015;71203117);教育部人文社会科学项目(16JDGC011)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分类效果,验证了该方法能够有效提高文本特征词提取的准确度。

其他文献

路桥施工中防水路基路面的施工技术研究

随着社会的进步、经济的发展,我国道路桥梁工程的建设规模越来越大,为满足人们逐渐提高的出行需求奠定了良好的基础。文章对道桥施工中防水路基路面的施工要点进行了分析,探

期刊

路桥施工防水路基路面施工技术

逍遥丸合归脾丸治疗慢性疲劳综合征的临床观察

目的:用中成药逍遥丸合归脾丸治疗慢性疲劳综合征120例,观察其疗效。方法:口服逍遥丸和归脾丸,每次各10粒,每天3次,服用0.5~1.5个月。结果:总有效率达95.0%,且副作用极小。结

期刊

慢性疲劳综合征/中医药疗法逍遥丸归脾丸

基于改进TF-IDF特征提取的文本分类模型研究

其他学术论文