基于改进TF-IDF特征提取的文本分类模型研究

来源 :情报科学 | 被引量 : 0次 | 上传用户:whk213071596
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分类效果,验证了该方法能够有效提高文本特征词提取的准确度。
其他文献
随着社会的进步、经济的发展,我国道路桥梁工程的建设规模越来越大,为满足人们逐渐提高的出行需求奠定了良好的基础。文章对道桥施工中防水路基路面的施工要点进行了分析,探
目的:用中成药逍遥丸合归脾丸治疗慢性疲劳综合征120例,观察其疗效。方法:口服逍遥丸和归脾丸,每次各10粒,每天3次,服用0.5~1.5个月。结果:总有效率达95.0%,且副作用极小。结