基于改进LSA的文档聚类算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:liongliong418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于改进潜在语义分析MLSA(Modified Latent Semantic Analysis)的文档聚类算法.采用新的特征提取方法构建词-文档矩阵,利用潜在语义分析对词-文档矩阵进行奇异值分解以达到垃圾信息过滤的目的,同时使得向量空间模型中文本的高维表示变成在潜在语义空间中的低维表示,缩小了问题的规模.然后将共现数据对转换成概率统计模型来计算,提高了聚类质量.实验表明,本文提出的方法是有效的.
其他文献
石油管道监测参数之间呈现非线性、非高斯性的特性,导致传统石油管道检测技术存在误报率较高的现象.文章提出一种核独立分量分析(KICA)的石油管道泄漏检测方法.首先通过核方法
<正>在小学阶段的低段语文教学实践中朗读教学对帮助学生理解和掌握相关语文知识有着重要的作用。本文从小学生的学习视角对小学阶段的低段语文朗读教学进行分析,不但发现了
为扩大酸液在碳酸盐岩储层压裂裂缝中的波及范围及作用距离,实现酸液对裂缝中岩面的非均匀刻蚀,提高酸蚀导流能力,提出了碳酸盐岩多级交替酸压技术。在分析多级交替酸压机理
目前学术界在研究外部制度环境因素对会计稳健性与企业投资效率之间的互动关系时的考量并不充分.鉴于此,本文从金融市场发展水平、政府对市场的干预程度、法律环境与中介市场
城市商业银行在我国金融体系中占有重要地位。近年来,城市商业银行总资产年年突破新高,虽然目前来看在金融体系中所占的绝对份额仍然较低,但体现了强大的发展潜力和良好的发
目的探讨左氧氟沙星三联(左氧氟沙星、阿莫西林、奥美拉唑)与铋剂四联疗法(胶体果胶铋、四环素、甲硝唑、奥美拉唑)根除HP的近期临床疗效。方法经胃镜证实有活动性消化性溃疡
电子商务是互联网快速发展的产物,电子物流系统是其中一个重要环节和研究热点.本文主要通过分析物流系统中的采购决策问题,对于采购决策中存在的供应商选择和订单选择问题分
简要介绍了玉米胚芽的主要营养组成及安全指标,讨论了多不饱和脂肪酸、胚芽蛋白、植物甾醇、γ-氨基丁酸、谷胱甘肽、维生素E、膳食纤维等生物活性物质对人体的保健功效;综述
民国时期,随着民族工商业的全面发展,中国的西药业亦逐步兴起。中法药房在动荡时局下的艰难发展,正是民族工商业在那个时代曲折前行的缩影。
目的目的探讨物理热敷豆袋在孕、产妇中的应用效果。方法将研究对象分为A、B两组,A组(观察组,n=150)进入产程后的孕、产妇在助产士指导下采取不同体位时将加热豆袋放于相应部