【摘 要】
:
针对互联网舆情挖掘领域的特点,提出了一种基于向量空间模型VSM的文本聚类算法STCC(Similarity Threshold Control Clustering Based VSM)。该算法按照层次聚类从下至上凝聚
【机 构】
:
首都师范大学信息工程学院,北京理工大学图书馆
【基金项目】
:
国家自然科学基金项目(61373161);北京市属高等学校人才强教深化计划“中青年骨干人才”项目(PHR201008083)资助
论文部分内容阅读
针对互联网舆情挖掘领域的特点,提出了一种基于向量空间模型VSM的文本聚类算法STCC(Similarity Threshold Control Clustering Based VSM)。该算法按照层次聚类从下至上凝聚的策略,获取初始簇信息,然后根据Kmeans算法的思想以设置的聚类相似度阈值作为度量来合并簇。该算法结合层次聚类和K-means算法的优点,克服其缺点。与层次聚类相比,每一次聚类时不需要比较所有簇之间的相似度,降低了时间复杂度,提高了聚类的效率;与K-means算法相比,不需要确定K值,灵活性更高。通过实验表明,该算法聚类效果好,实用性高,适合大规模的文本聚类。
其他文献
教师惩戒权立法拥有较为坚实的外部保障条件,即立法拥有一定的政治与政策基础、经济基础、文化基础。从内在支持条件来看,教师惩戒权立法亦具备一定的伦理与法制基础、民意基
<正>目前,教师惩戒权已陷入了法律依据不够坚实、具体的操作性标准缺失、惩戒的监督与救济机制不健全等困境,并受到越来越多有识之士的关注。笔者以为,教师惩戒权跳离法律困
现如今,学习钢琴,再也不是什么奢侈、高不可攀的事情了。我们有着得天独厚的物质基础,丰富的学习资源与氛围,无论在硬件还是软件上,都有着相当高的水平,都为学习钢琴提供了十
目的探讨雌二醇体外诱导小鼠脾B淋巴细胞分泌表达白细胞介素(IL)-10的作用。方法利用磁珠分选技术分选纯化小鼠B细胞,雌二醇体外作用3 d后,收集细胞,分别利用ELISA、Q-PCR、
随着国内经济的快速发展,用电的需求也更大。如何增强电网的主设备安全性与可靠性,符合城市发展的用电要求,已经成为电力公司面临的关键问题。文中重点分析了变电设备的状态
<正>一是鲜明地提出作文教学应该循"序"渐进。洪先生认为,写作教学尽管定"序"难觅,但无"序"必乱,基本的规律和序列还是可以找寻的。他探索出一套比较完善、实用、令广大语文
铁路路网与运营的关系是铁路综合改革合案中的首要关键问题。本文在借鉴国内外大型网络型垄断企业改革经验的基础上,根据我国铁路"路网宜统"和"运营宜分"的发展趋势,提出了"
中医药学基础课程涉及中医理论、中药学和方剂学3个中医药专业学科的基础内容,是药学专业的一门必修课。在近三年的教学中运用PBL教学法与其他教学法相结合的模式,收到了良好
<正> 中国封建经济自西周至鸦片战争将近三千年,即使肯定西周为奴隶制,其支配时期也长达二千五百多年。西欧的典型封建制从第五世纪罗马帝国的崩溃开始到公元1500年欧洲多数
科学技术和计算机技术的迅速发展和提高推动了我国经济行业全面信息化建设发展进程,也使得现代人们的工作和生活也越来越离不开电力体系,这也在另一个程度上推动了现代电力行