【摘 要】
:
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索
【基金项目】
:
国家自然科学基金资助项目(71271027);高等学校博士学科点专项科研基金资助项目(20120006110037);中央高校基本科研业务费专项资金资助项目(FRF-TP-10--006B)
论文部分内容阅读
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.
其他文献
随着中国经济不断发展以及我国WTO的加入,我国企业资产重组也逐渐成为一个热门话题。在国际兼并大潮下,我国资产重组也高潮迭起,一浪高过一浪。本文对资产重组给予了关注并进行
目的探讨一种采用正畸方法向牵引龈下牙根后再修复的方法。方法选择龈下牙折患者8名,共10颗患牙,断端最低处距牙槽嵴顶的距离为1.5~2.0mm。经完善的根管治疗4周后,采用正畸
作用距离是紫外成像探测系统的重要综合性能指标之一。依据AlGaN日盲紫外焦平面成像系统的成像原理,考虑到影响紫外系统作用距离的各个因素,分别对点目标和面目标的作用距离
近年来,随着社会的不断发展,能源消耗越来越严重,人们开始将注意力放在新能源方面,强调对新能源进行集约化开发和利用,压缩空气储能(CAES)越来越受到人们的青睐。为了有效提
;城市规划对城市化建设发展具有指导和决定性的作用,而建筑设计要以城市规划为前提,是城市建设发展的重要影响因素。随着城市化建设进程的不断加快,城市规划、景观建设以及城
以北大西洋涛动及南方涛动指数为外强迫因子,利用全局近似方法并考虑外强迫信息,尝试利用一个新的非平稳时间序列的预测方法,对鄂尔多斯地区降水、气温月平均时间序列进行预
本文对沉淀法白炭黑粒子进行表面改性,对其填充的聚丙烯酸酯乳液复合涂膜,聚甲基丙烯酸甲酯复合材料性能进行了研究,讨论了界面相容性以及界面强度对白炭黑填充聚合物复合材料性
今天,无论什么行业、无论何种体制的企业,无论是员工还是经理,都感受到市场竞争更加激烈,客户更加挑剔,企业更加难做。这是由于中国的市场状态发生了重大的变化,经过20余年的发展,从
本文对磷石膏两步法制备硫酸钾的工艺条件及其动力学进行了实验研究。 运用单因素分析法分别考察了磷石膏制备硫酸钾所涉及到的两步反应过程中影响氧化钙及氧化钾转化率的
光缆接续是光缆线路施工与维护中的重要组成部分,为减少全程损耗,在尽可能采用长距离光缆的同时,提高接续质量也至关重要。文章对在汕头供电局调度通信中心见习期间所进行的