面向JSON半结构化文档的聚类技术研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:aacpc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中半结构化文档占据了绝大部分数据,如何应对半结构化文档成为了企业界和学术关注的重点。JSON是一个典型的半结构化文档广泛应用于互联网中,然而JSON文档的聚类研究鲜有涉及。本文研究了 JSON半结构化文档的聚类技术,提出基于混合的K-Means的聚类算法改进,并将聚类模型应用于政府开放数据,最后实现了聚类系统。论文的主要内容有:首先介绍了半结构化文档的特点,定性和定量分析比较了 JSON和XML文档。然后给出了 JSON半结构化文档的文档向量表示,考虑了特征降维技术,提出了混合因子和路径层级的假设,最后给出了基于混合的K-means聚类算法改进。随后本文给出政府开放数据的背景以及数据集的相关信息,讨论了聚类质量评价指标,包括内部和外部质量指标,然后设计了聚类有效性评价实验和类别数目k的确定实验。本文实现了基于JSON半结构化文档的聚类系统,设计了系统流程图,进行了系统模块设计,包括数据获取模块、预处理模块、向量表示模块和聚类方法模块,然后提出了频繁权重和特异权重的概念用于系统效果可视化。本文的研究结论:(1)提出影响文档区分能力的两个因素:路径层级和混合因子,在实验部分得以验证。(2)通过实验证明,需要综合考察两者对聚类的效果影响,侧面上验证了单独考虑混合因子和路径层级是不够的。(3)在JSON半结构化文档聚类中,验证了 SC指标表现优于CHI指标。(4)开发并实现了面向JSON半结构化聚类的原型系统。(5)提出频繁权重和特异权重,从主题和模式两个角度展示JSON半结构化文档的内容和结构两个部分,在展示过程中使用了标签云技术,展示效果非常明显。
其他文献
本文介绍了CAXA三维实体设计软件在EBH315掘进机设计中的应用,以EBH315掘进机截割减速器为例,着重介绍了CAXA三维实体设计软件的零件建模和虚拟装配功能。
<正> 1942年10月,抗日战争进入关键时期,冀中军区政治部派我到军区的战斗部队工作。由于敌人的残酷扫荡,我们抗三团在突围中被敌人冲散,队伍一时不能集中起来,组织决定派我和
期刊
人类生存环境由于铁尾矿排放量逐年增大、废弃混凝土日益增多等一系列环境问题而遭受严重破害。为了解决这一问题,近年来已开始了对对废弃混凝土和铁尾矿循环再利用的研究。本文以铁尾矿砂取代天然砂、再生骨料取代天然骨料,研究了不同掺量铁尾矿砂在再生粗骨料取代率为30%时铁尾矿砂再生混凝土的力学性能及抗硫酸盐侵蚀性能。主要研究工作如下:(1)通过试验确定了掺加铁尾矿砂和再生骨料混凝土的配合比,随后制备了264个
目的探讨自体脂肪干细胞在面部软组织轮廓整形术中的应用效果。方法选取2014年1月至2015年1月在烧伤整形科接受面部软组织轮廓整形术的患者100例,采用自体脂肪干细胞分别注入
通过介绍高频电刀在临床使用中的注意事项,掌握其安全操作步骤,发挥使用效果,有效的保护医生和患者安全,避免和减少不必要的医疗事故的发生。
第一部分颞骨中内耳解剖变异的HRCT分析目的:通过高分辨率CT(HRCT)分析颞骨中内耳解剖变异的发生率,为耳科临床工作提供依据。方法:回顾性分析300例(560耳)颞骨的HRCT轴位像,
<正> 时适中国人民抗日战争胜利五十周年之际,我们拜访了道教界当年参加抗日斗争的曹信义道长。 早就风闻北京白云观有一位极富传奇色彩的老道长,特别是他那一手拿香、一手拿
垂直腔面发射激光器(Vertical Cavity Surface Emitting Laser,VCSEL),是最早在1977年由日本东京工业大学的伊贺建一教授提出的一种新型的半导体激光器结构,该结构主要由上反
目的:寻找一种微创矫正面部皱纹和凹陷的方法。方法:对常用小针刀进行改进,应用改进的针刀切断真皮与表情肌之间的纤维连接或将皮下组织与深层的粘连切断,对一些病人需将皱眉
目的医疗诊断和治疗中电离辐射应用增多,核能生产、太空活动增加,给人类带来巨大的利益与帮助。同时,人类对电离辐射暴露机会增多,可能对人类健康产生损害。机体的造血系统对