中国科技论文在线文献的数据预处理研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wangyaoxf520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要是针对中国科技论文在线文献的数据预处理工作,中国科技论文在线首发论文库存在将近4万条数据,面对海量的文献数据,对其进行数据挖掘,理解背后隐藏的关于所发表的论文文献以及作者的本质特征,发掘有价值的知识是必要的。然而对这些数据进行预处理,提高数据的质量,是这一目标实现的前提。论文通过对中国科技论文在线首发论文库的数据进行预处理可以为以后的数据挖掘提供高质量的数据。本文主要是对属性和属性取值的预处理,对属性的预处理主要是指属性的删除和属性的构造,对属性取值预处理主要是进行数据清理、变换、归约和离散化。数据清理是指对空缺值、不一致数据等进行处理,把原始数据变换成适合数据挖掘的形式,对数据进行数据归约从而减少数据挖掘时的数据量。文中还运用了聚类分析和主成分分析的方法,目的都是为其后的数据挖掘提供高质量的数据。本文通过对中国科技论文在线的原始数据进行预处理得到了适用于数据挖掘的数据,所得到的数据可以直接用于进行中国科技论文在线文献的数据挖掘。
其他文献
人类历史的长河已流了千年万年,每个人的生命在这条长河中只不过是一朵小小的浪花,稍纵即逝。然而,在每个人平凡或不平凡的一生中,生活给我们的思考却是无止境的悠长……狂风
废墟里,若住着仙子,那么废墟就是天堂;星辰里,若住着魔鬼,那么星辰就是地狱.rn心有明灯,即便是午夜,也能见到太阳.小酌一些温暖的故事,在悄无声息中照亮每一个潮湿的苍穹.心
“读一本好书,就是和许多高尚的人谈话。”这是一句名言。我最近读了一本书,书中有一篇叫《假如给我三天光明》的文章,得益不浅。这篇文章讲的是如何能使生命有意义。文中有
期刊
期刊
期中考试,我竟然考了个年级第6名,我可是从来没有考过这么好的成绩,不由得飘飘然了。一天,老师把我叫到办公室说:“你最近是不是有点骄傲了?怎么能骄傲呢?你没有听说过《骄傲
近读史书,知道春秋时宋国的正卿子罕崇尚廉洁,终生以不贪为宝。他在京城长官任内,有人以一块珍藏的玉相送,子罕说:“吾以不贪为宝,汝以玉为宝,若以与吾,皆丧宝也,不若各有所
有的同学写作时,对“吗、吧、呢、啦”等语气词很不注意,认为它们只是些不起眼的语气助词,没什么了不起的。这种想法是不对的。先举个例子。有一次,日本有一家出版社计划把老
编辑部的叔叔、阿姨:你们好!不知为什么,我总是看着自己的妈妈不顺眼。我妈妈是一位乡下妇女,整天蓬头垢面,不修边幅,心里好像只会想着她那几亩田。开家长会了,轮到她发言,也
2017年1月13日,新年伊始,第十八届中国国际食品和饮料展览会(SIAL China中食展)在冰城哈尔滨举办了2017 SIAL China中食展黑龙江新闻会,SIAL China中食展与中国国际贸易促进
说出你的烦恼吧,也许,当你说出来的时候,你的烦恼就已经减少了一半!我的E-mail:[email protected],欢迎你来做客。 Say your troubles, maybe, when you say it, your trou
期刊