基于web文献的数据挖掘研究应用

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:xunitt1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高等教育的大众化,高校人数由过去的几十万上升到几百万,国家也会提供大量的资金资助大量科研项目,每年都会有数以万计的文献产生。由于Web文献的大量累积,人们很难从海量的文献数据中寻找到有用的信息,也就起不到提高工作效率的作用。本文的主要目的就是利用数据挖掘技术从大量的文献数据中找到有用的信息,以便进一步的指导工作。为了选择适合大量文献数据的数据挖掘算法,本文首先对数据挖掘的理论知识做了简要的介绍,给出了文本相似度计算的一般流程和公式,对几种聚类算法进了分析比较,发现一些不足的地方。根据聚类效果的评估原则和增量聚类算法的思想,设计了一个基于内聚度的增量聚类算法,弥补了上面几种算法的不足,然后通过相关实验对该聚类算法的参数进行了优选。查阅相关文献和分析PaperPass软件的检测结果,得出了一个计算文献相似度的计算方法,以便对文献抄袭现象进行检查。根据采用空间向量计算文本相似度的方式,改进了计算相似度的算法。为了获取大量的Web文献数据,本文研究了爬虫的相关知识,设计并实现了一个文献聚集爬虫。本文为了应用上面的算法和为用户提供可操作的平台,设计了一个基于Web文献的数据挖掘系统。本文对该系统的目标和特点进行了分析,选择了相关的技术路线,完成了系统架构、功能及主要模块的划分与设计,设计了系统数据库。最后,给出了系统的运行部署方法和相关功能的演示。
其他文献
为解决柴达木换流站换流变阀侧末屏电压测量装置频繁故障、换流变阀侧套管监视及阀侧电压波形畸变问题.本文分析了换流变阀侧电压通道监视逻辑,中性点偏移保护报警逻辑、动作
论文建立了一种新的心理咨询方法一信息平衡心理疗法的理论体系,包括问题形成与问题解决理论。   首先,提出了心理问题形成的理论假设。认为人的某些心理问题是由非适应性
户外活动对幼儿身心发展具有重要的价值,国内外的相关研究也证明了户外活动对幼儿发展的重要性。户外给幼儿提供了更广阔、自由的空间,让他们可以亲近自然,体验快乐的同时,还可以
大学生社会实践是高校对学生进行素质教育,培养学生实践能力、创新能力、综合素养最重要最基本的途径之一,也是加快大学生社会化的重要途径之一。它不仅能够为高校和社会带来
石油化工机械中成功的引入机电一体化技术,可以有效提升石油化工生产的自动化程度,不断研究和开发控制技术和机械生产技术,适应石油化工生产的技术要求.将机电一体化技术措施
美国科技博客Venture Beat近日撰文,对2017年的人工智能行业发展进行了预测。 Venture Beat, a U.S. tech blog, recently wrote a forecast for the 2017 artificial intel
随着市场经济的飞速发展,电气技术也取得了极大的进步,尤其是电气工程和自动化技术的发展逐渐受到了人们的关注.电气工程的自动化是推进我国经济发展的原动力,但是,在其应用
采用历史水文资料,在当前丰枯电价条件下,运用动态规划理论,分析归纳五强溪水库汛前库水位控制规律,提出了五强溪水库汛前消落方式及产生的效益。研究成果对五强溪水库今后实
本文通过对荣华二采区10
文言文默写是高考的必考题型,但是高中文言文篇幅较长,内容较复杂,学生背诵时比较困难,对此从朗读、理解、欣赏和化整为零等方面提出几点建议。 However, the length of the
期刊