论文部分内容阅读
专利作为能迅速、全面反映科技创新成果的重要形式,对跟踪政府、市场、企业行为等具有指导意义,专利信息已成为不可或缺的情报信息源。因此,专利文献信息检索服务、专利信息统计分析及数据挖掘已经受到国内外越来越多的重视,意在从海量数据中收集有效专利信息,帮助了解企业或国家的技术地位、研发动向,识别技术领域和技术机会,从而提高专利预警能力,引导高效决策等。目前国内在专利分析方面主要提供专利信息分类、检索、管理、统计等服务,但仍存在分析前数据预处理弱、分析指标与分析方法不匹配、多维分析和数据挖掘深度不够等问题;而且使用的软件工具多针对单一专利库进行外部特征项统计分析,未能实现对异构数据源的数据结构操作,使得数据源融合度不高、可扩展性差。本文针对基于概念检索抽取到本地数据库的专利数据源,设计并实现了基于BI(Business Intelligence)的专利数据整合及分析方案,即结合本地专利数据源特征及现有专利分析方法,搭建面向KPI指标分析主题的数据仓库;专利数据从数据源加载到数据仓库的过程中,为由于专利数据源存储格式的不同导致的异构数据,以及系统因素或人为错误引起的“脏数据”设计相应的ETLfE\1raction._rramsformal,ion.Loading){l见则并执行包处理,即通过数据抽取、清洗、转换得到高质量、规范、纯净的专利数据,将其装载到数据仓库中,并实现维表和事实表的逻辑关联;对数据仓库中的专利数据建立多维立方体和多维数据模型进行联机分析处理和数据挖掘,完成基于KeI(Keyr PeV. Peformance Indicator)指标的专利信息分析,并通过E=vcel2007数据挖掘插件实现前端展示,呈现商业信息。本文的创新之处在于:第一,设计了基于数据仓库的商务智能技术方案框架应用于专利数据整合及分析研究领域,解决数据源异构、数据不规范、分析深度不够等问题;第二,利用sQL Server整合服务SSIS完成各类维表和事实表的ETL设计,通过执行包处理完成专利数据从业务数据源到数据仓库的装载工作,并实现了对维表和事实表数据发生变化时的跟踪处理;第三,在sQL SeiⅥr 2005。Analysis Setvices中以专利数据仓库为数据源,建立多维数据集模型,设置面向KPI指标的维度层次结构和维度关系,通过OLAP完成切片、切块、钻取、旋转等数据分析操作,并选择前端展现工具Excel 2007数据挖掘插件将分析结果以数据透视图的形式实现商业信息的呈现。