论文部分内容阅读
随着XBRL技术应用的不断深入,在商业活动中积累了基数可观的各类XBRL业务数据,其数量正以较大规模快速增长。同时,与这些XBRL数据在业务上相互关联的海量结构化数据也在不断的膨胀。因此海量半结构化的XBRL数据资源,与结构化数据资源以及其它非结构化数据资源之间的共享,是各国面临的共性问题。 本文针对XBRL数据交换云及其关键技术展开相关研究,主要工作包括: (1)建立了XBRL数据交换云的整体架构 本文围绕XBRL数据交换的目标、涉众的需要以及XBRL数据交换的核心业务,建立了XBRL数据交换云的需求模型;借鉴Amazon EC2弹性云的原理,以基本需求为主要依据,从XBRL数据的可管理性、可大规模处理以及系统的可靠性、可用性等角度,建立了XBRL数据交换云的总体架构,该架构具备统一数据资源服务、云存储和分布式处理等重要技术特征,是一个可伸缩的开放式体系结构。 (2)提出了XBRL分类标准快速解析算法和扩展分类标准动态缓存算法 从定性和定量两方面对于五种典型模型处理XBRL数据进行了比较分析。在此基础上,针对XBRL分类标准快速处理的问题,提出了基于动态散列法和映射机制的XBRL分类标准快速解析算法;针对XBRL财务报告快速处理的问题,结合动态散列法和面向对象程序设计中多态的理论提出了XBRL扩展分类标准动态缓存算法。实验分析表明,XBRL分类标准快速解析算法的平均性能比挂接式方法高近乎8倍;在批量解析中小企业的XBRL财务报告时,XBRL扩展分类标准动态缓存算法可比基于Xpath的方法节省70%左右的处理时间。 (3)提出了基于Map/Reduce的XBRL数据并行处理算法 针对大规模XBRL财务报告处理中,集中式XBRL数据处理算法通常不能满足实际需求的问题,本文从XBRL维度数据处理的角度研究大规模半结构化的XBRL数据处理技术,提出了一种基于Map/Reduce并行编程模型的XBRL维度数据处理算法,通过对不同行业实际的年度XBRL财务报告处理,验证了算法的性能。实验表明,在使用同类型PC的情况下,在集群节点数量(非物理机器的数量)大于10,需要处理的XBRL财务报告数量大于300时,基于Map/Reduce的XBRL维度解析算法的加速比大于5.06,并且这种以向外扩展替代向上扩展的方式能显著降低XBRL数据处理的成本。 (4)实现了XBRL数据交换云原型 采用用例驱动,以迭代过程为基本的方法论,以构架设计为中心,依据Brewer(CAP)定理和BASE原理,重点考量可扩展性因素,遵从以向外扩展方式代替向上扩展方式的基本原则,本文实现了XBRL数据交换云原型,其工作主要集中在IaaS、PaaS和集群故障处理的设计和实现以及主要的应用程序和算法的开发。在XBRL数据交换云原型实现工作之后,文中又分别从IaaS和PaaS两个方面给出了XBRL数据交换云原型的展示与验证。 综上所述,本文通过对XBRL数据交换云及其关键技术的研究,为企业和各监管机构提供全局数据视图和统一数据资源服务,为XBRL数据资源的共享及XBRL技术的进一步深入应用提供了技术支撑,可较好地解决结构化与半结构化财务数据的存储、交换、处理等各国面临的共性问题。