论文部分内容阅读
随着计算机技术的迅猛发展以及网络的普及,信息爆炸的时代已经到来,然而我们在享受网络带来的丰富信息及便捷生活的同时,也在忍受着信息轰炸的困扰。面对网络上丰富的无穷无尽的信息资料,人们如何从中获取有利信息,便成了当前研究的主要课题。目前,针对信息处理的研究主要处于理论研究阶段,有效的信息筛选系统并不成熟。因此,不同领域的研究人员、公司企业均迫切的要求一个能够针对不同需求的可以提供文本特征分析的文本计算系统。该系统主要根据调研的实际需求,在数据库中创建存储过程,为不同的用户创建独立的数据资料库,实现基于云平台的系统设计。该系统采用最大正向匹配算法对文本进行切词操作,提取TF特征、TF-IDF特征、信息熵、词频分布熵、文本分布熵、Pearson相关系数等特征值,并采用多特征值和功率谱图匹配的方法对文本特征进行分析与计算,相对于通过单特征值对文本进行分析,更加准确与直观。该系统采用B/S架构模式,使用SQL Server 2012数据库对数据进行存储,利用SSH开源框架进行系统开发,通过COM对象访问方式在Java中调用MATLAB,同时使用JFreeChart技术绘制功率谱图,并在在浏览器上显示。本文对系统需求进行了简单的分析,并根据软件开发的过程对系统进行了概要设计、详细设计等,最后对系统进行了简单的测试与维护。该系统综合了文本挖掘的多种算法实现了通过多特征值的计算实现文本相似性的判断、基于公有云和私有云的文本计算、功率谱图的分析绘制及匹配等都是该课题的创新之处。