论文部分内容阅读
随着大数据和互联网技术的发展,传统的方法已无法满足金融领域各方面用户的个性化、多样化、自动化的需求,亟需异构信息处理技术和数据挖掘技术从金融异构信息中获取有用的信息并进行处理。为了帮助金融用户进行投资,并向用户全面准确的展现金融证券的相关信息,需要从多元异构信息中获取金融证券的相关信息,并对其特征进行分析从而向用户提供有价值的投资建议。本课题围绕着用户感兴趣的相关问题,从用户感兴趣的金融特征出发,从异构信息中抽取出投资者感兴趣的特征,然后对特征进行分析建立多级模型,对相关数据进行预测,从而为金融证券投资者提供一定的策略和数据参考。本文研究的主要内容如下:基于规则本体自适应的PDF文档特征获取方法:包括对可转债上市公告书的信息抽取和新股上市公告书和招股说明书的信息获取。首先针对不同的PDF文档进行文档转换;然后根据不同的金融产品建立本体,从而建立相应的本体规则库;对相应特征的规则权重进行自适应调节,优先选择权重高的规则对新的PDF文档进行处理;通过模式匹配的方法对PDF中所包含的特征进行抽取。最后对抽取到的内容进行规范化,最终得到全面、准确的特征数据。多元异构信息的获取:本文中多元异构信息的获取包括金融实时数据的获取、PDF文档金融特征的获取,以及网页上PDF文档的获取和相关的历史数据的获取这三部分。通过分别使用Socket传输,模式匹配,正则表达式匹配的方法获取这三部分的数据,并分别使用本体知识验证、第三方验证、人工验证、交叉验证的方法对获取到的数据进行数据验证。金融数据的预测分析:通过建立多级模型对可转债的转股与封闭基金的净值进行预测。在第一级中根据可转债和封闭基金的特征运用趋势评估模型、SVR模型、神经网络(BP)模型三个模型进行金融特征预测;在第二级中将第一级中三个模型产生的结果通过神经网络将预测结果进行融合;第三级在第二级的基础上对神经网络进行优化,通过遗传算法选择合适的、最优的初始化权重和阈值,从而获得更优的预测结果。最后,通过上述的模型完成对可转债和封闭基金特征的更精确的预测,从而为用户投资提供一定的参考。