论文部分内容阅读
随着金融行业的迅猛发展,金融产品的网络知识服务平台越来越得到众多投资者的认可。以债券为例,网络中大量债券异构信息的存在,为构建自动化的债券知识服务平台提供了一定的数据来源。因此,本课题将研究金融产品异构信息的获取方法,以及对这些异构信息进行加工、处理,进一步完成信息的分类融合,并将最终整合的信息应用于债券知识服务平台当中。本课题研究的主要内容有以下几个方面:债券产品异构信息的获取方法:包括债券结构化数据和非结构化网页数据的获取、预处理;债券数据的来源包括固定金融网站和搜索引擎两部分,在搜索引擎部分本文提出了基于搜索引擎的特定领域检索结果评估模型RDMDRR,进一步提高了债券公告信息获取的准确性和全面性。债券产品异构信息的抽取:首先使用WHISK算法构建债券特征的本体规则库,然后利用本体规则自适应的方法对构建的规则进行剪枝操作,得到完善的本体规则库,并将其运用到债券实体信息的抽取中,为构建债券的知识服务提供数据来源。债券信息的分类及融合:针对债券的不同类别,分别采用了规则和机器学习的方法对债券进行分类。基于类别不均衡分布的特点,本文提出了一种新的特征权重方法,对原来的TFIDF进行了改进,并将其运用到不均衡分类当中,提高了少数类的识别率,准确的对债券信息进行归类整理,然后将其与其它债券信息进行融合,形成较完整的债券知识库。异构信息经过上述三个环节的处理、加工与融合,得到完整的债券知识,并将其整合到债券知识服务平台中。实验表明,构建的知识服务平台改变了传统的知识服务平台的知识扩充模式,知识获取的准确度和召回率在不同处理环节均得到了相应的提高,知识服务平台也得到债券投资用户的认可。