论文部分内容阅读
摘要:社会的进步和科学技术的迅猛发展,各类研究成果以前所未有的高速度增长。拟采用稀疏表示模型,使用稀疏重建算法,通过重建实现对学者信息的采集。
关键词:信息采集;稀疏模型;重建算法;高效
1 引言
随着学术交流活动的日益活跃,研究人员通过图书出版的形式将研究过程中形成的对某一问题的总结性思想、某一领域取得的前沿成果等进行记录和传播。这些图书一般具有较高的学术水平和原创性,在某种程度上体现了作者的学术积累并以“学术著作”的名称为学术界所认同和使用,逐渐成为日益重要的学术文献,对这种承担重要功能和作用的学术文献进行数据采集和分析具有重要的意义。
社会的进步和科学技术的迅猛发展,各类研究成果以前所未有的高速度增长,直接导致了相关文献数量的急剧增长。仅以科技文献为例:据统计,全世界每年出版的图书有80万种以上。学术信息的爆炸式增长,研究人员和研究管理人员面临选择的难题,如何从浩如烟海的文献中获取最有效的信息资源无疑是一项严峻而重要的课题。
一方面,相对期刊论文而言,学术著作通常篇幅大、出版和使月周期长、电子化程度低。这些因素造成对学术著作数据的采集和分析都比较困难。另一方面,相对期刊论文而言,有关著者的基本信息包括姓名、所在单位、项目支持情况、学者类型等基本情况不能直接从著作本身准确获取。因此,如何有效获取学术著作的数据是亟待解决的问题。
本文多维度分析学术著作相关特征,创新性提出基于稀疏模型的采集方法,实现对学者信息、学术著作的匹配,建立稀疏模型,有选择地联动高校机构知识库(科研管理系统)的数据,从而实现对学术著作相关信息的采集和分析。
2 基于稀疏模型的学术著作信息采集模型
立足于信号本身就具有稀疏性或可压缩性的先验特性。Donoho[1],Candès [2]等提出信号采样和重建的理论—压缩感知。考虑到学者信息与学术著作的匹配问题的实际情况,即相对于著作信息,学者的信息--学者的姓名和单位具有稀疏性,因此提出将稀疏重建模型引入到学术著作信息采集,公式如(1)所示:
subject to (1)
其中待重建的为N个学者信息,表示为待重建的未知信号,那么可以通过求解一个最小平方的问题重建信号,即存在最优支撑集的索引和满足,其中是矩阵的第J列。通过最小化误差函数实现对学者信息的获取。
3 结果分析
采用待重建的信号维度是1024,对应数据库里有1024个学者信息,稀疏度K的范围为100至150,即有100至150名學者信息需要采集。仿真结果如表1所示,模型所使用的观测矩阵为满足约束等距性质的贝努利随机矩阵矩阵,在稀疏度范围的100至150的情况下,成功重建的概率为99%以上。
4 结语
随着通信和电子技术的飞速发展, 人类对信息量的需求与日俱增。与此对应的大量数据产生。如何有效提取和采集有用信息是亟待解决的问题,特别是各类研究成果如何有效与学者信息配对。考虑到信息本身的特点,从稀疏的角度出发解决问题是一个实用高效的方法。
参考文献
[1] Y. Tsaig, D.L. Donoho. Extensions of compressed sensing. Signal Processing.2006, 86(3): 533-548
[2] E. J. Candès, J. Romberg, and T. Tao. Robust uncertainty principles: Exact signal recognition from highly incomplete frequency information. IEEE Transactions on Information Theory.2006, 52(2): 489-509
[3]练秋生,陈书贞. 基于解析轮廓波变换的图像稀疏表示及其在压缩传感中的应用. 电子学报. 2010, 38(6): 1-6
[4]刘亚新,赵瑞珍.用于压缩感知信号重建的正则化自适应匹配追踪算法. 电子与信息学报. 2010,32(11):2713-2717
毕雪,助理研究员,项目资助编号:SCAA16B10,四川学术成果分析与应用研究中心,西华大学重点项目资助Z1520908,四川省教育厅资助项目17ZB0416,教育部春晖计划项目资助Z2017075
1西华大学电气与电子信息学院;2四川学术成果分析与应用研究中心
关键词:信息采集;稀疏模型;重建算法;高效
1 引言
随着学术交流活动的日益活跃,研究人员通过图书出版的形式将研究过程中形成的对某一问题的总结性思想、某一领域取得的前沿成果等进行记录和传播。这些图书一般具有较高的学术水平和原创性,在某种程度上体现了作者的学术积累并以“学术著作”的名称为学术界所认同和使用,逐渐成为日益重要的学术文献,对这种承担重要功能和作用的学术文献进行数据采集和分析具有重要的意义。
社会的进步和科学技术的迅猛发展,各类研究成果以前所未有的高速度增长,直接导致了相关文献数量的急剧增长。仅以科技文献为例:据统计,全世界每年出版的图书有80万种以上。学术信息的爆炸式增长,研究人员和研究管理人员面临选择的难题,如何从浩如烟海的文献中获取最有效的信息资源无疑是一项严峻而重要的课题。
一方面,相对期刊论文而言,学术著作通常篇幅大、出版和使月周期长、电子化程度低。这些因素造成对学术著作数据的采集和分析都比较困难。另一方面,相对期刊论文而言,有关著者的基本信息包括姓名、所在单位、项目支持情况、学者类型等基本情况不能直接从著作本身准确获取。因此,如何有效获取学术著作的数据是亟待解决的问题。
本文多维度分析学术著作相关特征,创新性提出基于稀疏模型的采集方法,实现对学者信息、学术著作的匹配,建立稀疏模型,有选择地联动高校机构知识库(科研管理系统)的数据,从而实现对学术著作相关信息的采集和分析。
2 基于稀疏模型的学术著作信息采集模型
立足于信号本身就具有稀疏性或可压缩性的先验特性。Donoho[1],Candès [2]等提出信号采样和重建的理论—压缩感知。考虑到学者信息与学术著作的匹配问题的实际情况,即相对于著作信息,学者的信息--学者的姓名和单位具有稀疏性,因此提出将稀疏重建模型引入到学术著作信息采集,公式如(1)所示:
subject to (1)
其中待重建的为N个学者信息,表示为待重建的未知信号,那么可以通过求解一个最小平方的问题重建信号,即存在最优支撑集的索引和满足,其中是矩阵的第J列。通过最小化误差函数实现对学者信息的获取。
3 结果分析
采用待重建的信号维度是1024,对应数据库里有1024个学者信息,稀疏度K的范围为100至150,即有100至150名學者信息需要采集。仿真结果如表1所示,模型所使用的观测矩阵为满足约束等距性质的贝努利随机矩阵矩阵,在稀疏度范围的100至150的情况下,成功重建的概率为99%以上。
4 结语
随着通信和电子技术的飞速发展, 人类对信息量的需求与日俱增。与此对应的大量数据产生。如何有效提取和采集有用信息是亟待解决的问题,特别是各类研究成果如何有效与学者信息配对。考虑到信息本身的特点,从稀疏的角度出发解决问题是一个实用高效的方法。
参考文献
[1] Y. Tsaig, D.L. Donoho. Extensions of compressed sensing. Signal Processing.2006, 86(3): 533-548
[2] E. J. Candès, J. Romberg, and T. Tao. Robust uncertainty principles: Exact signal recognition from highly incomplete frequency information. IEEE Transactions on Information Theory.2006, 52(2): 489-509
[3]练秋生,陈书贞. 基于解析轮廓波变换的图像稀疏表示及其在压缩传感中的应用. 电子学报. 2010, 38(6): 1-6
[4]刘亚新,赵瑞珍.用于压缩感知信号重建的正则化自适应匹配追踪算法. 电子与信息学报. 2010,32(11):2713-2717
毕雪,助理研究员,项目资助编号:SCAA16B10,四川学术成果分析与应用研究中心,西华大学重点项目资助Z1520908,四川省教育厅资助项目17ZB0416,教育部春晖计划项目资助Z2017075
1西华大学电气与电子信息学院;2四川学术成果分析与应用研究中心