网络信息检索中的文本数据降维问题研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:chinesechinese123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对网络信息检索中的文本数据降维问题进行了研究。文章首先通过优化问题模型来建立文本数据降维问题的统一理论框架。提出:(1)特征提取是在连续解空间内对此优化问题框架的求解;(2)特征选择是在离散解空间对此优化问题框架的求解;(3)基于不同理论背景提出的方法本质区别就在于优化问题框架下目标函数的设计不同。为了支持我们的论点,本文逐一证明了现今文本处理领域常用的特征选择算法和传统的特征提取算法都是这个优化问题框架在不同解空间里面向不同目标时的特例。此外,本文利用这个统一的框架给出了一系列根据此框架设计新降维算法的途径。 网络文本数据的大尺度特点使得很多传统的降维算法由于高复杂度而无法计算。此外网络中的文本数据是动态的,即随着时间变化不断有新样本加入。这就要求降维算法必须可以计算大尺度数据,而且当新样本加入时或者算法可以动态更新降维投影方向,或者算法速度足够快以至于可以实时重新计算。从特征提取的角度,本文利用随机逼近理论提出两种全新的可以处理大尺度数据和动态更新投影方向的增量式算法:增量式极大边界准则与增量式正交型心准则。从特征选择的角度,利用我们提出的降维问题理论框架,我们通过在特征选择问题的离散解空间中优化特征提取问题的目标函数得到一种新的基于正交型心准则的特征选择算法。在计算结果更好的前提下,它的速度是文本处理领域最常用的两种特征选择算法的两倍。 通过本文提出的降维理论框架,我们提出了理论上具有重要指导意义的设计新的降维算法的新途径。实践上通过比较我们的新算法和传统算法可以得出以下结论:特征选择类算法由于复杂度低而更适合于信息检索系统中大尺度文本数据;特征提取类算法可以得到很高的数据压缩比;我们提出的新算法分别在时间开销、空间开销等多个方面超越很多传统的算法。
其他文献
本文在古典风险模型的基础上,建立了一类常利率影响下调整保费收取风险模型,通过对模型的分析和讨论,我们可以得到在此模型情况下确实能起到降低破产概率,降低道德风险和保险公司
本文主要介绍了独立成分分析(ICA)的基本原理,回顾了ICA问题传统算法,推导和比较了各种不同准则之间的差别和联系;针对混合信号个数多于源信号个数的ICA问题,给出了一个定理(定理
现代教育需要教师实现教育理念和课堂教学的改变,新课改下的高中英语教学,不仅强调学生语言知识、技能的掌握和综合语言运用能力的发展,而且强调在英语教学中尊重、理解学生,
期刊
本文主要讨论拟线性椭圆方程(公式略)的正解的存在性。其中λ是—个实值参数,1≤p<N,α(χ)是可以变号的实值连续函数。本文证明了在一定条件下,问题(Pλ)存在至少两个正解。  
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
符号模式矩阵主要研究其定性类中实矩阵的仅与其元素的符号结构有关而与其元素数值大小无关的组合性质,是由经济学家P.A.Samuelson为解决当时国际经济出现的问题而提出的经济
敏感性问题是指所调查的问题涉及到私人机密的问题,例如:司机是否酒后驾车,学生是否考试作弊,纳税人是否逃税等问题。随机化回答技术(RRT)的出现使得敏感性问题的研究有了一种可
课题组通过对农村学校自主学习调查发现,其状况不容乐观,主要问题是,教师对自主学习的理解偏差;学校对自主学习支持力度不够:学生自我监控能力薄弱.解决上述问题,农村学校要
随机排队网络模型是运筹学与管理科学中一种广泛存在的数学模型,很多运筹学与管理科学中的实际问题都可用随机排队网络模型进行科学的、精确的描述。Re-entrant line是一种特
新一轮课程改革以来,在农村初级中学语文教学中,有相当一部分学校或教师围绕中考指挥棒转,仍然存在考什么、教什么的问题,忽视了学生全面语文素养的培养,导致了学生考分不高,