现代信息检索中的文本分类及图像恢复研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:xcumuhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化的飞速发展使各种信息呈现爆炸式增长,这给人们的工作、学习和生活提供了极大便利,但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出来,人们陷于信息提取的泥潭中,快速有效的信息检索技术成为了唯一的解决方案。信息检索主要包含两个部分:按照科学的体系结构对信息进行归类和获取用户真实意图,反馈给用户所需的信息。前者是提高效率的关键,本文的研究则集中于信息归类,围绕中文文本分词、特征选择和分类方法以及图像检索中的模糊图像恢复等关键技术展开探索。研究过程使用了理论分析和计算机实验验证两种主要方法。以理论分析确定实验目的,指导实验方法;以实验数据支持理论分析,推动更深入的理论分析。 本文首先介绍了信息检索的发展现状,结合本论文的主要研究内容论述了信息检索中的关键技术,对本论文的内容安排和主要创新作了说明。而后,从总体上介绍了自动文本分类系统的组成结构和功能,为后面的研究打下了基础。本论文所作的创新主要包括以下几个部分: 现有机械分词方法准确率偏低,对后续特征选择和分类造成了破坏,影响了文本分类精度;非机械分词法虽然有较好的分词精度,但是时间和/或空间复杂度较高,不易实现。针对上述问题,本文提出了一种对最大匹配法进行改进得到的预测最大匹配分词方法。预测最大匹配法通过对长词出现可能性和起始位置进行预测,使分词过程更符合长词优先准则。通过对新方法分词性能和时间复杂度的分析,证明了该方法以较小的复杂度增加为代价明显提高了分词准确性,接近全局最大匹配的性能。 以词为特征表示中文文本时特征维数较高,需要剔除对分类贡献小的特征。现有特征选择方法基于词与词之间相互独立的假设,属于标量特征选择。实际上词与词之间存在很强的的相关性,本文提出了基于期望交叉熵的向量特征选择方法,兼顾了词与类别及词与词之间的相关性。本文还研究了使用K-L变换和奇异值分解特征生成的方法。实验证明在
其他文献
地理信息的数字化是建立地理信息系统(GIS)的重要环节,工作量占整个系统开发的三分之二以上。地理信息系统中数据的获取仍是影响其发展的瓶颈。彩色地图要素的自动识别与获取
服务发现是服务框架下把服务请求者和服务提供者连接起来的重要环节。本文在分析了现有服务发现机制的基础上提出了按照服务发现机构服务的服务请求者和服务提供者的数目对服
金融衍生工具的产生在于交易双方对某一原生金融工具的价格变化具有不同的预期,其收益具有一定的不确定性。笔者通过具体事例运用类比法介绍金融衍生工具的账务处理。
推理剧是在国内外都比较流行的一个电视剧类型,在美国,《犯罪现场调查》、《别对我撒谎》、《犯罪心理》等剧集持续热播,而在我国,推理剧虽然还没有发展成一个非常成熟的电视
形式验证是提高软件可靠性的有效手段。为了控制形式验证特别是模型检验和精化检验的复杂性,研究人员提出了组合方法,其基水思想是“分而治之”,即把大的、系统整体的验证任
随着信息技术的发展,CAD/CAM系统逐渐向着分布式和协同的方向迈进,以满足快速增长的全球化协同设计与制造的需求。协同CAD/CAM系统是多人、多机、多任务环境的集成体系,它使
高技术战争既有别于核战争,又有别于常规战争.其鲜明的特点是武器装备呈技术密集型,作战系统呈整体性,战争进程呈速决性.战场上所使用的主要兵器,不仅包含着各种新颖的科学知
每年5月20日为"中国学生营养日".设立"中国学生营养日"旨在学生中开展营养教育工作,倡导合理营养、平衡膳食,对于普及营养知识,预防营养不良和营养过剩的发生有很大的促进作