现代信息检索中的文本分类及图像恢复研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户：xcumuhe

【摘要】

：

信息化的飞速发展使各种信息呈现爆炸式增长，这给人们的工作、学习和生活提供了极大便利，但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出来，人

【作者】

：

刘涛

【出处】

：

北京邮电大学

【发表日期】

：

2006年01期

【关键词】

：

信息检索文本分类分词特征选择图像检索图像预处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息化的飞速发展使各种信息呈现爆炸式增长，这给人们的工作、学习和生活提供了极大便利，但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出来，人们陷于信息提取的泥潭中，快速有效的信息检索技术成为了唯一的解决方案。信息检索主要包含两个部分：按照科学的体系结构对信息进行归类和获取用户真实意图，反馈给用户所需的信息。前者是提高效率的关键，本文的研究则集中于信息归类，围绕中文文本分词、特征选择和分类方法以及图像检索中的模糊图像恢复等关键技术展开探索。研究过程使用了理论分析和计算机实验验证两种主要方法。以理论分析确定实验目的，指导实验方法；以实验数据支持理论分析，推动更深入的理论分析。本文首先介绍了信息检索的发展现状，结合本论文的主要研究内容论述了信息检索中的关键技术，对本论文的内容安排和主要创新作了说明。而后，从总体上介绍了自动文本分类系统的组成结构和功能，为后面的研究打下了基础。本论文所作的创新主要包括以下几个部分：现有机械分词方法准确率偏低，对后续特征选择和分类造成了破坏，影响了文本分类精度；非机械分词法虽然有较好的分词精度，但是时间和／或空间复杂度较高，不易实现。针对上述问题，本文提出了一种对最大匹配法进行改进得到的预测最大匹配分词方法。预测最大匹配法通过对长词出现可能性和起始位置进行预测，使分词过程更符合长词优先准则。通过对新方法分词性能和时间复杂度的分析，证明了该方法以较小的复杂度增加为代价明显提高了分词准确性，接近全局最大匹配的性能。以词为特征表示中文文本时特征维数较高，需要剔除对分类贡献小的特征。现有特征选择方法基于词与词之间相互独立的假设，属于标量特征选择。实际上词与词之间存在很强的的相关性，本文提出了基于期望交叉熵的向量特征选择方法，兼顾了词与类别及词与词之间的相关性。本文还研究了使用K-L变换和奇异值分解特征生成的方法。实验证明在

其他文献

彩色地形图要素的自动识别与获取研究

地理信息的数字化是建立地理信息系统(GIS)的重要环节，工作量占整个系统开发的三分之二以上。地理信息系统中数据的获取仍是影响其发展的瓶颈。彩色地图要素的自动识别与获取

学位

地理信息系统地形图颜色分割矢量化等高线道路水系

服务发现机制研究

服务发现是服务框架下把服务请求者和服务提供者连接起来的重要环节。本文在分析了现有服务发现机制的基础上提出了按照服务发现机构服务的服务请求者和服务提供者的数目对服

学位

服务发现UDDI WS-Inspection服务标注可替换服务映射

运用“类比法”掌握金融衍生工具账务处理

金融衍生工具的产生在于交易双方对某一原生金融工具的价格变化具有不同的预期，其收益具有一定的不确定性。笔者通过具体事例运用类比法介绍金融衍生工具的账务处理。

期刊

衍生工具看涨期权看跌期权

内地与香港推理剧比较分析——以《少年包青天1》与《读心专家》为例

推理剧是在国内外都比较流行的一个电视剧类型,在美国,《犯罪现场调查》、《别对我撒谎》、《犯罪心理》等剧集持续热播,而在我国,推理剧虽然还没有发展成一个非常成熟的电视

期刊

推理剧悬念视听艺术

基于接口自动机的组合验证方法研究

形式验证是提高软件可靠性的有效手段。为了控制形式验证特别是模型检验和精化检验的复杂性,研究人员提出了组合方法,其基水思想是“分而治之”,即把大的、系统整体的验证任

学位

形式验证组合验证模型检验精化检验接口自动机体系结构描述语言

同步协同CAD/CAM系统及其关键技术研究

随着信息技术的发展,CAD/CAM系统逐渐向着分布式和协同的方向迈进,以满足快速增长的全球化协同设计与制造的需求。协同CAD/CAM系统是多人、多机、多任务环境的集成体系,它使

学位

协同CAD/CAM几何建模会话通信数据交换负载均衡网络安全

未来高技术战争之高

高技术战争既有别于核战争,又有别于常规战争.其鲜明的特点是武器装备呈技术密集型,作战系统呈整体性,战争进程呈速决性.战场上所使用的主要兵器,不仅包含着各种新颖的科学知

期刊

高技术战争军事武器装备电子对抗指挥自动化

5月20日“中国学生营养日”

每年5月20日为"中国学生营养日".设立"中国学生营养日"旨在学生中开展营养教育工作,倡导合理营养、平衡膳食,对于普及营养知识,预防营养不良和营养过剩的发生有很大的促进作

期刊

学生营养中国教育工作合理营养平衡膳食营养知识营养过剩营养不良

现代信息检索中的文本分类及图像恢复研究

其他学术论文