基于文本信息的PDF文档管理系统设计与实现

来源 :燕山大学学报 | 被引量 : 0次 | 上传用户:malsway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化应用程度不断提高,企业中越来越多的文本信息被存储在PDF文档中,PDF文档的数量也随之变大,为了帮助用户尽快找到需求的文本信息,并建立企业知识共享平台,本文设计了一种基于文本信息的PDF文档管理系统。首先,针对PDF文档文本信息利用率不足的问题,研究了基于Stream流的PDF文档解析方案,该方案可以用于PDF文档检索模块来进行PDF文本内容解析;其次,针对TF-IDF算法的天然缺陷,从词频、文本长度和关键词位置进行改进,进而计算得到关键词的权重值,再通过空间向量模型计算PDF文档的相似度,按照
其他文献
卵巢癌是严重威胁女性生殖健康的肿瘤之一,死亡率居各类妇科肿瘤的首位。上皮性癌是卵巢癌中最常见的病理类型,近年来虽然手术及放化疗技术不断提高,但75%~80%晚期患者在治疗
1991年4月26日,美国会计学家威康·A·佩顿(William.A.Paton)去世,享年102岁。佩顿1889年7月19日出生于美国密执安州,22岁考入密执安大学,28岁获经济学博士学位,他的
本文就项目教学法在地方高校闽南民间舞蹈创编教学中的运用,提出在闽南民间舞蹈的创编教学中实施项目教学法,以中国本原哲学和现代教育理论为基础,以探究符合本民族艺术价值
以淀粉(strach)为原料,3-氯-2-羟丙基三甲基氯化铵(CHPTMAC)在碱性条件下进行醚化改性制备阳离子淀粉絮凝剂(MSF),采用正交单因素实验对反应条件进行优化。用环境扫描电子显
介绍了科学史的概念和价值。目前,许多中学生物学教师在教学中都利用了生物科学史,但目标仍是落实知识。挖掘生物科学史的人文精神,以其为依托点,从具体的事例中阐释科学家的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
研究同时利用非编码区和编码区微卫星标记(G-SSR和EST-SSR)分析黑龙江、长江、奉化江及淮河水系共6个野生鲫(Carassius auratus)群体的遗传多样性及遗传结构,并比较2类不同来
当今社会科学技术飞速发展,各所大学都在扩大招生规模,随各高校的学生招生量大量增加,但是人文素质方面的表现却不尽乐观,甚至可以说是缺乏.因此,分析大学生人文素质的培养的
目的研究探讨契约学习法及其在临床护理教学中的应用效果。方法教学对比实验法。结果观察组与对照组在理论、操作考试成绩、综合评价和满意度方面均有显著差异(p<0.01)。结论
随着电力市场改革的不断深入和信息化技术的不断发展,如何提高发电企业的管理效率和市场竞争力已经成为亟待解决的问题。正是基于此目的,本文研究探讨了一套适用于发电企业的