中文信息检索分类技术的研究

来源 :北京化工大学 | 被引量 : 3次 | 上传用户：k854642

【摘要】

：

随着科技的发展,我们步入了一个信息化的社会,其信息量呈几何级数增加,如何有效地进行信息检索分类,以满足人们对信息的需求。而现有待处理信息中以文本文档占据大多数,本文

【作者】

：

马志柔

【出处】

：

北京化工大学

【发表日期】

：

2005年01期

【关键词】

：

词频统计词频分布信息检索贝叶斯网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科技的发展,我们步入了一个信息化的社会,其信息量呈几何级数增加,如何有效地进行信息检索分类,以满足人们对信息的需求。而现有待处理信息中以文本文档占据大多数,本文主要研究文本文档的检索分类技术。词频统计是进行信息处理工作的基础,本文对词频统计方法尤其是多关键词的词频统计进行了研究,设计了一种有效的多关键词词频统计方法——利用检索树来词频统计。在该方法中,充分考虑了关键词之间的冗余信息,扫描一次文档就可统计出全部关键词词频信息,实现了多关键词的高效匹配。利用该方法还可间接地实现对中文文本的切分词处理,并能得到每个关键词相应的前缀信息。该方法比常用的BF方法、KMP方法及BM方法减少了重复开销。根据已有的词频统计结果,分析中文信息中的词频分布规律。齐普夫定律是英文的词频分布经验定律。实验结果表明中文信息也满足词频分布的经验公式,即高频部分满足Zipf定律,低频部分满足Booth定律。对常用的几种信息检索分类模型的原理和方法进行比较研究,包括布尔逻辑模型、向量空问模型及概率推理模型。通过实验比较分析

其他文献

不同抗生素致4次以黏膜损害为主的多形红斑型药疹1例

药疹是皮肤科常见病,抗生素是引起药疹最常见的一类药.现报告不同种类抗生素引起4次以黏膜损害为主的多形红斑型药疹1例.

期刊

药疹抗生素类/副作用黏膜/损伤

不同温度下放置时间对PT、APTT测定的影响

目前,我院用凝血酶原时间(prothrombin time,PT)、活化部分凝血活酶时间(activated partial thromboplastin time,APTT)以及血小板计数的检测来代替传统的出血时间测定(bleed

期刊

温度时间凝血酶原时间凝血酶时间PTAPTT测定

省人大常委会组成人员对省政府关于我省“六五”普法情况和“七五”普法规划情况的报告的审议意见

省十二届人大常委会第二十九次会议审议了省政府关于我省“六五”普法情况和“七五”普法规划情况的报告。常委会组成人员在审议中提出了如下意见和建议。$$开展并推进普法工

报纸

生态农业发展面临的问题和解决对策分析

随着社会经济的不断发展,人们对生态农业以及循环经济发展的重视程度逐渐加深,要求农业从事人员在发展农业的过程中能够注重生态环境保护,注重农业可持续发展,积极发展生态农

期刊

生态农业问题对策

国产吻合器在直肠癌直肠前切除术中的应用（附40例报告）

自1998年11月～1999年2月应用国产WGW-I型吻合器实施直肠癌直肠前切除术40例，现总结报告如下。1.资料与方法1.1临床资料：男性34例，女性16例；年龄30～71岁，中位年龄55岁。肿瘤下缘距肛

期刊

直肠癌直肠前切除术吻合器病例报告

腹膜后途径腹腔镜肾囊肿去顶减压术

治疗肾囊肿的方式目前有穿刺抽吸注入硬化剂,手术肾囊肿去顶术和腹腔镜肾囊肿去顶术等[1].我院近期对11例肾囊肿患者实施了腹膜后途径电视腹腔镜肾囊肿去顶减压术,现报告如下

期刊

腹膜后途径腹腔镜肾囊肿去顶减压术肾囊肿手术方法腹腔镜术

中文信息检索分类技术的研究

其他学术论文