中文信息检索分类技术的研究

来源 :北京化工大学 | 被引量 : 3次 | 上传用户:k854642
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,我们步入了一个信息化的社会,其信息量呈几何级数增加,如何有效地进行信息检索分类,以满足人们对信息的需求。而现有待处理信息中以文本文档占据大多数,本文主要研究文本文档的检索分类技术。 词频统计是进行信息处理工作的基础,本文对词频统计方法尤其是多关键词的词频统计进行了研究,设计了一种有效的多关键词词频统计方法——利用检索树来词频统计。在该方法中,充分考虑了关键词之间的冗余信息,扫描一次文档就可统计出全部关键词词频信息,实现了多关键词的高效匹配。利用该方法还可间接地实现对中文文本的切分词处理,并能得到每个关键词相应的前缀信息。该方法比常用的BF方法、KMP方法及BM方法减少了重复开销。 根据已有的词频统计结果,分析中文信息中的词频分布规律。齐普夫定律是英文的词频分布经验定律。实验结果表明中文信息也满足词频分布的经验公式,即高频部分满足Zipf定律,低频部分满足Booth定律。 对常用的几种信息检索分类模型的原理和方法进行比较研究,包括布尔逻辑模型、向量空问模型及概率推理模型。通过实验比较分析
其他文献
药疹是皮肤科常见病,抗生素是引起药疹最常见的一类药.现报告不同种类抗生素引起4次以黏膜损害为主的多形红斑型药疹1例.
香草酸受体(vanilloid receptor subtype 1,VR1)是离子通道中瞬时感受器电位(transient receptor potential,TRP)家族成员之一,它普遍存在于神经系统内,是一种非选择性阳离子
类风湿性关节炎(rheumatoid arthritis,RA)是一种最常见的慢性自身免疫性疾病.全世界大约有1%的人罹患此病.RA能引起关节的疼痛、僵直及肿胀.在发病2年内即可能出现不可逆的
目前,我院用凝血酶原时间(prothrombin time,PT)、活化部分凝血活酶时间(activated partial thromboplastin time,APTT)以及血小板计数的检测来代替传统的出血时间测定(bleed
蒲公英开花后,我们就可以看到一个个洁白的毛茸茸的小球。这些小球其实是许许多多带着“降落伞”的蒲公英种子。风刮起来的时候,蒲公英妈妈就会说:“孩子们,你们乘风去旅行吧!”
省十二届人大常委会第二十九次会议审议了省政府关于我省“六五”普法情况和“七五”普法规划情况的报告。常委会组成人员在审议中提出了如下意见和建议。$$开展并推进普法工
报纸
随着社会经济的不断发展,人们对生态农业以及循环经济发展的重视程度逐渐加深,要求农业从事人员在发展农业的过程中能够注重生态环境保护,注重农业可持续发展,积极发展生态农
自1998年11月~1999年2月应用国产WGW-I型吻合器实施直肠癌直肠前切除术40例,现总结报告如下。1.资料与方法1.1临床资料:男性34例,女性16例;年龄30~71岁,中位年龄55岁。肿瘤下缘距肛
治疗肾囊肿的方式目前有穿刺抽吸注入硬化剂,手术肾囊肿去顶术和腹腔镜肾囊肿去顶术等[1].我院近期对11例肾囊肿患者实施了腹膜后途径电视腹腔镜肾囊肿去顶减压术,现报告如下