基于关键短语的文本内容标引研究

来源 :北京语言大学 | 被引量 : 19次 | 上传用户:xiaoxu0911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,提高人们利用信息的效率,成为信息科学当前的一个重要课题。 良好的信息组织和资源表示是高质量信息检索的基石,文本内容标引,特别是其内部特征如类目和主题词的标引,是信息组织和资源表示的核心。本文利用特征提取方法,在大规模分类语料库中将具有较强特征表示功能的关键短语(Key Phrase)提取出来,并按主题聚类。在此基础上,完成了一个知识与统计相结合的文本分类和主题词标引系统,从而将文本内容以精练准确的形式标引出来,方便用户只须查看容量少信息量大的类目和主题词,即可快速把握文本内容, 围绕分类主题一体化,本文主要取得了以下研究成果: 1、提出并证明了关键短语比词更适合作为文本表示特征的观点。 关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的內容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,在较大程度上可以克服向量空间模型和贝叶斯假设的缺点,比词更适合作为文本表示的特征,有利于提高文本分类和关键词标引的效果。在约3万篇测试集上(共12个大类,217个小类),和以词为特征的相比,以关键短语为特征的文本分类的大类微平均提高了约3.1%,小类微平均提高了约15%(以体育中的层级小类为例)。 2、构建了一个超大规模、详细标注的层级分类语料库。 利用信息抽取的方法,从下载的网页中抽取得到语料库建库所需的内容信息,如标题、关键词、类别、时间、正文等。通过分析18家网站(15家主流报纸网站和3家门户网站)的栏目设置情况,建立了一个网页分类体系,体系最深为四级,类目总共229个。在此基础上,构建了一个超大规模的层级分类语料库,时间跨度为3年,共约60万个文件,约6亿字,并进行了段落级XML标注。该语料库字段信息丰富,分类系统实用,内容结构化,不仅是关键词抽取和词语聚类的知识来源,也是文本分类、主题词标引的大型训练(测试)集。 3、以关键短语为基础,构建了一个含32万词语的大词语表。 从上述语料库中抽取网页上专家已手工标引的关键词来获取关键短语(分类别抽取,共约22万条),与常用的词表(8万词条)相比较,关键短语的新词率约为78%(以科技类为例)。将关键短语(还有其它数字字母串等)和8万词条合在一起,最终形成一个含32万词条的大词语表。 4、利用物征提取方法进行词语聚类,构建了一个超大规模的领域知识库。 在上述语料库中,我们利用特征提取方法进行了词语的领域聚类,并以关键词为核心进行了扩展的词语聚类。考虑到领域词语包括领域通用词语(如体育类的“球、比赛”)和领域专类词语(如垒球中的“跑垒”),我们通过调节词频的影响结合领域通用词语和领域专类词语进行聚类。最终形成了229个分类词语表和11215个关键词聚类后的词语表,并训练得到32万词语的体现各词语区別领域能力的类别区别度,一起构成文本分类和关键词标引的领域知识库。
其他文献
目的:深入了解孤独症儿童家庭护理者信息需求状况,为精神科护士提供针对性的护理服务提供依据。方法采用质性研究的现象学理论方法,以面对面、深入访谈的方式收集12例孤独症
水电站在实际运行过程中能够实现电力调峰,但由于水电站的安全生产管理水平较低,导致出现很多安全隐患。为了提高水电站的安全管理水平及发电质量,文章以老挝南芒河1水电站为
在文物保护与文化旅游景区建设的过程中,文化遗产需要通过旅游这一方式来实现和发挥其价值,而旅游要将文化遗产作为它的资源和支撑。但是在对文旅景区进行开发和建设的同时,
21世纪以来,在国家和国际安全局势中传统与非传统安全问题交替上升,其中由民族、宗教、领土等问题引发的纷争和冲突呈上升趋势,宗教因素已成为21世纪影响国家和世界安全的一
唐太宗不但在政治方面开创了有名的贞观盛世,更是当时的文坛盟主,在文章方面亦颇多创新之举.他不但以实践者的身份在题材、内容、句式骈偶、用典等方面对六朝骈文旧习有所突
目的:通过了解肾上腺源性高血压患者术后血压控制护理干预的方法,研究该类患者术后血压控制护理干预的临床效果。方法对我院2012年1月~2013年1月收治的肾上腺源性高血压患者