基于多示例学习的中文文本表示及分类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：dawnsun

【摘要】

：

随着信息技术的广泛应用以及信息化建设的广泛开展,信息资源正爆炸性的增长,如何获得有效的信息成为关注的焦点。信息资源80%是以自然语言形式存在的文本。对文本的内容挖掘

【作者】

：

何维

【出处】

：

大连理工大学

【发表日期】

：

2009年期

【关键词】

：

多示例学习文本表示文本分类句子包主题句抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的广泛应用以及信息化建设的广泛开展,信息资源正爆炸性的增长,如何获得有效的信息成为关注的焦点。信息资源80%是以自然语言形式存在的文本。对文本的内容挖掘和标引将成为解决文本信息管理问题的关键手段。国内已经开展知识标引方面的研究,对文本内容挖掘技术提出了新要求。在文本中进行知识挖掘,比在结构化的数据记录中进行知识发现和数据挖掘更困难,需要将文本转化为已有算法能处理的形式,然而文本向量化表示有着固有的缺点。向量化表示几乎忽略了文本中的语义信息;长期关注数值空间使研究者过多的将精力集中在数学问题上,而对文本内容挖掘本身的研究相对较少。针对以上文本表示上的问题,本文以国家自然科学基金“企业(组织)知识管理中的若干基础科学问题研究”为依托,将文本语义表示、相似度计算以及文本信息管理中的文本分类作为研究内容,这些都以文本表示为基础,为此本文首先对已有文本表示模型进行了分析,并结合知识标引研究的成果,以句子作为单位切分文本,用语义相对完整,独立性强的句子作为文本表示的单位,解决字词在表示文本上的语义缺失问题;其次引入了多示例学习理论中多示例包的概念,将文本句子包表示予以理论化,并提出相应的句子相似度计算方法定义包距离,为句子包的应用奠定了基础;同时依据句子包的特点,对包内句子之间的关系进行研究,用句子关系图描述句子之间的关系,设计了文本主题句抽取方法并进行了可接受性测试;最后通过文本分类测试了文本句子包表示的可行性,取得了不差于向量空间模型的统计值。本文工作丰富了多示例学习研究,提出了新的文本表示方法,跳出了以字、词切分为基础的文本向量化表示;不依赖句子位置等加权信息抽取文本主题句,为文本内容挖掘提供了新的思路。

其他文献

不同包装材料对蛋卷品质的影响研究

蛋卷是一种高糖度高脂肪的焙烤食品,包装材料的正确选择直接关系到蛋卷产品的货架期。以目前焙烤企业常规的包装材料包装蛋卷,研究在储存期内不同包装材料对蛋卷产品的影响。

期刊

蛋卷包装材料储存期

T3级声门型喉癌喉功能保全手术的术后护理

T3级声门型喉癌的手术治疗，包括喉全切除术和保留喉功能手术两类，对有选择的T3级声门癌实施喉功能保全手术已被认为属于规范性治疗。我院1997年1月～2005年1月，对45例T3级声门癌患

期刊

喉癌会厌护理

“一带一路”战略下文化交流的实现路径研究

文化交流是我国通过"一带一路"战略参与全球化进程的重要途径,文化的沟通与交流对于促进"一带一路"的发展意义重大。全面审视当前"一带一路"视阈下文化交流的现实困境,继而找

期刊

“一带一路”文化交流实现路径

行政事业单位往来款存在的问题与管理

<正>行政事业单位往来款是行政事业单位在经济业务活动过程中与其他单位或本单位个人发生的临时性待结算的款项。往来款在会计账目中占有重要地位。管理好往来账,能避免单位

期刊

往来款事业单位往来款管理往来账户往来款项

Cr(Ⅵ)吸附剂研究进展

重金属污染不仅威胁着自然环境的持续发展,也对人类健康提出了严峻的考验。其中,六价铬因为环境污染持续久,危害大,更是得到各国研究者的重视。各种吸附材料对于六价铬的移除

期刊

吸附剂价铬吸附模型

基于多示例学习的中文文本表示及分类研究

其他学术论文