基于多示例学习的中文文本表示及分类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:dawnsun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的广泛应用以及信息化建设的广泛开展,信息资源正爆炸性的增长,如何获得有效的信息成为关注的焦点。信息资源80%是以自然语言形式存在的文本。对文本的内容挖掘和标引将成为解决文本信息管理问题的关键手段。国内已经开展知识标引方面的研究,对文本内容挖掘技术提出了新要求。在文本中进行知识挖掘,比在结构化的数据记录中进行知识发现和数据挖掘更困难,需要将文本转化为已有算法能处理的形式,然而文本向量化表示有着固有的缺点。向量化表示几乎忽略了文本中的语义信息;长期关注数值空间使研究者过多的将精力集中在数学问题上,而对文本内容挖掘本身的研究相对较少。针对以上文本表示上的问题,本文以国家自然科学基金“企业(组织)知识管理中的若干基础科学问题研究”为依托,将文本语义表示、相似度计算以及文本信息管理中的文本分类作为研究内容,这些都以文本表示为基础,为此本文首先对已有文本表示模型进行了分析,并结合知识标引研究的成果,以句子作为单位切分文本,用语义相对完整,独立性强的句子作为文本表示的单位,解决字词在表示文本上的语义缺失问题;其次引入了多示例学习理论中多示例包的概念,将文本句子包表示予以理论化,并提出相应的句子相似度计算方法定义包距离,为句子包的应用奠定了基础;同时依据句子包的特点,对包内句子之间的关系进行研究,用句子关系图描述句子之间的关系,设计了文本主题句抽取方法并进行了可接受性测试;最后通过文本分类测试了文本句子包表示的可行性,取得了不差于向量空间模型的统计值。本文工作丰富了多示例学习研究,提出了新的文本表示方法,跳出了以字、词切分为基础的文本向量化表示;不依赖句子位置等加权信息抽取文本主题句,为文本内容挖掘提供了新的思路。
其他文献
对载人航天安全性评价时,需要处理两类不同的数据,即随机性数据和可能性数据本文根据载人航天过程,初步建立了功能的对象模型,在此了,基于模糊规划方法,将两类安全性数据进行了统一
对建筑升降机防坠保护装置进行研究与设计,研制出一种可靠性高、结构简单、安装方便、随机性强、适用范围广的坠落保护装置。
蛋卷是一种高糖度高脂肪的焙烤食品,包装材料的正确选择直接关系到蛋卷产品的货架期。以目前焙烤企业常规的包装材料包装蛋卷,研究在储存期内不同包装材料对蛋卷产品的影响。
T3级声门型喉癌的手术治疗,包括喉全切除术和保留喉功能手术两类,对有选择的T3级声门癌实施喉功能保全手术已被认为属于规范性治疗。我院1997年1月~2005年1月,对45例T3级声门癌患
文化交流是我国通过"一带一路"战略参与全球化进程的重要途径,文化的沟通与交流对于促进"一带一路"的发展意义重大。全面审视当前"一带一路"视阈下文化交流的现实困境,继而找
【正】 上了年纪的人都不会忘记旧社会那种恶性通货膨胀、物价飞涨的悲惨景象。在蒋介石统治旧中国的二十二年中,蒋、宋、孔、陈四大家族掠夺人民财富的主要手段是滥发纸币。
<正>行政事业单位往来款是行政事业单位在经济业务活动过程中与其他单位或本单位个人发生的临时性待结算的款项。往来款在会计账目中占有重要地位。管理好往来账,能避免单位
由观察数据计算李雅普诺夫指数谱,一个重要的方法是用多项式拟合系统内在的动力学映射,该法得到的结果精度高,但计算量很大。本文通过简化公式降低了计算中所用矩阵的阶数,有效地
现场总线自产生以来不过十几年时间,但其发展速度之快、应用领域之广令人惊叹。如何将现场总线这一新技术移植并应用于生产安全监测与控制领域。使生产安全监测与控制水平上一
重金属污染不仅威胁着自然环境的持续发展,也对人类健康提出了严峻的考验。其中,六价铬因为环境污染持续久,危害大,更是得到各国研究者的重视。各种吸附材料对于六价铬的移除