中文多文档自动文摘中若干重要技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ssfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的重点是中文多文档自动文摘中的几个重要问题:主题的自动提取、文摘句的选取、系统的自动评价.具体地讲,本文从如下几个方面进行了研究:一、为了产生通用的文摘,首先需要准确地提取出主题,以便选择和主题相关度较高的文摘句.本文从统计和语义处理相结合的角度入手,来提取多文档的主题词,以解决同一概念不同用词同时作为主题词的问题,提高主题词提取的准确率.二、文摘句的选取是产生高质量文摘的一个重要因素.本文提出了基于句子语义相似度的最大边缘相关技术来选择文摘句,保证选取进入文摘的句子和主题的相关度较高,同时和已选文摘句之间的冗余度较低,从而达到选择最佳文摘句,扩大信息覆盖面,提高文摘质量的目的.三、好的评价方法可以发现文摘系统存在的问题,促进文摘系统性能的提高.为了克服人工评测的缺点,我们从"理想文摘"的要求出发,制定评测参数来检验文摘系统的性能优劣,并与人工主观评测相比较,实验结果表明该方法具有一定的实用性.
其他文献
随着软件复用成为现代软件工程的重要目标,人们希望使用更高效的软件设计和开发方法,降低开发费用,提高生产效率。软件构件技术的蓬勃兴起揭开了软件开发从作坊式生产向工业
  本文对如何提高基于J2ME的无线应用的安全性从运行在移动终端的MIDP(MobileInformationDeviceProfile)的安全性以及客户端J2ME与服务器端J2EE集成联合搭建移动应用时的
本文重点是研究中间件在Dot Net系统中的应用.在研究过程中我实现了一个印刷管理信息系统.印刷行业在生产及财务方面有着复杂的流程,模块多、表多、功能复杂是此类系统的特点
本文主要研究了未知环境下的多机器人追捕问题。文章首先综述了追捕问题的国内外研究情况,介绍了基于行为的机器人控制结构的一般概念。接着,对本文要研究的追捕问题进行了
本文主要研究了如何调度离线或在线情况下的任意一个请求集合,使得总调度时间最少。本文研究了对称全光树形网络上的MADM问题。本文还可以保证所需要的波长数达到贪心最优
本文围绕着基于激光测距器的移动机器人在室内环境中的障碍物检测及环境地图生成两个问题进行了深入研究.首先,本文系统地总结了移动机器人障碍检测和环境地图生成的基本理论
本文针对指纹鉴别技术的特点,对如何提高指纹鉴别速度进行了分析和研究。在指纹预处理和特征提取的过程中,本文对常用的开方、正弦、余弦函数进行分析,利用分段直线对其进行
本论文通过对大连大学图书馆网络系统现状的分析,以理论结合实际,本着先进性、实用性、充分利用现有资源的原则,确定了系统建设的具体目标并按步骤进行实施。在结构化综合布线改
随着半导体加工工艺的发展,在一块芯片上可以集成上十亿个晶体管.如今,各种各样的功能模块(例如CPU、内存、模拟模块等)都可以集成进一个芯片形成所谓的片上系统(SOC).这在以
本文在Friedman等人提出的一种寻找最优变量序的算法的基础上将广泛应用于人工智能的A*搜索算法引入到最优变量排序方法中,提出了一种寻找变量最优排序的新方法。该算法利用人