基于统计的中文文本关键短语自动抽取方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zhangxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词抽取是文本信息处理的重要技术,是在进行文本自动摘要、文本自动分类、主题提取及专利检索分析等文本信息理解工作时,都要应用到的一项关键技术。关键词一要反映文本的主题内容,二要具有专指性。由于作者给定的关键词大多是由两个或者两个以上的词组成,本文也称为关键短语。本文以语言学、认知心理学、计算语言学等方面的理论为短语优势理据,提出基于左右邻信息的扩展的完整短语识别方法,并加以规则进行指导。本文将关键短语抽取建模为分类问题,即分词处理后产生的词是或不是关键短语分词所产生的词(本文称为候选关键词)。然后用决策树方法来解决这个分类的问题。从大量的科技文献中统计分析得出词频、首位置、词性、位置特征作为属性构建训练集,并用C4.5算法生成决策树抽取候选关键词。最后以识别出的短语为依据对候选关键词进行合并后处理,最终得到关键短语。实验证明此方法有效,获得了较好的性能。考虑到上述方法具有领域局限性和受训练语料规模限制,进一步利用复杂网络的特征值抽取关键短语。此方法将单个文档构建成一个语义复杂网络,将点度中心度与中间中心度结合,计算综合特征值提取关键短语,比单独使用网络特征值抽取关键短语的性能有较大提高。这种方法的难点在于网络连通性难以确保并且计算量大。针对网络连通性难以确保问题,本文提出复杂网络分离的概念,通过广度搜索算法实现网络的连通测试,实现网络分离并用实验数据证明复杂网络的分离不仅没有降低关键短语抽取的准确率,而且解决了网络连通性问题,并提高了抽取效率。针对计算量大的问题,通过网络核心-边缘分析,本文提出基于边界节点的中间中心度,将由考虑网络中所有点转变为只考虑边缘节点,大大减少特征值的计算量。实验证明此方法切实有效。对解决复杂网络抽取关键短语有一定的指导作用。
其他文献
随着信息技术的进步和计算机技术的广泛引用,互联网已经渗透至社会生活的各个角落,网络环境日益复杂,网路变得更加繁忙,互联网基础设施承受着更大的压力。但网络基础设施本身
BWDSP是一款采用分簇体系结构、支持SIMD的16发射的VLIW浮点运算数字信号处理器。由于其具有强大的并行处理能力,能够较好得满足实时信号处理的要求,被广泛应用于各种高性能
随着信息技术的飞速发展,人们越来越关注数据发布过程中的隐私保护问题。目前存在的大部分数据发布算法,在保护用户身份隐私的情况下,往往直接暴露原始敏感属性值信息。这样,
随着经济全球化不断发展,以枢纽为核心的轴辐式输运网络是整合输运资源、提高资源利用率、降低输运成本的有效网络结构,已成为现代输运网络结构发展的主流趋势。具有合并转发
随着高等教育的规模不断扩大,一些高校园区的网络日趋庞大和复杂,不少高校同时存在着教学网络、管理网络、生活网络等各不相关的独立网络,这种结构不但浪费资源增加了管理难
电力行业是关系到国民生计的重要行业,电力变压器是电力系统中重要的设备之一。变压器的稳定运行,需要运行人员对变压器运行机理有深刻理解并能熟练操作。而虚拟现实技术能够形象直观的显示变压器的内部运行状况,对及早发现和解除变压器潜在故障有很大帮助。本文提出的基于MAS的变压器运行虚拟现实系统,对变压器运行原理进行了仿真,采用Agent技术和虚拟现实技术,实现了变压器运行虚拟现实系统。并对变压器故障诊断,M
图像配准是一个非常热门的研究课题,在全景图像、遥感和图像检索等领域有广泛的应用。图像配准的目标是要改进图像之间匹配的准确程度。本文提出了两种基于几何约束的图像配
人脸表情识别技术是涉及情感计算、图像处理、机器视觉、运动跟踪、模式识别、生物特征识别、生理学、心理学等研究领域的一个极富挑战性的交叉课题,它是情感计算、人机智能
基于多机器人技术的地图构建方案由于其适应性强、安全高效、精确可靠等特点已经被视为地图构建问题的一个理想解决方案。在该方案中,节点间的协调和任务的分配是决定地图构
随着计算机网络技术的迅猛发展和广泛应用,特别是Internet的快速普及,促进了计算机与互联网科技的不断创新与升级。网络设施和资源对于国家、企业和个人的重要性日益增强,在