【摘 要】
:
网络百科信息抽取对于大规模知识库的构建具有重要的意义。属性抽取是信息抽取的一种,属性抽取的两个关键问题是:属性名称的抽取和属性值的抽取。本文提出了基于关联规则挖掘的属性名称抽取方法,该方法将属性值看作命名实体,对同类别百科条目进行频繁模式的挖掘,通过分析频繁模式中词语与命名实体之间的关联关系,找出属性描述关键词并生成属性名称。本文对多个类别中文百科条目进行属性名称抽取实验,实验结果表明了该方法的可
【机 构】
:
School of Information and Science Technology,Southwest Jiaotong University,Chengdu 610031,China
论文部分内容阅读
网络百科信息抽取对于大规模知识库的构建具有重要的意义。属性抽取是信息抽取的一种,属性抽取的两个关键问题是:属性名称的抽取和属性值的抽取。本文提出了基于关联规则挖掘的属性名称抽取方法,该方法将属性值看作命名实体,对同类别百科条目进行频繁模式的挖掘,通过分析频繁模式中词语与命名实体之间的关联关系,找出属性描述关键词并生成属性名称。本文对多个类别中文百科条目进行属性名称抽取实验,实验结果表明了该方法的可行性和有效性。
其他文献
本文提出一种并行编程语言CC$,尝试解决分布式众核并行计算机的编程困难.CC$的编程模型以Multi-BSP模型为基础,将分布式众核并行计算机的硬件架构抽象为三层.数据按照存储的层次和共享范围分为五类,以便在不同层次上提供共享.CC$还提出一类虚拟指令解决不同层次之间的数据交换,实现数据访问的逻辑化描述.并行程序按照三层Multi-BSP超步嵌套执行.测试表明,CC$程序的运行效率高,易学易用,大
多尺度现象及相关理论方法是复杂物质系统研究中重要的科学问题。传统的量子力学或分子动力学方法都难于处理多尺度体系中存在的现象。第一原理离散变分线性标度(DVM-DAC)算法是一种有效的大尺度体系计算方法。它采用分而治之的方案,获得了O(n)的计算复杂度。但由于计算规模及材料复杂性等因素,在实际研究中依然存在相当的计算瓶颈,难以满足大尺度物性研究的需要。发展了一种基于DVM-DAC的混合粒度并行算法并
分布式文件系统伴随着云计算的发展逐渐受到重视.parallel-NFS做为主流的分布式文件系统,吸引了大量国内外研究人员的兴趣.本文描述了parallel-NFS的系统框架和工作原理,提出了parallel-NFS不能满足动态增减存储节点问题,分析了产生问题的原因,进而提出了一种parallel-NFS存储节点动态伸缩的方案,该方案已经在国家超级计算天津中心的超级计算机集群系统中得到了验证.
传统虚拟机调度算法未充分考虑并行任务的执行效率问题,当多个虚拟机联合执行并行计算任务时,虚拟机管理器仍采用时分复用方式分配物理CPU(PCPU),导致并行任务串行化,效率大大降低.现代多核处理器平台具备多个可用的计算核心,满足多个虚拟机并发执行的需要,本文针对多核平台下的并行虚拟机调度问题,提出了一种基于任务特征的虚拟机调度算法CON-Credit.该算法的核心思想是在调度并行任务(如MapRed
本文介绍了一种基于光纤传输的冲击波超压存储测试系统,该测试系统解决了在爆轰环境下进行远距离安全性操作,大大提高了信号传输的抗干扰能力和信息的保密性,有效地提高了数据传输效率。该系统主要由自由场压电式压力传感器、光纤传输模块(含电池模块)、高度集成的数字式采集存储设备、计算机控制和数据分析系统等模块电路组成。本文介绍了基于光纤传输的冲击波超压存储测试系统应用在密闭防护罐体内安放1Kg当量TNT炸药进
移动互联网和云计算的不断发展和壮大,使得新型网络化应用成为信息技术的热点。为了适应这种发展趋势,需要将当前大量的传统应用进行移植和迁移。面对传统应用,本文针对Linux系统下的GTK+应用程序提出了一种运行支撑环境的设计方案。通过该方案,实现了服务器端的GTK+应用资源显示在客户端浏览器中和多用户能够同时在客户端浏览器中运行服务器端的GTK+应用。
近来,近似重复图像检测已经成为了研究的热点,本文提出了基于bag-of-words和哈希编码的近似重复图像检测方法。首先利用bag-of-words把一副图像表示成一个500维的特征向量,然后利用主成分分析进行特征降维,并利用hash编码技术对特征进行编码,最后利用动态距离度量技术实现近似重复图像的检测。实验结果表明,该检测方法的查准率可以达到90%-95%,查全率为70%-80%,利用该方法进行
随着统计分析中数据规模和复杂性不断的增加,高性能计算也开始在金融、经济和管理等统计计算主导的领域中发挥重要的作用。本文将对基于R的统计分析中并行计算技术的发展现状和最新进展做一个综述,重点从用户的角度考察R在不同体系结构计算平台上并行统计计算的实现。一个人造和真实应用的测试给出了应用效果。
换热网络结构优化问题可抽象为混合整数非线性规划(mixed integer non-linear programming,MINLP)问题,对现实中的换热网络模型进行求解需要巨大的计算能力。本文设计并实现了基于统一计算架构(CUDA)和GPU的并行求解混合整数非线性规划模型的框架,在并行模型和算法细节实现上采用了各种并行优化方法。测试结果表明,本文模型与中央处理器(CPU)串行算法相比,加速比可以
异构计算是高效能计算发展的必然趋势,针对异构计算运行中并行任务和体系结构难匹配问题,提出实现并行任务和体系结构匹配的并行任务分簇方法。本文首先给出效能的概念及异构计算中体系结构感知的分簇问题,然后从理论上分析了异构匹配与效能的关系,提出了实现异构计算匹配和结构匹配的分簇理论,目的是发挥异构计算中机器潜能,协同处理并行任务,实现高效能。在此基础上,给出相应的算法,最后通过仿真实验说明该方法可通过簇图