自动抽取相关论文
现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K最近邻......
术语同义词对的自动发现和识别在文献检索领域有着重要的研究意义和应用价值。本文提出一种在文献中自动抽取同义词的方法,它将问题......
从特定领域的多个Web服务中自动抽取出描述其功能特征的主题信息,利于服务分类管理、高效服务发现及合成.将WSDL文档中的服务、操......
本文根据广播电视语言及其关键词的特点,提出通过建立过滤词典过滤垃圾串直接切分短语,并将切分好的短语序列作为关键词候选,进而对其......
本文结合语言学和统计方法,首先通过构建术语库提取术语抽取模板来抽取候选术语,此外,通过引入回归的方法,将术语抽取问题转化为对......
从知识抽取技术在网络环境下面临的新挑战入手,在对国内外相关研究项目进行深入分析的基础上,认为网络环境下知识抽取开始表现出技......
科技文献间的引用关系把关系密切、具有相似主题的文献联系在一起。通过引用关系可以获得文献的引用背景信息。引用背景信息有助于......
情报课程是情报学教学体系的核心和灵魂,是新的情报学人才培养模式的基础。在大数据、数据科学、人工智能发展的大环境下,数据学科......
中国石化在改革发展和经营规模高速增长的背景下,建立了财务共享费用报销系统,目的是为了解决中石化所属各个企业财务报销标准、业......
一、引言每年的九月份是高校新生入学的时间,也是图书馆最繁忙的季节。要在短时间内及时地为新生办理借书证,是一项艰巨的任务。......
本文介绍了上海交通大学电脑应用技术研究所开发的中文文献主题自动标引系统CSAIS2.1的主要思路、基本算法及其基本结构
This article int......
学术定义是学术研究中一种基础性的知识。科技文献中蕴含着丰富的定义,对定义进行自动抽取是知识抽取的一种应用。这些定义具有一......
利用文本挖掘技术,并结合科学计量、自然语言处理等方法,提出一种基于三重共现算法的技术路线图中未来技术词表构建方法,以揭示特......
本文叙述了等线体和圆头体汉字曲线轮廓字形的自动生成系统.该系统从黑体汉字曲线轮廓字形中自动抽取骨架单线体,结合等线体和圆头体......
采用MetaStudio和DataScraper对网络源非结构化数据按照需要进行自动抽取和XML结构化,并自主开发Rdfizer软件包,将XML数据转换为RD......
随着互联网技术的发展,Web逐渐变为更主流的用户信息反馈平台。其中用户评论信息为政府决策、企业发展提供更为具体化、细节化的用......
文章从传统知识组织系统和现代知识组织系统两方面介绍了知识组织系统构建研究现状,并从术语自动抽取及统一知识组织系统自动映射......
在对 725万字的信息领域专业文献中带英文注释的术语(汉英术语)进行了人工标记,然后利用程序提取汉英术语及其前界环境(前至少 4个汉字......
本研究以上海交通大学科技英语语料库(JDEST)为基础,运用计量语言学的研究方法,以协同语言学为理论框架,对英语复合词的生成趋向进......
随着网络技术的迅速发展,Internet已成为大多数人们表达自己观点和获取信息的平台。越来越多的商家通过网上出现的大量评论信息,了......
本文针对自动聚类技术进行了一定的研究工作,并将其应用于研究上市公司公告对股价的影响。详细分析和研究了文本聚类技术的各个方面......
关键短语自动标引技术可以有效地从文本中自动抽取出关键短语,近年来一直是自然语言处理领域的研究热点之一。其中,自动抽取方法是当......
元数据是指用来标志、描述和定位电子资源的数据,也被称为数据的数据。它专门用来描述数据的特征和属性、提供某种资源有关信息的结......
传统的基于实例的机器翻译方法对语料库规模要求极高,而在语料库规模不够的情况下存在精确匹配率不高、模糊匹配译文质量差等缺点,......
文本数据挖掘技术是自然语言处理研究的重点问题之一,而工程图文档是工业技术中的重要数据媒体之一。在信息时代,同其他多媒体数据......
随着Internet的迅猛发展,信息逐步数字化、网络化、全球化。如何高效、准确地利用互联网上的有用信息已成为人们关心的课题。对于......
设计模式为设计者们交流讨论、书写文档以及探索各种不同的设计提供了一套通用的设计词汇。在许多大型软件系统的开发过程中,开发者......
随着Internet的飞速发展,网络中包含着海量可以被利用的数据。其中由Web数据库返回并根据预定义模板展现在用户响应页面中的数据记......
词汇之间存在多种关系,如:上下位关系、同义关系、反义关系、整体-部分关系等等。其中,作为重要语义关系的一种,上下位关系是描述事......
本文研究从BBS主题网页中自动抽取用户发言信息的问题。该类问题的传统解决方法主要基于对HTML网页的DOM树和标签结构的分析,密切......
当今,互联网已成为信息传播与共享的重要资源。由于Web数据的半结构化、异构、海量等特点,使得传统的数据挖掘技术不能直接运用到W......
术语集中承载特定领域的核心知识,术语的自动抽取能够辅助人们便捷地获得和积累该领域知识,而双语术语更是兼有两种语言的映射关系......
针对PBmice小鼠信息系统功能扩展的需求,文章提出并实现了PBMICE-SR语义检索框架。检索框架在PBmice系统基础上提供了智能获取数据......
万维网的迅猛发展,引起了Web数据的急速膨胀。面对泛滥的海量Web信息,“富数据,贫知识”的现象引起了越来越广泛的重视。为了解决......
随着计算机技术和网络技术的不断发展,海量信息以电子文档的形式出现在人们面前。从这些自然文本中提取出有用的信息,日益成为人们......
地理信息与知识是组成客观知识世界的重要内容。互联网上大量的地理信息都以非结构化的文本形式存在,如何利用智能化的方法,从网页......
随着互联网的高速发展,网络信息成爆炸式增长,百科知识已经成为人们获取知识的重要手段。人们对垂直化知识的需求对百科知识库提出......
由于文化与地域的差异,中国大陆、香港和台湾(简称大中华区)在汉字的书写和表达习惯上均存在着一定的差异。从形态学角度看,香港和......
20世纪90年代以来,互联网技术快速发展,网页页面样式也越发多样。现时的网页中,充斥着大量的导航、广告等与页面主体内容无关的信息,这......
随着互联网技术的发展,Web成为各种应用与研究的重要数据源之一,为信息检索、数据挖掘等领域提供高质量的数据。Web中一类重要的数据......
排比句的条理清晰、气势宏大,为各类文体的写作所广泛使用,但目前排比句自动识别方法的识别效率欠佳。采用深度学习的方法来优化排......