文本标注的数据库表达及应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:eclipse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词典普遍被作为一种含有大量语言学知识、常识知识的知识库。传统英语词典中一般包含词形、词性、词义、例句、习语、各种语法语用说明以及出处、领域等注解。从传统词典中提取出这些语言词汇知识并加以结构化存储,使词典中的知识利于计算机使用和处理,将有利于促进语言学、自然语言处理、机器翻译和知识工程等相关领域的研究,同时有利于语言教学。现有的纸版词典是面向人类读者,而非计算机的。其基本存储格式为文本格式。虽然词典的排版遵循一定的规则,但由于是给人阅读的,其中也存在相当多的随意性。其中很多部分之间的界限并不明显,对于计算机自动解析具有相当的困难。对词典文本信息的抽取取决于文本中文本信息实体的识别和标注。本文提出一种文本标注的数据库表达方法,将文本实体特征信息和标注结果表达在数据库中,从而使特征信息参数化。并提出文本信息标注的基本方法为依据文本信息实体的特征标记和标记序列组合特征以及实体间关系来识别和标注实体。这样使文本标注的通用性增强,有利于标注结构类似的其他词典文本。首先,本文分析了文本标注领域的相关概念和概念之间的关系,给出了文本标注的通用数据库表达方法。然后,本文以《牛津高阶英汉双解词典(第四版)》(简称OALD4)文本的标注与信息抽取为应用,详细阐述了基于文本标注的数据库表达方法的OALD4文本标注与信息提取系统的分析、设计与实现。最后,对本文的工作进行了总结和展望。提出需要进一步研究的工作和改进的建议。
其他文献
目前,系统仿真数据的计算都是在一台机器上进行计算的。系统仿真数据是用来评价支撑业务系统的网络系统的性能的,这就需要实时的计算系统仿真数据,以便向用户展现业务系统运
在计算机视觉领域,三维重建技术已成为其中的一大研究热点。而基于多视图的三维重建算法又是三维重建技术中的重要一支,该算法的核心思想是以多张对同一物体或场景从不同角度
在军用和其它用途的短波无线电通信中,由于短波无线电通信信道自身的特点以及飞机舱内的环境特点,其噪声来源异常复杂,声学环境极其恶劣,信号质量一般来讲也很差。而目前对截
随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web网络上信息资源己经涵盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这又促使Web挖
本体层是语义Web体系结构中的核心层,伴随着语义Web的研究热潮,对本体的理论和应用研究越来越引起学术界和工业界的重视。本体的获取和构建是本体相关研究中的一个基础性环节,而
无线传感器网络是由大量传感器节点以Ad Hoc方式构成的无线网络。密钥管理是无线传感器网络中极具挑战性的安全问题之一。在多数无线传感器网络密钥管理方案中,通常都是认为
无线Ad hoc网络以其布网灵活、易与迅速展开、系统整体抗毁能力强、不依靠预设的网络基础设施等特点可广泛应用于国防战备、抢险救灾、应对突发事件等无法得到有线网络支持或
现实生活中,企业的兼并,高校的重组,河流的汇聚,林区的连片,植物的嫁接,电网的交融等等均展示了同类对象融为整体的组合归并现象。如果从数据处理的角度考虑,并把企业、高校
当今互联网深刻地影响着人们生活的各个方面,网络在为工作和生活带来越来越多便利的同时,也引起了诸多安全和管理的问题。网络流量分类是网络管理的基础,也是检测网络恶意攻
伴随着计算机图形硬件技术不断地更新换代,各类主流三维游戏对于阴影渲染的实时性与可交互性提出了更高的要求。同时,随着大型复杂光照环境在游戏、电影及动面中的广泛应用,