文本信息抽取平台的设计与实现——基于机器学习

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:zhangShunsheng2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文设计了一种可行的通用文本信息抽取平台的框架,使得用户可以在平台上轻易的针对不同数据集尝试不同机器学习算法进行信息抽取.按照该框架,我们开发了一个信息抽取平台原型:KEGSMART.它集成了"手工标注","抽取结果分析与比较","应用演示输出"三个可视化工具和"支持向量机","条件随机场"两种机器学习算法。两个抽取任务分别应用不同的算法在平台上实验,实验结果验证了该平台的实用性。
其他文献
洞庭湖区在湖南社会经济发展中占有举足轻重的地位。本文提出在湖区建设中结合洞庭湖区的地理、水文等条件,分析研究公路建设中若干问题,以利于相关部门作出最佳决策.首先对
仰卧位时,肢体与床铺的接触面积最大,因而不容易疲劳,且有利于肢体和大脑的血液循环。但有些老年人,特别是比较肥胖的老年人,在仰卧位时易出现打鼾,而重度打鼾时的鼾声和鼻息
"蒙古语语义词典"主要研究现代蒙古语词语语义关系的数据结构及其电子词典的建立.根据目前蒙古文文本处理中句法分析、句义分析、相似度计算等所需求的语义类型,我们对词典中
会议
本文介绍了一个基于动态流通语料库(DCC)的术语释义信息标注语料库和针对语料库建设所开发的辅助软件系统。语料库建设过程分为如下几个步骤:原始语料收集、标记集确定、语料
会议
本文针对类词缀在三字词中能产性强的特征,提出构建一个三字词的类词缀知识库.我们对《现代汉语语法信息词典》数据库的8万多词语进行了抽取,共有13778个三字词,然后综合考虑
本文报告对汉英双语香港法律条文内容及层次结构特征进行XML自动标注的工作。标注好的语料库的整体结构与实际法律逻辑组织结构相同,并且利用标记信息实现条文内容的检索定位
数量短语的识别是现代汉语语句分析的一个局部难点。现代汉语中数词千变万化,量词的种类繁多,数量短语的组合方式多样。本文以识别数量短语为立足点,在探讨数量短语构成模型
依存关系的标注一直是近年来计算语言学界语言资源建设的的主流之一。本文从理论研究和实践研究两大方面对国内外依存语法标注的进展做了一个大致梳理,针对汉语依存语法标注
基于Web的信息检索中,用户希望的是得到与关键词(key words)相关的,准确而全面的搜索结果,而基于Web的民文信息检索中深入研究本民族语言特征并对搜索关键词进行一些必要的预
本文介绍了一种以灾难性事件为研究背景,综合信息检索、Web挖掘等多方面知识的灾难性事件信息抽取系统。系统采用了对网页URL相关度评价的收集机制,以框架结构作为信息抽取的