特定领域专家主页信息的自动抽取

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:zhangsswei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了领域专家主页信息自动抽取研究的背景和具体实现的方法.由于网上信息的动态性,中文计算语言学虚拟信息中心需要不断的更新,自动维护可以节省大量的人力和物力.基于这样的研究背景和目的,我们实现了一个计算语言学专家网页信息的自动抽取实验系统.它主要由三个部分组成:自动搜索个人网页、基于关键字自动判断专家网页,基于规则自动抽取网页上的个人信息,如,姓名、单位、电话、研究方向等.实验系统的目的是实现数据库专家信息的自动维护和自动扩展.初期实验显示了可喜的结果,但还需要进一步的完善和研究.
其他文献
本文以"手"为例,分析了汉语字的语义结构和字组的语义组合模型.基本方法如下:首先收集相关字典语义解释,并对其义项进行归并,然后提取抽象类义,确定定义特征及构词的内涵特征
会议
语义自动分析的主要问题是借助语义语言实现词汇、句子和文本意义的模式化.因此,建立语义语言和语义词典就成为语义自动分析的基础.其中,语义词典的构建和完善工作尤其重要.
系统构成系统配置图如图1所示,下位机采用功能强、可靠、易维护及现场抗干扰能力强的OMRON可编程控制器PLC,包括对温度、压力、液位、可燃气报警、电动阀状态等现场数据进行
基于内容的网页相关度评价是提高网上信息检索服务质量的核心问题.本文以北大计算语言学研究所构建的名人实体网页语料库为基础,主要研究了中文名人实体网页的相关度评价问题
会议
地被植物的绿色之美,给人以清新、凉爽之感,提供人们愉快工作和生活的环境,如能将城市中的一切裸露的地面都用草皮或其他地被植物覆盖起来,将是一个巨大的进步,也是我们在城
本文介绍了HNC反色情知识库建设的主要工作.HNC反色情知识库是为过滤互联网上的黄色色情信息而建设的,它包括涉性网站地址库、涉性文本语料库、涉性敏感词语库和涉性言语模式
采用传统的向量空间模型进行文本表示,重要的特征经常会被大量的区分能力较弱的特征淹没掉,因此本文提出了多向量模型.它采用多个向量表示文本,将文本中重要的特征提取出来,
采用五种评测方法进行了文摘评价实验:文摘的可接受性评价、与"理想"文摘的比较、基于Q&A的文摘信息性评价、文摘的关联性评价和基于分类的评价.不仅验证了文摘系统所采用的
当前主题分析主要采用基于词表的自动抽词技术,这种方法的局限性在于无法处理知识库中未登录的关键词.因此本文提出了在专家知识库的词典匹配基础上,结合词的串频统计技术,进
多文档自动文摘致力于从多篇文档中将全面、简洁的摘要性文档呈现给用户,提高用户获取信息的效率.本文提出了基于语句级语义相似度的最大边缘相关方法来选取文摘句,为生成高
会议