论文部分内容阅读
随着知识经济时代的到来,知识的重要性获得前所未有的显现和证明。专家作为社会知识的智力宝库,拥有着某一特定领域的专门技能、知识和经验,为社会经济和科研发展做出了巨大的贡献。然而,因为地理环境的特性,专家的相关信息是零碎局部的,现实中我们往往受人际网络的限制,不能找到真正的专家解决问题。这就迫切需要一个能够提供和查询专家信息的系统,把整个社会的专家信息收集起来,方便问题的解决、科学研究合作以及产学研的结合等。
本文主要研究基于web挖掘的教师知识地图的生成技术。随着互联网的发展,网络中存在了大量教师的信息,这为生成教师知识地图带来了新的契机。利用互联网上丰富的资料,整合应用不同的资料来源,将原本分散凌乱的教师信息,从众多网页中抽取出来,处理生成完整的教师知识地图,提供更完善的知识分享环境,方便使用者按图索骥,快速找到他们需要的知识。
通过对教师知识地图生成模型的研究,本文对教师知识地图的生成流程分为标引教师隐|生知识和教师知识关联两部分。其中标引教师隐性知识包括建立教师基本资料库、教师作品信息库和知识元库,教师知识关联包括建立教师与显性知识之间的关联以及教师社会网络和关联路径的生成。与传统网页爬虫不同,教师知识地图采用的聚焦爬虫并不追求大的覆盖,而是将目标定为抓取与教师信息内容相关的高校网页,通过分析教师网页特征,使用URL规则过滤无关网页,避免资源浪费和时间成本的增加。由于教师信息网页大多采用相同模板生成,本文采用基于XML的Web信息抽取技术抽取教师基本信息和作品信息。知识元库的构建则通过向量空间模型和TFIDF算法从教师的作品知识中提取知识元。知识关联部分利用建立好的知识元库组建基于Patficia Tree的汉语自动分词词典,对上传的显性知识进行知识元识别与抽取,提取权重最高的知识元来标记该显性知识,并搜寻具有相关研究方向知识元的教师以建立教师与显性知识之间的关联。教师社会网络则利用教师共同发表论文的合著者关系以及同一学校学院的同事关系建立教师可靠的社会网络并对教师关联路径的生成算法进行了研究。论文的最后对系统实现框架,系统结构和流程以及教师知识地图的应用进行了简要描述。