【摘 要】
:
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面
【机 构】
:
中国科学院大学,中国科学院沈阳计算技术研究所,沈阳市国家税务局信息中心
论文部分内容阅读
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%.
其他文献
人是社会动物,人在社会中的自由离不开秩序。为了社会秩序,人们建立国家。国家的使命是保证人的自由。这决定了民主制是一切国家制度的本质属性。马克思把民主制看作是"类概
农业发展从过去主要依靠增加资源要素投入转向主要依靠科技进步的新阶段,农业的根本出路在于科技创新。为验证技术创新对农业产业竞争力尤其国际竞争力的重要作用,本研究以花
<正> 一两千零一年的一天,一群人站在一座建于明朝的老建筑前面。其中,有三个人被震住了。他们分别是:吕明、惠芳和汪琳琳。这是座位于新建小区内部的建筑。具体地说,它应该
文章从文献、方言两方面的论证闻喜方言的"子变韵"很可能是早期的"儿化韵",与现在的儿化韵是不同的层次;同时,这种底层形式是u的早期"儿化韵"与读l类音的"儿"有关系。
阐述了目前主要的几种城市地表水环境评价方法:水质评价、感官评价和生物评价,分析了各种方法的优缺点和应用现状。针对城市水体功能的改变,提出建立和完善水体感官评价方法
针对高分辨率TerraSAR-X船舶图像,提出一种基于结构特征的两阶段船舶识别方法。所识别船舶包括油船和货船两大类,根据船舶结构的不同将油船分为显示油管油船和不显示油管油船
<正>问题刘大爷原是某行政村的村民,依法申请取得了一块宅基地并建造了房屋,后进城工作取得城镇户籍,但是农村的房屋一直闲置.退休后刘大爷想回村里住,请问刘大爷是否可以继
在DSP设计中,由于数据通路决定时钟周期且占据相当大的芯片面积,因此,数据通路是决定微处理器性能和价格的主要因素。本文主要探讨了rDSP数据通路的优化设计,主要内容和创新
肯定性行动计划(Affirmative Action)是美国政府为了缓和和消除在就业、教育等领域的种族和性别歧视,自20世纪60年代以来实施的政策。其正式实施的标志是1965年9月林登·约翰
高分辨率层序地层学强调异旋回作用对地层层序的控制,但是自旋回作用造成的特殊粗碎屑岩层段在我国东西部的含油气盆地地层中经常可以见到,自旋回作用在短期基准面旋回中、湖