基于Heritrix聚焦爬虫的特定语料采集系统设计

来源 :2013年第四届全国通信新理论与新技术学术大会CTC2013 | 被引量 : 0次 | 上传用户:abcd55443388
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,语料在各项研究中发挥着重要作用,现在的语科采集方法还不能满足需要.本文提出了一种新的语料采集方法,可以准确迅速的采集特定领域语料.通过修改Heritrix开源爬虫的组件,引入了APHash算法,解决爬虫队列平均分配问题,提高了采集效率,并通过加入URL判断条件,实现了特定领域语料的采集.对采集内容使用开用工具Tika进行解析,通过大规模采集,可以形成语料库,实现了特定语料的采集.
其他文献
分析讨论了燃煤火力电厂烟气脱硫系统湿烟囱的腐蚀特性、腐蚀机理及影响因素.提出了不锈钢在湿烟囱中的腐蚀为一种冷凝薄液膜下多相作用的电化学腐蚀;探讨了湿烟囱的防腐措施以及湿烟囱用不锈钢的研究和开发.
本文简要介绍了丹阳市丹达防腐设备有限公司董事长李全德24年从事防腐蚀压力管道元件制造的历程和依靠新材料、新工艺、新技术为遏制、减少对压力管道腐蚀而做出的贡献.
以工业品丙烯酰氧乙基三甲基氯化铵(DAC)和丙烯酰胺(AM)为原料,过硫酸铵(APS)为引发体系,Na4EDTA为络合剂,采用一次性加料,分步升温引发聚合工艺,通过工艺优化得到特征黏度最高为15.88dL/g的50%阳离子度P(DAC-AM),单体转化率为91.80%.分别考察了引发温度、单体起始质量分数、引发剂占单体质量分数、助剂占单体质量分数、熟化温度和熟化时间6个因素对产物特征黏度和单体转化
脂肪醇作为重要原料之一,在生产表面活性剂、增塑剂、乳化剂和香精香料等精细化工行业具有广泛的应用,其工业Cu/ZnO催化剂易失活,使用寿命较短.工业氢气、脂肪酸甲酯前序制备工艺均可能带来胺化合物,影响催化剂的活性.本文在间歇釜中考察了月桂酸甲酯加氢制月桂醇体系中胺化合物对Cu/ZnO催化剂的催化活性影响,分别采用比表面积测定仪、XRD、ICP-AES、XPS和SEM对催化剂使用前后的物化结构进行了测
本文采用苯乙烯、马来酸酐、丙烯酸为原料,以三硫代碳酸二(α,α′-二甲基-α-乙酸)酯(BDATC)为链转移剂,通过RAFT聚合方法合成了以聚苯乙烯(PSt)为疏水嵌段、聚丙烯酸(PAA)为亲水嵌段、苯乙烯-马来酸酐共聚物交替(PSMA)为功能嵌段的对称三嵌段双亲性嵌段共聚物PSt-b-PSMA-b-PAA,采用核磁共振、红外光谱和差示扫描量热法确认所合成的PSt-b-PSMA-b-PAA的三嵌段
研究了二甲基二烯丙基氯化铵单体(DMDAAC)改性棉纤维的机理和所获改性纤维的杀菌性能.以DMDAAC单体为原料,BIS为交联剂,在棉纤维表面进行原位聚合.采用扎烘焙固化工艺,以浸泡洗脱、溶胀率和FTIR表征的方法对所获改性纤维的改性效果进行考核;以大肠杆菌为研究对象,采用定时暴露法,考察改性棉纤维的杀菌性能.结果表明:制备得到的DMDAAC单体原位交联聚合改性棉纤维的FTIR谱图中DMDAAC单
由于传统硝化方法在实际应用中消耗大、废酸难处理、转换率低,化学和区域选择性差等缺点,绿色硝化方法在近十年逐渐发展,其中离子液体在亲电取代反应中应用于绿色硝化反应也逐步成熟.氟硼二吡咯化物(BODIPY)荧光物质作为一种新型的荧光染料,其有很好的应用价值.特别是对OD坤Y的中心骨架进行官能化,可形成一系列衍生物用于环境监测和生物科学等领域研究.本文通过利用硝酸乙基铵/三氟甲磺酸酐(EAN/TFFA)
DNA associates strongly with cationic cosolutes: surfactant, lipids, proteins and polymers.The binding patterns for several systems are presented, illustrating the consequences of this binding in solu
会议
荧光染料作为功能性色素在科学技术的各个领域得到广泛应用,尤其在生命科学、临床医疗诊断、免疫分析检测等方面的研究在全世界备受瞩目.在众多的荧光染料中荧光素是一类被广泛应用的染料,这类染料具有大的摩尔消光系数、好的光稳定性、高的荧光量子产率等优点.荧光成像监测生物大分子在生命系统中最强大的技术之一,与在可见光区的吸收和发射的荧光传感器相比,近红外(NIR)范围内的染料在生命系统中的应用中是有利的生物成
The classical Echo state network (ESN)cannot fully exploit its advantages in some workwhich characterizestrong nonlinearity and high-order statistics.In order to overcome the shortcomings, this paper