【摘 要】
:
本文以传统的信息抽取理论和方法为基础,实现了一种基于XML特征的网页文本抽取方法。研究了一般网页的特征,实现了一种基于XML标签特征的网页提取方法,对网页进行HTML页面标
论文部分内容阅读
本文以传统的信息抽取理论和方法为基础,实现了一种基于XML特征的网页文本抽取方法。研究了一般网页的特征,实现了一种基于XML标签特征的网页提取方法,对网页进行HTML页面标准化,将其转成XML语言,并且根据XML语言的特点,对其内部语言进行转化,从GB转为UTF,并对其进行标准化,然后通过熟悉XML标签的各种特性,对网页文本根据标签进行抽取。
其他文献
大数据驱动下供应链管理最大挑战是现有系统对大数据的整合。本文分析了供应链大数据整合与网络共享的必要性,对供应链领域数据的主要来源和内容进行了仔细的梳理,并对其大数
本文通过分析合成气装置脱硫塔腐蚀机理,结合脱硫塔实际腐蚀情况,对原防腐材料及施工工艺进行了改进,采用基层喷铝,环氧玻璃鳞片表面封闭的施工方法,有效地解决了脱硫塔的腐
在金属加工中,对工件表面质量造成负面影响并导致刀具损坏的主要因素是切屑干扰。为克服切屑干扰问题,断屑槽正被广泛应用以实现切屑控制。伊斯卡推荐3种新槽形F3P,M3P及R3P分别
化学修饰是改善反义核酸成药性的重要手段。在本文的研究中,采用化学合成的方法,以已知的化合物(S)-1,3-二(苄氧基)-4-(1,3-二噻烷-2-基)丁-2-酮为原料,经过4步反应,得到苄基
目的:应用自动化系统配制输送用于生产水痘疫苗的无菌溶液,以满足水痘疫苗细胞工厂的规模化量产需求,减少批间差异。方法:将采用自动化系统配制输送用于水痘疫苗的传代制备所
应用Jade7.0和MAUD软件对523℃和628℃热处理4、6h的NiCrBSi涂层X射线衍射图谱进行Rietveld全谱拟合定量分析。结果表明:两种软件拟合结果的R,值都在8%~11%,两者定量分析的结果相差
根据电磁泵原理研制了铝合金电磁泵实验装置;采用正交实验分析方法研究了ZLSi9Mg铝合金液体在被电磁泵输送时,直流电和磁场的作用对其微观组织和力学性能的影响。结果表明:ZLSi9
以氧化铝作为主要原料,利用自制柱塞式挤压模具通过挤压成型法制备φ4 ×10 mm规格的陶瓷催化剂载体。通过对不同原料组成的载体进行表征,研究了各配方对载体性能的影响
介绍了一种新型的变断面管无模拉伸成形方法。在无模拉伸过程中,采用感应加热线圈对拉伸材管局部快速加热至高温,然后以一定速度拉伸管材,与此同时,感应线圈以一定速度移动。由于
非负载型加氢催化剂由于金属含量高,因而具有较高的加氢活性。然而目前采用水热法合成获得的金属活性相之间容易产生聚集而降低其分散度,从而影响其活性的发挥。本文采用非离