【摘 要】
:
针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。
【机 构】
:
重庆邮电大学计算机学院,贝尔实验室基础科学研究院(中国)
【基金项目】
:
重庆市科委科研项目(2006BB3041),重庆市教委科研项目(KJ060518)
论文部分内容阅读
针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。
其他文献
血管性痴呆(Vascular Dememtia,VD)是由脑血管因素导致脑组织损害引起的痴呆综合征,是老年期痴呆中最常见的类型之一,以认知、记忆、语言、情感、性格等方面的精神减退和消失为主
1临床资料将2004—05—2006-01符合诊断标准的95例膝关节骨性关节炎患者。随机分为2组。治疗组52例,男28例,女24例;年龄最小50岁,最大72岁;病程3天-8年。对照组43例,男25例,女18例;年
本体变更的目的是为了适应环境的变化,而变更的前提是要保证本体和使用它的应用或数据间的兼容性,本体概念或属性的重命名、合并、分解都可能造成本体与应用间的不兼容。提出了一种基于Change-Tree的本体变更日志存储方法。该方法采用有向树来组织本体的变更过程,用变更树节点来存储本体变更的信息,用节点间与或关系来关联本体的变更类型;同时该方法能采用树搜索来遍历本体变更的每一个历史阶段,从而为重现本体变化
提出了一种基于logistic和Henon的双混沌映射加密算法,通过级联一维混沌系统和二维混沌系统,利用复合迭代所产生的混沌序列对明文进行加密,开发了算法的模拟实验平台。实验结果表明,与传统DES和基于Lorenz的加密相比,该算法在加密强度和运算效率上达到了较好的均衡。
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)
以提升小波变换和奇异值分解的理论为基础,提出了一种新的基于LWT和SVD的灰度图像水印算法。该算法核心思想是先对载体图像进行分块;然后对每块二级LWT后的中高频带继续LWT;再对选取的各频带进行SVD,选取相应的奇异值组成新的矩阵,对新矩阵按规则分块,并再次SVD。通过两次分块、两次LWT和四重使用SVD构造矩阵的方法,有效地将抽取的奇异值重新分配和组合。最后将Logistic混沌置乱后的灰度水印
1临床资料 观察病例共36例。均为本院门诊患者,其中男9例,女27例;年龄在7—42岁;病程6月~7年。单纯发于面部者25例,合并于手背者11例,均符合扁平疣的诊断标准。
前部缺血性视神经病变(AION)是视神经营养血管循环障碍引起的视神经乳头急性缺血、缺氧,使视乳头因缺氧而发生水肿,视神经纤维发生变性和坏死,如不及时治疗,可导致视神经萎缩,后果相
为避免创建缓冲区过程中必须指定大小和多次释放而导致可能的内存泄露和代码崩溃的弊端,提出一种自适应的嵌入式协议栈的缓冲区管理机制AutoBuf。它是基于抽象缓冲区接口而设计的,具有自适应性,支持动态内存的自动分配与回收,同时实现了嵌入式TCP/IP协议栈各层之间的零拷贝通信。在基于研究平台S3C44B0X的Web server网络数据监控系统上的测试结果表明,该缓冲区的设计满足嵌入式系统网络通信的应
分析和研究了非下采样Contourlet图像表示方法及其在图像变换中的优点,提出一种基于非下采样Contourlet变换的图像融合方法。首先将待融合源图像分解成不同尺度、多方向的频带;然后采取不同的融合方法对分解的高低频分量进行融合处理,低频系数采取局部能量优先的加权法融合,高频系数则采取局部梯度优先的加权法融合;最后将融合的各频带进行逆非下采样Contourlet变换得到融合图像。实验表明,在几