基于语料的Web页面抽取器的研究与实现

来源 :计算机工程 | 被引量 : 0次 | 上传用户:jp19861213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主要介绍了面对万维网上各种各样的诸如文本、声音、图形和图像等语料信息,如何按照用户的实际需求将其中对用户有用的信息抽取出来,从而实现对现有语料信息的一种有效分离.重点介绍了Web信息簇聚性的特点和语料库的设计,以及语料库的实际工作原理.
其他文献
目的 :利用云计算等新型信息技术,建设一套技术先进、结构合理、使用方便的军队疗养信息系统,从而提升疗养院的信息化水平和服务质量。方法:利用云计算技术,从服务平台设计、数
医院成本核算是指医疗机构把一定时期内实际发生的各项费用加以记录、汇集、整理、计算、分析和评价,按照医疗卫生服务的不同项目、不同阶段、不同范围计算出医疗卫生服务总成
TiO2是一种良好的半导体功能材料,广泛应用于有机合成与降解、光电催化、太阳能电池等诸多领域。功能材料的特性取决于其微观结构,纳米TiO2结构因其较大的比表面积和较多的活
自动驾驶领域越来越受到工业界与学术界的关注,而自动驾驶领域中,目标检测是其中的一个核心问题。本文主要研究交通场景下目标检测领域中较为棘手的小目标检测与遮挡目标检测等问题,使得车辆在行驶过程中能准确检测出道路上的交通标识符与车辆。针对小目标和遮挡目标这两个目标检测中的难点问题,本文使用两种不同处理方式来解决。针对于小目标检测,例如交通标识符这类目标,本文提出利用注意力机制来缩小需要关注的区域,以此解
通过提取原图像的同现矩阵和小波包分解后系数矩阵的统计量,构成了声纳图像的纹理特征集。通过实验比较进一步证明了该特征集作为纹理表示的有效性。
虚词的研究在国内外历来是一个比较重要的课题,其中连词的研究更是吸引了越来越多的学者的兴趣。本文的研究对象为《左传》中的并列连词“及”。相关学者在语义和句法方面对连词“及”进行了较为详细的考察,也取得了显著的成果。然而关于“及”所承担的语用功能,目前相关研究比较稀少。本文将以《左传》为语料,着重从语用角度考察《左转》并列连词“及”的功能。本文主要研究的问题有:《左传》中并列连词“及”承担何种功能?这
讨论并行支撑环境MPI的并行通信性能模型,测试了点对点和组通信下的若干性能指标,归纳出这些性能指标的统计模型,以作为工程问题并行计算可行性和可扩充性评价的基础.
将形式化技术和软件复用结合是非常有意义的工作.利用规约进行变换,寻找递推关系,可以比较容易得到抽象算法.在变换中,尽可能地将有关操作抽象表示,将操作细节延迟,以适合现
在信息技术高速革新的背景下,我国对教育的投入也日益增加,各高校也加大了对高校办学规模的建设力度,高校图书馆作为高校教学资源的重要组成部分,也逐步成为了为高校师生提供
目的: 探讨呼吸窘迫综合征(respiratory distress syndrome,RDS)早产儿并发呼吸机相关肺炎(ventilator-associated pneumonia,VAP)高危因素及其感染病原菌分布特点,为RDS早产儿VAP的