基于词共现模型与DOM的石油主题采集策略

来源 :微计算机应用 | 被引量 : 0次 | 上传用户:sanye8879c
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于DOM树的词共现模型,首先利用文档的结构信息生成DOM树,并依据DOM树的结构特点来统计文档中主题词的共现信息,最后采用向量空间模型实现对石油主题网页的采集和分类。它改进了原有的词共现模型,突出了利用位置信息来优化词共现模型的特点。实验证明该策略使采集和分类的性能都有了一定的提高。
其他文献
针对USB2.0接口传输速度进行探讨,重点介绍了影响USB2.0传输速度的各个因素与提升数据传输速度的方法,设计了一个基于USB2.0的高速工业化纺织品数字印刷机数据传输系统。该系
对飞行航路的解析过程及使用接口进行了探讨,介绍了一种飞行航路解析子系统的设计与实现方法。涉及用XML进行存储数据及解析的方法、网络数据通讯与消息机制、使用UML语言设计
<正>我们知道,单调函数都存在反函数,且反函数与原函数具有相同的增减性,互为反函数的两个函数的图像关于直线y=x对称,但是它们的图像不一定有公共点,如果有公共点,那么公共
VLIW编译器实现指令并行性挖掘、相关性检查、指令调度等职能,对VLIW处理器的性能影响较大。本文基于一款VLIW DSP芯片,利用可重定位编译器IMPACT的前端和代码生成器模板,设计和
针对嵌入式软件代码的安全问题,提出了一种基于流水线技术的TDES的嵌入式软件代码保护系统,可以有效地防范当前各种针对嵌入式软件代码的恶意窃取、修改,适用于基于I2C、SPI总线
主要研究基于无线传感器网络的多目标分类方法。传统的最优分类方法的主要问题是:其假设类别数随着最大目标数指数倍增长。本文提出了一种基于粗略的分割假设空间的次优的分类
简要介绍了传感器网络的应用背景和体系结构。为验证系统的可行性,利用自行设计的传感器节点,搭建构成简单的网络原型系统。系统运行于微型操作系统TinyOS,通过程序实例测试,实现
本文针对传统web三层架构的B/S结构中存在用户等待时间长的突出问题,提出了基于Ajax平台的异步传输方法,并在基金支持项目高校组织人事管理信息系统上得到成功应用。该方法在B/S
重点介绍了利用DSPs的多通道缓冲串口McBSP实现与A/D、D/A串行接口的设计。TI公司TMS320C67x系列DSPs的McBSP有两种配置方式,一种是配置成串口的模式,一种是配置成通用I/O的模式,本