基于后缀树的Web论坛信息抽取

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:lvsby2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法。将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的。该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题。实验结果表明,该方法具有较高的准确性和实用性。
其他文献
实验比较了丰鲤与奥尼罗非鱼摄食低质和高质两种等能饲料时的氮收支和能量收支.低质饲料的蛋白质含量为34.25%、蛋白质主要来源为豆粕,高质饲料的蛋白质含量为45.44%、蛋白质
撤地设市以来,聊城市商业发展迅速,商业网点的数量迅速增加。在政府的宏观调控及市场规律的共同作用下,聊城的商业区位级别及商业设施更加完善。通过对聊城市城区商业网点区位的
平面上有限点集的凸壳在土木工程及其它许多领域均有很多重要应用,计算几何中的很多应用问题都与凸壳有关。现有多种求平面上点集凸壳的方法,但这些方法要么算法非常复杂,要么编
知识共享是组织内部知识管理的重要环节,是企业持续成长的关键和持续竞争优势的源泉。知识共享包括知识发送和知识接受两个过程,由知识拥有者和知识接受者共同完成,其中共享知识
P2P技术解决了传统流媒体应用中的不能支持大用户的问题。而数据调度算法一直是P2P研究中的热点问题。在给出了P2P视频直播系统中节点能力的定义和计算方法后,结合BT中的Rare
作为印章识别系统中的第一步,印鉴提取起着至关重要的作用。就印鉴的预处理问题研究了印鉴图像的提取及对提取印鉴中缺失信息的修复,首先提出印鉴提取的通用模型提取印鉴图像,然后,针对印鉴信息缺失的不同原因,分别采取了不同的修复策略:对因签名等干扰字符覆盖造成的信息缺失采用了结合背景图像和原图像二值图的方法进行修复,而对于因盖章力度不均导致的印鉴轮廓缺损,采用了最小二乘法二次拟合的方法进行了修补。实验结果表
介绍一种新的方法来解决蓝牙标准中设备查找和散列网形成的问题。同时介绍一种随机的模型,使用这种模型可以基于非常简单的本地规则就能产生高概率连通性的拓扑。在此基础上,发
应用计划行为理论(TPB),用更理性和更科学的方法,从更深层次分析消费者对移动支付的态度、他们的担忧、他们希望移动支付需要做哪些改进等。提出了一个针对移动支付的TPB研究模
操作系统作为信息系统的基础,其安全性不容忽视。访问控制是维护和保证系统安全的重要方式,而基于角色访问控制(RBAC)是访问控制领域新兴的热点。以Sun公司的开源操作系统Solar
现有的网络安全系统往往功能比较单一,难以完成网络系统的整体防护要求,难以保证可靠地提供所需的业务,难以保证业务信息的安全可靠。因此,提出了一个分布式入侵检测框架DIDF