基于CRFs的新闻网页主题内容自动抽取方法

来源 :广西师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:wolaile999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相邻块间类别转移特征,通过CRFs模型对数据序列进行类别标注来实现网页主题内容的抽取。实验表明,该方法对新闻网页主题内容的抽取具有较高检准率和较强适应能力,引入块间关联特性可改善新闻网页主题内
其他文献
期刊
目的观察经导管肝动脉化疗栓塞(TACE)辅助外科手术治疗原发性肝癌(HCC)的临床效果。方法选择HCC患者98例,随机分为观察组、对照组各49例。两组均行常规外科手术治疗,观察组在此基础
目的:对比观察增生期和退化期小儿毛细血管瘤组织中磷酸腺苷活化蛋白激酶(AMPK)、哺乳动物雷帕霉素靶蛋白(mTOR)表达,探讨AMPK/mTOR通路在小儿毛细血管瘤消退过程中的作用。方法收集
目的评价肾周脂肪对肾细胞癌患者术后生存率的影响。方法回顾性分析116例因患肾细胞癌进行了肾部分切除术或根治性肾切除术患者的临床资料。结果肾周脂肪厚度和BMI呈正相关(r
首先介绍经典信念修正理论,特别是AGM框架,以及信念修正的主要研究方法.在此基础上重点介绍了多Agent信念修正的主要研究内容和方法,目前国际的进展及仍然存在的问题.最后提
日前,物理与信息工程学院举行授聘仪式,聘请美国东卡罗莱纳大学物理系终身教授、中科院上海光机所量子光学重点实验室特聘研究员黎永青博士为兼职教授.副校长刘慕仁教授代表学校
阐述了入侵检测中报文交换的产生背景与功能要求,探讨并分析了此领域中的相关技术与进展,包括通用入侵检测框架中的通用事件描述语言,以及IETF入侵检测工作组在这方面的工作:入侵
研究了GSM协议中的无线资源管理部分,空闲模式下的MS包括蜂房选择、重选择过程,以及相关的PLMN选择、位置注册.初始化接入过程描述了MS从空闲模式到专用模式的转换.专用模式
川西蓬莱镇组致密砂岩储层具有低孔、低渗特征,在开发过程中外来流体导致储层严重水锁损害。因此有必要对致密砂岩毛管自吸条件下不同含水率水膜厚度变化进行研究,为改善水锁
数据本地复制主要涉及到数据的隐私和完整性,如果认证服务集成在数据本地复制里,则可以减少非法访问。因此提出了一个新的访问控制服务,称之为CCAC,这是专门针对于数据本地复制安