基于DIV标签分段的藏文网页正文提取研究

来源 :西藏大学学报 | 被引量 : 0次 | 上传用户:dx3386136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。
其他文献
明朝中央对西藏宗教事务的管理采取了三项重要措施:一是以都司武卫行使西藏地方军政的管理;二是打破元代只倚重萨迦一派,采取"多封众建,尚用僧徒"政策,维持藏区政治分散和教派分
<正>"十三五"时期是全面建成小康社会的决胜阶段,到2020年要确保农村贫困人口实现脱贫,这无疑是全面建成小康社会最艰巨的任务。我省有15个集中连片特困地区(县),有8个国家扶
目的:探讨Ⅲ-Ⅳ度难治性褥疮的护理设计方法及临床护理效果。方法:Ⅲ-Ⅳ度褥疮患者23例,均按照手术前和手术后两个阶段进行分期护理,包括局部创面护理、全身状态护理及指导护理。