论文部分内容阅读
随着移动互联网的快速发展,随时随地进行网络在线阅读已经成为现实。特别是以起点中文为首的在线读物网站为阅读爱好者提供了数以百万计的网络原创文学读物,丰富了文学爱好者的阅读需求。而类纸阅读器凭借其无闪烁、无辐射、阅读不耗电等特性,成为手持阅读器中的一个主要分支。但是,拥有移动互联网接入功能的类纸阅读器,在网络原创文学读物阅读功能的支持上,存在排版与网络延时的问题,使得读者难以使用类纸阅读器进行阅读。
本文研究并实现类纸阅读器的在线读物系统,通过基于启发式规则的Web信息抽取技术实现对在线读物网页的重新排版,通过基于用户阅读历史的动态网络预取算法实现对网络数据的预取,完成对原创文学读物阅读功能的有效支持,使用户获得与本地阅读相同的阅读体验。
针对在线读物网站的特点,本文提出了基于启发式规则的抽取算法,根据网页的区域化特征以及动态技术网页衔接的相似性特征,应用区域抽取和停用词抽取的方法,将得到的目标数据块进行分层次抽取,获得带有附加意义的结构化数据。
针对无线网络的不稳定性的问题,本文提出了动态预取算法,能有效地避免由于网络固有延时给用户带来的阅读等待。通过网络预取,可以使用户在连网时获得缓冲阅读的功能;通过网络缓存,可以使用户在断网时获得离线阅读功能。
通过在某款类纸阅读器上的实验验证,表明本文所提出的在线读物系统具有较高实用价值。