基于分隔符的中文论坛信息抽取

来源 :福建电脑 | 被引量 : 0次 | 上传用户:qgf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论坛蕴含丰富的信息资源,如何获取并结构化这些信息被广泛研究。目前有多种信息抽取方法,但因各种方法的处理对象不同,以及中文论坛独有的特点,使得通用抽取方法应用于中文论坛信息抽取并不能取得理想的效果。因此本文在信息抽取方法softmealy的基础上,对中文论坛的特性进行分析,提出基于分隔符的中文论坛信息抽取方法,并以3个被广泛使用的中文论坛数据进行实验。实验结果表明,本方法可取得良好效果。
其他文献
良好的师生关系是提高教师课堂教学效率和促进学生发展进步的关键因素,因此,基于马斯洛需要层次理论分析了高校课堂师生冲突的原因,从而得出四点结论:学校应改善硬件环境以满
对于具有非均布荷载孤立档的电线弧垂最低点及最大点的计算,以往未见充分讨论。木文运用高等数学及力学的原理对此进行了详细的论述,从而使现有的孤立档计算理论更加充实、完
新课程标准的基本理念指出:“数学教育要面向全体学生,人人学有价值的数学,人人都获得必需的数学,不同的人在数学上得到不同的发展。”随着新课改的层层深入,这种理念已渗透到教学
介绍了广东省电力集团公司在全省原有Domino/Notes体系的组织及验证层次、域的划分等的基础上,考虑到将来全省电力系统形成的ATM高速主干网,基于Domino/Notes系统本身的运行效率、系统稳定性和日后维护工作
交通基础设施项目的需求和政府资金不足的矛盾催生了PPP的引入,定价问题是PPP项目成功的关键因素之一。根据地铁、轻轨、隧道等PPP项目的准经营性特点,通过分析交通基础设施P
Lucene是基于Java语言实现的开源的软件项目。全文索引和检索是非常高效的信息检索技术,可以方便快捷地融入到应用程序中以增加索引和搜索功能。在应用方面,本文主要工作是各种
期刊
运用MS-Windows98下的VisualBasic作为开发工具,在FoxPro数据库的基础上,开发出一套电网结构管理,对在现有的主网主运行的变压器和输电线路等的各种数据参数进行管理,实现了在旧的数据库基础上,开发友好的用户界
图像的边缘检测是图像处理领域的经典研究课题之一。边缘检测结果的正确性将直接影响到机器视觉系统对客观世界的理解。文章介绍了几种常用的边缘检测算子,并对各种算子的实验结果进行比较。
在不需要面对面进行交易的电子商务形式下,第三方支付已成为交易中最关键的一个环节。第三方支付从诞生之日起经历着飞速的发展和变革,支付技术不断完善,网上支付平台安全信