基于功能结构元组的技术文档的特征提取研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:whp_cac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词汇模型在表征工程技术知识文档特征时,将文档切分为一个个相互不关联的词,较难提取出文档的语义特征。如果考虑到一条语句中词之间的关联性,根据工程技术知识文档的语义结构信息,提取出功能结构元组作为文档特征,则可以进一步提高分类效果。文中从工程技术知识文档的特点出发,在归纳总结现有提取文本功能结构元组方法的基础上,探索将基于统计的方法和基于规则的方法相结合。首先通过统计方法提取文档特征词来过滤掉文档中的噪声和无意义的语句,再从过滤后的语句中按照语法分析树的层次,以递归方式提取文档中的功能结构元组。为更有效地提取
其他文献
随着集成电路设计规模的不断扩大,系统变得更加庞大和复杂,在设计系统芯片的各个流程中,像系统定义、软硬件划分、设计实现等都变得越来越复杂.如何满足日益复杂的SoC设计要
在传统的WEB项目开发过程中,一个WEB项目的框架从无到有,往往需要投入大量的开发资源,并且开发团队技术的好坏,直接决定了最终WEB项目框架的优劣。所以能否在开发团队技术已