论文部分内容阅读
刷牙是保护牙齿健康的一种重要方法,刷牙质量对牙齿健康有很大的影响。本文提出了一种基于声场的刷牙质量检测方法。该方法包括1个喉头麦克风(以下简称“喉麦”)和1个蓝牙耳机,分别戴在用户的颈部喉侧和耳朵上,并设计开发了一款基于Android平台的应用程序,该程序可以检测用户每天的刷牙部位和刷牙时长,有助于帮助用户形成一种良好的刷牙方法和习惯。
系统设计
刷牙音频信号捕获和特征提取
本研究假定采用Bass刷牙法进行刷牙,对应地,将整个口腔区域划分为16个检测区,如图1所示。首先,将整个口腔划分为门牙区和后牙区,上下2个门牙区又各包含外侧和内侧,上下左右4个后牙区各包含外侧、内侧和咀嚼面3个区,共计16个区(牙面)。刷牙时,当牙刷采用Bass刷牙法对不同区域进行清洁时,与牙面的摩擦产生不同类型的音频特征信号。用户采用如图2所示的穿戴方式佩戴蓝牙耳机和喉麦,在刷牙时牙刷与牙面摩擦产生的原始音频信号分别通过空气传播到位于蓝牙耳机的麦克风,和通过骨骼、肌肉和皮肤传播到喉麦,分别被两路传惑器捕获(两路麦克风采样频率均为44100Hz,采样速率192kbps)。
除此之外,考虑刷牙过程中总是以漱口开始和结束,我们也采集了漱口音频信号作为一种特殊类别,以判断刷牙的开始和结束。为了提高模型的健壮性,额外添加了背景噪声数据作为空白类别。这2类音频特征提取方式与刷牙音频特征提取方式相同。
接着,针对捕获到的双通道音频数据进行数据融合(忽略传播延迟差异),并用滑動窗口进行分割,得到以时间片为单位的双通道音频数据元。考虑单个麦克风使用192kbps采样速率,当前状态每个时间片内的数据量仍然很大。结合常用处理手段,我们分别从时域特征、频域特征和梅尔倒频谱特征(一种面向入耳听觉特性的特殊频域特征)3个维度对2个通道的原始音频数据分别进行统计特征抽取,方便后续的机器学习模型训练。
模型对比和选优
通过在某中学招募10名志愿者(6名男生,4名女生),佩戴所设计的设备进行数据采集。志愿者首先需要学习2周标准Bass刷牙方法,然后参与数据采集工作。数据采集过程中,每名志愿者穿戴图2中的设备并按照规定的流程和规则进行刷牙和录音,然后遁过数据采集软件对其刷牙区域进行人工标定。每人单次数据采集时长约为3分钟,总计记录有效原始音频数据10小时7分钟。通过不同窗口进行数据特征提取会产生不同数据规模的、带有标定类别的高维特征数据集(68维,窗口大小为0.2s时,数据集大小约680 Mb),用于模型的训练和测试。
分别采用了k近邻、决策树、随机森林和神经网络等学习算法建立了刷牙区域分类器模型。通过训练和对比多种不同的机器学习算法,选取其中性能最优的模型实现我们的Android应用程序。实验结果表明,随机森林模型性能最好,平均准确率为92.4%。
系统总体流程
如图3所示,系统整体分为前期的模型训练和后期的实时监测2部分,下面分别简述如下。
模型训练
通过佩戴蓝牙耳机和喉麦组成的双通道声场采集系统,用户采用Bass法刷牙对16个牙面的刷牙音频信号进行采集和标定。通过滑动窗口对融合信号分割,并对分割后每个时间窗口内的原始音频信号进行特征抽取,获得时域、频域和梅尔倒频谱特征共计68个特征,以及对应的刷牙面标记。
通过对采用标准刷牙方式的用户进行长时间跟踪采集,结合上述数据处理方法,获取一个标准Bass刷牙音频信号数据特征集。然后,使用所构建的数据集对机器学习算法分别进行训练,针对常用的算法度量进行模型对比,选取性能最好的模型用于刷牙质量实时检测。
实时检测
通过采用标准Bass刷牙音频信号数据所训练得到的模型,能够对新采集的音频数据进行刷牙区域判断,也就是说当用户产生新的刷牙音频信号时,训练得到的模型能够判断用户正在刷哪个牙面。通过对每个牙面的刷牙时间进行计算,判断每个牙面是否采用了正确的刷牙方式,清洁时长是否足够。
如果采用Bass刷牙法,要求刷牙时间不低于3分钟,考虑中间的停顿等因素,以及我们所划分的16个牙面,每个牙面基本监测时间设定为lOs。刷牙过程中,我们实时地记录每个牙面的累积清洁时间,并通过图形化的界面向使用者展示(如图4)。在用户刷牙过程中,应用程序实时向用户反馈刷矛质量检测结果:使用白包标识正确完成清洁的区域,使用红色标识尚未正确完成清洁的区域。
软件记录用户每天的刷牙次数和刷牙的时间信息,构建用户口腔卫生日志,进而对用户口腔卫生进行中长期分析。同时,考虑设备的复用性,可以分别针对多名家庭成员进行刷牙检测和中长期日志追踪。
@结论
本文提出了一种基于双通道声场的刷牙质量检测方法,该应用程序可以通过计算每一个牙列表面的刷牙时长和刷牙强度指导用户养成正确的刷牙方法。下一步的工作包括:①结合智能手环进一步提高刷牙区域检测的精度;②目前的训练和测试数据集是由青少年刷牙声音信号构成的,数据集规模较小,下一步还需要进一步扩充数据集,提高模型的泛化能力,可进一步建立成年人和老年人的刷牙声音数据集;③在研究成果成熟后,考虑该成果的技术转化问题,争取能够在现实生活中得到广泛应用。
该项目获得第33届全国青少年科技创新大赛创新成果竞赛项目中学组计算机科学类一等奖。
专家评语
采用机器学习的方法,基于刷牙音频信号的时域和频域特征,建立了一个高精度的分类器定位刷牙时牙刷在上下颌牙列的区域。方法运用了机器学习方法,结果具有较好的实用性,构思巧妙。在未来的工作中,可考虑采用一些低成本的硬件,以进一步提高整个系统的椎广能力。
系统设计
刷牙音频信号捕获和特征提取
本研究假定采用Bass刷牙法进行刷牙,对应地,将整个口腔区域划分为16个检测区,如图1所示。首先,将整个口腔划分为门牙区和后牙区,上下2个门牙区又各包含外侧和内侧,上下左右4个后牙区各包含外侧、内侧和咀嚼面3个区,共计16个区(牙面)。刷牙时,当牙刷采用Bass刷牙法对不同区域进行清洁时,与牙面的摩擦产生不同类型的音频特征信号。用户采用如图2所示的穿戴方式佩戴蓝牙耳机和喉麦,在刷牙时牙刷与牙面摩擦产生的原始音频信号分别通过空气传播到位于蓝牙耳机的麦克风,和通过骨骼、肌肉和皮肤传播到喉麦,分别被两路传惑器捕获(两路麦克风采样频率均为44100Hz,采样速率192kbps)。
除此之外,考虑刷牙过程中总是以漱口开始和结束,我们也采集了漱口音频信号作为一种特殊类别,以判断刷牙的开始和结束。为了提高模型的健壮性,额外添加了背景噪声数据作为空白类别。这2类音频特征提取方式与刷牙音频特征提取方式相同。
接着,针对捕获到的双通道音频数据进行数据融合(忽略传播延迟差异),并用滑動窗口进行分割,得到以时间片为单位的双通道音频数据元。考虑单个麦克风使用192kbps采样速率,当前状态每个时间片内的数据量仍然很大。结合常用处理手段,我们分别从时域特征、频域特征和梅尔倒频谱特征(一种面向入耳听觉特性的特殊频域特征)3个维度对2个通道的原始音频数据分别进行统计特征抽取,方便后续的机器学习模型训练。
模型对比和选优
通过在某中学招募10名志愿者(6名男生,4名女生),佩戴所设计的设备进行数据采集。志愿者首先需要学习2周标准Bass刷牙方法,然后参与数据采集工作。数据采集过程中,每名志愿者穿戴图2中的设备并按照规定的流程和规则进行刷牙和录音,然后遁过数据采集软件对其刷牙区域进行人工标定。每人单次数据采集时长约为3分钟,总计记录有效原始音频数据10小时7分钟。通过不同窗口进行数据特征提取会产生不同数据规模的、带有标定类别的高维特征数据集(68维,窗口大小为0.2s时,数据集大小约680 Mb),用于模型的训练和测试。
分别采用了k近邻、决策树、随机森林和神经网络等学习算法建立了刷牙区域分类器模型。通过训练和对比多种不同的机器学习算法,选取其中性能最优的模型实现我们的Android应用程序。实验结果表明,随机森林模型性能最好,平均准确率为92.4%。
系统总体流程
如图3所示,系统整体分为前期的模型训练和后期的实时监测2部分,下面分别简述如下。
模型训练
通过佩戴蓝牙耳机和喉麦组成的双通道声场采集系统,用户采用Bass法刷牙对16个牙面的刷牙音频信号进行采集和标定。通过滑动窗口对融合信号分割,并对分割后每个时间窗口内的原始音频信号进行特征抽取,获得时域、频域和梅尔倒频谱特征共计68个特征,以及对应的刷牙面标记。
通过对采用标准刷牙方式的用户进行长时间跟踪采集,结合上述数据处理方法,获取一个标准Bass刷牙音频信号数据特征集。然后,使用所构建的数据集对机器学习算法分别进行训练,针对常用的算法度量进行模型对比,选取性能最好的模型用于刷牙质量实时检测。
实时检测
通过采用标准Bass刷牙音频信号数据所训练得到的模型,能够对新采集的音频数据进行刷牙区域判断,也就是说当用户产生新的刷牙音频信号时,训练得到的模型能够判断用户正在刷哪个牙面。通过对每个牙面的刷牙时间进行计算,判断每个牙面是否采用了正确的刷牙方式,清洁时长是否足够。
如果采用Bass刷牙法,要求刷牙时间不低于3分钟,考虑中间的停顿等因素,以及我们所划分的16个牙面,每个牙面基本监测时间设定为lOs。刷牙过程中,我们实时地记录每个牙面的累积清洁时间,并通过图形化的界面向使用者展示(如图4)。在用户刷牙过程中,应用程序实时向用户反馈刷矛质量检测结果:使用白包标识正确完成清洁的区域,使用红色标识尚未正确完成清洁的区域。
软件记录用户每天的刷牙次数和刷牙的时间信息,构建用户口腔卫生日志,进而对用户口腔卫生进行中长期分析。同时,考虑设备的复用性,可以分别针对多名家庭成员进行刷牙检测和中长期日志追踪。
@结论
本文提出了一种基于双通道声场的刷牙质量检测方法,该应用程序可以通过计算每一个牙列表面的刷牙时长和刷牙强度指导用户养成正确的刷牙方法。下一步的工作包括:①结合智能手环进一步提高刷牙区域检测的精度;②目前的训练和测试数据集是由青少年刷牙声音信号构成的,数据集规模较小,下一步还需要进一步扩充数据集,提高模型的泛化能力,可进一步建立成年人和老年人的刷牙声音数据集;③在研究成果成熟后,考虑该成果的技术转化问题,争取能够在现实生活中得到广泛应用。
该项目获得第33届全国青少年科技创新大赛创新成果竞赛项目中学组计算机科学类一等奖。
专家评语
采用机器学习的方法,基于刷牙音频信号的时域和频域特征,建立了一个高精度的分类器定位刷牙时牙刷在上下颌牙列的区域。方法运用了机器学习方法,结果具有较好的实用性,构思巧妙。在未来的工作中,可考虑采用一些低成本的硬件,以进一步提高整个系统的椎广能力。