《语音识别在双相障碍中应用的研究进展2023.docx》由会员分享,可在线阅读,更多相关《语音识别在双相障碍中应用的研究进展2023.docx(9页珍藏版)》请在优知文库上搜索。
1、语音识别在双相障碍中应用的研究进展2023双相障碍是一种既有躁狂或轻躁狂发作,又有抑郁发作的常见精神疾病。流行病学调查显示我国双相障碍的年患病率为0.5%终生患病率为0.6%。双相障碍具有发病年龄早、自杀率高等特点,是一种严重的社会及公共卫生问题。双相障碍的诊断主要依赖医生的临床经验,了解患者病情的纵向变化。双相障碍早期特征不明显、临床表现复杂,导致该疾病的早期识别率、诊断率较低,因此寻求可靠的标志物作为双相障碍早期识别、诊断与鉴别诊断、评价预后与转归的工具尤为重要。语言可被用来描述情感性疾病的特征,双相障碍患者的语言特点会随着情绪变化而改变。相比于常见的生物标志物,语音信号具有数量大、易获取
2、、非侵入性等特点,语音信号特征可能对双相障碍的早期识别、鉴别诊断、严重程度评估、预后监测有应用价值,成为精神疾病临床评估的客观指标之一。现介绍语音识别技术的基本概念及方法、步骤,并对语音识别在双相障碍领域的研究进展进行综述。一、语音识别技术的基本概念及方法1 .语音识别的基本概念语音识别是让机器听懂人类语言的技术。其目的是开发出一种具备听觉能力的机器,能够收集人类语音,并通过算法和模型对语音进行识别、分析和解读,转化为文本或计算机指令。2 .语音识别技术方法语音识别大致可以分为3个步骤。第1步是语音信号的数字化及预处理。语音信号经过采样、量化、编码过程转化为数字信号后进行预处理,将自然语音转化
3、为可分析的数字信号。其中如何高效地采集语音信号对后续研究至关重要。目前,应用于精神疾病语音识别的语音采集方法可分为两类:一类是结构性语音信息。如阅读中性文字、看图说话,或是半定式访谈,患者回答问题或量表评估时录制患者的反馈,此类方法操作简单、内容清晰,便于医院场景使用,但该类方法形式单一、内容固定,可能无法反映患者的真实情绪变化。另一类是自然状态下的语音采集,包括手机后台录音和主动自我监控。相关研究表明,自然语音数据提取的特征对躁狂及混合发作的分类更加准确,可以更好地反映患者的情绪变化,且自然语音具有易于采集、非侵入性的特点,适用于长时、动态监测。但采集自然语音存在录音设备不同、环境噪音不可控
4、、无效信息量大等问题。第2步是语音特征参数的提取。语音特征可分为韵律特征、声门波特征、音质特征和频谱特征。常用的韵律特征包括基频、能量、时长等。韵律特征被认为是最主要的用于描述情感的语音特征,其多用于描述情感维度的差别,且与情感的效价有关。如能量在效价高的情绪中偏高,在效价低的情绪中偏低。声门波特征主要包括共振峰和元音空间,共振峰代表了声道变化的各种信息、,常被用于认知负荷分类和抑郁的识别与评估,第一、第二、第三共振峰(F1、F2、F3)的峰值随情绪波动的变化较为明显。音质特征以呼吸音、喉化音、明亮度等表现形式存在,常见的参数是频率微扰和振幅微扰,其中频率微扰可能反映了影响肌肉张力和发音控制的
5、自主神经系统失调,可用于表征情绪状态。频谱特征体现了声道形状变化与发声运动间的相关性,包括Mel频率倒谱系数(MFCC线性预测倒谱系数(LPCC线性预测系数(LPC)等。其中LPC、LPCC是以模拟发声的声管模型为基础提取的参数,反映了声道响应的特性,MFCC是利用人耳听觉感知特性和语音产生机制得到的参数,通过对不同频段声波的敏感度差异,证明人耳对语音信号的感知与语音频率变化的关系。第3步是语音识别模型的建立与训练。根据不同的需求,选择合适的统计方法进行建模。目前常用的语音识别建模算法主要分为两类:一类是模式匹配方法,常见动态时间规整、隐马尔科夫模型;另一类为基于深度学习的模型,如循环神经网络
6、、卷积神经网络。二、双相障碍的语音识别研究现状目前基于语音信号特征的研究主要集中在抑郁症、精神分裂症,相比于前两者,双相障碍语音特征的研究起步较晚、数量有限。目前语音识别技术在双相障碍中的研究,主要集中在疾病状态识别、辅助疾病诊断、严重程度评估及语音识别模型的构建。1 .疾病状态识别Vanello等记录6例双相障碍患者(3例抑郁发作、3例轻躁狂发作)处于发病期(抑郁或轻躁狂)及缓解期中的音频信号,发现基频均值、标准差在发病期与缓解期中的差异有统计学意义,提示基频特征的变化可以区分不同的疾病状态。Karam等对6例双相I型障碍患者进行了6个月至1年的追踪研究,通过手机软件收集221h不同情绪状态
7、下的自然语音数据,共提取51个维度的特征进行统计分析,结果显示处于轻躁狂或抑郁状态的患者与缓解状态患者,在基频标准差、过零率的段均值等基频及时长特征中的差异有统计学意义。该研究提示通过手机软件采集的自然语音数据对情绪状态的识别有一定意义。一些研究者认为自然语音数据更能反映患者的情绪变化,如FarmS等对手机录音进一步研究,发现韵律特征(如基频特征)对躁狂状态的检测更加准确,而抑郁状态的检测更依赖于非韵律特征。但语音特征与患者当前的疾病状态并无对应。一项结构性访谈研究表明,第四共振峰(F4)及线性预测系数在躁狂与缓解期的差异有统计学意义,基频特征的差异无统计学意义。这种结果的差异可能与两项研究采
8、用的语音采集方法不同有关,但在双相抑郁中是否也存在差异,有待进一步研究验证。2 .辅助疾病诊断Guidi等采集11例双相障碍患者及18名健康对照者阅读中性文本的语音信息进行比较,结果显示轻躁狂组的长停顿时长和全停顿时长的中位数较健康组降低,而以浊音/清音比组合的浊音清音片段时长提高;抑郁组与健康人群相比全停顿时长中位数及两个连续语段时间间距中位数升高,而浊音片段率降低,提示时长特征可区分双相轻躁狂患者与健康人群。Zhang等对30例双相躁狂患者及30名健康对照的语音信息进行对比,发现F1、F2和线性预测系数是区分双相躁狂患者和健康人群的关键因素。Yamamoto等采集了97例抑郁症、68例双相
9、抑郁和76名健康对照的半定式访谈内容,结果发现与健康个体相比,抑郁患者的语速较慢,停顿时间及反应时间较长;而双相抑郁患者与健康个体间没有明显的特征差异。而2021年Faurholt-Jepsen等对121例双相障碍患者和38名健康对照进行研究,发现双相障碍患者与健康人群的语音特征的差异有统计学意义,但该研究在比较过程中未对双相障碍的不同状态进行分类,因此对双相抑郁患者与健康人群的识别意义较局限。Yamamoto等在上述研究中对抑郁症与双相抑郁患者的语音特征也进行了分析,结果发现,抑郁症患者较双相抑郁患者反应速度慢、语速和停顿时长未见差异,该研究认为利用语音特征区分抑郁症与双相抑郁的能力相对有限
10、。此后一项基于自然手机通话的研究认为抑郁症与双相障碍抑郁发作患者的语音特征没有明显差异。而Higuchi等的研究对8例双相抑郁、14例抑郁症患者和32名健康对照者朗读固定文字时的声学特征进行分析,选择了韵律和频谱两个维度的语音特征构建分类模型,其整体分类准确率为90.79%o该结果说明语音特征可用于区分抑郁症与双相抑郁患者,然而研究的样本量较小,且未提供详细的临床评估方法,降低了其研究结果的临床参考价值。3 .疾病严重程度评估Zhang等在研究中发现线性预测系数与患者的Bech-Rafaelsdn躁狂评分量表(BRMS)得分之间呈正相关,提示线性预测系数的增加可能对双相躁狂严重程度的评估有重要
11、作用。又有研究指出,抑郁与双相障碍抑郁发作患者的语音速率、停顿时间和反应时间与个体HAMD-17评分之间呈偏相关,其中语音速率的变化与HAMD-17的评分变化呈偏相关,由此认为时间相关特征可以作为监测抑郁严重程度的标志。4 .语音识别模型的构建Karam等在对手机自然语音识别的研究中采用支持向量机(SVM)建模,其平均识别率在躁狂发作患者中为61%,抑郁发作患者中只有59%Weiner等将机器学习应用于语言流畅性任务,该任务区分抑郁和混合抑郁的准确率为84%,区分轻躁狂和混合轻躁狂的准确率为86%Weintraub等也用机器学习实现了一种识别率至少为75.2%的算法,用于检测情绪的表达。目前研
12、究者可选的语音识别算法众多,但缺乏统一标准,因此,有研究者对目前常见的语音识别算法在双相障碍状态识别方面的优劣进行比较。Pan等选取21例双相障碍住院患者提取了基频、共振峰、MFCC、LPCC、GFCC等参数,比较SVM和高斯混合模型(GMM)在单例和多例双相障碍躁狂状态检测中的准确性,结果显示单一特征参数中LPCC的识别效率最高,在SVM及GMM中分别达到87.66%和80.70%,SVM对小样本特定人群的检测效果较好,而在非特定人群检测中GMM准确性更高。需要注意的,性别可能影响双相障碍的识别率,在一项基于声音和表情特征的研究中,语音特征(如能量和频谱谐波)为女性双相障碍患者的识别提供了更
13、高的准确率。三、总结和展望目前,对双相障碍的语音识别的研究已取得一定的进展,如语音特征在双相障碍的不同状态及与健康人群之间的差别;将常用量表与语音特征结合,评估疾病的严重程度;利用语音识别模型对疾病状态识别的准确率也有一定提升。但仍存在一定的问题:(1)样本量较少,多数研究样本量局限于几人到几十人的区间,研究结果缺乏代表性,无法在人群中进行推广;(2)自然语音信息量大,采集设备及环境噪音对预处理及特征提取的影响较大;结构性语音信息模式较单一,可能无法真实地反映患者的情绪变化;(3)语音识别模型各有优劣,缺乏统一标准,此前有研究者将不同建模算法结合建立混合识别模型,将不同种类算法的优势进行综合,但建模过程复杂、训练运算量大,很难获得全局优化的模型;(4)对汉语语境下双相障碍患者语音识别的研究不足。今后可以关注以下研究方向:(1)扩充样本量,提高研究结果在人群中的普遍性;(2)改进语音特征提取方法及建模方法,提高对不同来源语音的适应性和识别准确率;(3)加强对汉语语音的研究,与英语等非声调语言不同,汉语是一种声调语言,不同声调所蕴含的语音特征对汉语语音识别的意义重大,因此对汉语双相障碍人群及不同语言之间的对比研究对提高语音识别模型的识别率有一定价值。