虚拟现实对语音感知和产生的影响
较大型研究项目的临床试验部分的具体目标是使用受试者内和受试者间随机混合模型,与传统临床环境相比,获得关于 VR 环境中语音训练(共鸣声)效用的初步数据实验设计。
自变量是 (1) 培训和测试条件(临床室与 VR 教室进行培训); (2) 说话人与听众的视觉距离(训练用2m、4m、6m); (3)时间点(基线2m,保留测试4m,转移测试9m)。 因变量是 (a) 人声声压级 (SPL); (b) 频谱矩(频谱平均值和标准偏差(以赫兹和音分表示)、偏度和峰度)。
假设是在训练条件和时间点之间将显示双向交互,表明在 VR 环境中训练后比在典型临床环境中训练后语音技能的获取和转移更多。
本系列将利用高度创新和复杂的 VR 技术来确定对语音治疗中后续 VR 开发很重要的参数,并为后续研究奠定实证基础,这些研究建立在当前工作的基础上,扩大其基础科学和转化价值。
研究概览
详细说明
该项目涉及三个具体目标。 具体目标 1 和 2 为临床试验设置了许多参数,这些参数在具体目标 3 中进行了说明。整个项目的详细信息,包括临床试验,如下所示,是从赠款提案中复制和粘贴的。
3.0 研究方法 总体目的是调查听觉、视觉和视听信息对自己声音的感知和产生的影响,使用 VR 作为调查工具,并提供有关 VR 在语音中的潜在效用的初步数据培训环境。 有关特定目标的详细信息在相关页面中提供。
3.1 参与者:SA1 和 SA2 将招募 60 名年龄在 24 至 50 岁之间的声音健康的课堂教师(见 3.2)。 在下端,这个年龄范围代表教师可能开始其专业教学生涯的最早年龄,在上端,代表女性更年期开始的平均年龄,我们希望限制荷尔蒙和其他与年龄相关的因素数据中的影响。 所有参与者都将参加 SA1 和 SA2,它们使用相同的同步数据收集程序,对感知测量 (SA1) 和生产测量 (SA2) 进行不同的分析。 对于探索性的SA3,将额外招聘10名具有相同特征的健康教师。 对于所有 SA,纳入和排除标准为: 纳入:通过自我报告:(1) 具有至少两年教学经验(SA1 和 SA2)或小学任课教师 (SA3),年龄在 24 至 50 岁之间的 K-12 任课教师; (2) 无持续两周以上的嗓音障碍病史,且嗓音障碍指数-10 (VHI-10)63 分<10; (3) 终生不吸烟者; (4) 无听力或未矫正视力障碍;通过书面文件: (5) 完整接种 COVID-19 疫苗的证明;通过临床评估:(6) 在参与的日子里声音正常,由获得许可的声音专业 SLP 根据声音的共识-听觉感知评估 (CAPE-V) 的总体严重程度评分进行评估 < 10.65 排除:通过自我报告:(7) 声带病变或其他影响声音的病变史; (8) 任何可能影响发声的急性病症,例如咳嗽、鼻塞或体温高于 98.6o F (37.0o C)。 请注意,在介绍与声音障碍相关的复杂性之前,在此阶段只评估声音健康的教师。 这些复杂性将在以后基于本系列的翻译工作中解决。 应该指出的是,该研究计划最终与有声音问题的教师有关,但也与当前健康教师的工作环境有关。
3.2 功效分析:功效分析假定 d = 0.4 的中等效应大小,双侧,用于测试 SA1 和 SA2 中的所有因变量。 结果表明,N=51 足以检测显着性水平为 α = 0.05 且功效为 0.8 的所有变量的结果。 考虑到可能的减员,将招募 60 名参与者用于目标 1 和 2。我们的联合研究员 Bottalico 和我们自己最近的初步数据都显示了这个数字,足以检测出与本系列调查类似的显着影响(例如,声音努力和舒适度的感知等级差异,以及 SPL 和平均 f0;(Bottalico,2017 年;Bottalico 等人,2016 年;Daşdöğen 等人,未发表的数据)。 对于探索性的 SA3,总共将招募 10 名参与者,以获得后期临床系列的初步数据。
3.3 程序 3.3.1 SA1 和 SA2:将通过在社区和社交媒体上张贴传单,并通过直接联系特拉华州、新泽西州、宾夕法尼亚州和马里兰州的公立学校招募 60 名 K-12 课堂教师,所有这些学校都可以靠近特拉华大学的研究地点。 联系 PI 并有兴趣参与的个人将通过电话或安全远程连接收到研究概况,如果他们同意,将提供知情同意书。 同意后,将引导参与者使用符合 HIPAA 标准的服务器进行在线筛查 REDCap 问卷调查,以解决除临床听觉感知语音评估 (CAPE-V) 之外的所有纳入和排除标准。 合格的参与者将被安排在特拉华大学 STAR 校园语音实验室进行实验室内预约。 在预约开始时,临床医生将使用 CAPE-V 评估参与者的声音以确认正常的语音质量。 通过最后筛选步骤的参与者(总体 CAPE-V 严重性评分 < 10)将继续进行实验程序。 其他人会被原谅。
对于实验程序,首先,参与者将接受研究期间将使用的语音任务的培训:在课堂上自我介绍 15 秒,提供与他们的教学专业知识相关的两分钟教程,维持元音 /a/ 3 秒重复三次,并产生 CAPE-V 短语,“一年前我们离开了”重复了三次。 然后,参与者将收到自我报告问卷的说明,这些问卷反映了作为一组语音刺激的自我感知的声音响度、声音努力和声音舒适度(参见 6.0)。 在交付这些说明后,将定位仪器,包括头戴式麦克风、耳机和 VR 眼镜(参见 4.0)。 然后,参与者将在 15 种随机排序的条件下执行实验性演讲任务,其中有和没有背景噪声,这些条件实际上模拟了从小型到大型演讲厅的真实房间的听觉和视觉特性,具有干燥到高度混响的声学和不同的扬声器-到听众的距离。
室内声学将被规定用于描述和控制 VR 环境中的声学变化条件(ISO 3382,参见 5.0)。 OBRIR 测量将在伊利诺伊大学厄巴纳-香槟校区的教室、演讲厅和学校礼堂环境中获得,其中的尺寸与 VR 教室的尺寸相似(参见 5.0)。 Ovation 软件(Ovation VRSpeaking, LLC, NJ, US)将用于提供逼真的 VR 房间和 3D 听众(参见 4.0)。 实验任务将包括关于训练条件的一串提示语音,(i)没有外部音频或视觉反馈或背景噪音(实验基线),(ii)单独在每个听觉条件下,(iii)在每个视觉条件下单独,以及 (iv) 在听觉和视觉条件的每种组合中。 所有条件 ii-iv 将在有和没有背景噪音的情况下产生,稍后将进行描述。 对于纯音频条件,参与者将戴上眼罩以阻挡视觉信息。 在这些条件下,为了帮助交流意图,参与者在开始每个语音字符串之前将听到掌声,这些掌声与匹配的房间声学响应相结合,这将提供有关观众在场、环境大约拥挤程度以及如何拥挤的音频空间线索。远处的听众在环境中。 为了增强参与者与环境的互动,在他们说话之前,考官会要求他们估计听众人数和说话者与听众的距离。 对于所有视觉条件,参与者将看到各自的视觉房间和坐着的听众,他们将以逼真的方式对演讲者做出反应(例如,坐着时移动、挠头等)。 为了进一步促进参与者的参与,考官将询问每个参与者大约有多少人在环境中以及他们距离多远。 在所有情况下,系统都会提示参与者“发言,让每个人都能听懂你的话”。 如前所述,所有条件都将在参与者演讲期间有和没有背景噪音的情况下进行。 噪音水平将对应于代表典型教室环境的水平(平均 54 分贝)。 66 在参与者在每种情况下发出语音后,他们将取下 VR 护目镜或眼罩,并被要求完成关于自我报告的响度、发声强度和先前发声的声音舒适度的问卷。 问卷将显示在允许在 VAS 量表上进行数字响应的计算机屏幕上(参见 6.0)。 然后,参与者将进入下一个 VR 条件,依此类推,直到完成所有条件的数据收集,从而结束会话。 会议的总时长预计约为 120 分钟。
3.3.2 SA3:参与者将是 10 位任课教师。 在满足包含和排除标准(语音的临床听觉评估除外)后,符合条件的参与者将提交给 STAR 语音实验室进行语音评估,如 SA1 和 SA2。 通过语音筛选的参与者将配备相关仪器(3.3.1; 4.0) 并将产生与 SA1 和 SA2 相同的语音字符串,扬声器到目标的距离为 4 m,由物理人体模型指定。 然后,参与者将被随机分配到两种训练条件之一:传统临床室或 VR 环境。 在各自的条件下,参与者将接受治疗性发声模式的培训,这种发声模式对健康的说话者也具有价值,即“共鸣的声音”。 68-71 培训将由具有至少两年语音障碍经验并已完成莱萨克-马德森共振语音治疗 (LMRVT) 标准化培训的语言病理学家提供。 26 在这两种环境中的整个训练过程中,背景噪音将在 SA1 和 SA2 中呈现,在传统环境的自由场中,在 VR 环境中通过耳机呈现。 在这两种训练条件下,将使用 LMRVT 第二节的材料——该课程中实际语音训练开始的第一节。 对于传统的诊室条件,在使用课程二的材料进行 30 分钟的 LMRVT 培训后,参与者将被引导重复相同的练习,从课程二开始,按照说明发出声音,就像对位于 2 米处的人说话一样由实体模特代表的演讲者,持续 5 分钟。 然后,参与者将再次重复相同的练习,就好像对位于 4 米处的人体模型说话 5 分钟,最后,在 6 米处对 5 分钟。 在每个距离的训练之后,参与者将重复基线话语,这些话语将被记录下来用于音频数据收集。 对于 VR 环境条件,参与者将接受与传统房间相同的 LMRVT 培训,仅在 VR 教室(房间 1;表 1)中作为现实课堂条件的代表,为 SA1 和 SA2 创建但不依赖于结果为了那些目标。 参与者将在 LMRVT 第 2 节练习中接受 30 分钟的培训,然后重复第二节中的相同练习,并指导他们在 VR 环境中向位于距离 2 米、4 米和 6 米处的听众讲话时发出相关的话语。每个距离演讲 5 分钟。 至于传统环境,将在每个距离的训练后使用基线话语进行录音。 完成所有培训后,两种情况下的参与者都将被引导到 STAR 环境中的标准教室(513 房间;体积/平面图约为 2440 m3/69m2)。 在那种情况下,参与者将被要求重复基线语音任务,与位于 4 米处的现场坐着的听众交谈,以进行保留测试和一个新的距离——9 米——并且将像以前一样进行录音。 然后参与者将被原谅。 总时长约为90分钟。 大约 30 分钟的简短培训课程已被证明可以改变发声方式,94 这与 PI 丰富的临床经验相一致。 因此,我们期望在本系列中找到这样的转变,这为更广泛的纵向研究奠定了基础,这些纵向研究适用于从目前的工作中发展而来的计划中的 R01。
4.0 设备:数字音频工作站(Reaper Version 6.36,Rosendale,NY,US)和头戴式麦克风(AKG C 520,Harman)将用于为所有 SA 捕获语音信号。 录音将以 44.1 kHz 采样。 麦克风与嘴的距离为 5 厘米,麦克风与参与者的嘴成 450 度角。 72 麦克风将连接到音频接口(Babyface Pro FS 24-Channel USB 2.0,德国海姆豪森),组合输入/输出延迟将小于 5 毫秒,这是低于明显回声范围的值(16和 26 毫秒)。73 该接口将连接到运行 Reaper 音频工作站的计算机以创建音频渲染。 虚拟现实眼镜 (Oculus Rift S) 将用于生成视觉信息(房间和 3D 化身听众)。 将使用 Ovation 软件 (https://www.ovationvr.com/) 提供房间体积图像和听众。 该软件允许选择多个教室环境,这些环境可以复制真实世界的例子,并与数百名数字生成的 3D 观众(真人)交谈,这些观众通过微笑、鼓掌或移动来回应演讲者。 最近的一项研究报告了该软件在创建真实世界视觉场景方面的有效性。 92 音频麦克风将按照公布的程序进行校准。 93 VR 眼镜将针对每个参与者分别进行最佳定位。 所有话语都将保存为加密文件夹中的 wav 文件。
5.0 房间声学测量和音频渲染:将在伊利诺伊大学厄巴纳-香槟校区内选择与 Ovation 软件中选择的房间大小相似的房间(教室、演讲厅和学校礼堂)(由 Co-I博塔利科)。 房间的声学特征将遵循 ISO 3382。
在扬声器通常位于房间内的位置,将使用 HATS 测量口-双耳脉冲响应。 具体而言,将按照已发表的方法使用卷积方法获得口耳-双耳脉冲响应 (OBRIR)。 91 具体来说,通过头部和躯干模拟器(HATS,GRAS 45BB KEMAR)的嘴发出的指数扫描信号将被 HATS 的耳朵记录下来。 记录的扫描(在 HATS 的耳朵处)和发射的扫描(通过 HATS 的嘴)的逆波之间的卷积将生成 OBRIR。 考虑到扬声器的耳-口路径,OBRIR 将用于声学重建房间。
对象声音在虚拟房间声学中的实时音频渲染将通过使用实时卷积插件来完成,例如 Analglyph 和我们在索邦大学的顾问 Katz 开发的 RoomZ。 74 卷积引擎将采用测量的房间脉冲响应。 虚拟声学渲染将通过开放式耳机(HD 660S,Sennheiser,Wedemark,Germany)向参与者回放,从而限制听到自己声音的染色。
6.0 测量:对于 SA1,自我报告的感知测量将从关于声音响度、声音努力和声音舒适度的三个独立问题中得出,使用视觉模拟量表(VAS;表 2)。 在每个研究条件之后,VR 眼镜将被移除,参与者将使用符合 HIPAA 标准的 REDCap 完成 VAS。 REDCap 感知问卷将显示在电脑屏幕上。 参与者将通过在 0(完全没有)到 100(极端 [ly])之间移动滑块来依次回答每个感知问题。 每个响应都将以数字形式记录在 REDCap 数据库中。 完成问卷大约需要两分钟,这将在前面的研究条件之后提供一个休息时间,并有助于最大程度地减少潜在的声音疲劳。 对于 SA2 和 SA3,语音的仪器测量将包括人声声压级 SPL 和频谱矩(参见 7.0)。
7.0 数据提取和分析:语音参数的提取将使用 Matlab R2021b(MathWorks,Natick,MA,美国)和 Praat(版本 6.2.14)进行。 对于每个记录,将以 0.05 秒的时间步长获得 SPL90 和基频 f0 的时间历程。 f0 将在精确的自相关方法的基础上使用声学周期性检测算法进行估计。 该方法比其他基于倒谱或梳状的方法,或原始的自相关方法更准确、抗噪声和稳健。 对于两个时间历史,将计算统计矩(频谱平均值、标准偏差、偏度和峰度)。 之前已经报道了频谱矩区分不同程度发声努力的能力。 76 这些措施将定量评估可能与声音质量的潜在变化相关的关键频谱贡献,与声音努力和舒适度有关。 然而,语音质量的感知测量不会在本系列中进行。
8.0 统计分析:对于所有 SA,线性混合效应 (LME) 模型 (Matlab R2021b) 将通过受限最大似然 (REML) 进行拟合。 这些模型的因变量和自变量列在 SA 部分中。 参与者 ID 将用作随机效应项。 这里,“参与者ID”的随机效应是指“参与者ID”对观察结果的部分汇集,每个参与者ID的斜率和截距都是随机的。 将根据 Akaike 信息准则和似然比检验的结果来选择模型。 将执行 Tukey 的事后成对比较,以检查感兴趣的固定因素的所有级别之间的差异,当它们超过 2 个级别(在本例中为音频和视觉环境)。 这些是成对的 z 检验,其中 z 统计量表示观察到的统计量与其假设的总体参数之间的差异(以标准差为单位)。 这些测试的 p 值将使用默认的单步法进行调整。 LME 输出将包括固定效应系数的估计值、与估计值相关的标准误差、自由度 (df)、检验统计量 (t) 和 p 值。 Satterthwaite 方法将用于近似自由度和计算 p 值。
研究类型
注册 (预期的)
阶段
- 不适用
联系人和位置
学习联系方式
- 姓名:Katherine Verdolini Abbott, PhD
- 电话号码:302-831-0956
- 邮箱:kittie@udel.edu
研究联系人备份
- 姓名:Umit Dasdogen, PhD
- 电话号码:302-831-0956
- 邮箱:umitudas@udel.edu
参与标准
资格标准
适合学习的年龄
接受健康志愿者
有资格学习的性别
描述
纳入标准:
通过自我报告:(1) 具有至少两年教学经验的 K-12 任课教师(SA1 和 SA2)或小学任课教师(SA3),年龄在 24 至 50 岁之间; (2) 无持续两周以上的嗓音障碍病史,且嗓音障碍指数-10 (VHI-10)63 分<10; (3) 终生不吸烟者; (4) 无听力或未矫正视力障碍;通过书面文件: (5) 完整接种 COVID-19 疫苗的证明;通过临床评估:(6) 在参与的日子里声音正常,由获得许可的声音专业 SLP 根据声音的共识-听觉感知评估 (CAPE-V) < 10.65 的总体严重程度评分进行评估。
排除标准:
自我报告:(7)声带病变或其他影响声音的病变史; (8) 任何可能影响发声的急性病症,例如咳嗽、鼻塞或体温高于 98.6o F (37.0o C)。 请注意,在介绍与声音障碍相关的复杂性之前,在此阶段只评估声音健康的教师。 这些复杂性将在以后基于本系列的翻译工作中解决。 应该指出的是,该研究计划最终与有声音问题的教师有关,但也与当前健康教师的工作环境有关。
-
学习计划
研究是如何设计的?
设计细节
- 主要用途:基础科学
- 分配:随机化
- 介入模型:顺序分配
- 屏蔽:无(打开标签)
武器和干预
参与者组/臂 |
干预/治疗 |
---|---|
实验性的:传统干预
参与者将在标准临床环境中接受传统的语音训练。
|
传统与虚拟现实
其他名称:
|
实验性的:虚拟现实干预
参与者将在虚拟现实条件下接受语音训练。
|
传统与虚拟现实
其他名称:
|
研究衡量的是什么?
主要结果指标
结果测量 |
措施说明 |
大体时间 |
---|---|---|
自报响度
大体时间:2周
|
自报响度
|
2周
|
声压级
大体时间:2周
|
声压级
|
2周
|
次要结果测量
结果测量 |
措施说明 |
大体时间 |
---|---|---|
自我报告的声音努力和舒适度
大体时间:2周
|
自我报告的声音努力和舒适度
|
2周
|
光谱时刻
大体时间:2周
|
谱均值、标准差、偏度和峰度
|
2周
|
合作者和调查者
研究记录日期
研究主要日期
学习开始 (预期的)
初级完成 (预期的)
研究完成 (预期的)
研究注册日期
首次提交
首先提交符合 QC 标准的
首次发布 (实际的)
研究记录更新
最后更新发布 (实际的)
上次提交的符合 QC 标准的更新
最后验证
更多信息
此信息直接从 clinicaltrials.gov 网站检索,没有任何更改。如果您有任何更改、删除或更新研究详细信息的请求,请联系 register@clinicaltrials.gov. clinicaltrials.gov 上实施更改,我们的网站上也会自动更新.
语音训练的临床试验
-
Karolinska InstitutetMinistry of Health and Social Affairs, Sweden完全的
-
Mental Health Services in the Capital Region, DenmarkCopenhagen Trial Unit, Center for Clinical Intervention Research; Center for Clinical Intervention...完全的