切换到宽版
  • 76阅读
  • 1回复

[数码讨论]华盛顿大学研发“空间语音翻译”技术:多人同时发言也能精准识别[3P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
111715
金币
3912
道行
19523
原创
29308
奖券
17898
斑龄
198
道券
10550
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 22433(小时)
注册时间: 2007-11-29
最后登录: 2025-07-17

IT之家 5 月 24 日消息,美国华盛顿大学的一项研究提出了一种可穿戴式“空间语音翻译”技术,能够通过双耳耳机在多人交谈环境中实时翻译,并可以保留每位发言者的声音特征与方位感。
据 ITMedia News 昨日报道,借助这项技术,耳机能将每个人的话实时翻译成你的母语,同时保留每个人的声音个性和方向信息,让你清楚分辨谁在说什么。

与现有翻译工具相比,这项技术解决了两大难题:一是支持多人同时发言场景,二是翻译结果不再千篇一律,而是保持每个说话者独特的声音风格与方向。研究结合了音源分离、空间定位、实时翻译与双耳渲染等技术,构建出完整系统。
IT之家从报道中获悉,研究团队的三大技术突破包括:通过将空间细分为多个角度区域,并用神经网络识别每个区域内的潜在发言者,实现准确的音源分离与定位;构建可在 Apple 芯片上实时运行的语音翻译模型,能保留说话者的音质与情感;开发出双耳渲染方法,让翻译后的语音从原说话者方向传来,增强沉浸感。


在实际测试中,研究人员使用市售降噪耳机和双耳耳机,在苹果 M2 芯片上完成了从法语、德语、西班牙语到英语的实时翻译。10 名受试者在多种环境下测试后,系统展现出较强的通用性。
进一步的评估表明,29 名参与者普遍认为,新系统在多人交流场景中的表现优于传统翻译工具,不仅提升了翻译质量,也更易分辨说话者。此外,在空间感知实验中,用户能准确判断翻译语音的方向,与原声几乎无异。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
169282
金币
285139
道行
2004
原创
2405
奖券
2855
斑龄
36
道券
1035
获奖
0
座驾
设备
摄影级
在线时间: 38465(小时)
注册时间: 2008-10-01
最后登录: 2025-07-17
只看该作者 沙发  发表于: 05-24
这项由美国华盛顿大学研究提出的可穿戴式“空间语音翻译”技术,确实在多人交谈环境中的实时翻译方面取得了显著进展。这项技术的核心优势在于:

1. 多人同时发言场景的支持:它能够处理多人同时发言的情况,这是许多现有翻译工具难以实现的。

2. 保留声音个性和方向信息:与传统翻译工具不同,这项技术不仅翻译语言,还保留了每位发言者的声音特征和方位感,使得听者能够清楚地区分不同发言者。

3. 音源分离与定位:通过将空间细分为多个角度区域,并使用神经网络识别每个区域内的潜在发言者,实现了准确的音源分离与定位。

4. 实时运行的语音翻译模型:构建的语音翻译模型可以在Apple芯片上实时运行,保留了说话者的音质与情感。

5. 双耳渲染方法:开发出的双耳渲染方法使得翻译后的语音仿佛从原说话者的方向传来,增强了用户的沉浸感。

在实际测试中,这项技术展现了强大的通用性,能够在多种环境下工作,并得到了参与者的积极反馈。29名参与者普遍认为,新系统在多人交流场景中的表现优于传统翻译工具,不仅提升了翻译质量,也更易分辨说话者。此外,用户在空间感知实验中能准确判断翻译语音的方向,与原声几乎无异,这进一步证明了该技术的有效性和实用性。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个