百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

OpenAI语音转录工具被曝严重幻觉:转录100小时,一半儿在瞎扯

ccwgpt 2025-02-04 13:03 54 浏览 0 评论

西风 发自 凹非寺

量子位 | 公众号 QbitAI

OpenAI的AI语音转写工具,那个号称近乎“人类水平”的Whisper,被曝幻觉严重——

100多小时转录,被工程师发现约一半都在瞎扯。

更严重的是,美联社还爆料有医疗机构利用Whisper来转录医生与患者的会诊,瞬间引发大量网友关注。

据悉,明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超过30000名临床医生和40个卫生系统已开始使用法国AI诊疗公司Nabla基于Whisper打造的工具。

而且他们已经转录了大概700万次医疗就诊。

网友纷纷表示这就有点吓人了。

值得一提的是,OpenAI之前早就警告过,该工具不应在“高风险领域”中使用

针对最新爆料,有OpenAI发言人回应,OpenAI会在模型更新中加入相应的反馈机制。

OpenAI被督促赶紧解决此问题

Whisper是OpenAI老早前推出的开源自动语音识别(ASR)系统,于2022年9月发布。

它采用简单的端到端方式,基于编码器-解码器Transformer架构。输入音频将被分成30秒的块,转化为梅尔倒谱(音频特征提取方式之一,log-Mel spectrogram),然后传入编码器。

经过68万小时的多语言和多任务监督网络数据的训练,Whisper可以进行多语言转录。

Whisper推出后得到广泛应用,如今GitHub已揽获70.2k标星:

据悉,它还被集成在ChatGPT的一些版本中,同时也是Oracle和微软云计算平台的一项内置服务,而这些平台为全球数千家公司提供服务。

此外,仅在上个月,HuggingFace上的一个最新版本Whisper就被下载了超420万次。HuggingFace社区的机器学习工程师Sanchit Gandhi表示,Whisper是最受欢迎的开源语音识别模型。

而现在,据美联社报道,很多研究人员和工程师反映,在工作中他们经常遇到Whisper产生的幻觉。

例如,密歇根大学的一位研究员在尝试改进模型之前,发现其检查的每10份音频转录中有8份出现了幻觉。

一位机器学习工程师指出,在他分析的超过100小时Whisper转录中,大约一半出现了幻觉。

还有一位开发者表示,在他使用Whisper创建的26,000份转录中,几乎每一份都发现了幻觉。

……

这种问题甚至存在于录制良好的短音频样本中。

在最近的一项研究中,计算机科学家们在审查的超过13000个清晰音频片段中发现了187个幻觉。

工程师和研究人员表示,他们从未见过其它任何AI驱动的转录工具像Whisper这样频繁地产生幻觉。

Whisper幻觉严重的原因目前尚未可知,但有软件开发者表示,这些虚构内容往往发生在停顿、有背景声音或音乐播放时

之前,OpenAI就有提醒:

不要在决策情境中使用Whisper,准确性上的缺陷可能导致结果出现明显偏差。

然鹅,美联社表示,这一警告并未阻止一些医院或医疗中心使用Whisper等语音转文字模型——

包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内,已经有超30000名临床医生和40个医疗系统已经开始使用由Nabla公司基于Whisper开发的工具。

Nabla CTO Martin Raison称,该工具针对医疗语言对模型进行了微调,用于转录和总结患者的交流。

目前,该工具已被用于转录约700万次医疗就诊。

在得知Whisper可能会产生幻觉后,Nabla表示正在解决此问题,不过:

由于“数据安全原因”,Nabla的工具会删除原始音频,无法将Nabla生成的AI文本与原始录音进行比较。

此外,据了解,Whisper还被用来为聋人和听力障碍者创建字幕。

Whisper幻觉严重问题被发现后,有人敦促OpenAI赶紧解决此问题。

今年2月离开OpenAI的研究员William Saunders也开麦了:

如果公司愿意优先考虑,这似乎是可以解决的。如果你把它放出去,人们过于自信于它的功能,并将其集成到所有这些其他系统中,那就成了问题。

有OpenAI发言人回应称,公司持续研究如何减少幻觉现象,并感谢研究人员的发现,同时补充道OpenAI会在模型更新中融入相应反馈机制。

参考链接:
[1]https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14
[2]https://x.com/AP/status/1850150400424345858

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

自己动手写Android数据库框架_android开发数据库搭建

http://blog.csdn.net/feiduclear_up/article/details/50557590推荐理由关于Android数据库操作,由于每次都要自己写数据库操作,每次还得去...

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

智东西编译|金碧辉编辑|程茜智东西5月28日消息,据科技媒体TheDecoder5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude3.7...

工信部:着力推动大模型算法、框架等基础性原创性的技术突破

工信部新闻发言人今日在发布会上表示,下一步,我们将坚持突出重点领域,大力推动制造业数字化转型,推动人工智能创新应用。主要从以下四个方面着力。一是夯实人工智能技术底座。通过科技创新重大项目,着力推动大模...

乒乓反复纠结“框架不稳定”的三个小误区

很多球友由于对框架的认知不清晰,往往会把“框架不稳定”当成一种心理负担,从而影响学球进度,其典型状态就是训练中有模有样,一旦进入实战,就像被捆住了手脚。通过训练和学习,结合“基本功打卡群”球友们交流发...

前AMD、英特尔显卡架构师Raja再战GPU,号称要全面重构堆栈

IT之家8月5日消息,知名GPU架构师拉贾科杜里(RajaKoduri)此前曾先后在AMD和英特尔的显卡部门担任要职。而在今日,由Raja创立的GPU软件与IP初创企...

三种必须掌握的嵌入式开发程序架构

前言在嵌入式软件开发,包括单片机开发中,软件架构对于开发人员是一个必须认真考虑的问题。软件架构对于系统整体的稳定性和可靠性是非常重要的,一个合适的软件架构不仅结构清晰,并且便于开发。我相...

怪不得别人3秒就知道软考案例怎么做能50+

软考高级统一合格标准必须三科都达到45分,案例分析也一直是考生头疼的一门,但是掌握到得分点,案例能不能50+还不是你们说了算吗?今天就结合架构案例考点,分享实用的备考攻略~一、吃透考点,搭建知识框架从...

UML统一建模常用图有哪些,各自的作用是什么?一篇文章彻底讲透

10万+爆款解析:9大UML图实战案例,小白也能秒懂!为什么需要UML?UML(统一建模语言)是软件开发的“蓝图”,用图形化语言描述系统结构、行为和交互,让复杂需求一目了然。它能:降低沟通成本避...

勒索软件转向云原生架构,直指备份基础设施

勒索软件组织和其他网络犯罪分子正越来越多地将目标对准基于云的备份系统,对久已确立的灾难恢复方法构成了挑战。谷歌安全研究人员在一份关于云安全威胁演变的报告中警告称,随着攻击者不断改进数据窃取、身份泄露和...

ConceptDraw DIAGRAM:释放创意,绘就高效办公新未来

在当今数字化时代,可视化工具已成为提升工作效率和激发创意的关键。ConceptDrawDIAGRAM,作为一款世界顶级的商业绘图软件,凭借其强大的功能和用户友好的界面,正逐渐成为众多专业人士的首选绘...

APP 制作界面设计教程:一步到位_app界面设计模板一套

想让APP界面设计高效落地,无需繁琐流程,掌握“框架搭建—细节填充—体验优化”三步法,即可一步到位完成专业级设计。黄金框架搭建是基础。采用“三三制布局”:将屏幕横向三等分,纵向保留三...

MCP 的工作原理:关键组件_mcp部件

以下是MCP架构的关键组件:MCP主机:像ClaudeDesktop、GitHubCopilot或旅行助手这样的AI智能体,它们希望通过MCP协议访问工具、资源等。MCP主机会...

软件架构_软件架构师工资一般多少

软件架构师自身需要是程序员,并且必须一直坚持做一线程序员。软件架构应该是能力最强的一群程序员,他们通常会在自身承接编程任务的同时,逐渐引导整个团队向一个能够最大化生产力的系统设计方向前进。软件系统的架...

不知不觉将手机字体调大!老花眼是因为“老了吗”?

现在不管是联系、交友,还是购物,都离不开手机。中老年人使用手机的时间也在逐渐加长,刷抖音、看短视频、发朋友圈……看手机的同时,人们也不得不面对“视力危机”——老花眼,习惯眯眼看、凑近看、瞪眼看,不少人...

8000通用汉字学习系列讲座(第046讲)

[表声母字]加(续)[从声汉字]伽茄泇迦枷痂袈笳嘉驾架咖贺瘸(计14字)嘉[正音]标准音读jiā。[辨形]上下结构,十四画。会意形声字,从壴从加,加也表声。注:从壴,字义与鼓乐有关;从加,字义与...

取消回复欢迎 发表评论: