OpenAI官宣推出多模态ChatGPT 能看、能听、还会说
北京时间周一晚间,人工智能领域的知名创业公司OpenAI发布题为《
(来源:OpenAI)
ChatGPT此前曾推出过能上传图片的“代码解释器“功能,具备了一些初步处理图像和文本照片的能力。但毫无疑问,今天这个“随手拍、随心问”才更贴近大多数用户的AI助手使用场景。
按照标题的顺序,今天更新的功能主要有两点:
先说关注度非常高的图片聊天功能。按照OpenAI的说法,用户现在可以
在官方给出的例子中,给到ChatGPT一张
随后官方装作不懂,拍了一张螺栓的照片,
随后官方又拍了一张工具箱的照片,问ChatGPT到底是哪一个扳手。ChatGPT也顺利地认出了扳手,并准确提示用户到底要拿哪一个尺寸。
除此之外,OpenAI也将语音识别、转录和音频生成功能打包,推出了
OpenAI介绍称,这项功能使用了Whisper开源语音识别系统,将用户说的话转录成文本。同时还用上了一项新的文本转语音模型,并与专业配音演员合作,提供5种可供用户自行选择的声音。
OpenAI表示,新的语音技术能够仅通过几秒钟的真实语音创造出逼真的合成声音。这种功能打开了创造力的大门,也带来了新的风险——例如不法分子可能伪造公众人物进行欺诈。所以OpenAI的决策是通过“语音聊天”这样的特定用例来推出这项功能。
同时OpenAI也在与更多的机构展开合作。例如
图像也会带来新的挑战,例如幻觉问题,以及使用者在高风险领域却依赖模型对图像的解释。因此在上线前,OpenAI也对极端主义和科学能力等领域进行了风险测试。
另外对看到这篇文章的中文读者来说,图片对话的体验大概率值得期待,但语音对话可能要打一些折扣。OpenAI表示,
踩一下[0]
顶一下[0]