微软宣布AzureAISpeech"Avatar"智能语音服务全面上线,该服务允许开发人员构建支持自然语音的语音功能、多语种、生成式AI应用程序。AzureAISpeech服务中新的文本到语音头像功能可以将简单的文本转换为逼真的人以自然的声音说话的视频。开发人员可以使用作为该服务一部分的任何预建替身,也可以创建自己的自定义替身。

新功能使开发人员能够为其用户创建个性化和引人入胜的内容。这项服务的输出视频分辨率为1920x1080,每秒25帧(FPS)。

下面是文字转语音"头像"服务的演示:

AzureSpeech文本转语音"Avatar"具有以下功能:

  • 通过AzureAI文本转语音技术,将文本转换成逼真的人声数字视频,并配以自然的声音。

  • 提供一系列预制头像。

  • 化身的声音由AzureAI文本转语音技术生成。

  • 通过批量合成API异步或实时将文字合成为语音化身视频。

  • 在SpeechStudio中提供内容创建工具,无需编码即可创建视频内容。

  • 通过SpeechStudio中的即时聊天头像工具实现实时头像对话。


  • 文字转语音"Avatar"服务的定价有点复杂。不出所料,收费将基于视频输出的长度,并按秒计费。此外,作为文本到语音头像服务解决方案一部分的文本到语音、语音到文本、AzureOpenAI或其他Azure服务将单独收费。此外,该服务现在可在以下Azure地区使用:东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部。

    您可以在这里了解更多有关文字转语音"Avatar"服务的信息。