微软Azure OpenAI服务在公开预览版中增加了带视觉功能的GPT-4 Turbo

几周前，OpenAI在其首次开发者活动中发布了用于生成式人工智能服务的最新大型语言模型GPT-4Turbo。随后，微软宣布将把GPT-4Turbo模型添加到其AzureOpenAI服务中。今天，微软宣布增强其AzureOpenAI服务，GPT-4TurbowithVision模型现已作为公开预览版提供给客户。

微软在一篇博文中表示：

这种先进的多模态人工智能模型保留了GPT-4Turbo的所有强大功能，同时引入了处理和分析图像输入的能力。这为利用GPT-4执行更广泛的任务提供了机会，包括无障碍改进、可视化数据解释和分析以及可视化问题解答（VQA）。

此外，微软还通过GPT-4TurbowithVision预览版为AzureOpenAI客户增加了更多功能。其中之一是光学字符识别（OCR），它可以检查图像并提取图像中的任何文本，以便将其整合到用户提示中。

GPT-4TurbowithVision的另一项功能是对象接地，它可以让人工智能检查图像，并根据用户的文本提示显示图像中的关键对象。同样，人工智能还可以分析视频的特定帧。

微软补充道：

通过将GPT-4Turbo与Vision、AzureAISearch和AzureAIVision相结合，现在可以将图像与文本数据添加到一起，利用矢量搜索开发出与用户数据相连接的解决方案，从而改善聊天机器人体验。

该服务的定价为输入每1000个词元0.01美元，输出每1000个词元0.03美元，增强功能的定价不同。

目前，AzureOpenAI的澳大利亚东部、瑞典中部、瑞士北部和美国西部地区可以访问带有Vision功能的GPT-4Turbo。访问带有视觉功能的GPT-4Turbo公开预览版的客户将在"未来几周内"自动更新到"稳定的、生产就绪的版本"。