OpenAI 宣布其强大的 GPT-4 Turbo with Vision 模型现已通过公司的 API全面开放,为企业和开发人员将高级语言和视觉功能集成到其应用程序中提供了新的机会。
继去年 9 月首次发布 GPT-4 的视觉和音频上传功能以及 11 月在 OpenAI 开发者大会上推出涡轮增压 GPT-4 Turbo 模型之后,在 API 上推出了带有 Vision 的 GPT-4 Turbo。
GPT-4 Turbo 承诺显着提高速度,提供高达 128,000 个令牌(相当于约 300 个页面)的更大输入上下文窗口,并提高开发人员的负担能力。
一个关键的增强是 API 请求能够通过文本格式 JSON 和函数调用来利用模型的视觉识别和分析功能。这允许开发人员生成 JSON 代码片段,这些代码片段可以在连接的应用程序中自动执行操作,例如发送电子邮件、进行购买或在线发布。然而,OpenAI 强烈建议在采取影响现实世界的行动之前构建用户确认流程。
几家初创公司已经在利用 GPT-4 Turbo with Vision,其中包括Cognition,其 AI 编码代理 Devin 依靠该模型自动生成完整代码:
尽管面临来自 Anthropic 的 Claude 3 Opus 和 Google 的 Gemini Advanced 等较新模型的激烈竞争,但随着开发人员等待该公司的下一个大型语言模型,API 的推出应该有助于巩固 OpenAI 在企业市场的地位。