多模态¶

2024/12/11
在 OpenAI, 多模态中
5 分钟阅读

使用结构化提取从图像中提取元数据

像 gpt-4o 这样的多模态语言模型擅长处理多模态信息，使我们能够从图像中提取丰富、结构化的元数据。

这在时尚等领域特别有价值，我们可以利用这些功能从图像甚至视频中了解用户的风格偏好。在这篇文章中，我们将展示如何使用 instructor 将图像映射到给定的产品分类法，以便我们可以为用户推荐类似的产品。

2024/10/23
在 Gemini, 多模态中
5 分钟阅读

使用多模态 Gemini 进行结构化输出

在这篇文章中，我们将探讨如何使用 Google 的 Gemini 模型与 Instructor 结合，分析旅行视频并提取结构化建议。这种强大的组合使我们能够处理多模态输入（视频）并使用 Pydantic 模型生成结构化输出。这篇文章是与 Kino.ai 合作完成的，这家公司使用 instructor 从多模态输入中进行结构化提取，以改进电影制作人的搜索体验。

设置环境

首先，让我们使用必要的库设置环境