跳到内容

多模态

使用结构化提取从图像中提取元数据

像 gpt-4o 这样的多模态语言模型擅长处理多模态信息,使我们能够从图像中提取丰富、结构化的元数据。

这在时尚等领域特别有价值,我们可以利用这些功能从图像甚至视频中了解用户的风格偏好。在这篇文章中,我们将展示如何使用 instructor 将图像映射到给定的产品分类法,以便我们可以为用户推荐类似的产品。

使用多模态 Gemini 进行结构化输出

在这篇文章中,我们将探讨如何使用 Google 的 Gemini 模型与 Instructor 结合,分析旅行视频并提取结构化建议。这种强大的组合使我们能够处理多模态输入(视频)并使用 Pydantic 模型生成结构化输出。这篇文章是与 Kino.ai 合作完成的,这家公司使用 instructor 从多模态输入中进行结构化提取,以改进电影制作人的搜索体验。

设置环境

首先,让我们使用必要的库设置环境