Pydantic¶

from typing import Iterable
from pydantic import BaseModel
import instructor
from openai import OpenAI


# Define the UserDetail model
class UserDetail(BaseModel):
    name: str
    age: int


# Patch the OpenAI client to enable the response_model functionality
client = instructor.from_openai(OpenAI())


def generate_fake_users(count: int) -> Iterable[UserDetail]:
    return client.chat.completions.create(
        model="gpt-3.5-turbo",
        response_model=Iterable[UserDetail],
        messages=[
            {"role": "user", "content": f"Generate a {count} synthetic users"},
        ],
    )


for user in generate_fake_users(5):
    print(user)
    #> name='Alice' age=25
    #> name='Bob' age=30
    #> name='Charlie' age=35
    #> name='David' age=40
    #> name='Eve' age=22

利用简单示例

我们可能希望通过利用 Pydantic 的配置将示例设置为提示的一部分。我们可以直接在 JSON Schema 本身中设置示例。

from typing import Iterable
from pydantic import BaseModel, Field
import instructor
from openai import OpenAI


# Define the UserDetail model
class UserDetail(BaseModel):
    name: str = Field(examples=["Timothee Chalamet", "Zendaya"])
    age: int


# Patch the OpenAI client to enable the response_model functionality
client = instructor.from_openai(OpenAI())


def generate_fake_users(count: int) -> Iterable[UserDetail]:
    return client.chat.completions.create(
        model="gpt-3.5-turbo",
        response_model=Iterable[UserDetail],
        messages=[
            {"role": "user", "content": f"Generate a {count} synthetic users"},
        ],
    )


for user in generate_fake_users(5):
    print(user)
    #> name='John Doe' age=25
    #> name='Jane Smith' age=30
    #> name='Michael Johnson' age=22
    #> name='Emily Davis' age=28
    #> name='David Brown' age=35

通过将名人姓名作为示例，我们已经转向生成包含知名人物的合成数据，从而摆脱了之前使用的简单单字名称。

利用复杂示例

为了有效地生成更细致的合成示例，让我们升级到 "gpt-4-turbo-preview" 模型，使用模型级别的示例而不是属性级别的示例

import instructor

from typing import Iterable
from pydantic import BaseModel, ConfigDict
from openai import OpenAI


# Define the UserDetail model
class UserDetail(BaseModel):
    """Old Wizards"""

    name: str
    age: int

    model_config = ConfigDict(
        json_schema_extra={
            "examples": [
                {"name": "Gandalf the Grey", "age": 1000},
                {"name": "Albus Dumbledore", "age": 150},
            ]
        }
    )


# Patch the OpenAI client to enable the response_model functionality
client = instructor.from_openai(OpenAI())


def generate_fake_users(count: int) -> Iterable[UserDetail]:
    return client.chat.completions.create(
        model="gpt-4-turbo-preview",
        response_model=Iterable[UserDetail],
        messages=[
            {"role": "user", "content": f"Generate `{count}` synthetic examples"},
        ],
    )


for user in generate_fake_users(5):
    print(user)
    #> name='Merlin' age=1000
    #> name='Saruman the White' age=700
    #> name='Radagast the Brown' age=600
    #> name='Elminster Aumar' age=1200
    #> name='Mordenkainen' age=850

利用描述

通过调整 Pydantic 模型中的描述，我们可以巧妙地影响生成的合成数据的性质。这种方法可以对输出进行更细致的控制，确保生成的数据更紧密地符合我们的预期或要求。

例如，将“听起来像花哨法语的名字”指定为 UserDetail 模型中 name 字段的描述，会指导生成过程产生符合此特定标准的名字，从而得到一个既多样化又符合特定语言特征的数据集。

import instructor

from typing import Iterable
from pydantic import BaseModel, Field
from openai import OpenAI


# Define the UserDetail model
class UserDetail(BaseModel):
    name: str = Field(description="Fancy French sounding names")
    age: int


# Patch the OpenAI client to enable the response_model functionality
client = instructor.from_openai(OpenAI())


def generate_fake_users(count: int) -> Iterable[UserDetail]:
    return client.chat.completions.create(
        model="gpt-3.5-turbo",
        response_model=Iterable[UserDetail],
        messages=[
            {"role": "user", "content": f"Generate `{count}` synthetic users"},
        ],
    )


for user in generate_fake_users(5):
    print(user)
    #> name='Jean Luc' age=30
    #> name='Claire Belle' age=25
    #> name='Pierre Leclair' age=40
    #> name='Amelie Rousseau' age=35
    #> name='Etienne Lefevre' age=28

2023/11/18
在 Pydantic 中
阅读时长 4 分钟

使用 Pydantic 验证 LLM 引用

确保信息准确性至关重要。这篇博客文章探讨了 Pydantic 强大而灵活的验证器如何通过引用验证来增强数据准确性。

我们将首先使用简单的子字符串检查来验证引用。然后，我们将使用 instructor 本身来驱动一个 LLM 来验证引用并将答案与给定引用对齐。最后，我们将探讨如何利用这些技术生成一个包含准确回复的数据集。

2023/11/02
在 Pydantic 中
阅读时长 1 分钟

AI 工程师主题演讲：Pydantic 是您所需的一切

点击此处观看完整演讲

2023/10/23
在 Pydantic, 数据验证, Python 中
阅读时长 11 分钟

好的 LLM 验证就是好的验证

如果您的验证逻辑可以像人类一样学习和适应，但又能以软件的速度运行，会怎么样？这就是验证的未来，而且它已经到来。

验证是可靠软件的基础。但传统方法是静态的、基于规则的，无法适应新的挑战。本文探讨了如何使用 Pydantic 和 Instructor 等 Python 库将动态的、机器学习驱动的验证引入您的软件堆栈。我们使用符合如下结构的验证函数来验证这些输出。

def validation_function(value):
    if condition(value):
        raise ValueError("Value is not valid")
    return mutation(value)