当前位置：首页 > article >正文

吃透LangChain(五)：多模态输入与自定义输出

article 2026/2/8 12:11:54

多模态数据输入

这里我们演示如何将多模态输入直接传递给模型。我们目前期望所有输入都以与OpenAl 期望的格式相同的格式传递。对于支持多模态输入的其他模型提供者，我们在类中添加了逻辑以转换为预期格式。

在这个例子中，我们将要求模型描述一幅图像。

import base64
import httpx
from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAIimg_url = "https://img0.baidu.com/it/u=3217812679,2585737758&fm=253&fmt=auto&app=138&f=JPEG?w=889&h=500"
img_data = base64.b64encode(httpx.get(img_url).content).decode("utf-8")
model = ChatOpenAI(model="gpt-4o")message = HumanMessage(content = [{"type": "text", "text": "用中文描述图片里边的内容和天气"},{"type": "image_url", "image url": {"url": f"data:image/jpeg;base64,{img_data}"}}]
)result = model.invoke([message])
print(result)

输出

这张图片中的天气晴朗，天空呈现明亮的蓝色，并有一些白色云朵点缀。阳光明媚，给大地带来了充足的光照。总体而言，天气非常宜人

多张图片输入

import base64
import httpx
from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAIimg_url = "https://img0.baidu.com/it/u=3217812679,2585737758&fm=253&fmt=auto&app=138&f=JPEG?w=889&h=500"
img_url1 = "https://img0.baidu.com/it/u=3217812679,2585737758&fm=253&fmt=auto&app=138&f=JPEG?w=889&h=500"
model = ChatOpenAI(model="gpt-4o")message = HumanMessage(content = [{"type": "text", "text": "两张图片是否一致？"},{"type": "image_url", "image url": img_url },{"type": "image_url", "image url": img_url }]
)result = model.invoke([message])
print(result)

引用工具

from typing import Literal
from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAI
from langchain_core.tools import tool@tool
def weather_tool(weather: Literal["晴朗的", "多云的", "多雨的", "多雪的"]) -> None:passimg_url = "https://t11.baidu.com/it/u=2838234550,164986307&fm=30&app=106&f=JPEG"
model = ChatOpenAI(model="gpt-4o")
model_with_tool = model.bind_tools([weather_tool])
message = HumanMessage(content = [{"type": "text", "text": "用中文描述图片里边的天气"},{"type": "image_url", "image url": {"url": img_url}},]
)result = model_with_tool.invoke([message])
print(result)

自定义输出：JSON、XML、YAML

如何输出JSON

虽然一些模型提供商支持内置的方法返回结构化输出，但并非所有都支持。我们可以使用输出解析器来帮助用户通过提示指定任意的 JSON 模式，查询符合该模式的模型输出，最后将该模式解析为JSON。请记住，大型语言模型是有泄漏的抽象!您必须使用具有足够容量的大型语言模型来生成格式良好的JSON.
JsonOutputParser 是一个内置选项，用于提示并解析JSON 输出。虽然它在功能上类似于PydanticOutputParser，但它还支持流式返回部分JSON 对象。
以下是如何将其与 Pydantic 一起使用以方便地声明预期模式的示例:

如何输出XML

XmlOutputParser

如何输出YAML

YamlOutputParser

吃透LangChain(五)：多模态输入与自定义输出

多模态数据输入

输出

多张图片输入

引用工具

自定义输出：JSON、XML、YAML

如何输出JSON

如何输出XML

相关文章：

吃透LangChain(五)：多模态输入与自定义输出

C++ `unique_ptr` 多线程使用

Flink介绍——实时计算核心论文之Kafka论文详解

MQTTClient.c的线程模型与异步事件驱动

《Learning Langchain》阅读笔记3-基于 Gemini 的 Langchain如何从LLMs中获取特定格式

AI Agents系列之构建多智能体系统

OJ笔试强训_1至24天

3款顶流云电脑与传统电脑性能PK战：START云游戏/无影云/ToDesk云电脑谁更流畅？

java IO/NIO/AIO

java输出、输入语句

宏基因组产品升级——抗菌肽数据库APD

大数据面试问答-Spark

线程池七个参数的含义

Windows suwellofd 阅读器-v5.0.25.0320

三大等待和三大切换

告别定时任务！用Dagster监听器实现秒级数据响应自动化

一文读懂WPF系列之MVVM

【Unity】打包TextMeshPro的字体

51单片机实验五：A/D和D/A转换

使用VHD虚拟磁盘安装双系统，避免磁盘分区

Kafka消费者端重平衡流程

Django之modelform使用

云轴科技ZStack入选中国人工智能产业发展联盟《大模型应用交付供应商名录》

写论文时降AIGC和降重的一些注意事项

AI 编程工具—如何在 Cursor 中集成使用 MCP工具

基础算法篇(5)(蓝桥杯常考点)—动态规划（C/C++）

MLLMS_KNOW尝鲜版

《软件设计师》复习笔记（12.2）——成本管理、配置管理

《AI赋能职场：大模型高效应用课》第8课 AI辅助职场沟通与协作

Spring 中的 @Cacheable 缓存注解