当前位置：首页 > article >正文

基于Cloudflare Workers的Gemini模型OpenAI API兼容代理部署指南

article 2026/5/10 14:45:53

1. 项目概述将Google Gemini模型桥接到OpenAI生态如果你和我一样既想体验Google Gemini 2.5系列模型强大的推理和视觉能力又早已习惯了OpenAI API那套简洁、标准化的调用方式那么你肯定也遇到过“生态割裂”的烦恼。每次想用Gemini都得去翻Google AI Studio的文档处理那些格式独特的请求体还得管理一套独立的认证密钥。更别提那些依赖OpenAI API的第三方工具了比如Open WebUI、各种ChatGPT客户端或者像Cline这样的IDE插件它们通常只认OpenAI的接口规范。这个项目gemini-cli-openai就是为了解决这个痛点而生的。它的核心思路非常巧妙利用Cloudflare Workers这个全球边缘计算平台部署一个轻量级的代理服务。这个服务能“听懂”标准的OpenAI API请求然后“翻译”成Google Code Assist API能理解的格式并自动帮你处理背后复杂的OAuth2认证流程。最终它再把Gemini的响应“包装”成OpenAI API的格式返回给你。简单来说它让你能用调用ChatGPT的方式去调用Gemini。我实际部署并使用了一段时间发现它带来的便利远超预期。你不再需要为Gemini单独申请API密钥而是复用你登录Google账号后获得的OAuth2凭证。这意味着你可以直接利用Google为开发者提供的免费额度。项目支持最新的Gemini 2.5 Pro/Flash系列模型包括它们标志性的“思考”Thinking能力并且完美兼容多模态图像输入、函数调用Tool Calling等高级功能。无论是想把它作为OpenAI的平替还是想在一个统一的界面里同时管理多个AI模型这个方案都提供了一个极其优雅的入口。2. 核心原理与架构设计拆解2.1 为什么选择Cloudflare Workers这个项目的技术选型非常精准。Cloudflare Workers是一个无服务器Serverless的边缘计算平台。选择它主要基于以下几个关键考量1. 全球低延迟与高可用性Cloudflare拥有庞大的全球网络。当你部署一个Worker后你的代码会运行在离用户最近的边缘节点上。对于API代理这类服务这意味着无论你的客户端在哪里请求都能以极低的延迟到达Worker再由Worker去调用Google的API。这比从你自己的服务器发起请求要快得多也避免了单点故障。2. 成本与开发效率Workers提供了慷慨的免费额度对于个人或小规模使用来说几乎零成本。它采用按请求计费的模式非常适合这种代理转发场景。从开发角度看它使用标准的JavaScript/TypeScript和Web API学习曲线平缓。配合Wrangler CLI工具本地开发、测试、部署的体验非常流畅。3. 内置的KV存储这是本项目能实现“智能令牌缓存”的关键。Google的OAuth2访问令牌Access Token有大约一小时的寿命。如果每次请求都去刷新令牌不仅慢还可能触发频率限制。Worker可以将有效的令牌缓存到Cloudflare KV一个全球分布的键值存储中。后续请求直接使用缓存的令牌只有当令牌过期时才用刷新令牌Refresh Token去获取新的访问令牌。这个机制极大地提升了响应速度和系统的健壮性。2.2 认证流程的巧妙设计绕过API密钥Google为Gemini提供了多种认证方式最常见的是API密钥和服务账号密钥。但这个项目选择了一条更“聪明”的路复用官方gemini-cli工具的OAuth2凭证。这么做的优势是什么无需额外申请你不需要去Google AI Studio或Google Cloud Console创建项目、启用API、生成密钥。只要你用gemini-cli登录过Google账号凭证就已经在你的电脑上了。利用免费额度gemini-cli背后使用的是Google Code Assist API它通常附带一定的免费使用额度。通过这种方式接入你很可能也在使用这部分免费资源。用户体验统一认证状态与你个人的Google账号绑定管理起来更直观。具体流程如下用户通过gemini-cli进行OAuth2登录在本地~/.gemini/目录下生成一个oauth_creds.json文件。这个文件包含了access_token、refresh_token、expiry_date等关键信息。gemini-cli-openaiWorker读取这个JSON字符串通过环境变量GCP_SERVICE_ACCOUNT注入。当收到第一个请求时Worker检查KV中是否有未过期的access_token。如果没有或已过期则使用refresh_token向Google的认证服务器申请新的access_token并更新KV缓存。使用有效的access_token去调用Gemini API。注意这里的GCP_SERVICE_ACCOUNT环境变量名有点误导性它存放的并不是传统的服务账号JSON密钥而是OAuth2的用户凭证。你需要确保从oauth_creds.json复制出来的整个JSON对象被正确设置为一个字符串。2.3 API转换层OpenAI到Gemini的“翻译官”这是项目的核心逻辑所在。OpenAI和Gemini的API设计哲学不同请求和响应的数据结构差异很大。Worker需要完成精准的“转译”。请求转换的关键点消息格式OpenAI使用messages数组包含rolesystem,user,assistant和content。Gemini使用parts数组且system指令需要通过system_instruction字段单独传递。Worker需要拆分消息正确处理system角色。多模态内容OpenAI通过content数组内嵌image_url对象来传递图片。Gemini则使用inlineDatabase64或fileDataURI。Worker需要识别image_url并将其转换为Gemini支持的格式。函数调用OpenAI的tools数组需要被映射到Gemini的tools声明和tool_config。参数格式JSON Schema也需要进行适配。流式响应两者都支持Server-Sent EventsSSE但数据块chunk的格式完全不同。Worker需要将Gemini的流式输出实时转换为OpenAI的流式格式。一个容易被忽略的细节是“思考”模式的转换。Gemini 2.5的“思考”输出在原生API中是一个独立的字段。为了兼容OpenAI的流式格式Worker提供了两种策略标准模式将思考内容放在响应块的delta.reasoning字段中。这最符合OpenAI的扩展规范但需要客户端能解析这个字段。DeepSeek R1风格当设置STREAM_THINKING_AS_CONTENTtrue时思考内容会被包裹在thinking标签中作为普通的content流出。这样做兼容性极广几乎所有能处理文本流的客户端都能直接显示用户体验更统一。项目还做了一个优化/thinking标签会在真实回复开始时才发送避免了思考结束和回复开始之间的尴尬停顿。3. 从零开始的完整部署与配置指南3.1 前期准备与环境搭建在开始部署之前你需要准备好三样东西一个Google账号、一个Cloudflare账号、以及本地的开发环境。第一步安装必要的命令行工具。你需要Node.js环境建议18.x或以上版本和Wrangler CLI。打开你的终端执行以下命令# 安装Cloudflare Workers的官方命令行工具 npm install -g wrangler安装完成后运行wrangler --version确认安装成功。接下来登录你的Cloudflare账号wrangler login这会打开浏览器引导你授权Wrangler访问你的Cloudflare账户。这里有个小坑如果你之前用过Wrangler可能存在旧的配置冲突。如果登录失败可以尝试运行wrangler logout先退出再重新登录。第二步获取OAuth2凭证核心步骤。这是整个项目认证的基础。按照README所说我们需要通过官方的gemini-cli来获取。# 安装Google官方的Gemini CLI工具 npm install -g google/gemini-cli # 运行CLI gemini运行gemini命令后它会提示你选择认证方式。选择● Login with Google。此时你的默认浏览器会打开要求你登录Google账号并授权。请确保你登录的账号已经可以访问Gemini模型通常任何普通Google账号即可。授权成功后CLI会关闭凭证文件已经保存在你的本地机器上。接下来找到它macOS/Linux:~/.gemini/oauth_creds.jsonWindows:C:\Users\你的用户名\.gemini\oauth_creds.json用文本编辑器打开这个文件你会看到如下内容{ access_token: ya29.a0AS3H6Nx..., refresh_token: 1//09FtpJYpxOd..., scope: https://www.googleapis.com/auth/cloud-platform ..., token_type: Bearer, id_token: eyJhbGciOiJSUzI1NiIs..., expiry_date: 1750927763467 }你需要完整复制这个JSON对象从第一个{到最后一个}我们稍后会用到它。这个refresh_token是长期有效的除非你手动撤销授权是自动刷新access_token的关键。3.2 创建Cloudflare KV命名空间KV是Cloudflare Workers的键值存储服务我们将用它来缓存OAuth2令牌。在项目目录下执行wrangler kv namespace create GEMINI_CLI_KV命令成功后控制台会输出类似这样的信息 Creating namespace with title gemini-cli-openai-GEMINI_CLI_KV ✨ Success! Add the following to your wrangler.toml: kv_namespaces [ { binding GEMINI_CLI_KV, id abcd1234efgh5678ijkl9012mnop3456 } ]请务必记下这个id值示例中的abcd1234...。然后打开项目根目录下的wrangler.toml文件找到kv_namespaces配置项将id替换为你刚刚获取到的值kv_namespaces [ { binding GEMINI_CLI_KV, id abcd1234efgh5678ijkl9012mnop3456 } ]binding字段GEMINI_CLI_KV是代码中引用这个KV存储的变量名不要修改。3.3 配置环境变量与密钥环境变量是配置Worker行为的核心。我们首先创建本地开发用的配置文件。创建.dev.vars文件在项目根目录下创建一个名为.dev.vars的文件。这个文件不会被提交到Git用于存放本地开发时的敏感信息。# .dev.vars # 必需将从oauth_creds.json复制的整个JSON对象作为字符串粘贴到这里 GCP_SERVICE_ACCOUNT{access_token:ya29.a0...,refresh_token:1//09F...,scope:...,token_type:Bearer,id_token:eyJ...,expiry_date:1750927763467} # 可选如果你希望API需要密钥才能访问可以设置一个。如果不设置API将对公网开放。 # 格式建议模仿OpenAI以sk-开头 OPENAI_API_KEYsk-your-secret-key-here # 可选手动指定Google Cloud项目ID。通常可以自动发现如果遇到问题再设置。 # GEMINI_PROJECT_IDyour-project-id # 可选启用真实思考模式需要Gemini 2.5 Pro/Flash模型 ENABLE_REAL_THINKINGtrue重要格式提醒GCP_SERVICE_ACCOUNT的值必须是一个完整的、合法的JSON字符串。这意味着键名和字符串值都必须用双引号括起来。你可以使用在线的JSON验证工具来检查你粘贴的字符串是否正确。部署生产环境密钥当你使用npm run deploy部署到Cloudflare时.dev.vars文件不会被上传。你需要使用Wrangler的secret命令将敏感信息设置为生产环境的环境变量# 设置OAuth2凭证 wrangler secret put GCP_SERVICE_ACCOUNT # 粘贴你的JSON字符串然后按CtrlDmacOS/Linux或CtrlZ然后回车Windows结束输入。 # 设置API密钥如果需要 wrangler secret put OPENAI_API_KEY # 输入你的密钥如 sk-123456...3.4 安装依赖与部署现在所有配置都已就绪可以开始部署了。# 安装项目所需的Node.js依赖包 npm install # 在本地启动开发服务器测试功能是否正常 npm run dev运行npm run dev后Wrangler会在本地启动一个服务器通常是localhost:8787。你可以用curl或浏览器访问http://localhost:8787/v1/models来测试是否正常返回模型列表。如果本地测试一切正常就可以部署到全球边缘网络了npm run deploy部署成功后你会得到一个唯一的Worker域名格式如https://gemini-cli-openai.你的子域名.workers.dev。这个就是你的OpenAI兼容API的终点了。实操心得部署后的首次调用可能失败。这是因为KV缓存是空的Worker需要执行首次令牌刷新。如果遇到401错误稍等几秒再试一次通常就能成功。你也可以通过调用/v1/debug/cache端点来查看当前的令牌缓存状态。4. 高级功能配置与深度使用解析4.1 理解并配置“思考”模式Gemini 2.5模型的“思考”能力是其核心亮点之一它允许模型在给出最终答案前进行内部推理并输出推理过程。本项目提供了高度灵活的配置来利用这一特性。两种思考模式的区别真实思考通过设置环境变量ENABLE_REAL_THINKINGtrue来启用。这会调用Gemini模型原生的推理能力产生真实的、连贯的思考链。你可以在请求中通过extra_body: {“include_reasoning”: true}来触发它并通过thinking_budget参数控制用于推理的token预算-1表示动态分配0表示禁用正整数表示具体预算。模拟思考通过设置ENABLE_FAKE_THINKINGtrue来启用。这不会调用真实的推理而是让模型在回复前先模拟生成一段“让我想想...”之类的文本。这主要用于测试和演示或者在不想消耗真实推理资源时保持与思考模型的接口兼容性。如何选择输出格式这是影响客户端兼容性的关键。通过STREAM_THINKING_AS_CONTENT环境变量控制false(默认)思考内容通过独立的reasoning字段在SSE流中传输。这是最“纯净”的OpenAI兼容方式但要求客户端能解析这个扩展字段。像OpenAI官方SDK和一些高级客户端支持这样。true思考内容被包裹在thinking和/thinking标签中作为普通的content流出。这种“DeepSeek R1风格”兼容性极好几乎所有能显示文本流的工具包括简单的curl、Open WebUI、LiteLLM等都能直接展示用户体验无缝。这是我最推荐的配置尤其是当你使用第三方UI时。一个完整的、带真实思考的请求示例Pythonfrom openai import OpenAI client OpenAI( base_urlhttps://your-worker.workers.dev/v1, api_keysk-xxx # 如果设置了OPENAI_API_KEY ) response client.chat.completions.create( modelgemini-2.5-pro-exp-03-25, # 使用支持思考的模型 messages[ {role: user, content: 一个正方形的面积是36平方厘米。如果每条边增加2厘米新正方形的面积是多少请一步步思考。} ], streamTrue, extra_body{ # 关键通过extra_body传递Gemini特有参数 include_reasoning: True, thinking_budget: 2048, # 限制思考token数控制成本 reasoning_effort: medium # 控制推理努力程度none/low/medium/high } ) for chunk in response: # 如果STREAM_THINKING_AS_CONTENTtrue思考会在content中 if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end) # 如果STREAM_THINKING_AS_CONTENTfalse思考会在reasoning中 # if hasattr(chunk.choices[0].delta, reasoning) and chunk.choices[0].delta.reasoning: # print(f[内部推理] {chunk.choices[0].delta.reasoning})4.2 内容安全与审核策略配置对于生产环境或公开服务内容审核至关重要。Gemini API内置了安全过滤器本项目允许你通过环境变量精细控制其严格程度。你可以在.dev.vars或生产环境Secret中设置以下变量# 内容安全阈值配置 # 可选值BLOCK_NONE, BLOCK_FEW, BLOCK_SOME, BLOCK_ONLY_HIGH, HARM_BLOCK_THRESHOLD_UNSPECIFIED # 严格程度从低到高BLOCK_NONE BLOCK_FEW BLOCK_SOME BLOCK_ONLY_HIGH GEMINI_MODERATION_HARASSMENT_THRESHOLDBLOCK_SOME # 骚扰内容 GEMINI_MODERATION_HATE_SPEECH_THRESHOLDBLOCK_SOME # 仇恨言论 GEMINI_MODERATION_SEXUALLY_EXPLICIT_THRESHOLDBLOCK_ONLY_HIGH # 色情内容 GEMINI_MODERATION_DANGEROUS_CONTENT_THRESHOLDBLOCK_SOME # 危险内容各等级的实际含义BLOCK_NONE: 几乎不拦截仅标记。BLOCK_FEW: 拦截少量明确违规内容。BLOCK_SOME: 推荐平衡点拦截中等程度违规内容。BLOCK_ONLY_HIGH: 仅拦截高风险内容。HARM_BLOCK_THRESHOLD_UNSPECIFIED: 使用Gemini默认设置。我的建议是对于大多数应用从BLOCK_SOME开始。它能在安全性和可用性之间取得较好的平衡。如果你构建的是面向儿童或需要极高安全性的应用可以考虑BLOCK_ONLY_HIGH甚至更严格的组合。务必根据你的应用场景和当地法规进行调整。4.3 模型自动降级与工具调用集成自动模型降级Gemini Pro模型虽然能力强但可能有速率限制Rate Limit。设置ENABLE_AUTO_MODEL_SWITCHINGtrue后当Worker检测到对gemini-2.5-pro的请求返回429请求过多或503服务暂时不可用错误时会自动将请求重定向到gemini-2.5-flash模型。这确保了服务的可用性虽然Flash模型能力稍弱但能保证对话不中断。响应中会包含提示信息告知用户发生了模型切换。原生工具调用集成项目支持将OpenAI格式的函数调用Function Calling映射到Gemini的原生工具。这通过一系列环境变量控制# 主开关启用所有Gemini原生工具 ENABLE_GEMINI_NATIVE_TOOLStrue # 启用Google搜索工具需要相应权限 ENABLE_GOOGLE_SEARCHtrue # 启用URL上下文获取工具 ENABLE_URL_CONTEXTtrue # 工具优先级native_first优先使用Gemini原生工具或 custom_first优先使用请求中定义的工具 GEMINI_TOOLS_PRIORITYnative_first当这些工具启用后模型在回答问题时可以自主选择调用网络搜索或读取网页内容并将结果整合到回复中。例如当用户问“今天纽约的天气如何”时模型可以调用搜索工具获取实时信息。5. 与主流工具和客户端的无缝集成实战5.1 集成Open WebUI原Ollama WebUIOpen WebUI是一个功能强大的自托管AI聊天界面它原生支持OpenAI API。集成过程非常简单打开Open WebUI的设置界面找到“模型”或“连接器”设置。点击“添加新模型”或“新建连接”。在连接类型中选择“OpenAI”。填写配置API Key:如果你在Worker中设置了OPENAI_API_KEY就填写它例如sk-xxx。如果没设置这里可以留空。Base URL:填写你的Worker地址务必以/v1结尾例如https://your-worker.workers.dev/v1。模型名称:这里可以任意填写一个名称如“My-Gemini”。不过更酷的做法是留空因为Open WebUI支持模型发现。保存后回到聊天界面。点击模型选择下拉框Open WebUI会自动调用你配置的Base URL下的/v1/models接口拉取到可用的模型列表如gemini-2.5-pro,gemini-2.5-flash等并显示出来供你选择。配置要点为了让思考内容能完美显示建议在部署Worker时设置STREAM_THINKING_AS_CONTENTtrue。这样思考过程就会像普通对话一样显示在聊天窗口中体验非常自然。5.2 集成VS Code插件ClineCline是一个在VS Code内集成AI编程助手的优秀插件。让它使用你的Gemini Worker只需几步在VS Code中安装Cline插件。打开VS Code设置Ctrl,或Cmd,搜索“Cline”。找到Cline: Api Provider选择“OpenAI”。找到Cline: Base Url设置为你的Worker地址如https://your-worker.workers.dev/v1。找到Cline: Api Key填入你的OPENAI_API_KEY如果设置了的话。找到Cline: Model你可以直接输入gemini-2.5-flash或gemini-2.5-pro。Cline会使用你配置的模型进行代码补全和对话。现在当你选中一段代码右键选择“Cline”或使用快捷键召唤AI时它调用的就是你自己部署的Gemini模型了。这对于代码生成、解释、重构等任务非常有用而且完全在你的控制之下。5.3 使用LiteLLM进行统一代理LiteLLM是一个强大的库它允许你用统一的接口调用上百种不同的LLM API。你的Gemini Worker可以轻松加入这个“模型路由”。import litellm from litellm import completion # 1. 直接调用 response completion( modelopenai/your-worker.workers.dev/gemini-2.5-flash, # LiteLLM的特殊格式 messages[{role: user, content: Hello}], api_basehttps://your-worker.workers.dev/v1, api_keysk-xxx # 可选 ) # 2. 更优雅的方式通过环境变量配置 # 设置环境变量 os.environ[OPENAI_API_KEY] sk-xxx os.environ[OPENAI_API_BASE] https://your-worker.workers.dev/v1 # 现在你可以用更简洁的方式调用 response completion( modelgemini-2.5-flash, # LiteLLM会将其映射到你配置的base_url messages[...], streamTrue )使用LiteLLM的优势在于你可以在一个项目中轻松切换不同的模型提供商而无需重写业务逻辑。只需改变model参数和对应的配置即可。5.4 通过cURL进行快速测试与调试命令行工具cURL是测试API最直接的方式。以下是一些有用的调试命令测试模型列表无需认证curl https://your-worker.workers.dev/v1/models如果返回了包含gemini-2.5-pro等模型的JSON列表说明Worker基础服务是正常的。测试聊天补全带流式输出curl -N -X POST https://your-worker.workers.dev/v1/chat/completions \ -H Content-Type: application/json \ -H Authorization: Bearer sk-your-key \ -d { model: gemini-2.5-flash, messages: [{role: user, content: 用中文写一首关于春天的五言绝句。}], stream: true }注意-N参数用于禁用缓冲这样你就能实时看到SSE流式数据了。调试令牌缓存状态curl https://your-worker.workers.dev/v1/debug/cache这个端点会返回KV中缓存的令牌信息包括过期时间对于排查认证问题非常有用。6. 常见问题排查与性能优化经验在实际部署和使用过程中你可能会遇到一些问题。以下是我总结的一些常见坑点及其解决方案。6.1 认证与令牌相关错误问题现象可能原因解决方案401 Unauthorized1.GCP_SERVICE_ACCOUNTJSON格式错误。2. 刷新令牌Refresh Token已失效或撤销。3. KV命名空间绑定错误或未部署。1. 使用JSON验证工具检查GCP_SERVICE_ACCOUNT字符串。确保它是单行的完整JSON并且所有引号都是双引号。2. 重新运行gemini-cli登录获取新的oauth_creds.json文件并更新环境变量。3. 检查wrangler.toml中的KVid是否正确并重新运行npm run deploy。首次调用成功后续调用失败首次调用刷新了令牌并缓存但缓存写入KV失败或令牌本身有问题。调用/v1/debug/cache查看缓存内容。如果为空或expiry_date已过时说明缓存机制未正常工作。检查Worker对KV的写入权限通常部署后自动拥有。尝试重启Worker或清除KV可通过Cloudflare仪表板操作。Project ID discovery failedWorker无法自动从OAuth2凭证中推断出Google Cloud项目ID。手动设置GEMINI_PROJECT_ID环境变量。要找到你的项目ID可以访问 Google Cloud Console 在顶部导航栏或项目选择器中查看。或者如果你曾使用过Google AI Studio其关联的项目就是默认项目。6.2 模型与功能相关问题问题现象可能原因解决方案请求返回model not found请求的模型ID拼写错误或该模型在你的区域/账户不可用。首先调用/v1/models确认Worker支持哪些模型。Gemini 2.5系列模型可能处于预览阶段请确保你的Google账号有访问权限。模型ID需完全匹配例如gemini-2.5-flash。思考模式不工作1. 未启用环境变量。2. 使用的模型不支持思考。3. 请求参数格式错误。1. 确保部署时设置了ENABLE_REAL_THINKINGtrue。2. 确认使用gemini-2.5-pro-exp或gemini-2.5-flash等明确支持思考的模型。3. 确保请求体中通过extra_body传递了{include_reasoning: true}。使用OpenAI SDK时这是唯一的方式。流式响应中断或格式错误1. 客户端SSE解析逻辑不兼容。2. 网络不稳定或Worker超时。1. 先使用简单的cURL命令测试流式响应是否正常。如果正常问题可能在客户端代码。确保客户端正确处理了data: [DONE]行和空行。2. Cloudflare Worker默认有10秒的CPU时间限制和100秒的总体请求超时。对于极长的流式响应可能触发超时。考虑在客户端增加重试逻辑或对复杂任务进行拆分。6.3 性能优化与最佳实践启用令牌缓存这是最重要的性能优化。确保KV配置正确这能将每次请求的认证开销从几百毫秒降至几乎为零。合理选择模型对于简单的对话和分类任务使用gemini-2.5-flash它速度更快、成本更低。对于需要复杂推理、编程或创作的任务再切换到gemini-2.5-pro。使用自动降级在生产环境中务必设置ENABLE_AUTO_MODEL_SWITCHINGtrue。这能有效应对Gemini Pro模型的突发性速率限制保障服务的高可用性。设置合理的超时和重试在你的客户端代码中为向Worker发出的请求设置合理的超时如30秒和重试机制特别是对于非流式请求。Worker本身也可能因为冷启动或网络问题有短暂延迟。监控与日志利用Cloudflare Dashboard的Workers面板观察你的Worker的请求量、错误率和CPU执行时间。对于高频使用可以考虑升级到Workers付费计划以获取更长的CPU时间和更详细的日志。部署并运行这个项目后最大的体会是它极大地简化了混合AI模型架构的复杂度。你不再需要维护多个SDK和认证体系一个统一的OpenAI接口就能解锁Google最前沿的模型能力。这种“胶水”式的项目虽然代码量不大但带来的工程效率和体验提升是巨大的。特别是在与Open WebUI这类工具集成后你几乎感觉不到背后已经切换了模型提供商这种无缝感正是开发者所追求的。如果在使用中遇到任何问题多检查/v1/debug/cache端点和Cloudflare的实时日志大部分谜团都能在那里找到答案。

基于Cloudflare Workers的Gemini模型OpenAI API兼容代理部署指南

相关文章：

基于Cloudflare Workers的Gemini模型OpenAI API兼容代理部署指南

Rimworld Mod制作入门：从零搭建你的第一个功能Mod

FFmpeg GUI终极指南：告别命令行，图形化音视频处理如此简单

三相锁相环在DSP（如TI C2000）上的移植与调试避坑指南

NS-USBLoader终极指南：3种高效管理Switch游戏传输的完整解决方案

WindowResizer：Windows窗口调整的终极免费工具，让每个窗口都听你指挥

北航毕业论文LaTeX模板终极指南：三步快速搞定格式规范

打造你的专属数字伙伴：3步开启桌面宠物创作之旅 [特殊字符]

基于AI智能体的Telegram到Obsidian自动化知识管理方案

5分钟掌握B站4K视频下载：开源工具完全指南

嵌入式实战 | 51单片机驱动TEA5767 FM收音机，从I²C通信到1602液晶显示

手把手教你为Rockchip Buildroot添加自定义软件包（附CMake/Makefile实例）

告别繁琐手动切割：Pixelorama智能精灵图切割让效率提升90%

基于XGBoost与神经网络的NBA赛果预测：从数据采集到凯利公式下注

如何永久保存微信聊天记录？本地免费工具WeChatMsg终极指南

5分钟快速上手：在Blender中使用3MF格式的完整指南

Navicat Mac版试用期重置终极指南：3种简单方法无限使用

深度实战：如何用SpliceAI深度学习工具精准预测基因剪接变异

yuzu模拟器完整指南：免费在电脑上玩Switch游戏的终极教程

利用AI生成专业README：告别文档焦虑，提升项目协作效率

AI Agent赋能非车险产品开发：开源知识库与自动化流程实践

如何3步掌握图表数据提取：WebPlotDigitizer让科研数据重获新生

智能制造系统中的物理因子有哪些

终极指南：如何用WebPlotDigitizer让图表数据“开口说话“ - 科研数据提取的革命性工具

5分钟快速上手：浏览器中直接查看SQLite数据库的终极免费工具

深度解析B站视频下载器：技术架构与实战应用指南

AI驱动CD流水线性能跃迁：实测QPS提升3.8倍、部署失败率下降92.6%的5个核心改造点

Docker容器网络详解+端口映射原理（系列第二篇：实战核心）

FFmpeg GUI：3分钟搞定音视频处理，告别复杂命令行的图形化神器

AI原生设计模式全图谱（SITS 2026黄金标准版）：含LLM上下文编织、自治Agent编排、意图-动作映射等5大高危误用避坑清单