Skip to content

自定义 API

也被称为 BYOK(Bring Your Own Key)。本文档用于指导你为 WriteTex 获取并配置自定义 AI 接口。如果你已经熟悉相关流程,可以直接跳过。使用 WriteTex 需要自定义 AI 接口配置。下面是逐步的配置指南。

免责声明

WriteTex(我们)不对使用自定义 API 产生的任何费用负责。你必须遵守所选 AI 服务提供商的使用条款以及所在法域的法律。我们不对模型生成的结果负责,也不与这些公司存在从属关系。详情请见我们的使用条款

名词解释

  1. OpenAI 兼容 API:遵循 OpenAI API 规范的接口,WriteTex 期望你的接口为此格式。
  2. API Endpoint/Base URL:接口的基地址,即服务托管的根 URL,例如 https://api.openai.com/v1
  3. API Token/Key:用于请求鉴权的密钥,需妥善保密,例如 sk-1234567890
  4. Model Name/ID:在 WriteTex 中使用的模型名称或标识,例如 gpt-5.1qwen/qwen3-vl-8b-instruct。该参数应为精确的模型 ID,不要填写模糊值如 gptqwen
  5. API 版本:所用接口的版本。WriteTex 在 Windows、Android、MacOS 上期望版本为 v1。如果 Base URL/v1 结尾,那么在这些平台的设置里应去掉 /v1。关于 Base URL 与版本的更多信息,请参阅各平台指南。
  6. API 服务提供商:提供接口服务的公司,通常是 OpenAI、阿里巴巴、Anthropic、腾讯、Google、字节跳动等。
  7. 多模态/视觉语言模型:同时支持文本与图像输入的模型,例如 gpt-5.1
  8. Token:模型处理文本的基本计量单位。每次请求会根据输入与输出消耗对应数量的 tokens,费用通常为输入与输出分别计价。示例:gpt-5.1 的定价为 输入 $1.25/100万 tokens、输出 $10/100万 tokens。

选择服务商与模型

选择时可考虑:

  1. 性能:在视觉任务上的表现,可参考 LMArena 排行
  2. 成本:不同模型价格差异较大。费用计算:

输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价

  1. 模型能力:模型需支持视觉输入,即为多模态模型,例如 gpt-5.1。具体以各服务商文档为准。

如何判断模型是否支持视觉输入?

  • 查看模型描述,通常会包含“多模态”、“视觉语言”、“图片理解”等关键词,模型卡片中有图片的图标
  • 咨询服务商客服,询问是否支持图片作为输入。

推荐服务商与模型示例:

服务商性价比模型价格(入/出)高性能模型价格(入/出)
OpenAIgpt5 mini$0.25/$2gpt 5.1$1.25/$10
Anthropicclaude sonnet 4.5$3/$15claude opus 4.5$5/$25
Googlegemini 2.5 flash$0.3/$2.5gemini 3 flash$0.5/$3
Openrouternvidia/nemotron-nano-12b-v2-vl:free0grok 4$3/$15
阿里巴巴qwen3 vl flash¥0.15/¥1.5qwen3 vl plus¥1/¥10
腾讯hunyuan turbos vision¥3/¥9hunyuan t1 vision¥3/¥9
字节跳动doubao seed 1.6 flash¥0.15/¥1.5doubao seed 1.6 vision¥0.8/¥8
  • 汇率参考:USD $1 ≈ CNY ¥ 7.1
  • 价格以每百万 token 展示

WriteTex 中的识别任务通常每次消耗约 300 - 1000 个输入 token 和 10 - 100 个输出 token。

多数服务商提供较为宽松的免费额度,通常注册即可试用部分模型。

获取 API 配置

一套可用的配置需要以下三项:

  • API Endpoint (Base URL)
  • API Key
  • Model ID

Base URL 通常可在服务商文档中找到。 获取 API Key 与 Model ID 的一般流程:

  1. 在服务商平台注册账户;
  2. 阅读其 API 文档;
  3. 在控制台创建 API Key;
  4. 选择模型并记录 Model ID

OpenAI

  1. 注册 OpenAI 账户。
  2. 阅读 OpenAI API 文档
  3. OpenAI 平台 创建 API Key。
  4. 选择模型(如 GPT 5.1,模型 ID gpt-5.1)。

Base URL:https://api.openai.com/v1

Anthropic

  1. 注册 Anthropic 控制台账户。
  2. 阅读 Anthropic API 文档
  3. Anthropic 平台 创建 API Key。
  4. 模型总览选择模型,如 Claude Sonnet 4.5,模型 ID claude-sonnet-4-5

Base URL:https://api.anthropic.com/v1

Google

  1. 注册 Google 账号并登录 Google AI Studio
  2. 阅读 Gemini API 文档
  3. Google AI Studio 创建 API Key。
  4. 选择模型 如 Gemini 2.5 Flash,模型 ID gemini-2.5-flash

Base URL:https://generativelanguage.googleapis.com/v1beta/openai

也可通过 Google Vertex AI 使用 Gemini。

Google 在 AI Studio 提供 Gemini 2.5 Flash 的免费额度(每日上限约 20 次)。

Openrouter

Openrouter 是聚合路由平台,可使用来自多个服务商的模型。文档见 Openrouter 文档

平台上经常有免费模型,例如 nvidia/nemotron-nano-12b-v2-vl:free 可零成本使用。

Base URL:https://openrouter.ai/api/v1

阿里巴巴

  1. 阿里云 注册账户;
  2. 阅读 阿里云 API 文档
  3. 此指南API Key创建密钥;
  4. 模型市场选择模型,如 Qwen3 vl plus,模型 ID qwen3-vl-plus

Base URL:https://dashscope.aliyuncs.com/compatible-mode/v1

新注册用户通常在前三个月每个模型可获 100 万 tokens 免费额度。

腾讯

  1. 注册 腾讯云 账户;
  2. 阅读 腾讯云 API 文档
  3. 控制台创建 API Key;
  4. 模型广场选择模型,如 Hunyuan Turbos Vision,模型 ID hunyuan-turbos-vision

Base URL:https://api.hunyuan.cloud.tencent.com/v1

新注册用户通常可获总计约 100 万 tokens 的免费额度(各模型共享)。

字节跳动

  1. 注册 火山引擎 账户;
  2. 阅读 火山引擎 API 文档
  3. 控制台创建 API Key;
  4. 模型广场选择模型,如 Doubao 1.6 Vision,模型 ID doubao-seed-1-6-vision-250815

Base URL:https://ark.cn-beijing.volces.com/api/v3

新注册用户通常每个模型可获约 50 万 tokens 的免费额度。

关于 Deepseek

Deepseek 官方API支持的模型不具备多模态能力,即不能用作WriteTex。Deepseek 开源模型如 DeepSeek-OCR 具备识别公式的能力,但通常需要本地部署或调用其他的服务商的 API。

测试你的 API (建议)

当你已经获得 API Key 与 Model ID,可用 CherryStudio 之类的工具进行快速测试。下载应用后,填入你的配置即可验证。尝试插入图片以检测模型是否支持图片作为输入。

若不想装应用,也可以直接发起一次简单请求。以下为 qwen3-vl-pluscurl 示例,复制到终端或 CMD 执行:

bash
curl https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
  -H "Authorization: Bearer sk-1234567890" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-vl-plus",
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "你好" }
        ]
      }
    ]
  }'

https://dashscope.aliyuncs.com/compatible-mode/v1 替换为你的 Base URL,保留 /chat/completions; 将 qwen3-vl-plus 替换为你的 Model ID; 将 sk-1234567890 替换为你的 API Key。

成功响应示例:

json
{
  "choices": [
    {
      "message": {
        "content": "你好!有什么我可以帮助你的吗?😊",
        "reasoning_content": "",
        "role": "assistant"
      }
    }
  ]
}

在 WriteTex 中配置

进阶

以下内容假设读者具备相关经验。自建模型部署超出本文档范围,不建议初学者或无计算机背景的用户尝试。

自建部署

ollama 可在本地运行大模型,并提供简洁的 API。参考其官方文档。例如可尝试 Deepseek-OCR 供 WriteTex 使用。

vLLM 是高性能推理引擎,支持多种模型并提供 OpenAI 兼容接口。参考其使用文档。推荐试用 HunyuanOCRDeepSeek-OCR 以获得轻量快速的本地 LaTeX OCR。