自定义 API
也被称为 BYOK(Bring Your Own Key)。本文档用于指导你为 WriteTex 获取并配置自定义 AI 接口。如果你已经熟悉相关流程,可以直接跳过。使用 WriteTex 需要自定义 AI 接口配置。下面是逐步的配置指南。
免责声明
WriteTex(我们)不对使用自定义 API 产生的任何费用负责。你必须遵守所选 AI 服务提供商的使用条款以及所在法域的法律。我们不对模型生成的结果负责,也不与这些公司存在从属关系。详情请见我们的使用条款。
名词解释
- OpenAI 兼容 API:遵循 OpenAI API 规范的接口,WriteTex 期望你的接口为此格式。
- API Endpoint/Base URL:接口的基地址,即服务托管的根 URL,例如
https://api.openai.com/v1。 - API Token/Key:用于请求鉴权的密钥,需妥善保密,例如
sk-1234567890。 - Model Name/ID:在 WriteTex 中使用的模型名称或标识,例如
gpt-5.1、qwen/qwen3-vl-8b-instruct。该参数应为精确的模型 ID,不要填写模糊值如gpt或qwen。 - API 版本:所用接口的版本。WriteTex 在 Windows、Android、MacOS 上期望版本为
v1。如果 Base URL 以/v1结尾,那么在这些平台的设置里应去掉/v1。关于 Base URL 与版本的更多信息,请参阅各平台指南。 - API 服务提供商:提供接口服务的公司,通常是 OpenAI、阿里巴巴、Anthropic、腾讯、Google、字节跳动等。
- 多模态/视觉语言模型:同时支持文本与图像输入的模型,例如
gpt-5.1。 - Token:模型处理文本的基本计量单位。每次请求会根据输入与输出消耗对应数量的 tokens,费用通常为输入与输出分别计价。示例:
gpt-5.1的定价为 输入 $1.25/100万 tokens、输出 $10/100万 tokens。
选择服务商与模型
选择时可考虑:
- 性能:在视觉任务上的表现,可参考 LMArena 排行。
- 成本:不同模型价格差异较大。费用计算:
输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价
- 模型能力:模型需支持视觉输入,即为多模态模型,例如
gpt-5.1。具体以各服务商文档为准。
如何判断模型是否支持视觉输入?
- 查看模型描述,通常会包含“多模态”、“视觉语言”、“图片理解”等关键词,模型卡片中有图片的图标
- 咨询服务商客服,询问是否支持图片作为输入。
推荐服务商与模型示例:
| 服务商 | 性价比模型 | 价格(入/出) | 高性能模型 | 价格(入/出) |
|---|---|---|---|---|
| OpenAI | gpt5 mini | $0.25/$2 | gpt 5.1 | $1.25/$10 |
| Anthropic | claude sonnet 4.5 | $3/$15 | claude opus 4.5 | $5/$25 |
| gemini 2.5 flash | $0.3/$2.5 | gemini 3 flash | $0.5/$3 | |
| Openrouter | nvidia/nemotron-nano-12b-v2-vl:free | 0 | grok 4 | $3/$15 |
| 阿里巴巴 | qwen3 vl flash | ¥0.15/¥1.5 | qwen3 vl plus | ¥1/¥10 |
| 腾讯 | hunyuan turbos vision | ¥3/¥9 | hunyuan t1 vision | ¥3/¥9 |
| 字节跳动 | doubao seed 1.6 flash | ¥0.15/¥1.5 | doubao seed 1.6 vision | ¥0.8/¥8 |
- 汇率参考:USD $1 ≈ CNY ¥ 7.1
- 价格以每百万 token 展示
WriteTex 中的识别任务通常每次消耗约 300 - 1000 个输入 token 和 10 - 100 个输出 token。
多数服务商提供较为宽松的免费额度,通常注册即可试用部分模型。
获取 API 配置
一套可用的配置需要以下三项:
- API Endpoint (Base URL)
- API Key
- Model ID
Base URL 通常可在服务商文档中找到。 获取 API Key 与 Model ID 的一般流程:
- 在服务商平台注册账户;
- 阅读其 API 文档;
- 在控制台创建 API Key;
- 选择模型并记录 Model ID。
OpenAI
- 注册 OpenAI 账户。
- 阅读 OpenAI API 文档。
- 在 OpenAI 平台 创建 API Key。
- 选择模型(如 GPT 5.1,模型 ID
gpt-5.1)。
Base URL:https://api.openai.com/v1
Anthropic
- 注册 Anthropic 控制台账户。
- 阅读 Anthropic API 文档。
- 在 Anthropic 平台 创建 API Key。
- 在模型总览选择模型,如 Claude Sonnet 4.5,模型 ID
claude-sonnet-4-5。
Base URL:https://api.anthropic.com/v1
Google
- 注册 Google 账号并登录 Google AI Studio。
- 阅读 Gemini API 文档。
- 在 Google AI Studio 创建 API Key。
- 选择模型 如 Gemini 2.5 Flash,模型 ID
gemini-2.5-flash。
Base URL:https://generativelanguage.googleapis.com/v1beta/openai
也可通过 Google Vertex AI 使用 Gemini。
Google 在 AI Studio 提供 Gemini 2.5 Flash 的免费额度(每日上限约 20 次)。
Openrouter
Openrouter 是聚合路由平台,可使用来自多个服务商的模型。文档见 Openrouter 文档。
平台上经常有免费模型,例如
nvidia/nemotron-nano-12b-v2-vl:free可零成本使用。
Base URL:https://openrouter.ai/api/v1
阿里巴巴
- 在 阿里云 注册账户;
- 阅读 阿里云 API 文档;
- 按此指南在API Key创建密钥;
- 在模型市场选择模型,如 Qwen3 vl plus,模型 ID
qwen3-vl-plus。
Base URL:https://dashscope.aliyuncs.com/compatible-mode/v1
新注册用户通常在前三个月每个模型可获 100 万 tokens 免费额度。
腾讯
- 注册 腾讯云 账户;
- 阅读 腾讯云 API 文档;
- 在控制台创建 API Key;
- 在模型广场选择模型,如 Hunyuan Turbos Vision,模型 ID
hunyuan-turbos-vision。
Base URL:https://api.hunyuan.cloud.tencent.com/v1
新注册用户通常可获总计约 100 万 tokens 的免费额度(各模型共享)。
字节跳动
- 注册 火山引擎 账户;
- 阅读 火山引擎 API 文档;
- 在控制台创建 API Key;
- 在模型广场选择模型,如 Doubao 1.6 Vision,模型 ID
doubao-seed-1-6-vision-250815。
Base URL:https://ark.cn-beijing.volces.com/api/v3
新注册用户通常每个模型可获约 50 万 tokens 的免费额度。
关于 Deepseek
Deepseek 官方API支持的模型不具备多模态能力,即不能用作WriteTex。Deepseek 开源模型如 DeepSeek-OCR 具备识别公式的能力,但通常需要本地部署或调用其他的服务商的 API。
测试你的 API (建议)
当你已经获得 API Key 与 Model ID,可用 CherryStudio 之类的工具进行快速测试。下载应用后,填入你的配置即可验证。尝试插入图片以检测模型是否支持图片作为输入。
若不想装应用,也可以直接发起一次简单请求。以下为 qwen3-vl-plus 的 curl 示例,复制到终端或 CMD 执行:
curl https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer sk-1234567890" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-vl-plus",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "你好" }
]
}
]
}'将 https://dashscope.aliyuncs.com/compatible-mode/v1 替换为你的 Base URL,保留 /chat/completions; 将 qwen3-vl-plus 替换为你的 Model ID; 将 sk-1234567890 替换为你的 API Key。
成功响应示例:
{
"choices": [
{
"message": {
"content": "你好!有什么我可以帮助你的吗?😊",
"reasoning_content": "",
"role": "assistant"
}
}
]
}在 WriteTex 中配置
进阶
以下内容假设读者具备相关经验。自建模型部署超出本文档范围,不建议初学者或无计算机背景的用户尝试。
自建部署
ollama 可在本地运行大模型,并提供简洁的 API。参考其官方文档。例如可尝试 Deepseek-OCR 供 WriteTex 使用。
vLLM 是高性能推理引擎,支持多种模型并提供 OpenAI 兼容接口。参考其使用文档。推荐试用 HunyuanOCR 与 DeepSeek-OCR 以获得轻量快速的本地 LaTeX OCR。