カスタム API
BYOK(Bring Your Own Key)とも呼ばれます。このガイドは、WriteTex 用にカスタム AI API トークンを取得するためのものです。このプロセスに詳しい方は、このガイドをスキップしても構いません。以下に、セットアップのためのステップバイステップガイドを示します。
免責事項
WriteTex(弊社)は、カスタム API の使用によって発生したいかなる費用についても責任を負いません。お客様は、AI API サービスプロバイダーの利用規約およびお客様の管轄区域の法律を遵守する必要があります。弊社は、プロバイダーのモデルによって生成された結果について責任を負いません。また、弊社はこれらの企業と提携していません。詳細については、弊社の利用規約を参照してください。
定義
- OpenAI 互換 API: OpenAI の API 仕様と互換性のある API。WriteTex は、お客様の API エンドポイントがこの形式であることを想定しています。
- API エンドポイント/ベース URL: API エンドポイントのベース URL。これは API がホストされているルート URL です。例:
https://api.openai.com/v1。 - API トークン/キー: API へのリクエストを認証するために使用される一意の識別子。秘密に保ち、公開しないでください。例:
sk-1234567890。 - モデル名/ID: WriteTex で使用したいモデルの名前または ID。例:
gpt-5.1、qwen/qwen3-vl-8b-instruct。これは非常に固有のパラメータであり、gptやqwenのような曖昧な入力は想定されていません。 - API バージョン: 使用している API のバージョン。WriteTex は Windows、Android、MacOS でバージョン
v1を想定しています。ベース URL が/v1で終わる場合は、Windows、Android、MacOS デバイスの baseURL から/v1を削除する必要があります。ベース URL と API バージョンの詳細については、プラットフォーム固有のガイドを参照してください。 - API サービスプロバイダー: API をホストするサービスプロバイダー。これらは通常、OpenAI、Alibaba、Anthropic、Tencent、Google、ByteDance などの有名なテクノロジー大手です。
- ビジョンランゲージモデル / マルチモーダルモデル: これらのモデルはテキストと画像を理解することができます。通常、従来の言語モデルよりも強力です。例えば、
gpt-5.1はマルチモーダルモデルです。 - トークン: トークンは、モデルが処理するテキストの基本単位です。リクエストごとに、入力とモデルの出力に基づいて一定量のトークンを消費します。消費されるトークンの数は、リクエストのコストに比例します。通常、入力トークンと出力トークンは異なる価格設定になっています。例えば、
gpt-5.1の価格は、入力 100 万トークンあたり 1.25 ドル、出力 100 万トークンあたり 10 ドルです。
プロバイダーとモデルの選択
プロバイダーとモデルを選択する際は、以下の要素を考慮してください:
- パフォーマンス: OCR タスクで優れたパフォーマンスを発揮するモデルを探してください。LMArena リーダーボードで詳細を確認できます。
- コスト: さまざまなモデルの使用コストを比較してください。一部のモデルは他よりも高価な場合があります。コストは以下のように計算されます:
入力トークン数 * 入力価格 + 出力トークン数 * 出力価格
- モデルの機能: モデルはビジョン入力をサポートしている必要があります。つまり、マルチモーダルモデルである必要があります。例えば、
gpt-5.1はマルチモーダルモデルです。詳細については、プロバイダーの Web サイトを参照してください。
モデルがビジョン入力をサポートしているか確認する方法
- 説明に "vision" や "multi-modal" が含まれているモデルを探します。
- プロバイダーの Web サイトでモデルカードを確認します。通常、モデルが画像入力をサポートしていることを示すアイコンがあります。
検討すべきプロバイダーとモデルをいくつか紹介します:
| プロバイダー | コスパモデル | 価格(入/出) | パフォーマンスモデル | 価格(入/出) |
|---|---|---|---|---|
| OpenAI | gpt5 mini | $0.25 /$2 | gpt 5.1 | $1.25/$10 |
| Anthropic | claude sonnet 4.5 | $3/$15 | claude opus 4.5 | $5/$25 |
| gemini 2.5 flash | $0.3/$2.5 | gemini 3 flash | $0.5/$3 | |
| Openrouter | nvidia/nemotron-nano-12b-v2-vl:free | 0 | grok 4 | $3/$15 |
| Alibaba | qwen3 vl flash | ¥0.15/¥1.5 | qwen3 vl plus | ¥1/¥10 |
| Tencent | hunyuan turbos vision | ¥3/¥9 | hunyuan t1 vision | ¥3/¥9 |
| ByteDance | doubao seed 1.6 flash | ¥0.15/¥1.5 | doubao seed 1.6 vision | ¥0.8/¥8 |
- 1 米ドル ≈ 7.1 中国元
- 価格は 100 万トークンあたりの表示です。
WriteTex で行われる各リクエストでは、通常、約 300 〜 1000 個の入力トークンと 10 〜 100 個の出力トークンを消費します。
ほとんどのモデルプロバイダーは、寛大な無料枠を提供しています。通常、無料アカウントを登録すれば、費用をかけずにモデルの使用を開始できます。
API 設定の取得
API 設定には、次の 3 つのコンポーネントが必要です。
- API エンドポイント
- API キー
- モデル ID
ベース URL は通常、プロバイダーのドキュメントに記載されています。 API キーとモデル ID の取得も非常に簡単です:
- プロバイダーでアカウントを登録します。
- プロバイダーのドキュメントを読みます。
- プロバイダーのプラットフォームで API トークンを作成します。
- モデルを選択し、モデル ID を取得します。
OpenAI
- OpenAI アカウントを登録します。
- OpenAI API ドキュメントを読みます。
- OpenAI プラットフォームでトークンを作成します。
- モデルを選択します。例えば、モデル ID が
gpt-5.1の GPT 5.1 です。
ベース URL: https://api.openai.com/v1
Anthropic
- Anthropic コンソールアカウントを登録します。
- Anthropic API ドキュメントを読みます。
- Anthropic プラットフォームでトークンを作成します。
- モデルの概要でモデルを選択します。例えば、モデル ID が
claude-sonnet-4-5の Claude Sonnet 4.5 です。
ベース URL: https://api.anthropic.com/v1
Google
- Google アカウントを登録します。Google AI Studio にログインします。
- Gemini API ドキュメントを読みます。
- Google AI Studio でトークンを作成します。
- モデルを選択します。例えば、モデル ID が
gemini-2.5-flashの Gemini 2.5 Flash です。
ベース URL: https://generativelanguage.googleapis.com/v1beta/openai
Google Vertex AI で Gemini API を使用することもできます。
Google は、Google AI Studio で 1 日 20 リクエストの制限付きで Gemini 2.5 Flash を無料で提供しています。
Openrouter
Openrouter は、複数のプロバイダーのモデルを使用できるモデルルーターです。詳細については、Openrouter ドキュメントを参照してください。
Openrouter では、無料のモデルが提供されていることがよくあります。例えば、
nvidia/nemotron-nano-12b-v2-vl:freeは無料で利用できるモデルです。 ベース URL:https://openrouter.ai/api/v1
Alibaba
- Aliyun で Aliyun アカウントを登録します。
- Aliyun API ドキュメントを読みます。
- このガイドに従って、API キーで API キーを作成します。
- モデルマーケットからモデルを選択します。例えば、モデル ID が
qwen3-vl-plusの Qwen3 vl plus です。
ベース URL: https://dashscope.aliyuncs.com/compatible-mode/v1
新規登録ユーザーは、最初の 3 か月間、各モデルで 100 万トークンの無料枠を利用できます。
Tencent
- Tencent Cloud アカウントを登録します。
- Tencent API ドキュメントを読みます。
- Tencent Cloud コンソールで API キーを作成します。
- モデルスクエアからモデルを選択します。例えば、モデル ID が
hunyuan-turbos-visionの Hunyuan Turbos Vision です。
ベース URL: https://api.hunyuan.cloud.tencent.com/v1
新規登録ユーザーは、すべてのモデルで合計 100 万トークンの無料枠を利用できます。
ByteDance
- Volc Engine アカウントを登録します。
- Volc Engine API ドキュメントを読みます。
- Volc Engine コンソールで API キーを作成します。
- モデルスクエアからモデルを選択します。例えば、モデル ID が
doubao-seed-1-6-vision-250815の Doubao 1.6 Vision です。
ベース URL: https://ark.cn-beijing.volces.com/api/v3
新規登録ユーザーは、モデルごとに 50 万トークンの無料枠を利用できます。
Deepseek について
Deepseek が直接提供しているモデルは、ビジョン入力をサポートしていません。DeepSeek-OCR のようなオープンソースモデルは数式の認識をサポートしていますが、セルフホストするか、別のプロバイダーを見つける必要があります。
API のテスト (必要に応じて)
API キーとモデル ID を取得したとします。 CherryStudio のようなツールを使用して API をテストできます。Cherry Studio アプリをダウンロードし、アプリで API 設定を使用して API をテストします。画像を挿入して、モデルがビジョン入力をサポートしているかどうかを確認してください。
アプリをダウンロードしたくない場合は、単純なリクエストを送信して API をテストすることもできます。以下は、curl を使用した qwen3-vl-plus のリクエスト例です。このコマンドをコピーして、ターミナルまたは CMD に貼り付けてください:
curl https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer sk-1234567890" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-vl-plus",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Hello"
}
]
}
]
}'https://dashscope.aliyuncs.com/compatible-mode/v1 を独自のベース URL に置き換えてください。/chat/completions の部分はそのままにしてください。 qwen3-vl-plus を独自のモデル ID に置き換えてください。 sk-1234567890 を独自の API キーに置き換えてください。
成功した場合のレスポンス:
{
"choices": [
{
"message": {
"content": "こんにちは!何かお手伝いできることはありますか?😊",
"reasoning_content": "",
"role": "assistant"
},
}
],
}WriteTex での設定
拡張
このセクションでは、著者は読者が何をしているかを理解していることを前提としています。カスタムモデルのホストはこのガイドの範囲外です。初心者やコンピューターサイエンスのバックグラウンドがないユーザーにはお勧めしません。
セルフホスト
ollama は、自分のマシンで大規模言語モデルを実行できるプラットフォームです。モデルを実行するために使用できるシンプルな API を提供します。詳細については、ollama のドキュメントを参照してください。例として、Deepseek-OCR は WriteTex で使用できるモデルです。
vLLM は、大規模言語モデル用の高性能推論エンジンです。さまざまなモデルをサポートし、OpenAI 互換の API を提供します。詳細については、vLLM のドキュメントを参照してください。WriteTex 用の高速で軽量なローカル LaTeX OCR として、HunyuanOCR と DeepSeek-OCR を試すことをお勧めします。