Eigene API
Auch bekannt als BYOK (Bring Your Own Key). Diese Anleitung hilft Ihnen dabei, einen eigenen KI-API-Token für WriteTex zu erhalten. Wenn Sie mit diesem Prozess bereits vertraut sind, können Sie diese Anleitung überspringen. Hier ist eine Schritt-für-Schritt-Anleitung zur Einrichtung.
Haftungsausschluss
WriteTex (wir) ist nicht verantwortlich für Kosten, die durch die Nutzung einer eigenen API entstehen. Sie müssen die Nutzungsbedingungen des KI-API-Dienstanbieters und die geltenden Gesetze Ihrer Gerichtsbarkeit einhalten. Wir sind nicht verantwortlich für die von den Modellen Ihres Anbieters generierten Ergebnisse. Wir stehen in keiner Verbindung zu diesen Unternehmen. Weitere Informationen finden Sie in unseren Nutzungsbedingungen
Definitionen
- OpenAI-kompatible API: Eine API, die mit der API-Spezifikation von OpenAI kompatibel ist. WriteTex erwartet, dass Ihr API-Endpunkt in diesem Format vorliegt.
- API-Endpunkt / Basis-URL: Die Basis-URL Ihres API-Endpunkts. Dies ist die Stamm-URL, unter der Ihre API gehostet wird. Zum Beispiel
https://api.openai.com/v1. - API-Token / Schlüssel: Eine eindeutige Kennung, die zur Authentifizierung von Anfragen an Ihre API verwendet wird. Er sollte geheim gehalten und nicht öffentlich geteilt werden. Zum Beispiel
sk-1234567890. - Modellname / ID: Der Name oder die ID des Modells, das Sie mit WriteTex verwenden möchten. Zum Beispiel
gpt-5.1,qwen/qwen3-vl-8b-instruct. Dies ist ein sehr spezifischer Parameter; vage Eingaben wiegptoderqwenwerden nicht erwartet. - API-Version: Die Version der API, die Sie verwenden. WriteTex erwartet die Version
v1unter Windows, Android und macOS. Wenn die Basis-URL auf/v1endet, sollten Sie das/v1aus Ihrer Basis-URL auf Windows-, Android- und macOS-Geräten entfernen. Weitere Informationen zur Basis-URL und API-Version finden Sie in der jeweiligen plattformspezifischen Anleitung. - API-Dienstanbieter: Der Dienstanbieter, der Ihre API hostet. Dies sind in der Regel bekannte Tech-Giganten wie OpenAI, Alibaba, Anthropic, Tencent, Google, ByteDance usw.
- Vision Language Models / Multimodale Modelle: Diese Modelle können Text und Bilder verstehen. Sie sind in der Regel leistungsfähiger als herkömmliche Sprachmodelle. Beispielsweise ist
gpt-5.1ein multimodales Modell. - Token: Token sind die Basiseinheiten des Textes, die das Modell verarbeitet. Für jede Anfrage verbrauchen Sie eine Menge an Token, die auf Ihrer Eingabe und der Ausgabe des Modells basiert. Die Anzahl der verbrauchten Token ist proportional zu den Kosten der Anfrage. Normalerweise werden Eingabe- und Ausgabe-Token unterschiedlich bepreist. Beispielsweise hat
gpt-5.1einen Preis von 1,25 $ / 1 Mio. Token für die Eingabe und 10 $ / 1 Mio. Token für die Ausgabe.
Anbieter und Modell wählen
Berücksichtigen Sie bei der Wahl eines Anbieters und Modells die folgenden Faktoren:
- Leistung: Suchen Sie nach Modellen, die bei OCR-Aufgaben gut abschneiden. Weitere Informationen finden Sie im LMArena Leaderboard.
- Kosten: Vergleichen Sie die Kosten für die Nutzung verschiedener Modelle. Einige Modelle können teurer sein als andere. Die Kosten berechnen sich wie folgt:
Anzahl der Eingabe-Token * Eingabepreis + Anzahl der Ausgabe-Token * Ausgabepreis.
- Modellfunktionen: Ihr Modell muss Vision-Eingaben unterstützen, was bedeutet, dass es ein multimodales Modell sein muss. Beispielsweise ist
gpt-5.1ein multimodales Modell. Weitere Informationen finden Sie auf der Website des Anbieters.
Wie prüfe ich, ob ein Modell Vision-Eingaben unterstützt?
- Suchen Sie nach Modellen mit „vision“ oder „multi-modal“ in der Beschreibung.
- Prüfen Sie die Modellkarte auf der Website des Anbieters. Normalerweise gibt es ein Symbol, das anzeigt, dass das Modell die Bildeingabe unterstützt.
Hier sind einige Anbieter und Modelle, die Sie in Betracht ziehen können:
| Anbieter | Preis-Leistungs-Modell | Preis Ein/Aus | Leistungsstarkes Modell | Preis Ein/Aus |
|---|---|---|---|---|
| OpenAI | gpt5 mini | 0,25 $ / 2 $ | gpt 5.1 | 1,25 $ / 10 $ |
| Anthropic | claude sonnet 4.5 | 3 $ / 15 $ | claude opus 4.5 | 5 $ / 25 $ |
| gemini 2.5 flash | 0,3 $ / 2,5 $ | gemini 3 flash | 0,5 $ / 3 $ | |
| Openrouter | nvidia/nemotron-nano-12b-v2-vl:free | 0 | grok 4 | 3 $ / 15 $ |
| Alibaba | qwen3 vl flash | 0,15 ¥ / 1,5 ¥ | qwen3 vl plus | 1 ¥ / 10 ¥ |
| Tencent | hunyuan turbos vision | 3 ¥ / 9 ¥ | hunyuan t1 vision | 3 ¥ / 9 ¥ |
| ByteDance | doubao seed 1.6 flash | 0,15 ¥ / 1,5 ¥ | doubao seed 1.6 vision | 0,8 ¥ / 8 ¥ |
- 1 USD ≈ 7,1 CNY
- Die Preise gelten pro Million Token.
Für jede Anfrage bei WriteTex verbrauchen Sie in der Regel etwa 300 bis 1000 Eingabe-Token und 10 bis 100 Ausgabe-Token.
Die meisten Modellanbieter bieten ein großzügiges kostenloses Kontingent an. In der Regel können Sie sich für ein kostenloses Konto anmelden und die Modelle kostenlos nutzen.
API-Konfiguration erhalten
Für eine API-Konfiguration benötigen Sie drei Komponenten:
- API-Endpunkt
- API-Schlüssel
- Modell-ID
Die Basis-URL finden Sie normalerweise in der Dokumentation des Anbieters. Das Erhalten des API-Schlüssels und der Modell-ID ist ebenfalls recht einfach:
- Registrieren Sie ein Konto bei einem Anbieter.
- Lesen Sie die Dokumentation des Anbieters.
- Erstellen Sie einen API-Token auf der Plattform des Anbieters.
- Wählen Sie Ihr Modell und notieren Sie die Modell-ID.
OpenAI
- Registrieren Sie ein OpenAI-Konto.
- Lesen Sie die OpenAI API-Dokumentation.
- Erstellen Sie einen Token auf der OpenAI-Plattform.
- Wählen Sie Ihr Modell, zum Beispiel GPT 5.1 mit der Modell-ID
gpt-5.1.
Basis-URL: https://api.openai.com/v1
Anthropic
- Registrieren Sie ein Anthropic-Konsolenkonto.
- Lesen Sie die Anthropic API-Dokumentation.
- Erstellen Sie einen Token auf der Anthropic-Plattform.
- Wählen Sie Ihr Modell in der Modellübersicht, zum Beispiel Claude Sonnet 4.5 mit der Modell-ID
claude-sonnet-4-5.
Basis-URL: https://api.anthropic.com/v1
Google
- Registrieren Sie ein Google-Konto. Melden Sie sich bei Google AI Studio an.
- Lesen Sie die Gemini API-Dokumentation.
- Erstellen Sie einen Token in Google AI Studio.
- Wählen Sie Ihr Modell, zum Beispiel Gemini 2.5 Flash mit der Modell-ID
gemini-2.5-flash.
Basis-URL: https://generativelanguage.googleapis.com/v1beta/openai
Sie können die Gemini-API auch unter Google Vertex AI nutzen.
Google bietet Gemini 2.5 Flash kostenlos mit einem täglichen Limit von 20 Anfragen im Google AI Studio an.
Openrouter
Openrouter ist eine Aggregator-Plattform, über die Sie Modelle verschiedener Anbieter nutzen können. Siehe Openrouter-Dokumentation.
Auf der Plattform gibt es häufig kostenlose Modelle wie
nvidia/nemotron-nano-12b-v2-vl:free, die Sie kostenlos nutzen können. Basis-URL:https://openrouter.ai/api/v1
Alibaba
- Registrieren Sie ein Konto bei Aliyun.
- Lesen Sie die Aliyun API-Dokumentation.
- Folgen Sie dieser Anleitung, um einen API-Schlüssel unter API-Schlüssel zu erstellen.
- Wählen Sie Ihr Modell im Modell-Marktplatz, zum Beispiel Qwen3 vl plus mit der Modell-ID
qwen3-vl-plus.
Basis-URL: https://dashscope.aliyuncs.com/compatible-mode/v1
Für neu registrierte Benutzer erhalten Sie in den ersten drei Monaten ein kostenloses Kontingent von 1 Mio. Token für jedes Modell.
Tencent
- Registrieren Sie ein Tencent Cloud-Konto.
- Lesen Sie die Tencent API-Dokumentation.
- Erstellen Sie einen API-Schlüssel in der Tencent Cloud-Konsole.
- Wählen Sie Ihr Modell im Model Square, zum Beispiel Hunyuan Turbos Vision mit der Modell-ID
hunyuan-turbos-vision.
Basis-URL: https://api.hunyuan.cloud.tencent.com/v1
Für neu registrierte Benutzer erhalten Sie ein kostenloses Kontingent von insgesamt 1 Mio. Token für alle Modelle.
ByteDance
- Registrieren Sie ein Volc Engine-Konto.
- Lesen Sie die Volc Engine API-Dokumentation.
- Erstellen Sie einen API-Schlüssel in der Volc Engine-Konsole.
- Wählen Sie Ihr Modell im Model Square, zum Beispiel Doubao 1.6 Vision mit der Modell-ID
doubao-seed-1-6-vision-250815.
Basis-URL: https://ark.cn-beijing.volces.com/api/v3
Für neu registrierte Benutzer erhalten Sie ein kostenloses Kontingent von 0,5 Mio. Token pro Modell.
Über Deepseek
Die direkt von Deepseek bereitgestellten Modelle unterstützen keine Vision-Eingaben. Open-Source-Modelle wie DeepSeek-OCR unterstützen die Erkennung von mathematischen Gleichungen, erfordern jedoch ein Self-Hosting oder die Suche nach einem separaten Anbieter.
API testen (falls erforderlich)
Angenommen, Sie haben nun den API-Schlüssel und die Modell-ID erhalten. Sie können Ihre API mit einem Tool wie CherryStudio testen. Laden Sie die Cherry Studio-App herunter und verwenden Sie Ihre API-Einstellungen in der App, um Ihre API zu testen. Versuchen Sie, ein Bild einzufügen, um zu sehen, ob das Modell Vision-Eingaben unterstützt.
Wenn Sie die App nicht herunterladen möchten, können Sie Ihre API auch durch Senden einer einfachen Anfrage testen. Hier ist eine Beispielanfrage für qwen3-vl-plus mit curl. Kopieren Sie diesen Befehl und fügen Sie ihn in Ihr Terminal oder CMD ein:
curl https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer sk-1234567890" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-vl-plus",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Hallo"
}
]
}
]
}'Ersetzen Sie https://dashscope.aliyuncs.com/compatible-mode/v1 durch Ihre eigene Basis-URL, lassen Sie den Teil /chat/completions gleich.
Ersetzen Sie qwen3-vl-plus durch Ihre eigene Modell-ID.
Ersetzen Sie sk-1234567890 durch Ihren eigenen API-Schlüssel.
Erfolgreiche Antwort:
{
"choices": [
{
"message": {
"content": "Hallo! Wie kann ich dir heute helfen?😊",
"reasoning_content": "",
"role": "assistant"
},
}
],
}Konfiguration der Einstellungen in WriteTex
Fortgeschritten
In diesem Abschnitt gehen die Autoren davon aus, dass der Leser weiß, was er tut. Das Hosting eines eigenen Modells sprengt den Rahmen dieser Anleitung. Es wird nicht für Anfänger oder Benutzer ohne Informatik-Hintergrund empfohlen.
Self-Hosting
ollama ist eine Plattform, die es Ihnen ermöglicht, große Sprachmodelle auf Ihrem eigenen Rechner auszuführen. Sie bietet eine einfache API, die Sie zum Ausführen von Modellen verwenden können. Weitere Informationen finden Sie in der ollama-Dokumentation. Als Beispiel ist Deepseek-OCR ein Modell, das Sie für WriteTex verwenden können.
vLLM ist eine Hochleistungs-Inferenz-Engine für große Sprachmodelle. Sie unterstützt eine Vielzahl von Modellen und bietet eine OpenAI-kompatible API. Weitere Informationen finden Sie in der vLLM-Dokumentation. Ich empfehle, HunyuanOCR und DeepSeek-OCR für schnelles, leichtgewichtiges lokales LaTeX-OCR für WriteTex auszuprobieren.