API Personalizada
También conocida como BYOK (Bring Your Own Key - Trae tu propia clave). Esta guía es para obtener y configurar un token de API de IA personalizado para WriteTex. Si ya estás familiarizado con esto, puedes saltarte esta guía. Aquí tienes una guía paso a paso para la configuración.
Descargo de responsabilidad
WriteTex (nosotros) no somos responsables de los costos incurridos por el uso de una API personalizada. Debes seguir los términos de servicio del proveedor de servicios de API de IA y las leyes vigentes en tu jurisdicción. No somos responsables de los resultados generados por los modelos de tu proveedor. No estamos afiliados a estas empresas. Para más información, consulta nuestros Términos de uso.
Definiciones
- API compatible con OpenAI: Una API que es compatible con la especificación de la API de OpenAI. WriteTex espera que el endpoint de tu API tenga este formato.
- Endpoint de la API / URL base (Base URL): La URL base de tu endpoint de API. Esta es la URL raíz donde se aloja tu API. Por ejemplo,
https://api.openai.com/v1. - Token/Clave de la API (API Token/Key): Un identificador único utilizado para autenticar las solicitudes a tu API. Debe mantenerse en secreto y no compartirse públicamente. Por ejemplo,
sk-1234567890. - Nombre/ID del modelo (Model Name/ID): El nombre o ID del modelo que deseas usar con WriteTex. Por ejemplo,
gpt-5.1,qwen/qwen3-vl-8b-instruct. Este es un parámetro muy específico y no se esperan entradas vagas comogptoqwen. - Versión de la API (API version): La versión de la API que estás utilizando. WriteTex espera la versión
v1en Windows, Android y macOS. Si la URL base termina en/v1, debes eliminar el/v1de tu baseURL en dispositivos Windows, Android y macOS. Para más información sobre la URL base y la versión de la API, consulta la guía específica de la plataforma. - Proveedor de servicios de API (API Service Provider): El proveedor de servicios que aloja tu API. Suelen ser gigantes tecnológicos conocidos como OpenAI, Alibaba, Anthropic, Tencent, Google, ByteDance, etc.
- Modelos de lenguaje de visión / Modelos multimodales: Estos modelos son capaces de entender texto e imágenes. Suelen ser más potentes que los modelos de lenguaje tradicionales. Por ejemplo,
gpt-5.1es un modelo multimodal. - Tokens: Los tokens son las unidades básicas de texto que el modelo procesa. Por cada solicitud, consumes una cantidad de tokens basada en tu entrada y la salida del modelo. El número de tokens consumidos es proporcional al costo de la solicitud. Normalmente, los tokens de entrada y salida tienen precios diferentes. Por ejemplo,
gpt-5.1tiene un precio de $1.25 / 1M de tokens para la entrada y $10 / 1M de tokens para la salida.
Elegir proveedor y modelo
Al elegir un proveedor y un modelo, considera los siguientes factores:
- Rendimiento: Busca modelos que funcionen bien en tareas de OCR. Consulta el LMArena Leaderboard para más información.
- Costo: Compara el costo de usar diferentes modelos. Algunos modelos pueden ser más caros que otros. Los costos se calculan por:
Cantidad de tokens de entrada * Precio de entrada + Cantidad de tokens de salida * Precio de salida.
- Capacidades del modelo: Tu modelo debe admitir la entrada de visión, lo que significa que debe ser un modelo multimodal. Por ejemplo,
gpt-5.1es un modelo multimodal. Puedes consultar el sitio web del proveedor para obtener más información.
¿Cómo verificar si un modelo admite entrada de visión?
- Busca modelos con "vision" o "multi-modal" en su descripción.
- Consulta la tarjeta del modelo en el sitio web del proveedor. Por lo general, hay un icono que indica que el modelo admite la entrada de imágenes.
Aquí hay algunos proveedores y modelos a considerar:
| Proveedor | Modelo de valor | Precio In/Out | Modelo de rendimiento | Precio In/Out |
|---|---|---|---|---|
| OpenAI | gpt5 mini | $0.25 /$2 | gpt 5.1 | $1.25/$10 |
| Anthropic | claude sonnet 4.5 | $3/$15 | claude opus 4.5 | $5/$25 |
| gemini 2.5 flash | $0.3/$2.5 | gemini 3 flash | $0.5/$3 | |
| Openrouter | nvidia/nemotron-nano-12b-v2-vl:free | 0 | grok 4 | $3/$15 |
| Alibaba | qwen3 vl flash | ¥0.15/¥1.5 | qwen3 vl plus | ¥1/¥10 |
| Tencent | hunyuan turbos vision | ¥3/¥9 | hunyuan t1 vision | ¥3/¥9 |
| ByteDance | doubao seed 1.6 flash | ¥0.15/¥1.5 | doubao seed 1.6 vision | ¥0.8/¥8 |
- USD $1 ~ CNY ¥ 7.1
- Los precios se muestran por millón de tokens.
Para cada solicitud realizada en WriteTex, normalmente consumes entre 300 y 1000 tokens de entrada y entre 10 y 100 tokens de salida.
La mayoría de los proveedores de modelos ofrecen un nivel gratuito generoso. Normalmente puedes registrarte para obtener una cuenta gratuita y empezar a usar los modelos sin costo alguno.
Obtener configuración de la API
Para una configuración de API, necesitas tres componentes:
- Endpoint de la API
- Clave de la API
- ID del modelo
La URL base suele encontrarse en la documentación del proveedor. Obtener la clave de la API y el ID del modelo también es bastante sencillo:
- Registra una cuenta con un proveedor.
- Lee la documentación del proveedor.
- Crea un token de API en la plataforma del proveedor.
- Elige tu modelo y obtén el ID del modelo.
OpenAI
- Registra una cuenta en OpenAI.
- Lee la documentación de la API de OpenAI.
- Crea un token en OpenAI Platform.
- Elige tu modelo, por ejemplo, GPT 5.1 con ID de modelo
gpt-5.1.
URL base: https://api.openai.com/v1
Anthropic
- Registra una cuenta en la consola de Anthropic.
- Lee la documentación de la API de Anthropic.
- Crea un token en Anthropic Platform.
- Elige tu modelo en Models overview, por ejemplo, Claude Sonnet 4.5 con ID de modelo
claude-sonnet-4-5.
URL base: https://api.anthropic.com/v1
Google
- Registra una cuenta de Google. Inicia sesión en Google AI Studio.
- Lee la documentación de la API de Gemini.
- Crea un token en Google AI Studio.
- Elige tu modelo, por ejemplo, Gemini 2.5 Flash con ID de modelo
gemini-2.5-flash.
URL base: https://generativelanguage.googleapis.com/v1beta/openai
También puedes usar la API de Gemini en Google Vertex AI.
Google ofrece Gemini 2.5 Flash gratis con un límite diario de 20 solicitudes en Google AI Studio.
Openrouter
Openrouter es un enrutador de modelos que te permite usar múltiples modelos de diferentes proveedores. Puedes consultar la documentación de Openrouter para más información.
A menudo hay modelos gratuitos disponibles en Openrouter. Por ejemplo,
nvidia/nemotron-nano-12b-v2-vl:freees un modelo gratuito que puedes usar sin costo alguno. URL base:https://openrouter.ai/api/v1
Alibaba
- Registra una cuenta de Aliyun en Aliyun.
- Lee la documentación de la API de Aliyun.
- Sigue esta guía para crear una clave de API en API Key.
- Elige tu modelo del Model Market. Por ejemplo, Qwen3 vl plus con ID de modelo
qwen3-vl-plus.
URL base: https://dashscope.aliyuncs.com/compatible-mode/v1
Para los nuevos usuarios registrados, obtienes una cuota gratuita de 1M de tokens para cada modelo durante los primeros tres meses.
Tencent
- Registra una cuenta de Tencent Cloud.
- Lee la documentación de la API de Tencent.
- Crea una clave de API en Tencent Cloud Console.
- Elige tu modelo del Model Square, por ejemplo, Hunyuan Turbos Vision con ID de modelo
hunyuan-turbos-vision.
URL base: https://api.hunyuan.cloud.tencent.com/v1
Para los nuevos usuarios registrados, obtienes una cuota gratuita de 1M de tokens en total para todos los modelos.
ByteDance
- Registra una cuenta de Volc Engine.
- Lee la documentación de la API de Volc Engine.
- Crea una clave de API en Volc Engine Console.
- Elige tu modelo del Model Square, por ejemplo, Doubao 1.6 Vision con ID de modelo
doubao-seed-1-6-vision-250815.
URL base: https://ark.cn-beijing.volces.com/api/v3
Para los nuevos usuarios registrados, obtienes una cuota gratuita de 0.5M de tokens por modelo.
Acerca de Deepseek
Los modelos proporcionados directamente por Deepseek no admiten entradas de visión. Los modelos de código abierto como DeepSeek-OCR sí admiten el reconocimiento de ecuaciones matemáticas, pero requieren alojamiento propio o buscar un proveedor independiente.
Prueba tu API (si es necesario)
Supongamos ahora que has obtenido la clave de la API y el ID del modelo. Puedes probar tu API utilizando una herramienta como CherryStudio. Descarga la aplicación Cherry Studio y usa la configuración de tu API en la aplicación para probarla. Intenta insertar una imagen para ver si el modelo admite la entrada de visión.
Si no quieres descargar la aplicación, también puedes probar tu API enviando una solicitud sencilla. Aquí tienes un ejemplo de solicitud para qwen3-vl-plus usando curl. Copia y pega este comando en tu terminal o CMD:
curl https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer sk-1234567890" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-vl-plus",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Hello"
}
]
}
]
}'Reemplaza https://dashscope.aliyuncs.com/compatible-mode/v1 con tu propia URL base, manteniendo la parte /chat/completions igual. Reemplaza qwen3-vl-plus con tu propio ID de modelo. Reemplaza sk-1234567890 con tu propia clave de API.
Respuesta exitosa:
{
"choices": [
{
"message": {
"content": "¡Hola! ¿En qué puedo ayudarte hoy?😊",
"reasoning_content": "",
"role": "assistant"
},
}
],
}
## Configurar los ajustes en WriteTex
- [iOS](/es/ios)
- [Android](/es/android)
- [Windows](/es/windows)
- [MacOS](/es/macos)
## Avanzado
> En esta sección, los autores asumen que el lector sabe lo que está haciendo. Alojar un modelo propio está fuera del alcance de esta guía. No se recomienda para principiantes o usuarios sin conocimientos de informática.
### Alojamiento Propio (Self-Hosting)
[ollama](https://ollama.com) es una plataforma que te permite ejecutar modelos de lenguaje grandes en tu propia máquina. Proporciona una API sencilla que puedes usar para ejecutar modelos. Puedes consultar la [documentación de ollama](https://docs.ollama.com) para más información. Como ejemplo, [Deepseek-OCR](https://ollama.com/library/deepseek-ocr) es un modelo que puedes usar para WriteTex.
[vLLM](https://www.vllm.ai) es un motor de inferencia de alto rendimiento para modelos de lenguaje grandes. Admite una variedad de modelos y proporciona una API compatible con OpenAI. Puedes consultar la [documentación de vLLM](https://docs.vllm.ai/en/latest/usage/) para más información. Recomiendo probar [HunyuanOCR](https://docs.vllm.ai/projects/recipes/en/latest/Tencent-Hunyuan/HunyuanOCR.html) y [DeepSeek-OCR](https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-OCR.html) para un OCR de LaTeX local rápido y ligero para WriteTex.