Skip to content

API Personalizzata

Conosciuta anche come BYOK (Bring Your Own Key - Porta la tua chiave). Questa guida serve per ottenere e configurare un token API AI personalizzato per WriteTex. Se hai già familiarità con questo processo, puoi saltare questa guida. L'uso di WriteTex richiede la configurazione di un'API AI personalizzata. Ecco una guida passo dopo passo per la configurazione.

Disclaimer

WriteTex (noi) non è responsabile per eventuali costi derivanti dall'uso di un'API personalizzata. È necessario rispettare i termini di servizio del fornitore di servizi API AI e le leggi vigenti nella propria giurisdizione. Non siamo responsabili per i risultati generati dai modelli del tuo fornitore. Non siamo affiliati a queste società. Per ulteriori informazioni, consulta i nostri Termini di Utilizzo.

Definizioni

  1. API compatibile con OpenAI: Un'API compatibile con la specifica API di OpenAI. WriteTex si aspetta che il tuo endpoint API sia in questo formato.
  2. Endpoint API / Base URL: L'URL di base del tuo endpoint API. È l'URL radice dove è ospitata la tua API. Ad esempio, https://api.openai.com/v1.
  3. Token / Chiave API: Un identificatore univoco utilizzato per autenticare le richieste alla tua API. Deve essere mantenuto segreto e non condiviso pubblicamente. Ad esempio, sk-1234567890.
  4. Nome / ID Modello: Il nome o l'ID del modello che desideri utilizzare con WriteTex. Ad esempio, gpt-5.1, qwen/qwen3-vl-8b-instruct. Questo è un parametro molto specifico e non si aspetta input generici come gpt o qwen.
  5. Versione API: La versione dell'API che stai utilizzando. WriteTex si aspetta la versione v1 su Windows, Android e macOS. Se il Base URL termina con /v1, dovresti rimuovere /v1 dal tuo baseURL sui dispositivi Windows, Android e macOS. Per ulteriori informazioni su base URL e versione API, consulta la guida specifica per la piattaforma.
  6. Fornitore di Servizi API: Il fornitore di servizi che ospita la tua API. Solitamente si tratta di giganti tecnologici ben noti come OpenAI, Alibaba, Anthropic, Tencent, Google, ByteDance, ecc.
  7. Modelli Linguistici Visivi / Modelli Multimodali: Questi modelli sono in grado di comprendere testo e immagini. Di solito sono più potenti dei modelli linguistici tradizionali. Ad esempio, gpt-5.1 è un modello multimodale.
  8. Token: I token sono le unità di base del testo elaborate dal modello. Per ogni richiesta consumi una quantità di token basata sul tuo input e sull'output del modello. Il numero di token consumati è proporzionale al costo della richiesta. Normalmente i token di input e di output hanno prezzi diversi. Ad esempio, gpt-5.1 ha un prezzo di $1,25 / 1M di token per l'input e $10 / 1M di token per l'output.

Scegliere Fornitore e Modello

Quando scegli un fornitore e un modello, considera i seguenti fattori:

  1. Prestazioni: Cerca modelli che offrano buone prestazioni nelle attività OCR. Consulta la Classifica LMArena per ulteriori informazioni.
  2. Costo: Confronta il costo dell'utilizzo di diversi modelli. Alcuni modelli possono essere più costosi di altri. I costi sono calcolati come:

Conteggio Token Input * Prezzo Input + Conteggio Token Output * Prezzo Output.

  1. Capacità del Modello: Il tuo modello deve supportare l'input visivo, il che significa che deve essere un modello multimodale. Ad esempio, gpt-5.1 è un modello multimodale. Puoi consultare il sito web del fornitore per ulteriori informazioni.

Come verificare se un modello supporta l'input visivo?

  • Cerca modelli con "vision" o "multi-modal" nella loro descrizione.
  • Controlla la scheda del modello sul sito web del fornitore. Di solito c'è un'icona che indica che il modello supporta l'input di immagini.

Ecco alcuni fornitori e modelli da considerare:

FornitoreModello ConvenientePrezzo In/OutModello PerformantePrezzo In/Out
OpenAIgpt5 mini$0.25 /$2gpt 5.1$1.25/$10
Anthropicclaude sonnet 4.5$3/$15claude opus 4.5$5/$25
Googlegemini 2.5 flash$0.3/$2.5gemini 3 flash$0.5/$3
Openrouternvidia/nemotron-nano-12b-v2-vl:free0grok 4$3/$15
Alibabaqwen3 vl flash¥0.15/¥1.5qwen3 vl plus¥1/¥10
Tencenthunyuan turbos vision¥3/¥9hunyuan t1 vision¥3/¥9
ByteDancedoubao seed 1.6 flash¥0.15/¥1.5doubao seed 1.6 vision¥0.8/¥8
  • USD $1 ≈ CNY ¥ 7.1
  • I prezzi sono mostrati per milione di token.

Per ogni richiesta effettuata su WriteTex, consumi solitamente circa 300-1000 token di input e 10-100 token di output.

La maggior parte dei fornitori di modelli offre un generoso piano gratuito. Solitamente puoi registrarti per un account gratuito e iniziare a utilizzare i modelli senza alcun costo.

Ottenere la Configurazione API

Per una configurazione API, hai bisogno di tre componenti:

  • Endpoint API
  • Chiave API
  • ID Modello

Il base URL si trova solitamente nella documentazione del fornitore. Ottenere la Chiave API e l'ID Modello è altrettanto semplice:

  1. Registra un account presso un fornitore.
  2. Leggi la documentazione del fornitore.
  3. Crea un token API sulla piattaforma del fornitore.
  4. Scegli il tuo modello e ottieni l'ID modello.

OpenAI

  1. Registra un account OpenAI.
  2. Leggi la documentazione API di OpenAI.
  3. Crea un token sulla Piattaforma OpenAI.
  4. Scegli il tuo modello, ad esempio GPT 5.1 con ID modello gpt-5.1.

Base URL: https://api.openai.com/v1

Anthropic

  1. Registra un account console Anthropic.
  2. Leggi la documentazione API di Anthropic.
  3. Crea un token sulla Piattaforma Anthropic.
  4. Scegli il tuo modello nella Panoramica modelli, ad esempio Claude Sonnet 4.5 con ID modello claude-sonnet-4-5.

Base URL: https://api.anthropic.com/v1

Google

  1. Registra un account Google. Accedi a Google AI Studio.
  2. Leggi la documentazione API di Gemini.
  3. Crea un token su Google AI Studio.
  4. Scegli il tuo modello, ad esempio Gemini 2.5 Flash con ID modello gemini-2.5-flash.

Base URL: https://generativelanguage.googleapis.com/v1beta/openai

Puoi anche utilizzare l'API Gemini su Google Vertex AI.

Google offre Gemini 2.5 Flash gratuitamente con un limite giornaliero di 20 richieste su Google AI Studio.

Openrouter

Openrouter è una piattaforma di aggregazione che ti consente di utilizzare modelli di più fornitori. Consulta la documentazione di Openrouter.

Sulla piattaforma sono spesso disponibili modelli gratuiti, come nvidia/nemotron-nano-12b-v2-vl:free, utilizzabili senza costi.

Base URL: https://openrouter.ai/api/v1

Alibaba

  1. Registra un account su Alibaba Cloud.
  2. Leggi la documentazione API di Alibaba Cloud.
  3. Segui questa guida per creare una chiave API su Chiave API.
  4. Scegli il tuo modello dal Model Market. Ad esempio Qwen3 vl plus con ID modello qwen3-vl-plus.

Base URL: https://dashscope.aliyuncs.com/compatible-mode/v1

Per i nuovi utenti registrati, ottieni un contingente gratuito di 1M di token per ogni modello durante i primi tre mesi.

Tencent

  1. Registra un account su Tencent Cloud.
  2. Leggi la documentazione API di Tencent.
  3. Crea una chiave API sulla Console Tencent Cloud.
  4. Scegli il tuo modello dal Model Square, ad esempio Hunyuan Turbos Vision con ID modello hunyuan-turbos-vision.

Base URL: https://api.hunyuan.cloud.tencent.com/v1

Per i nuovi utenti registrati, ottieni un contingente gratuito di 1M di token in totale per tutti i modelli.

ByteDance

  1. Registra un account su Volc Engine.
  2. Leggi la documentazione API di Volc Engine.
  3. Crea una chiave API sulla Console Volc Engine.
  4. Scegli il tuo modello dal Model Square, ad esempio Doubao 1.6 Vision con ID modello doubao-seed-1-6-vision-250815.

Base URL: https://ark.cn-beijing.volces.com/api/v3

Per i nuovi utenti registrati, ottieni un contingente gratuito di 0,5M di token per modello.

Informazioni su Deepseek

I modelli forniti direttamente da Deepseek non supportano l'input visivo. Modelli open-source come DeepSeek-OCR supportano il riconoscimento di equazioni matematiche, ma richiedono l'hosting autonomo o la ricerca di un fornitore separato.

Testa la tua API (se necessario)

Supponiamo ora che tu abbia ottenuto la chiave API e l'ID del modello. Puoi testare la tua API utilizzando uno strumento come CherryStudio. Scarica l'app CherryStudio e usa le tue impostazioni API nell'app per testare la tua API. Prova a inserire un'immagine per vedere se il modello supporta l'input visivo.

Se non desideri scaricare l'app, puoi anche testare la tua API inviando una semplice richiesta. Ecco un esempio di richiesta per qwen3-vl-plus utilizzando curl. Copia e incolla questo comando nel tuo terminale o CMD:

bash
curl https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
  -H "Authorization: Bearer sk-1234567890" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-vl-plus",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Ciao"
          }
        ]
      }
    ]
  }'

Sostituisci https://dashscope.aliyuncs.com/compatible-mode/v1 con il tuo Base URL, mantenendo invariata la parte /chat/completions. Sostituisci qwen3-vl-plus con il tuo ID modello. Sostituisci sk-1234567890 con la tua chiave API.

Risposta corretta:

json
{
    "choices": [
        {
            "message": {
                "content": "Ciao! Come posso aiutarti oggi?😊",
                "reasoning_content": "",
                "role": "assistant"
            },
        }
    ],
}

Configurazione in WriteTex

Si prega di seguire la guida specifica per la piattaforma per completare la configurazione:

Avanzate

In questa parte, gli autori presumono che il lettore sappia cosa sta facendo. L'hosting di un modello personalizzato va oltre questa guida. Non è raccomandato per i principianti o per gli utenti senza un background informatico.

Hosting Autonomo

ollama è una piattaforma che ti consente di eseguire modelli linguistici di grandi dimensioni sulla tua macchina. Fornisce un'API semplice che puoi utilizzare per eseguire i modelli. Puoi consultare la documentazione di ollama per ulteriori informazioni. Come esempio, Deepseek-OCR è un modello che puoi utilizzare per WriteTex.

vLLM è un motore di inferenza ad alte prestazioni per modelli linguistici di grandi dimensioni. Supporta una varietà di modelli e fornisce un'API compatibile con OpenAI. Puoi consultare la documentazione di vLLM per ulteriori informazioni. Ti consiglio di provare HunyuanOCR e DeepSeek-OCR per un OCR LaTeX locale veloce e leggero per WriteTex.