واجهة برمجة تطبيقات مخصصة (API)
تُعرف أيضاً باسم BYOK (Bring Your Own Key - أحضر مفتاحك الخاص). هذا الدليل مخصص للحصول على رمز واجهة برمجة تطبيقات (API) مخصص للذكاء الاصطناعي وتهيئته لـ WriteTex. إذا كنت معتاداً على هذا، يمكنك تخطي هذا الدليل. إليك دليل خطوة بخطوة للإعداد.
إخلاء مسؤولية
WriteTex (نحن) لسنا مسؤولين عن أي تكاليف تتكبدها نتيجة استخدام واجهة برمجة تطبيقات مخصصة. يجب عليك اتباع شروط الخدمة الخاصة بمزود خدمة واجهة برمجة تطبيقات الذكاء الاصطناعي والقوانين المعمول بها في ولايتك القضائية. نحن لسنا مسؤولين عن النتائج التي تولدها النماذج من المزود الخاص بك. نحن لسنا تابعين لهذه الشركات. لمزيد من المعلومات، راجع شروط الاستخدام الخاصة بنا.
التعريفات
- واجهة برمجة تطبيقات متوافقة مع OpenAI: واجهة برمجة تطبيقات متوافقة مع مواصفات واجهة برمجة تطبيقات OpenAI. يتوقع WriteTex أن تكون نقطة نهاية واجهة برمجة التطبيقات الخاصة بك بهذا التنسيق.
- نقطة نهاية واجهة برمجة التطبيقات / رابط القاعدة (Base URL): الرابط الأساسي لنقطة نهاية واجهة برمجة التطبيقات الخاصة بك. هذا هو الرابط الجذري حيث يتم استضافة واجهة برمجة التطبيقات الخاصة بك. على سبيل المثال،
https://api.openai.com/v1. - رمز/مفتاح واجهة برمجة التطبيقات (API Token/Key): معرف فريد يستخدم للمصادقة على الطلبات المرسلة إلى واجهة برمجة التطبيقات الخاصة بك. يجب الحفاظ على سريته وعدم مشاركته علنًا. على سبيل المثال،
sk-1234567890. - اسم/معرف النموذج (Model Name/ID): اسم أو معرف النموذج الذي تريد استخدامه مع WriteTex. على سبيل المثال،
gpt-5.1أوqwen/qwen3-vl-8b-instruct. هذا معامل فريد للغاية ولا يتوقع مدخلات غامضة مثلgptأوqwen. - إصدار واجهة برمجة التطبيقات (API version): إصدار واجهة برمجة التطبيقات الذي تستخدمه. يتوقع WriteTex الإصدار
v1على أنظمة ويندوز وأندرويد وماك. إذا كان رابط القاعدة (Base URL) ينتهي بـ/v1، فيجب عليك إزالة/v1من رابط القاعدة الخاص بك على أجهزة ويندوز وأندرويد وماك. لمزيد من المعلومات حول رابط القاعدة وإصدار واجهة برمجة التطبيقات، راجع الدليل الخاص بكل منصة. - مزود خدمة واجهة برمجة التطبيقات (API Service Provider): مزود الخدمة الذي يستضيف واجهة برمجة التطبيقات الخاصة بك. عادة ما تكون هذه شركات تقنية عملاقة معروفة مثل OpenAI و Alibaba و Anthropic و Tencent و Google و ByteDance وغيرها.
- نماذج لغة الرؤية / النماذج متعددة الوسائط: هذه النماذج قادرة على فهم النصوص والصور. عادة ما تكون أقوى من النماذج اللغوية التقليدية. على سبيل المثال،
gpt-5.1هو نموذج متعدد الوسائط. - الرموز (Tokens): الرموز هي الوحدات الأساسية للنص التي يعالجها النموذج. لكل طلب، تستهلك كمية من الرموز بناءً على مدخلاتك ومخرجات النموذج. عدد الرموز المستهلكة يتناسب طردياً مع تكلفة الطلب. عادةً ما يتم تسعير رموز المدخلات والمخرجات بشكل مختلف. على سبيل المثال، يتم تسعير
gpt-5.1بـ 1.25 دولار لكل مليون رمز للمدخلات و 10 دولارات لكل مليون رمز للمخرجات.
اختيار المزود والنموذج
عند اختيار مزود ونموذج، ضع في اعتبارك العوامل التالية:
- الأداء: ابحث عن النماذج التي تعمل بشكل جيد في مهام التعرف الضوئي على الحروف (OCR). راجع لوحة صدارة LMArena لمزيد من المعلومات.
- التكلفة: قارن تكلفة استخدام النماذج المختلفة. قد تكون بعض النماذج أغلى من غيرها. يتم حساب التكاليف من خلال:
عدد رموز المدخلات * سعر المدخلات + عدد رموز المخرجات * سعر المخرجات.
- قدرات النموذج: يجب أن يدعم نموذجك مدخلات الرؤية، مما يعني أنه يجب أن يكون نموذجاً متعدد الوسائط. على سبيل المثال،
gpt-5.1هو نموذج متعدد الوسائط. يمكنك الرجوع إلى موقع المزود لمزيد من المعلومات.
كيف تتحقق مما إذا كان النموذج يدعم مدخلات الرؤية؟
- ابحث عن نماذج تحتوي على "vision" أو "multi-modal" في وصفها.
- تحقق من بطاقة النموذج على موقع المزود. عادة ما تكون هناك أيقونة تشير إلى أن النموذج يدعم إدخال الصور.
إليك بعض المزودين والنماذج التي يمكنك وضعها في الاعتبار:
| المزود | نموذج القيمة | سعر المدخلات/المخرجات | نموذج الأداء | سعر المدخلات/المخرجات |
|---|---|---|---|---|
| OpenAI | gpt5 mini | $0.25 /$2 | gpt 5.1 | $1.25/$10 |
| Anthropic | claude sonnet 4.5 | $3/$15 | claude opus 4.5 | $5/$25 |
| gemini 2.5 flash | $0.3/$2.5 | gemini 3 flash | $0.5/$3 | |
| Openrouter | nvidia/nemotron-nano-12b-v2-vl:free | 0 | grok 4 | $3/$15 |
| Alibaba | qwen3 vl flash | ¥0.15/¥1.5 | qwen3 vl plus | ¥1/¥10 |
| Tencent | hunyuan turbos vision | ¥3/¥9 | hunyuan t1 vision | ¥3/¥9 |
| ByteDance | doubao seed 1.6 flash | ¥0.15/¥1.5 | doubao seed 1.6 vision | ¥0.8/¥8 |
- 1 دولار أمريكي ≈ 7.1 يوان صيني
- الأسعار معروضة لكل مليون رمز.
لكل طلب يتم إجراؤه في WriteTex، تستهلك عادةً حوالي 300 إلى 1000 رمز مدخلات ومن 10 إلى 100 رمز مخرجات.
يقدم معظم مزودي النماذج فئة مجانية سخية. يمكنك عادةً التسجيل للحصول على حساب مجاني والبدء في استخدام النماذج دون أي تكلفة.
الحصول على تكوين واجهة برمجة التطبيقات (API Config)
لتكوين واجهة برمجة التطبيقات، تحتاج إلى ثلاثة مكونات:
- نقطة نهاية واجهة برمجة التطبيقات (API Endpoint)
- مفتاح واجهة برمجة التطبيقات (API Key)
- معرف النموذج (Model ID)
عادة ما يتم العثور على رابط القاعدة في وثائق المزود. الحصول على مفتاح واجهة برمجة التطبيقات ومعرف النموذج أمر بسيط للغاية أيضاً:
- قم بتسجيل حساب لدى المزود.
- اقرأ وثائق المزود.
- قم بإنشاء رمز واجهة برمجة تطبيقات على منصة المزود.
- اختر نموذجك واحصل على معرف النموذج.
OpenAI
- قم بتسجيل حساب OpenAI.
- اقرأ وثائق واجهة برمجة تطبيقات OpenAI
- قم بإنشاء رمز في منصة OpenAI.
- اختر نموذجك، على سبيل المثال GPT 5.1 بمعرف نموذج
gpt-5.1.
رابط القاعدة (Base URL): https://api.openai.com/v1
Anthropic
- قم بتسجيل حساب في وحدة تحكم Anthropic.
- اقرأ وثائق واجهة برمجة تطبيقات Anthropic
- قم بإنشاء رمز في منصة Anthropic.
- اختر نموذجك من نظرة عامة على النماذج على سبيل المثال Claude Sonnet 4.5 بمعرف نموذج
claude-sonnet-4-5.
رابط القاعدة (Base URL): https://api.anthropic.com/v1
Google
- قم بتسجيل حساب Google. قم بتسجيل الدخول إلى Google AI Studio
- اقرأ وثائق واجهة برمجة تطبيقات Gemini
- قم بإنشاء رمز في Google AI Studio
- اختر نموذجك، على سبيل المثال Gemini 2.5 Flash بمعرف نموذج
gemini-2.5-flash.
رابط القاعدة (Base URL): https://generativelanguage.googleapis.com/v1beta/openai
يمكنك أيضاً استخدام واجهة برمجة تطبيقات Gemini في Google Vertex AI.
تقدم Google نموذج gemini 2.5 flash مجاناً بحد يومي يبلغ 20 طلباً في google ai studio.
Openrouter
Openrouter هو موجه نماذج يسمح لك باستخدام نماذج متعددة من مزودين مختلفين. يمكنك الرجوع إلى وثائق Openrouter لمزيد من المعلومات.
غالباً ما تتوفر نماذج مجانية على Openrouter. على سبيل المثال
nvidia/nemotron-nano-12b-v2-vl:freeهو نموذج مجاني يمكنك استخدامه دون أي تكلفة. رابط القاعدة (Base URL):https://openrouter.ai/api/v1
Alibaba
- قم بتسجيل حساب Aliyun في Aliyun
- اقرأ وثائق واجهة برمجة تطبيقات Aliyun
- اتبع هذا الدليل لإنشاء مفتاح واجهة برمجة تطبيقات في مفتاح واجهة برمجة التطبيقات
- اختر نموذجك من سوق النماذج. على سبيل المثال Qwen3 vl plus بمعرف نموذج
qwen3-vl-plus
رابط القاعدة (Base URL): https://dashscope.aliyuncs.com/compatible-mode/v1
للمستخدمين المسجلين الجدد، تحصل على حصة مجانية تبلغ مليون رمز لكل نموذج للأشهر الثلاثة الأولى.
Tencent
- قم بتسجيل حساب Tencent Cloud
- اقرأ وثائق واجهة برمجة تطبيقات Tencent
- قم بإنشاء مفتاح واجهة برمجة تطبيقات في وحدة تحكم Tencent Cloud
- اختر نموذجك من Model Sqaure، على سبيل المثال Hunyuan Turbos Vision بمعرف نموذج
hunyuan-turbos-vision.
رابط القاعدة (Base URL): https://api.hunyuan.cloud.tencent.com/v1
للمستخدمين المسجلين الجدد، تحصل على حصة مجانية تبلغ مليون رمز في المجموع لجميع النماذج.
ByteDance
- قم بتسجيل حساب Volc Engine
- اقرأ وثائق واجهة برمجة تطبيقات Volc Engine
- قم بإنشاء مفتاح واجهة برمجة تطبيقات في وحدة تحكم Volc Engine
- اختر نموذجك من Model Sqaure، على سبيل المثال Doubao 1.6 Vision بمعرف نموذج
doubao-seed-1-6-vision-250815.
رابط القاعدة (Base URL): https://ark.cn-beijing.volces.com/api/v3
للمستخدمين المسجلين الجدد، تحصل على حصة مجانية تبلغ 0.5 مليون رمز لكل نموذج.
حول Deepseek
النماذج المقدمة مباشرة من deepseek لا تدعم مدخلات الرؤية. النماذج مفتوحة المصدر مثل DeepSeek-OCR تدعم التعرف على المعادلات الرياضية ولكنها تتطلب استضافة ذاتية أو البحث عن مزود منفصل.
اختبر واجهة برمجة التطبيقات الخاصة بك (إذا لزم الأمر)
افترض الآن أنك حصلت على مفتاح واجهة برمجة التطبيقات ومعرف النموذج. يمكنك اختبار واجهة برمجة التطبيقات الخاصة بك باستخدام أداة مثل CherryStudio. قم بتنزيل تطبيق cherry studio واستخدم إعدادات واجهة برمجة التطبيقات الخاصة بك في التطبيق لاختبارها. حاول إدراج صورة لمعرفة ما إذا كان النموذج يدعم مدخلات الرؤية.
إذا كنت لا ترغب في تنزيل التطبيق، يمكنك أيضاً اختبار واجهة برمجة التطبيقات الخاصة بك عن طريق إرسال طلب بسيط. إليك مثال لطلب لنموذج qwen3-vl-plus باستخدام curl. انسخ هذا الأمر والصقه في جهازك الطرفي (Terminal) أو موجه الأوامر (CMD):
curl https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer sk-1234567890" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-vl-plus",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Hello"
}
]
}
]
}'استبدل https://dashscope.aliyuncs.com/compatible-mode/v1 برابط القاعدة الخاص بك، مع الحفاظ على جزء /chat/completions كما هو. استبدل qwen3-vl-plus بمعرف النموذج الخاص بك. استبدل sk-1234567890 بمفتاح واجهة برمجة التطبيقات الخاص بك.
الاستجابة الناجحة:
{
"choices": [
{
"message": {
"content": "مرحباً! كيف يمكنني مساعدتك اليوم؟😊",
"reasoning_content": "",
"role": "assistant"
},
}
],
}تكوين الإعدادات في WriteTex
متقدم
في هذا الجزء، يفترض المؤلفون أن القارئ يعرف ما يفعله. استضافة نموذج مخصص خارج نطاق هذا الدليل. لا يُنصح به للمبتدئين أو المستخدمين الذين ليس لديهم خلفية في علوم الكمبيوتر.
الاستضافة الذاتية
ollama عبارة عن منصة تسمح لك بتشغيل نماذج لغوية كبيرة على جهازك الخاص. توفر واجهة برمجة تطبيقات بسيطة يمكنك استخدامها لتشغيل النماذج. يمكنك الرجوع إلى وثائق ollama لمزيد من المعلومات. كمثال، Deepseek-OCR هو نموذج يمكنك استخدامه لتشغيله لـ WriteTex.
vLLM هو محرك استدلال عالي الأداء للنماذج اللغوية الكبيرة. يدعم مجموعة متنوعة من النماذج ويوفر واجهة برمجة تطبيقات متوافقة مع OpenAI. يمكنك الرجوع إلى وثائق vLLM لمزيد من المعلومات. أوصي بتجربة HunyuanOCR و DeepSeek-OCR لعملية OCR محلية سريعة وخفيفة لـ WriteTex.