Loading...
توليد وتحرير الصور باستخدام Z-Image. واقعية محسّنة وتوليد نصوص أوضح وقدرات تحرير أصلية مدعومة بتكنولوجيا ذكاء اصطناعي متقدمة.
Z-Image هو نموذج ذكاء اصطناعي قوي يتمتع بقدرات قوية في توليد الصور الفوتوجرافية الواقعية، والتصيير الدقيق للنصوص الصينية والإنجليزية، والالتزام القوي بالتعليمات ثنائية اللغة. يحقق أداء مماثلة أو تتجاوز المنافسين الرائدين مع 8 خطوات فقط.
يعتمد نموذج Z-Image على معمارية Scalable Single-Stream DiT (S3-DiT). يوحد هذا التصميم معالجة مختلف المدخلات الشرطية (مثل النصوص وتضمينات الصور) مع الصور الضوضائية المكامنة إلى تسلسل واحد، والذي يتم بعد ذلك إدخاله إلى العمود الفقري للمحول. يتم دمج النصوص والرموز الدلالية البصرية ورموز صور VAE على مستوى التسلسل للعمل كتيار إدخال موحد، مما يزيد من كفاءة المعاملات مقارنة بالأساليب ثنائية التدفق.
بالنسبة لنموذج بـ 6 مليارات معامل، فإنه يؤدي بشكل استثنائي في توليد الصور. أثناء الاختبار على منصة ModelScope (التي تستخدم معالجات NVIDIA A10)، استغرقت معظم عمليات التوليد بحد أقصى ثانيتين فقط مع 9 خطوات فقط. على معالجات GPU عالية النهاية للمستهلكين (مثل RTX 3090 أو 4090)، سيستغرق هذا حوالي 2 إلى 3 ثوان، بينما قد تستغرق البطاقات متوسطة المدى 4 إلى 5 ثوان.
Z-Image متميز في إنتاج صور بواقعية فوتوجرافية، مما يوضح تحكماً دقيقاً في التفاصيل والإضاءة والنسيج. يوازن بين الدقة العالية والجودة الجمالية القوية في التكوين والمزاج العام. الصور المُولّدة ليست واقعية فحسب، بل جذابة بصرياً أيضاً.
يمكن لـ Z-Image تصيير النصوص الصينية والإنجليزية بدقة مع الحفاظ على واقعية الوجه والتكوين الجمالي الكلي، مع نتائج مماثلة للنماذج مغلقة المصدر من الدرجة الأولى. في تصميم الملصقات، فإنه يوضح مهارات تكوينية قوية وحس جيد بالطباعة. يمكنه تصيير نصوص عالية الجودة حتى في السيناريوهات الصعبة مع أحجام الخطوط الصغيرة، مما يوفر تصاميم دقيقة نصياً وجذابة بصرياً.
يستخدم محسِّن الأوامر القوي (PE) سلسلة استدلال منظمة لحقن المنطق والفطرة السليمة، مما يمكّن النموذج من التعامل مع المهام المعقدة مثل 'مسألة الدجاج والأرنب' أو تصور الشعر الصيني الكلاسيكي. في مهام التحرير، حتى عند مواجهة تعليمات غامضة من المستخدم، يمكن للنموذج تطبيق قدرات الاستدلال الخاصة به للاستدلال على النية الأساسية وضمان نتيجة منطقية متسقة.
Z-Image-Edit يوضح فهماً قوياً لتعليمات التحرير ثنائية اللغة، مما يمكّن من تحويلات صور خيالية ومرنة. تتيح الميزات المدمجة للتحرير تعديلات سلسة بدون أدوات خارجية.
Z-Image يطابق أو يتجاوز المنافسين الرائدين مع 8 خطوات فقط. يوفر كمون استدلال أقل من الثانية على معالجات GPU من الدرجة الفندقية H800 ويناسب بسهولة داخل أجهزة المستهلك بـ 16 جيجابايت VRAM.
وفقاً لتقييم تفضيل الإنسان المستند إلى Elo (على ساحة Alibaba AI Arena)، يوضح Z-Image أداء تنافسية عالية جداً ضد النماذج الرائدة الأخرى، مع تحقيق نتائج متقدمة جداً بين النماذج مفتوحة المصدر.
قم بإنشاء صور واقعية فوتوجرافية مع تصيير نصوص ثنائية اللغة دقيقة في 8 خطوات فقط. اختبر التوليد السريع جداً مع نتائج احترافية الجودة.
صِفْ صورتك بأوامر مفصلة. Z-Image متميز في فهم التعليمات المعقدة ثنائية اللغة ويمكنه التعامل مع تصيير النصوص الإنجليزية والصينية بدقة.
يستخدم محسِّن الأوامر المدمج (PE) استدلالاً منظماً لحقن المنطق والفطرة السليمة. يمكنه حل المهام المعقدة والاستدلال على نيتك حتى من التعليمات الغامضة.
توليد في 8 خطوات فقط مع كمون أقل من الثانية. استخدم Z-Image-Edit للتحويلات الإبداعية مع تعليمات التحرير ثنائية اللغة والقدرات الأصلية للتحرير.
حدد متطلبات النصوص ثنائية اللغة بوضوح للحصول على تصيير دقيق للصينية والإنجليزية
صِفْ الإضاءة والظلال والنسيج للحصول على واقعية فوتوجرافية
استخدم محسِّن الأوامر للمهام الإبداعية المعقدة والاستدلال
استفد من التوليد السريع بـ 8 خطوات للتكرار السريع
استفد من مهارات التكوين لتصميم الملصقات والطباعة
ثق باستدلال النموذج للتعامل مع التعليمات الإبداعية الغامضة
Z-Image هو نموذج ذكاء اصطناعي قوي يتمتع بقدرات قوية في توليد الصور الفوتوجرافية الواقعية، والتصيير الدقيق للنصوص الصينية والإنجليزية، والالتزام القوي بالتعليمات ثنائية اللغة. يحقق أداء مماثلة أو تتجاوز المنافسين الرائدين مع 8 خطوات فقط.
يستخدم Z-Image معمارية Scalable Single-Stream DiT (S3-DiT) التي توحد النصوص والرموز الدلالية البصرية ورموز صور VAE على مستوى التسلسل كتيار إدخال موحد. هذا يزيد من كفاءة المعاملات مقارنة بالأساليب ثنائية التدفق.
يوفر Z-Image كمون استدلال أقل من الثانية على معالجات GPU من الدرجة الفندقية H800. على معالجات NVIDIA A10، تستغرق معظم عمليات التوليد بحد أقصى ثانيتين مع 9 خطوات فقط. على معالجات المستهلك مثل RTX 3090/4090، يستغرق حوالي 2-3 ثوان، بينما تستغرق البطاقات متوسطة المدى 4-5 ثوان.
نعم، Z-Image متميز في تصيير النصوص الصينية والإنجليزية بدقة مع الحفاظ على واقعية الوجه والتكوين الجمالي الكلي. يوضح مهارات تكوينية قوية وحس جيد بالطباعة، حتى في السيناريوهات الصعبة مع أحجام الخطوط الصغيرة.
يستخدم محسِّن الأوامر سلسلة استدلال منظمة لحقن المنطق والفطرة السليمة، مما يمكّن النموذج من التعامل مع المهام المعقدة مثل 'مسألة الدجاج والأرنب' أو تصور الشعر الصيني الكلاسيكي. يمكنه الاستدلال على النية الأساسية حتى من التعليمات الغامضة.
وفقاً لتقييم تفضيل الإنسان المستند إلى Elo على ساحة Alibaba AI Arena، يوضح Z-Image أداء تنافسية عالية جداً ضد النماذج الرائدة الأخرى، مع تحقيق نتائج متقدمة جداً بين النماذج مفتوحة المصدر.
اختبر توليد الصور الفوتوجرافية الواقعية مع تصيير النصوص ثنائية اللغة الدقيق في 8 خطوات فقط. الأداء السريعة جداً تلتقي مع الجودة المتقدمة جداً.
يوفر Z-Image واقعية فوتوجرافية، تصيير دقيق للنصوص الصينية والإنجليزية، وقدرات استدلال متقدمة من خلال محسِّن الأوامر. قم بتوليد صور احترافية الجودة في 2-5 ثوان على معالجات GPU للمستهلك.
اختبر Z-Image - توليد صور مفتوح المصدر متقدم جداً مع معمارية S3-DiT