جامعة تونتك الدولية للتكنولوجيا – كلية علوم الحاسوب وتقنية المعلومات تناقش مشروعًا بحثيًا متميزًا بعنوان:

Arabic Document Layout Analysis Across Hierarchical Levels: Paragraphs, Lines, and Words using a Modified U-Net

مشروع نوعي يعزز مستقبل معالجة اللغة العربية رقمياً
نظام ذكي لتحليل بنية المستندات العربية على مستويات الفقرة والسطر والكلمة
استمرارًا لمناقشات مشاريع التخرج لبرنامج الذكاء الاصطناعي وعلم البيانات للعام الأكاديمي 2025–2026م، استعرضت جامعة تونتك الدولية للتكنولوجيا – كلية علوم الحاسوب وتقنية المعلومات مشروعًا بحثيًا متميزًا بعنوان:

Arabic Document Layout Analysis Across Hierarchical Levels: Paragraphs, Lines, and Words using a Modified U-Net

ضمن المشاريع المتميزة التي تعكس توظيف الذكاء الاصطناعي في خدمة اللغة العربية ومعالجة تحدياتها التقنية، يبرز هذا المشروع بوصفه عملًا علميًا وتطبيقيًا نوعيًا يهدف إلى تطوير نظام ذكي لتجزئة المستندات العربية على ثلاثة مستويات مترابطة: الفقرات، والأسطر، والكلمات، بما يسهم في رفع كفاءة أنظمة التعرف الضوئي على الحروف (OCR) وتحسين قدرتها على التعامل مع الخصائص الطباعية المعقدة للنص العربي.
وتنبع أهمية المشروع من كونه يعالج واحدة من أبرز الإشكاليات في المعالجة الرقمية للمستندات العربية، حيث تواجه أنظمة OCR تحديات خاصة ترتبط بترابط الحروف، والأحرف النازلة، والتشكيل، وتداخل البنى النصية داخل الصفحة. ومن هذا المنطلق، عمل الفريق على بناء نموذج U-Net معدل، مع دمج دالة خسارة هجينة تجمع بين Dice Loss وBinary Cross-Entropy، بهدف معالجة اختلال توزيع الفئات في الصور، وتحسين قدرة النموذج على فصل المناطق المتداخلة مثل الأسطر المتلامسة والكلمات المتصلة بكفاءة أعلى.
ولتعزيز موثوقية النتائج، تم تقييم النموذج على ثلاث مجموعات بيانات متنوعة شملت: مجموعة خاصة بالفقرات تضم 8,503 صورة، ومجموعة Musharraf مفتوحة المصدر لتجزئة الأسطر وتضم 1,219 صورة، إلى جانب مجموعة جديدة للكلمات جرى تدوينها يدويًا وتضم 7,881 صورة، في مساهمة علمية أصلية تمثل إضافة مهمة لهذا العمل. وقد حقق النموذج نتائج قوية تمثلت في IoU بلغت 0.633 للفقرات، و0.896 للأسطر، و0.900 للكلمات، مع أداء مستقر ومتقدم على مستوى السطر والكلمة مقارنةً بالنتائج السابقة في الأدبيات.
كما تميز المشروع بتقديم تحليل أخطاء شامل ربط بين إخفاقات النموذج وبعض الظواهر الخاصة بالنص العربي، مثل التحام الأسطر بسبب الأحرف النازلة أو تأثير جودة تدوين بيانات الفقرات، وهو ما يعزز شفافية النتائج، ويوضح حدود النظام، ويمهد لتطوير حلول أكثر قوة واعتمادية في المستقبل.
ويمثل هذا المشروع خطوة متقدمة نحو بناء أنظمة OCR عربية أكثر دقة وموثوقية، ويجسد قدرة الطلبة على تحويل التحديات اللغوية المعقدة إلى حلول تقنية قائمة على البحث والتطوير والتجريب المنهجي، بما يعكس مستوى متميزًا من النضج العلمي والبحثي.

أعضاء المشروع:
هشام الذبحاني
القسام السعيدي
علي الشهاري
أنس الأغبري
نوار العزعزي
إشراف:
د. أمين شايع
أ. محمد القماسي
لجنة المناقشة الداخلية:
د. حمزة جامل – عميد كلية علوم الحاسوب وتقنية المعلومات
د. أيمن الصبري – عميد الدراسات العليا والبحث العلمي
أ.د. فضل باعلوي – عميد مركز التطوير وضمان الجودة
لجنة المناقشة الخارجية:
أ.د. أحمد سلطان الهجامي – جامعة صنعاء
أ.م.د. مالك الجبري – جامعة صنعاء

#جامعة_تونتك_الدولية_للتكنولوجيا
#مشاريع_التخرج
#الذكاء_الاصطناعي
#IUTT

اترك رد