جامعة تونتك الدولية للتكنولوجيا – كلية علوم الحاسوب وتقنية المعلومات تناقش مشروعًا بحثيًا متميزًا بعنوان:Arabic Document Layout Analysis Across Hierarchical Levels: Paragraphs, Lines, and Words using a Modified U-Net مشروع نوعي يعزز مستقبل معالجة اللغة العربية رقمياًنظام ذكي لتحليل بنية المستندات العربية على مستويات الفقرة والسطر والكلمةاستمرارًا لمناقشات مشاريع التخرج لبرنامج الذكاء الاصطناعي وعلم البيانات للعام الأكاديمي 2025–2026م، استعرضت جامعة تونتك الدولية للتكنولوجيا – كلية علوم الحاسوب وتقنية المعلومات مشروعًا بحثيًا متميزًا بعنوان:Arabic Document Layout Analysis Across Hierarchical Levels: Paragraphs, Lines, and Words using a Modified U-Netضمن المشاريع المتميزة التي تعكس توظيف الذكاء الاصطناعي في خدمة اللغة العربية ومعالجة تحدياتها التقنية، يبرز هذا المشروع بوصفه عملًا علميًا وتطبيقيًا نوعيًا يهدف إلى تطوير نظام ذكي لتجزئة المستندات العربية على ثلاثة مستويات مترابطة: الفقرات، والأسطر، والكلمات، بما يسهم في رفع كفاءة أنظمة التعرف الضوئي على الحروف (OCR) وتحسين قدرتها على التعامل مع الخصائص الطباعية المعقدة للنص العربي.وتنبع أهمية المشروع من كونه يعالج واحدة من أبرز الإشكاليات في المعالجة الرقمية للمستندات العربية، حيث تواجه أنظمة OCR تحديات خاصة ترتبط بترابط الحروف، والأحرف النازلة، والتشكيل، وتداخل البنى النصية داخل الصفحة. ومن هذا المنطلق، عمل الفريق على بناء نموذج U-Net معدل، مع دمج دالة خسارة هجينة تجمع بين Dice Loss وBinary Cross-Entropy، بهدف معالجة اختلال توزيع الفئات في الصور، وتحسين قدرة النموذج على فصل المناطق المتداخلة مثل الأسطر المتلامسة والكلمات المتصلة بكفاءة أعلى.ولتعزيز موثوقية النتائج، تم تقييم النموذج على ثلاث مجموعات بيانات متنوعة شملت: مجموعة خاصة بالفقرات تضم 8,503 صورة، ومجموعة Musharraf مفتوحة المصدر لتجزئة الأسطر وتضم 1,219 صورة، إلى جانب مجموعة جديدة للكلمات جرى تدوينها يدويًا وتضم 7,881 صورة، في مساهمة علمية أصلية تمثل إضافة مهمة لهذا العمل. وقد حقق النموذج نتائج قوية تمثلت في IoU بلغت 0.633 للفقرات، و0.896 للأسطر، و0.900 للكلمات، مع أداء مستقر ومتقدم على مستوى السطر والكلمة مقارنةً بالنتائج السابقة في الأدبيات.كما تميز المشروع بتقديم تحليل أخطاء شامل ربط بين إخفاقات النموذج وبعض الظواهر الخاصة بالنص العربي، مثل التحام الأسطر بسبب الأحرف النازلة أو تأثير جودة تدوين بيانات الفقرات، وهو ما يعزز شفافية النتائج، ويوضح حدود النظام، ويمهد لتطوير حلول أكثر قوة واعتمادية في المستقبل.ويمثل هذا المشروع خطوة متقدمة نحو بناء أنظمة OCR عربية أكثر دقة وموثوقية، ويجسد قدرة الطلبة على تحويل التحديات اللغوية المعقدة إلى حلول تقنية قائمة على البحث والتطوير والتجريب المنهجي، بما يعكس مستوى متميزًا من النضج العلمي والبحثي.أعضاء المشروع:هشام الذبحانيالقسام السعيديعلي الشهاريأنس الأغبرينوار العزعزيإشراف:د. أمين شايعأ. محمد القماسيلجنة المناقشة الداخلية:د. حمزة جامل – عميد كلية علوم الحاسوب وتقنية المعلوماتد. أيمن الصبري – عميد الدراسات العليا والبحث العلميأ.د. فضل باعلوي – عميد مركز التطوير وضمان الجودةلجنة المناقشة الخارجية:أ.د. أحمد سلطان الهجامي – جامعة صنعاءأ.م.د. مالك الجبري – جامعة صنعاء#جامعة_تونتك_الدولية_للتكنولوجيا#مشاريع_التخرج#الذكاء_الاصطناعي#IUTT شارك هذا الموضوع: منصة يمن أكاديميك المشاركة على WhatsApp (فتح في نافذة جديدة) WhatsApp المشاركة على Telegram (فتح في نافذة جديدة) Telegram شارك على فيس بوك (فتح في نافذة جديدة) فيس بوك المشاركة على X (فتح في نافذة جديدة) X إرسال رابط بالبريد الإلكتروني إلى صديق (فتح في نافذة جديدة) البريد الإلكتروني المشاركة على LinkedIn (فتح في نافذة جديدة) LinkedIn اطبع (فتح في نافذة جديدة) طباعة معجب بهذه:إعجاب تحميل... مرتبط نُشر بواسطة محمود الصلوي عرض كل المقالات حسبمحمود الصلوي