Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 210

‫تطبيقات الذكاء االصطناعي‬

‫في خـــــدمة اللغـــــة العربية‬

‫مباحث لغوية ‪٦٠‬‬

‫تحرير‪:‬‬

‫د‪ .‬يوسف ســـالم العريان‬

‫تأليف‪:‬‬
‫د‪ .‬أمجد يوسف أبوجبـــــــــــارة‬ ‫د‪ .‬يوسف ســـــــــــــالم العريان‬

‫د‪ .‬أحمـــــــــــــــــــــد الحايــــــــــــــــــــك‬ ‫د‪ .‬عرفـــــــــــــــــــان أحمـــــــــــــــــــــــــــد‬

‫أ‪ .‬غـــريـــــــب واجــب غــــريــــــبي‬ ‫د‪ .‬أحمد حمدي أبو عبســـــــــة‬


‫مباحث لغوية ‪٦٠‬‬

‫تطبيقات الذكاء االصطناعي‬


‫في خدمة اللغة العربية‬

‫تأليف‪:‬‬

‫د‪.‬أجمـــد يوسف أبوجبـــــــــارة‬ ‫د‪.‬يوسف ســـــــــــــامل العريان‬


‫د‪.‬أمحـــــــــــد احلايــــــــــك‬ ‫د‪.‬عرفـــــــــان أمحــــــــــــد‬
‫أ‪.‬غريـــــــب واجب غريــــــبي‬ ‫د‪.‬أمحد محدي أبو عبســــــــــــة‬

‫حترير‪:‬‬
‫د‪.‬يوسف ســـامل العريان‬

‫‪١٤4١‬هـ ‪٢٠١٩ -‬م‬


‫تطبيقات الذكاء االصطناعي في‬
‫خدمة اللغة العربية‬
‫الطبعة األوىل‬
‫‪ 144١‬هـ ‪ ٢٠١٩ -‬م‬
‫مجيع احلقوق حمفوظة‬
‫اململكة العربية السعودية ‪ -‬الرياض‬
‫ص‪.‬ب ‪ 12500‬الرياض ‪11473‬‬
‫هاتف‪00966112581082 - 00966112587268:‬‬
‫الربيد اإلليكرتوين‪nashr@kaica.org.sa :‬‬

‫مركز امللك عبداهلل بن عبدالعزيز الدويل خلدمة اللغة‬


‫العربية‪1٤٤١ ،‬هـ‪.‬‬
‫فهرسة مكتبة امللك فهد الوطنية أثناء النرش‬
‫التصميم واإلخراج‬ ‫العريان‪ ،‬يوسف‬
‫تطبيقات الذكاء االصطناعي يف خدمة اللغة العربية‪ /.‬يوسف‬
‫العريان‪ -.‬الرياض‪1٤٤٠ ،‬هـ‬
‫‪..‬ص؛ ‪ ..‬سم‬
‫ردمك‪978- 603- 8221- ٥٨- ٧ :‬‬
‫‪ - 1‬الذكاء االصطناعي أ‪ .‬العنوان‬
‫ديوي ‪١٤٤٠/١١٣٠٤ ٠٠٦,٣‬‬
‫رقم اإليداع‪١٤٤٠/١١٣٠٤ :‬‬
‫ردمك‪978- 603- 8221- ٥٨- ٧ :‬‬

‫اليسمح بإعادة إصدار هذا الكتاب‪ ،‬أو نقله يف أي شكل أو وسيلة‪،‬‬


‫سواء أكان إلكرتونية أم يدوية أم ميكانيكية‪ ،‬بام يف ذلك مجيع أنواع تصوير املستندات بالنسخ‪ ،‬أو‬
‫التسجيل أو التخزين‪ ،‬أو أنظمة االسرتجاع‪ ،‬دون إذن خطي من املركز بذلك‪.‬‬
‫هذا املشروع‬

‫مرشوع تأليف سلسلة كتب يف جمال (حوسبة العربية) هيدف إىل بناء تراك ٍم معريف‬
‫يف جمال حيوي مهم‪ ،‬هو جمال (حوسبة العربية) ‪ .‬ويعد هذا الكتاب واحدا من سلسلة‬
‫كتب صدرت يف املركز‪.‬‬
‫يقع هذا املرشوع ضمن سلسلة (مباحث لغوية) التي يرشف املركز عىل اختيار‬
‫عنواناهتا‪ ،‬وتكليف املحررين واملؤلفني‪ ،‬ومتابعة التأليف حتى إصدار الكتب‪ .‬وهي‬
‫سلسلة جيتهد املركز أن تكون سداد ًا حلاجات بحثية وعلمية حتتاج إىل تنبيه الباحثني‬
‫عليها‪ ،‬أو تكثيف البحث فيها‪.‬‬
‫ويعدّ هذا الكتاب واحد ًا من كتب ثالثة مرتابطة يف مرشوع علمي واحد متخصص‬
‫يف (الذكاء االصطناعي) ‪:‬‬
‫‪1.1‬العربية والذكاء االصطناعي‪.‬‬
‫‪ 2.2‬تطبيقات الذكاء االصطناعي يف خدمة اللغة العربية‪.‬‬
‫‪3.3‬خوارزميات الذكاء االصطناعي يف حتليل النص العريب‪.‬‬

‫مدير مرشوع (العربية والذكاء االصطناعي)‬


‫د‪.‬عبداهلل بن حييى الفيفي‬

‫‪-5-‬‬
-6-
‫كلمة املركز‬

‫يعمل املركز يف جمال البحث العلمي ونرش الكتب مستهدف ًا الرتكيز عىل املجاالت‬
‫البحثية التي ما زالت بحاجة إىل تسليط الضوء عليها‪ ،‬وتكثيف البحث فيها‪ ،‬ولفت أنظار‬
‫الباحثني واجلهات األكاديمية إىل أمهية استثامرها بمختلف وجوه االستثامر‪ ،‬وذلك مثل‬
‫جمال (التخطيط اللغوي) و (العربية يف العامل) و(األدلة واملعلومات) و (تعليم العربية‬
‫ألبنائها أو لغري الناطقني هبا) إىل غري ذلك من املجاالت‪ ،‬وإن من أهم جماالت البحث‬
‫املستقبلية يف اللغة العربية جمال (العربية واحلوسبة ‪ ،‬والذكاء االصطناعي) حيث إن‬
‫اللغات احلية مرهونة حياهتا مستقبال بمدى جتاوهبا مع التطورات التقنية والعامل‬
‫االفرتايض‪ ،‬وكثافة املحتوى اإللكرتوين املكتوب‪ ،‬وهو ما يشكّل حتديا حقيقيا أمام‬
‫اللغات غري املنتجة للمعرفة أو للتقنية‪.‬‬
‫وقد عمل املركز عىل تسليط الضوء عىل هذا املجال التخصيص؛ مستعينا بالكفاءات‬
‫القادرة من املهتمني بالتخصص البيني (بني اللغة واحلاسوب) مقدّ را جهودهم‪ ،‬وهادف ًا‬
‫إىل نرشها‪ ،‬وتعميم مبادئها‪ ،‬راغب ًا أن يكون هذا املسار العلمي مقررا يف اجلامعات يف‬
‫كلية العربية واحلاسوب‪ ،‬وجماال بحثيا يقصده الباحثون األكديميون‪ ،‬واجلهات البحثية‬
‫العربية‪.‬‬

‫‪-7-‬‬
‫وقد أصدر املركز سابقا ستة عرش كتاب ًا خمتصا يف (حوسبة العربية) ويف اإلفادة من‬
‫(املدونات اللغوية) يف األبحاث العربية‪ ،‬وحيتفل بإصدار سبعة كتب جديدة خمتصة‬
‫يف (حوسبة العربية والذكاء االصطناعي)‪ ،‬ويقدمها للقارئ العريب‪ ،‬وللجهات‬
‫األكاديمية؛ لإلفادة منها واعتامد ما تراه منها مناسب ًا لتعليمه والبناء عليه‪ ،‬وهذه الكتب‬
‫السبعة هي‪( :‬العربية والذكاء االصطناعي‪ ،‬تطبيقات الذكاء االصطناعي يف خدمة اللغة‬
‫العربية‪ ،‬خوارزميات الذكاء االصطناعي يف حتليل النص العريب ‪ ،‬مقدمة يف حوسبة‬
‫اللغة العربية‪ ،‬املوارد اللغوية احلاسوبية‪ ،‬املعاجلة اآللية للنصوص العربية‪ ،‬تطبيقات‬
‫أساسية يف املعاجلة اآللية للغة العربية)‪.‬‬
‫ويشكر املركز السادة مؤلفي الكتب‪ ،‬وحمررهيا‪ ،‬ملا تفضلوا به من عمل علمي‬
‫رصني‪ ،‬وأدعو الباحثني واملؤلفني إىل التواصل مع املركز الستكامل املسرية‪ ،‬وتفتيق‬
‫فضاءات املعرفة‪.‬‬
‫وفق اهلل اجلهود وسدد الرؤى‪.‬‬

‫األمني العام‬
‫أ‪ .‬د‪ .‬حممود إسامعيل صالح‬

‫‪-8-‬‬
‫تطبيقات الذكاء االصطناعي‬
‫يف خدمة اللغة العربية‬

‫(((‬
‫مقدمة املحرر‬
‫احلمد هلل‪ ،‬علم اإلنسان ما مل يعلم‪ :‬قلام‪ ،‬وبيانا‪ ،‬وقرآنا‪َ ،‬‬
‫وخلقا‪ .‬والصالة والسالم‬
‫عىل النبي األمي الذي ُأرسل للعاملني رساجا منريا‪ .‬وبعد‪ ،‬فالذكاء االصطناعي ُيتيح‬
‫َوك َْل بعض مهام البرش لآلالت‪ ،‬ويف بؤرته‪ :‬تأليل معاجلة اللغات‪ .‬واللغة العربية‬
‫فذة‪ ،‬هلا فلسفات عظمى يف رسمها‪ ،‬ويف لفظها‪ ،‬ويف رصفها وإعراهبا وبالغتها‪.‬‬
‫لذلك تظافرت أبحاث اللغويني واحلاسوبيني –عرب ًا وعج ًام‪ -‬وتسابقت للغوص عن‬
‫وحكَمها‪ ،‬ولكنهم ‪-‬لألسف‪ -‬قرصوا عن االنتهاء بجهودهم إىل تطبيقات‬ ‫مكنوناهتا ِ‬
‫عملية تصل ليد املستخدم العريب –أفرادا أو مؤسسات‪ ،-‬إذ كانت أكثر اجلهود متفرقة‪،‬‬
‫واألهداف متشعثة‪.‬‬

‫‪ -1‬د‪.‬يوسف سامل العريان باحث يف احلوسبة العربية‪ ،‬حصل عىل درجة الدكتوراه يف علوم وهندسة احلاسب اآليل عن‬
‫رسالته يف «حتليل وتصنيع الكتابة العربية» من جامعة امللك فهد للبرتول واملعادن‪ ،‬وعىل درجة املاجستري يف هندسة‬
‫احلاسب اآليل عن رسالته يف «إنتاج معجم لعملية التعرف اآليل عىل الكتابة العربية» من جامعة العلوم والتكنولوجيا‬
‫األردنية‪ .‬حرر كتاب «احلرف العريب والتقنية» وله العديد من األبحاث وبراءات االخرتاع يف املجال‪ .‬عمل حمارضا‬
‫مدرب تعلم وتدريس يف‬
‫َ‬ ‫يف جامعة امللك فهد للبرتول واملعادن أثناء دراسته‪ ،‬ثم أستاذا مساعدا يف جامعة جازان‪ ،‬ثم‬
‫املدينة املنورة‪ .‬حائز عىل عدة جوائز للتميز يف التدريس األكاديمي والبحث العلمي‪.‬‬

‫‪-9-‬‬
‫لذا‪ ،‬فقد ارتأينا ترتيب يشء من هذا النتاج الغزير وتركيزه يف بوتقة واحدة‪ ،‬وجعلناها‬
‫عربية كي َيفيد منها اجلميع‪ :‬اللغوي‪ ،‬واحلاسويب‪ ،‬وغريهم‪ .‬وبذلنا ‪-‬مجيعا‪ -‬موسوعنا‬
‫يف تعريب املصطلحات وأسامء املخرتعات‪ ،‬وتقريبها للقارئ العريب (مع إبقاء أصلها‬
‫ليسهل رجوع املهتم هلا يف مصادرها)‪ ،‬وذلك بعد أن ملسنا ‪-‬التقصري يف‬ ‫باإلنجليزية ْ‬
‫التعريب الرصني ونرشه‪ ،‬وغرابة وقع بعض الرتمجات حتى عىل املختص‪.‬‬
‫جاء الكتاب يف مخسة أبواب‪ ،‬تناولت قراءة الكتابة العربية آليا‪ ،‬واالستامع ألحكام‬
‫التالوة القرآنية تلقائيا‪ ،‬واستخراج اآلراء واملشاعر من النصوص إلكرتوني ًا‪ .‬وقد‬
‫وجدنا الباحثني قد أمجعوا ‪-‬عىل اختالف مشارهبم‪ -‬عىل أمهية تقنية التعلم العميق‬
‫وعلو كعبها؛ فجاء الباب الرابع ليرشح هذه التقنية‪ .‬وناسب هذا كله ختم الكتاب‬
‫بتطبيق لتوليد النصوص العربية الشعرية باستخدم تلكم التقنية‪.‬‬
‫فبدأ الكتاب بالتعرف والتحليل‪ ،‬وانتهى باإلنشاء والتطبيق‪ ،‬كأنه يصعد بالقارئ‬
‫من األساس إىل ذروة السنام‪ ،‬نسأل اهلل أن ينفعنا ‪-‬كاتبيه وقارئيه‪ -‬به‪ .‬ولعل املستقبل‬
‫يسفر عن كتاب يبدأ حيث انتهى هذا‪ ،‬يتناول ما وصل إليه العلم يف تقليد لغة اإلنسان‪،‬‬
‫ٍ‬
‫وإنشاء وتلخيص ال نكاد نفرقه‬ ‫باخلط الشبيه باليدوي‪ ،‬والنطق العريب الطبعي‪ ،‬وحتليل‬
‫عن البرشي‪ .‬كام أرجو أن تكون اجلهود املباركة ‪-‬ولعل أمهها جهود مركز امللك عبداهلل‬
‫بن عبدالعزيز الدويل خلدمة اللغة العربية‪ -‬سببا الستخالص التطبيقات العملية من‬
‫اجلهود العلمية‪ ،‬وجني ثامرها يف الدارين‪ ،‬واهلل العيل عىل كل يشء قدير‪.‬‬

‫وكتبه‪،‬‬
‫د‪ .‬يوسف سامل العريان‬
‫ذو القعدة ‪ 1440‬هـ‬

‫‪-10-‬‬
‫عناوين أبواب الكتاب‬

‫الباب األول‪ :‬القراءة اآللية لكتابة اليد العربية‬


‫د‪.‬يوسف سامل العريان و د‪.‬عرفان أمحد ‪١٣‬‬

‫الباب الثاين‪ :‬التعرف اآليل عىل الكالم العريب املنطوق وتطبيقاته يف القرآن الكريم‬
‫د‪.‬أمحد محدي أبو عبسة ‪75‬‬

‫الباب الثالث‪ :‬حتليل اآلراء العربية إلكرتوني ًا‬


‫د‪.‬أجمد يوسف أبوجبـارة ‪103‬‬

‫الباب الرابع‪ :‬التعلم العميق وتطبيقاته املرتبطة باللغة العربية‬


‫د‪.‬أمحد احلايك ‪141‬‬

‫الباب اخلامس‪ :‬شاعر بال مشاعر‪ :‬جتربة يف الشعر العريب اآليل باستخدام التعلم العميق‬
‫أ‪.‬غريـب واجب غريبي ‪163‬‬

‫‪-11-‬‬
-12-
‫الباب األول‬
‫القراءة اآللية لكتابة اليد العربية‬

‫د‪ .‬يوسف العريان و د‪ .‬عرفان أمحد‬

‫‪-13-‬‬
-14-
‫القراءة اآللية لكتابة اليد العربية‬
‫(((‬
‫د‪ .‬يوسف العريان و د‪ .‬عرفان أمحد‬

‫ملخص‬
‫هيدف هذا الباب لألخذ بيد القارئ من مقدمات القراءة اآللية إىل أحدث تطورات‬
‫جماهلا‪ .‬فبعد التطرق ألهم خصائص الكتابة العربية‪ ،‬يعرض الباب أهم عمليات‬
‫التعرف اآليل عىل الكتابة اليدوية من معاجلة مسبقة وتقطيع حلروف واستخراج مالمح‬
‫وتصنيف ومعاجلة الحقة‪ ،‬مع الرتكيز عىل املقاربات املختلفة ملعضلة تقطيع النص‬
‫العريب إىل حمارفه تقطيعا رصحيا أو ضمنيا أو كليا‪.‬‬
‫يرشع املؤلفان بعد ذلك بتبيان أحدث البحوث ‪-‬وخاصة ما يستعمل مصنفات‬
‫نامذج ماركوف اخلفية والتعلم العميق‪ -‬ويعرضان نتائجها ويعقدان املقارنات بينها بعد‬
‫متهيد ذلك برشح أهم قواعد البيانات املشتهرة يف تقرير نسب نجاح التعرف اآليل عىل‬
‫فصل للتعريف بأبرز املجالت واملؤمترات ذات‬‫الكتابة العربية اليدوية‪ .‬ويف ختام الباب ٌ‬
‫العالقة‪ ،‬لتساعد املهتم يف الرجوع إىل أمهات البحوث يف مظاهنا وليعرف أهم بواتق‬
‫النرش املتاحة‪.‬‬

‫‪ -1‬مقدمة‬
‫البعض حتى قبل ظهور احلاسبات اآللية نفسها؛ وال‬‫َ‬ ‫راود حلم «القارئ اآليل»‬
‫أدل عىل ذلك من تسجيل براءات اخرتاع لقارئات آلية ميكانيكية (كالتي يف شكل ‪)1‬‬
‫وتصنيع بواكريها يف القرن التاسع عرش [‪ .]2،١‬هدفت هذه االخرتاعات يف البداية‬
‫ملساعدة ذوي االحتياجات اخلاصة برصي ًا‪ ،‬ثم وجدت طريقها لتطبيقات أخرى كتوزيع‬
‫الربيد وإحصاء السكان [‪ ]2‬ورقمنة الكتب واملخطوطات [‪.]3‬‬

‫‪ -1‬د‪.‬عرفان أمحد أستاذ مساعد يف قسم علوم احلاسب اآليل واملعلومات بجامعة امللك فهد للبرتول واملعادن‪ .‬حصل عىل‬
‫درجة الدكتوراه يف التعرف عىل األنامط وتعلم اآللة من جامعة دورمتوند التقنية بأملانيا وعىل درجة املاجستري يف علوم‬
‫احلاسب اآليل من جامعة امللك فهد للبرتول واملعادن‪ .‬نرش العديد من البحوث يف جمالت ومؤمترات مهمة‪ ،‬كام نرش‬
‫بابا يف كتاب وله عدة براءات اخرتاع أمريكية‪.‬‬

‫‪-15-‬‬
‫(ب)‬ ‫(أ)‬
‫شكل (‪( :)1‬أ) جهاز األوبتوفون الذي حيول حروف الكتابة إىل نغامت و(ب) جزء من توصيف‬
‫«اآللة القارئة» يف براءة اخرتاع‪.‬‬

‫ومع ظهور احلاسبات اآللية‪ ،‬بدأت حماوالت برجمتها للقراءة اآللية (أو التعرف‬
‫الضوئي\البرصي عىل النصوص‪)Optical Character Recognition‬؛ وذلك ألن‬
‫حتويل صور الكتابات إىل نصوص حاسوبية (‪ )Text‬يسهل معاجلاهتا كالبحث فيها‬
‫وحتريرها وختزينها ونقلها‪ .‬شكل ‪ 2‬يعرض صورتني ونصيهام ويتيح املقارنة بني‬
‫مساحاهتم التخزينية ويربز إمكانية البحث والتحرير يف النصوص‪.‬‬
‫يتم نسخ هذه الصفحة لتجرب ضمن بحث الحق‬
‫لدراسة كيف نقوم بتمييز احلروف العربية آليا‪ ،‬سواء‬
‫كانت مكتوبة أو مطبوعة طباعة‪ .‬تتضمن هذه التجربة‬
‫كتابة النص من قبل عدد كبري من الناس مع رضورة‬
‫وجود بعض اإلختالف يف املستوى العلمي للمشاركني‬
‫مع يشء من التنوع يف األعامر ثم بعد ذلك يتم ادخال‬
‫صور هذه النصوص اىل برنامج أو نظام حاسويب‬
‫وظيفته مقارنتها مع نفس النص املحفوظ أصال يف‬
‫ذاكرة احلاسب ومن ثم استخراج واستنباط الصفات أو‬
‫املميزات التي تؤدي إىل متييز املقاطع واحلروف‪ .‬يفرتض‬
‫يف هذا النص الوضوح وأن يشتمل عىل كل حروف‬
‫لغة الضاد وأن يظل صحيح اللغة‪ .‬أرجو أن حتول‬
‫كتابة الكلامت التالية بالرغم من غرابتها‪ :‬حممد‪ ،‬احلج‪،‬‬
‫الكرك‪ ،‬صاغ‪ ،‬ضوؤه‪ ،‬ارشاق‪ ،‬تعبوي‪ ،‬ثالث مثلثات‪،‬‬
‫االكتظاظ‪ ،‬استنساخ‪ ،‬اجليش‪ ،‬يتألأل‪ ،‬احلائط‪ ،‬صائغ‪،‬‬
‫اخلباز‪ ،‬بئر‪ ،‬شآم‪ ،‬يتأمل‪ ،‬ال حتسب ما ييل!؟؟‬
‫«((‪ -9*)80-7+6( = )5\4÷)3-2+1‬س”‬
‫حجم امللف‪ 12 :‬كيلو بايت (‪ 12.288‬بايت)‬ ‫حجم امللف‪ 1.07 :‬ميغا بايت (‪ 1.126.400‬بايت)‬
‫امتداد امللف‪DOCX :‬‬ ‫امتداد امللف‪ BMP :‬موحد اللون (أبيض وأسود)‬

‫‪-16-‬‬
‫بلغ حاج أن اخاه ظمآن بوادي عوف‪ .‬طفق‬
‫يسعى إلحضار ثالث قرب زمزم تنجيه مع‬
‫سطوع وهيج الشمس‪ .‬حث عوض الشيخ نوح‬
‫بصدد ذلك فأكرمه وصب وتكلف وقال لآلت‬
‫أعظم‪ .‬ضبط سهيل وأشخاص لص احلي‪ .‬غش‬
‫راجح غثامة لذا جن بغيظ وانقض‪ .‬انتهت‪.‬‬

‫حجم امللف‪ 211 :‬بايت‬ ‫حجم امللف‪ 284 :‬كيلو بايت (‪ 290.816‬بايت)‬
‫امتداد امللف‪TXT :‬‬ ‫امتداد امللف‪ TIF :‬ملون‬

‫شكل (‪ :)2‬أمثلة بيانات حاسوبية صورية ونصية [‪ ]4‬و[‪.]5‬‬

‫والتعرف اآليل عىل الكتابة من جماالت الذكاء االصطناعي‪ ،‬والتي هتدف ‪-‬عموما‪-‬‬
‫ملحاكاة بعض قدرات البرش‪ ،‬ومنها التعرف عىل األنامط ومتييز احلروف‪ ،‬بيد إن جمال‬
‫القراءة اآللية أصبح يتضمن أيضا عمليات مصاحبة من جماالت كمعاجلة الصور‬
‫ولسانيات احلاسب اآليل‪ ،‬كتحديد مواضع الكتابة يف الصور‪ ،‬وحتسني جودة الصور‬
‫لتسهيل التعرف عىل كتابتها‪ ،‬وتصحيح نتائج التعرف اآليل عىل الكتابة لغويا‪.‬‬

‫‪ 1.1‬أقسام القارئات اآللية‬


‫تقسم أكثر التصنيفات احلديثة املتعرفات اآللية من حيث نوع املدخالت إىل نوعني‪:‬‬
‫ّ‬
‫Ÿ Ÿالتعرف عىل الرتاخي (أو املنفصل (‪ ))offline‬والذي يتعرف عىل الكتابة‬
‫الورقية املكتوبة سالفا‬
‫Ÿ Ÿوالتعرف اآلين (أو املتصل (‪ ))online‬والذي يتم أثناء الكتابة عىل لوحات ملس‬
‫(‪.)Tablets‬‬
‫وقد ُي َظن من االسمني أن التعرف املرتاخي أسهل من اآلين ألنه ال يتطلب رسعة‬
‫اإلنجاز ملواكبة عملية الكتابة يف الوقت احلقيقي (‪ ،)Real Time‬لكن احلقيقة‪-‬وخاصة مع‬
‫تسارع املعاجلات‪ -‬أن الكفة ربام تتجه لنجاح التعرف اآلين‪ ،‬وذلك لتوفر بيانات ال تتوفر يف‬
‫األوراق له‪ ،‬كرتتيب رسم احلروف وأجزائها الزمني‪ ،‬ورسعة خطها‪ ،‬ومدى ضغط القلم‪،‬‬
‫وكذلك لعدم تشوشه بنوع القلم وسمكه كام يف الكتابة الورقية‪( .‬شكل ‪ 3‬يوضح متثيل‬
‫الكتابة اللوحية بخط موحدالسامكة وبالنقاط‪ ،‬حيث يمثل تباعد النقاط رسعة الكتابة)‪.‬‬

‫‪-17-‬‬
‫(ب)‬ ‫(أ)‬

‫شكل (‪( :)3‬أ) الكتابة اآلنية و(ب) متثيل البيانات الزمنية [‪.]6[]5‬‬

‫وقد تصنف املتعرفات اآللية أيضا حسب طبيعة الكتابة والصور التي تستهدفها‪،‬‬
‫كالتعرف عىل اخلط املطبوع (وال يكون إال عىل الرتاخي) وخط اليد (ويمكن أن يكون‬
‫عىل الرتاخي كام يمكن أن يكون آنيا)‪ .‬كام قد تصنف املتعرفات عىل الرتاخي حسب‬
‫مصدر الصورة (من «املاسحات» (‪ ،)scanners‬أو من الصور الطبيعية (الناجتة من‬
‫آالت التصوير أو «الكامريات»‪ ،‬أو حتى من املقاطع املرئية أو «الفيديو»)‪.‬‬
‫ويمكن تقسيم املتعرفات التي تستهدف الكتابة املوصولة (‪)Cursive Writing‬‬
‫كالعربية إىل متعرفات تسعى لتقطيع النصوص إىل حروفها أوال‪ ،‬أو للتعرف عىل‬
‫الكلامت كليا (دون تقطيعها مسبقا إىل حروف)‪ ،‬أو فيام يسمى بالتقطيع الضمني‪.‬‬
‫كام يمكن تقسيم املتعرفات حسب تطبيقاهتا‪ ،‬والتي منها‪ :‬رقمنة املخطوطات [‪،]3‬‬
‫وقراءة لوحات السيارات‪ ،‬ومعاجلة السندات املرصفية (الشيكات) [‪ ،]7‬وتوزيع طرود‬
‫الربيد‪ ،‬وتفريغ االستبيانات آليا‪ ،‬والتعرف عىل كلامت الالفتات يف الصور الطبيعية‬
‫[‪.]2،8‬‬

‫‪ 1.2‬أهم حتديات التعرف اآليل عىل الكتابة العربية اليدوية (خط اليد العريب)‬
‫ثمة حتديات قد تواجه املشتغلني يف التعرف عىل خط اليد ‪-‬عموما‪ ،-‬كتغري رسم‬
‫احلروف بني الكتّاب أو حتى للكاتب نفسه يف مواضع وأوقات خمتلفة‪ ،‬وخاصة إذا‬
‫تغريت احلالة النفسية أو رسعة الكتابة أو وضعيتها ومكاهنا وسطحها وقلمها‪ .‬فهذه‬
‫حتديات تظهر يف خط اليد للكتابات العربية والالتينية والصينية؛ غري أن لكل كتابة‬
‫حتديات خاصة هبا‪ ،‬لذا سنذكر يف النقاط التالية بعض حتديات التعرف اآليل عىل الكتابة‬
‫العربية‪:‬‬

‫‪-18-‬‬
‫Ÿ Ÿتغري شكل احلروف العربية املنفصلة عن تلك التي تأيت متصلة بام قبلها أو‬
‫بام بعدها أو هبام معا (قارن ‪-‬مثال‪ -‬أشكال حرف العني «ع» و«ـعـ» و«عـ»‬
‫و«ـع»)‪ .‬وسننصطلح عىل تسمية أشكال احلروف املختلفة حسب موضعها‬
‫بـ»املحارف» (‪.)Character-Shapes‬‬
‫Ÿ Ÿاستعامل النَّ ْقط لتمييز بعض احلروف املتشاهبة يف أصلها‪ ،‬ومعرفة مواضع النُّ َقط‬
‫من احلروف وأعدادها‪ .‬ويزيد األمر تعقيدا يف الكتابة اليدوية‪ ،‬حيث قد ُيتساهل‬
‫برسمها قبيل أو بعيد احلرف وبتنوع زائد يف أشكاهلا بناء عىل اخلط الذي خيتاره‬
‫الكاتب (الحظ النقط يف شكل ‪.)4‬‬
‫Ÿ Ÿالتشكيل وهو اختياري‪ ،‬مما جيعل للكلمة الواحدة أشكاال كثرية صحيحة‪ ،‬مما‬
‫قد يعقد عمل املتعرفات خاصة مع تشابه بعض النقط مع بعض التشكيل حجام‬
‫وموضعا ورسام‪.‬‬
‫Ÿ Ÿإمكان الرتاكب الرأيس لكثري من احلروف العربية املتجاورة عوضا عن التوايل‬
‫األفقي [‪.]9‬‬

‫شكل (‪ :)4‬كلمة «ثم» (أ) بدون تشكيل وال تراكب و(ب) بتشكيلني و(جـ) بالرتاكب الرأيس‬
‫والنقط املتصل‪.‬‬

‫Ÿ Ÿإنفصال رسم الكلامت عند ورود حروف ال تتصل بام بعدها (أي حروف‬
‫األلف والدال والذال والراء والزاي والواو ومهموزاهتا وممدوداهتا) أثناء‬
‫الكلمة‪ ،‬فال الكلامت تأيت دائام متصلة وال احلروف تكون كلها منفصلة‪ .‬ومن‬
‫ذلك أيضا االنفصال عند ورود اهلمزة املتطرفة عىل السطر بعد حرف ساكن كام‬
‫«دفء»‪ ،‬و«يشء»‪ ،‬إذا متنع قواعد اإلمالء اتصال احلرف قبل األخري هبا وإن‬
‫يف ْ‬
‫كان يف أصله يتصل بام بعده‪.‬‬

‫‪-19-‬‬
‫Ÿ Ÿكثرة أشكال الكلامت العربية (إذا ما عرفت الكلمة بأهنا ما يفصل باملسافات‬
‫وعالمات الرتقيم) بسبب اللواصق السابقة (مثل «باء اجلر»‪ ،‬و«الم التعريف»‬
‫التي تتصل بأول الكلمة أو مثل «واو العطف» و«ألف االستفهام» التي قد ترد‬
‫يف أوائل الكلامت لكن دون اتصال) واللواصق الالحقة (مثل «تاء التأنيث»‬
‫و«واو اجلامعة») والدواخل (كام يف مجوع التكسري)‪ .‬فمثال‪ ،‬كلمة «باب» يف‬
‫اللغة اإلنجليزية هي (‪ .)door‬وهي نفسها تظهر يف عبارة (“‪)”and the door‬‬
‫بينام تظهر خمتلفة بسبب السوابق امللتصقة هبا يف عبارة («والباب») [‪.]10‬‬
‫ولكن يف املقابل‪ ،‬فاللغة العربية تتمتع بخاصية قد تسهل قراءهتا (والتعرف عليها‬
‫آليا)‪ ،‬وهي أن لوصل احلروف وفصلها قواعد ال جيوز احليد عنها ال طباعة وال خطا‪،‬‬
‫وهذا بخالف الكتابة الالتينية املعارصة ‪-‬مثال‪ -‬حيث ال يمكننا التنبؤ بام سيصله‬
‫الكاتب من حروفها وما لن يصله‪ ،‬وهو مما قد يزيد التعرف عىل تلك الكتابات غموضا‬
‫وصعوبة عن العربية‪ ،‬وهو ما توضحه أمثلة شكل ‪.5‬‬

‫شكل (‪ :)٥‬مثاالن يوضحان (أ) توحد طرق اتصال احلروف يف الكلمة العربية و(ب) واختالفها يف‬
‫احلروف الالتينية [‪.]4[]11‬‬

‫ولعل هذا ما حدا ببعض الباحثني الغربيني ألن يقول‪ :‬إن العربية أسهل وأوضح‬
‫اللغات يف العامل‪ ،‬ومهام اقرتحت تسهيلها وتوضيحها مل يمكن ذلك‪ .‬ولو استلمت أي‬
‫رسالة ‪-‬مهام كانت مسطورة بخط يسء‪ -‬فلن تواجه صعوبة يف قراءهتا [‪.]24‬‬
‫ونختم مقدمة الباب بذكر ترتيب فصوله الباقية‪ ،‬حيث يتناول الفصل الثاين عمليات‬
‫فيفصل الطرق املختلفة هليكلة‬
‫التعرف اآليل عىل الكتابة ‪-‬عموما‪ .-‬أما الفصل الثالث‪ّ ،‬‬
‫عمليتي تقطيع النصوص مع التعرف عليها‪ ،‬فيام ُيصص الفصل الرابع للتعريف‬

‫‪-20-‬‬
‫بأشهر جتميعات الكتابة اليدوية العربية التي تستعمل يف اختبار املتعرفات اآللية وتقرير‬
‫نتائجها واملقارنة عربها بني نتائج أهم أبحاث املجال‪ .‬بعدمها نتمم فائدة الباب بفصل‬
‫يرسد أهم أوعية النرش املعتمدة يف املجال‪ ،‬ثم نختم الباب بخالصته فمراجعه‪.‬‬

‫‪ -2‬عمليات التعرف اآليل عىل الكتابة‬


‫تبدأ عمليات التعرف اآليل (والتي تشمل عملية «التعرف» التي بمعنى «التصنيف»‬
‫وما يسبقها ويلحقها من عمليات مصاحبة) بعد التقاط الصور وحتديد مناطق‬
‫الكتابة فيها باملعاجلة املسبقة للصور (‪ )Preprocessing‬وذلك لتحسني جودة‬
‫ووضوح النصوص فيها‪ ،‬يليها ‪-‬يف كثري من األنظمة‪ -‬مرحلة تقطيع صور النصوص‬
‫التعرف‪ .‬تأيت‬
‫(‪ )Segmentation‬إىل صور حمارفها أو أي وحدات أكرب أو أصغر تناسب ّ‬
‫بعد ذلك مرحلة استخالص املالمح (‪ )Feature Extraction‬التي تُستعمل الحقا يف‬
‫موسمة‪ .‬وأخريا‪،‬‬
‫التصنيف (‪ )Classification‬بعد تدريب املصنف عىل مالمح أمثلة ّ‬
‫قد تورد أنظمة التعرف اآليل مرحلة للمعاجلة الالحقة (‪ )Postprocesing‬هبدف حتسني‬
‫نتائج التعرف باالستعانة باحتامالت صحتها لغويا‪ .‬وكام يظهر‪ ،‬فبعض هذه اخلطوات‬
‫رشح للعمليات املذكورة‪:‬‬
‫اختيارية قد توجد يف بعض األنظمة دون األخرى‪ .‬وفيام ييل ٌ‬

‫‪ 2.1‬عمليات املعاجلة املسبقة‬


‫بعد حتويل املحتوى النيص إىل صورته اإللكرتونية (باستخدام املاسحات الضوئية‬
‫والكامريات يف حالة التحويل املرتاخي أو ألواح الكتابة وشاشات اللمس يف حالة‬
‫التحويل اآلين)‪ ،‬قد ُترى بعض هذه العمليات‪:‬‬
‫Ÿ Ÿحتديد املناطق النصية يف الصور (‪.)Text Localization‬‬
‫Ÿ Ÿإزالة بعض التشويشات الظاهرة عىل الورق أو التشوهات الناجتة عن حتويل‬
‫املحتوى النيص إىل إلكرتوين (‪ .]8،12،13[ )Noise Removal‬وللتشويش‬
‫أنواع من أشهرها يف جمالنا «تشويش امللح والفلفل»‪ ،‬وهو اسم لطيف النقالب‬
‫بعض العنارص الصورية (‪ )Pixel‬إىل اللون األبيض أو األسود‪.‬‬
‫Ÿ Ÿمتثيل الصورة باللونني األبيض واألسود بدال من تدرجات الرمادي واأللوان‪،‬‬
‫وهو ما يعرف باسم الرتميز الثنائي‪ ،‬حيث يتم اعتامد قيمة من اثنتني فقط لكل‬

‫‪-21-‬‬
‫عنرص صوري (عادة ما نرمز هلام بالصفر والواحد) ليمثل أحدمها ما يظهر داكنا‬
‫كاحلرب ويمثل اآلخر ما يظهر فاحتا كخلفية الصفحة‪.‬‬
‫وثمة العديد من تقنيات حتويل الصور إىل ثنائية‪ ،‬حيدد يف بعضها لون العنرص (أبيض‬
‫بعضها بموجب‬
‫أم أسود) من قيمته هو فقط حسب حد فاصل (ثابت أو متأقلم) وحيدَّ د ُ‬
‫قيمة العنرص الصوري املراد تثنيته وقيم ما جياوره من عنارص صورية أيضا‪.‬‬
‫Ÿ Ÿتصحيح انحراف الكتابة (سواء أحدث االنحراف عند الكتابة أو عند حتويل‬
‫الصفحة إىل صورة إلكرتونية) يوضحه شكل ‪ .6‬وتبدأ عملية تصحيح االنحراف‬
‫دور النص يف االجتاه املعاكس النحرافه‬
‫عادة بتقدير درجة االنحراف‪ ،‬قبل أن ُي َّ‬
‫وبزاوية مساوية لزاوية االنحراف‪ .‬ولتقدير زاوية االنحراف‪ ،‬كثريا ما تستخدم‬
‫تقنيات مبنية عىل حساب اإلسقاطات (‪( )Projections‬أي جمموع العنارص‬ ‫ٌ‬
‫الصورية الغامقة يف كل من أعمدة أو أسطر الصورة)‪ ،‬أو «حتليل املكونات‬
‫الرئيسية» (‪ )Principal Component Analysis‬أو هيكلة النصوص (‪Text‬‬
‫‪ ،)Skeletonization‬أو حتليل الكونتورات املحيطة باحلروف والنصوص‬
‫(‪ )Contours‬أو حتويل هف (‪ )Hough Transformation‬لتحديد القطع‬
‫املستقيمة‪ .‬شكل ‪ 6‬وشكل ‪ 7‬تعرض أمثلة صورية إليضاح بعض هذه التقنيات‬
‫املساندة لتصحيح انحراف الكتابة واستخراج املالمح ومعاجلة الصورة‪.‬‬

‫(ب)‬ ‫(أ)‬
‫شكل (‪ :)6‬حتويل هف (أ) قبل و(ب) بعد تطبيقه عىل نص التيني [‪ ]17‬وعريب [‪.]18‬‬

‫‪-22-‬‬
‫شكل (‪ :)7‬كتابة بخط اليد (أ) قبل و(ب) بعد هيكلة النصوص [‪ ]14‬وحتليل الكونتور [‪.]15،16‬‬

‫Ÿ Ÿثمة عملية معاجلة مسبقة أخرى تتعلق بميل أجزاء احلروف الصاعدة والنازلة‬
‫عن االجتاه الرأيس‪ ،‬وذلك أن بعض احلروف قد تظهر يف بعض املواضع مائلة‪،‬‬
‫إما إلبرازها كام حيدث عند استعامل خاصية اخلط املائل (‪ )Italic‬أو بسبب‬
‫وضعية اليد عند الكتابة‪ .‬وعادة ما يراد يف هذه احلالة تعديل زوايا األجزاء‬
‫الرأسية إىل زاوية موحدة (غالبا ما تكون الزاوية العامودية) للتخفيف من‬
‫االختالفات بني أشكال احلروف يف مواضعها املتعددة‪ .‬تسمى هذه العملية‬
‫بتعديل امليل (‪.)Slant Correction‬‬

‫(ب)‬ ‫(أ)‬

‫شكل (‪ :)8‬كلمة «ليان» (أ) قبل تعديل امليل و(ب) بعد تعديل امليل [‪.]19‬‬

‫وأخريا يمكن السعي لتقليل التباين يف أحجام اخلطوط عرب ما يسمى بضبط‬
‫ً‬ ‫Ÿ Ÿ‬
‫حجم احلروف وتطبيعه (‪ ،)Size Normalization‬مثل سعى بعض الطرق‬
‫[‪ ]20‬لتوحيد ارتفاعات األجزاء الصاعدة من احلروف وضبط أحجام بقية‬
‫احلروف بالتناسب مع ذلك‪ .‬هذا‪ ،‬وجيدر التأكيدُ عىل أن وجود ‪-‬فضال عن‬
‫ترتيب‪ -‬خطوات ما قبل املعاجلة ليس موحدا‪ ،‬بل متباين من نظام آلخر‪.‬‬

‫‪-23-‬‬
‫‪ 2.2‬التقطيع‬
‫تقطيع صور النصوص (‪ )Segmentation‬عملية هتدف للحصول عىل صور‬
‫«مقاطع» أو أجزاء أساسية من النصوص (كاحلرف بالنسبة للكلمة مثال) [‪ .]21‬قد‬
‫جيري «التقطيع» عىل عدة مستويات‪ ،‬كتقطيع صور النصوص إىل أسطر‪ ،‬وتقطيع األسطر‬
‫إىل كلامت أو دون‪-‬الكلامت (‪«( )Subwords‬دون‪-‬الكلامت» هو ما يكتب متصال‬
‫يف العربية لعدم انتهاء الكلمة وعدم ورود حرف ال يتصل بام بعده ضمنها‪ ،‬وتسمى‬
‫أيضا ‪ Pieces of Arabic Words‬أو ‪ Connected Components‬يف أحد معنييها)‪.‬‬
‫بل إن عملية حتديد مناطق النصوص يف الصور (‪- )Text Localization‬املذكورة آنفا‬
‫ضمن عمليات املعالجة املسبقة‪ -‬قد ينظر إليها عىل أهنا من مستويات تقطيع صور‬
‫الصفحات لقراءهتا آليا‪ .‬بيد إن أشهر مستويات التقطيع وأمهها عىل اإلطالق واملراد‬
‫بمصطلح «التقطيع» إذا ُأطلق‪ :‬هو تقطيع صور النصوص إىل حمارفها (‪Character‬‬
‫‪ )Segmentation‬حيث إنه ‪-‬إذا نجح‪ -‬قد يسهل عمليات التعرف اآليل الالحقة‪.‬‬
‫يوضح شكل ‪ 9‬باأللوان نتائج التقطيع‪ :‬إىل أسطر وكلامت ودون‪-‬الكلامت واملحارف‪.‬‬

‫شكل (‪ :)٩‬تقطيع صور النصوص إىل (أ) أسطر و(ب) كلامت و(جـ) دون‪-‬الكلامت و(د) حمارف [‪.]23[]22‬‬

‫فصورة النص إذا كانت حتوي عدة أسطر فقد يراد تقسيمها كل سطر عىل حدة‪ .‬وهذه‬
‫اخلطوة قد تزداد صعوبة للفقرات املائلة أو التي يف جوانبها هوامش كام يف الكثري من‬
‫املخطوات األثرية [‪ . ]22‬لذلك‪ ،‬قد يتوجب استعامل أساليب أكثر ذكاء يف هذه احلاالت‬
‫كي نتمكن من تقطيع األسطر كلها دون دمج مكونات عدة أسطر سويا (‪Under-‬‬
‫‪ ،)Segmentaion‬ودون تقطيع سطر ما إىل عدة أسطر (‪)Over-Segmentation‬‬
‫ودون توزع مكونات السطر إىل أسطر جماورة (‪ .)Miss-Segmentation‬وهذه هي‬
‫األنواع الثالثة ألخطاء التقطيع عموما‪ :‬عدم تقطيع ما حقه التقطيع‪ ،‬واإلفراط يف‬
‫تقطيع ما ليس حقه التقطيع‪ ،‬واخلطأ يف موضع التقطيع)‪.‬‬

‫‪-24-‬‬
‫غالبا ما تُقطع األسطر إىل كلامت بناء عىل املسافات البيضاء بينها‪ ،‬وإن كانت الكلامت‬
‫العربية قد توجد يف بعضها فراغات بيضاء أصغر بني أجزائها املتصلة‪ ،‬مما قد يصعب‬
‫تقطيعها‪ .‬ثمة متعرفات حتاول قراءة الكلامت كليا (‪ )Holistic‬بموجب بعض مالحمها‬
‫دون اللجوء للتقطيع احلريف الكامل هلا‪ ،‬وهو كام حيدث عند استنتاج القارئ املتمرس‬
‫للكلامت رغم خطأ ترتيب بعض حروفها‪ ،‬كام يف املثال الذي يف شكل ‪.10‬‬

‫شكل (‪ :)10‬نص إنجليزي مقروء رغم خلط ترتيب حروف الكلامت الداخلية‪.‬‬

‫تتجىل معضلة كمعضلة «البيضة والدجاجة» بني عمليتي تقطيع النص العريب إىل‬
‫تعرف عليها‪ ،‬بينام يصعب‬ ‫حمارفه والتعرف عليه‪ ،‬إذ يصعب تقطيع املحارف دون ّ‬
‫التعرف عىل النصوص دون تقطيعها ملحارفها! لذا‪ ،‬مل تنجح أكثر أنظمة القراءة اآللية‬
‫وتناوبام‬
‫ُ‬ ‫املعتمدة عىل تقطيع احلروف‪ ،‬وظهرت أنظمة تداخل التقطيع مع التعرف‬
‫لتحاكي قراءة اإلنسان‪ ،‬كام ظهرت أنظمة تدعو للتعرف عىل دون‪-‬الكلامت العربية‪.‬‬
‫يطلق مصطلح «اجلزء املتصل» يف سياق التعرف اآليل عىل الكتابة العربية بمعنيني‪:‬‬
‫ما يشمل النقاط والتشكيل ضمن حمارفه (وهو ُيرادف «دون‪-‬الكلامت»)‪ ،‬وأيضا ما‬
‫هو جمرد عن النقاط واهلمزات واملدة والتشكيل‪ ،‬مع جعل النقاط واهلمزات واملدة‬
‫والتشكيل أجزاء متصلة مستقلة‪.‬‬
‫تتنوع أرضب التقطيع قبل التعرف اآليل يف اللغة العربية إىل أنواع‪ ،‬أمهها‪ :‬تقطيع‬
‫النص إىل حمارف‪ ،‬وتقطيع النص إىل املكونات املتصلة‪ ،‬وتقطيع النص إىل كلامت‬
‫للتعرف عليها كليا‪ .‬ويمكن لكل من هذه األرضب التعرف عىل املقاطع دون النقاط‬
‫أوال ثم حتديد النتائج بالنقاط‪ ،‬أو التعرف عليها بالنقاط منذ البداية‪.‬‬

‫‪-25-‬‬
‫‪ 2.3‬استخراج املالمح‬
‫تلجأ كثري من األنظمة إىل التعبري املخترص واملركز عن الصور املراد التعرف عليها‬
‫بأهم مالحمها (‪ )Features‬وذلك تصغريا حلجم البيانات وترسيعا لوقت املعاجلة من‬
‫جانب‪ ،‬وتركيزا عىل ما هيم القارئ من املحارف وإمهاال ملا ال هيم القراءة كفروقات‬
‫اخلطوط الفردية‪ ،‬من اجلانب اآلخر‪ .‬ومع أن تصميم واختيار املالمح املناسبة فن سبيل‬
‫إتقانه هو كثري من اخلربة والتجارب ويشء من التفكر واإلهلام‪ ،‬إال أن ثمة اتفاق عىل‬
‫اخلصائص العامة للمالمح املناسبة‪ ،‬أمهها‪:‬‬
‫Ÿ Ÿأن تتجاهل الفروق يف كتابة احلرف الواحد (‪ )Intra-Class Variability‬قدر‬
‫اإلمكان‪ ،‬إذ ال بد من اختالف بني الكتّاب يف رسمهم للحرف؛ بل إن الكاتب‬
‫نفسه قد خيتلف رسمه للحرف من مرة ألخرى‪ .‬فامللمح املناسب ّ‬
‫يقل تأثره هبذه‬
‫الفروقات الفردية‪.‬‬
‫Ÿ Ÿأن تُظهر الفروق بني احلروف املتعددة (‪ )Inter-Class Variability‬فيعكس‬
‫اختالفات أشكال «السني» و«الشني» و«احلاء» ‪-‬مثال‪.-‬‬
‫Ÿ Ÿأال تتأثر املالمح ‪-‬قدر اإلمكان‪ -‬بحجم الكتابة وال بقليل من امليل وااللتفاف‬
‫فيها (‪ )Scale and Rotation Invariant‬وال بيسري التشويش‪.‬‬
‫اقتُبست كثري من املالمح املستعملة للعربية من أعامل وأبحاث للغات أخرى‪ .‬ومن‬
‫أشهر هذه املالمح‪ :‬كثافة العنارص الصورية [‪ ،]31–27‬وأعداد مرات االنتقال من بياض‬
‫لسواد والعكس[‪ ]29‬ومالمح التدرج (‪ ،]8،30[ )gradient features‬ومقاييس‬
‫التقعرات [‪ ]29-8،27‬وترميزات اجتاهات الس (‪)Chain-Code Directions‬‬
‫[‪ ]31،32‬وتوصيفات فورير (‪ ]33[)Fourrier Descriptors‬ومرشحات «جابر»‬
‫(‪ ]34[ )Gabor filters‬واملالمح املعتمدة عىل النسب املئوية لعنارص الصورة [‪]8‬‬
‫ومؤخرا قيم العنارص الصورية مبارشة للتعلم العميق [‪ .]27-25‬كام أن للمالمح‬
‫مشتقات قد تستعمل أحيانا مع املالمح الرئيسية لزيادة دقة التعرف [‪.]8،26،28،29‬‬
‫كام قد ُع ّرفت بعض املالمح للرتاكيب العربية أصالة حتلل نقاط النصوص وصواعد‬
‫ونوازل احلروف [‪.]29،35‬‬

‫‪-26-‬‬
‫‪ 2.4‬التصنيف‬
‫عملية التصنيف (ويطلق عليها جمازا «التعرف») هتدف ملعرفة رمز النص من مالحمه‬
‫بعد تعلمه من أمثلة‪ .‬متر املصنفات بمرحلتني عىل األقل‪ :‬مرحلة التدريب والنمذجة‬
‫(‪ ،)Training and Modelling‬ثم مرحلة التعرف والتصنيف الفعيل(‪Recognition‬‬
‫‪ .)and Classification‬كام قد متر بعض املصنفات بمرحلة حتقق (‪)Validation‬‬
‫لتحسني تدريبها ونمذجتها‪ ،‬وبمرحلة اختبار (‪ )Testing‬لتقرير نسب نجاحها يف‬
‫البحوث العلمية واملسابقات‪.‬‬
‫Ÿ Ÿالتدريب‬
‫وسمة (‪ )Labeled‬برموز املحارف أو‬ ‫يع َطى املصنف يف مرحلة التدريب أمثل ًة ُم ّ‬
‫الكلامت التي يف تلك األمثلة‪ ،‬وذلك حتى «يتعلم» النظام ‪-‬بإحدى خوارزميات‬
‫التعلم‪ -‬أن يسم أمثلة مل تعرض عليه حسب مالحمها‪ .‬ينتج عن مرحلة التدريب «نامذج»‬
‫يستعملها املصنف الحقا يف مرحلة التعرف‪.‬‬
‫Ÿ Ÿالتعرف‬
‫وهي املقصود النهائي للقارئات اآللية‪ ،‬والوحيدة التي هتم املستخدم النهائي‪ُ .‬يعطى‬
‫املصنف يف مرحلة التعرف املالمح املراد التعرف عىل نصوصها‪ ،‬وهذه هي املرحلة‬
‫الوحيدة التي ال تستعمل فيها أوسام مسبقة للنصوص‪.‬‬
‫Ÿ Ÿاالختبار‬
‫تأيت مرحلة االختبار ‪-‬بعد أن جيهز املتعرف‪ -‬لقياس مدى نجاحه‪ ،‬ف ُيعطى صور‬
‫ويتفظ باألوسمة للمقارنة هبا وتقرير نسب النجاح (التعرف‬ ‫املحارف دون أوسمتها‪ُ ،‬‬
‫تفصل نسب اخلطأ أحيانا إىل أخطاء إدراج (‪)Insertion Errors‬‬ ‫الصحيح) واخلطأ‪ّ .‬‬
‫وأخطاء إسقاط (‪ )Deletion Errors‬وأخطاء تبديل (‪ُ .)Substitution Errors‬ترى‬
‫مرحلة االختبار عادة عىل قواعد بيانات مشهورة لتَت َي َّس املقارنة بني البحوث‪.‬‬
‫قد يعيد البعض استخدام جزء من صور التدريب يف االختبار‪ ،‬بينام حيبذ آخرون‬
‫الفصل التام بني أمثلة التدريب وأمثلة االختبار للتقليل من احتاملية «احلفظ اجلامد»‬
‫دون تعلم (‪ .)Overfitting‬وقد ترجح هذه الطريقة أو تلك حسب حجم البيانات‬
‫املتوفرة‪ ،‬وحسب اهلدف من التعرف (هل هو حمدود بخطوط كتّاب مع ّينني أو عام)‪.‬‬

‫‪-27-‬‬
‫وبينام ال بد أن تشمل صور التدريب املوسومة مجيع أنواع املحارف وأشكاهلا‪ ،‬ال يشرتط‬
‫ذلك لصور االختبار (وإن كان قد يفضل)‪ .‬وخيتلف الباحثون يف نسب ما خيصصون من‬
‫البيانات للتدريب واالختبار‪ ،‬وينصح أن تكون تلك النسب قريبة من ‪ %60‬للتدريب‬
‫و‪ %40‬لالختبار [‪.]3‬‬
‫Ÿ Ÿالتحقق‬
‫نستطيع توضيح مفهوم التحقق بموجب مرحلة االختبار‪ :‬فالتحقق ما هو إال‬
‫«اختبار جتريبي» هيدف لتاليف مواضع الضعف وحتسني أداء املصنف بناء عىل نتائج‬
‫مؤقتة ال ُيدف لنرشها‪ .‬يساعد التحقق الصحيح يف جتنب بعض املحاذير مثل «احلفظ‬
‫اجلامد» (حيث ُي ِ‬
‫فرط املصنف يف «قولبة» الفروقات والتشاهبات التي مثلتها له مالمح‬
‫أمثلة التدريب) فينكشف ذلك عندما تعطى له أمثلة التحقق‪ ،‬مما يسمح بتدارك األمر‬
‫وإعادة النمذجة‪ .‬وخالفا ملرحلة االختبار‪ ،‬فإن مرحلة التحقق يمكن أن تكرر مرارا‪.‬‬

‫‪ 2.5‬املعاجلة الالحقة‬
‫قد يستعان يف اخلطوات األخرية للتعرف اآليل بمعاجم (‪ )Lexicons‬وقواعد‬
‫لغوية (‪ )Linguistic Rules‬ملا تقبله اللغة أو ترفضه‪ ،‬أو بنامذج إحصائية (‪Statistical‬‬
‫‪ )Models‬للشائع لغويا كـ»الورودات األقرب» (‪ ،)N-Grams‬لرتجيح أو استبعاد‬
‫نتائج التعرف‪ ،‬ال سيام عندما تكون الكلامت املراد التعرف عليها حمصورة يف جمال حمدد‬
‫كالطب أو اهلندسة أو أسامء مدن (‪.)Domain-Specific‬‬

‫‪ - 3‬التعرف عىل الكتابة حسب عالقة التصنيف بالتقطيع‬


‫أملحنا ‪-‬سابقا‪ -‬إىل حدوث «الدّ ور» (‪ )Recursion‬بني التقطيع والتعرف‪ ،‬وقد‬
‫نشأت عن هذه املعضلة أنواع ملعامريات القراءة اآللية‪ ،‬منها‪:‬‬

‫‪ 3.1‬التعرف القائم عىل التقطيع‬


‫التعرف القائم عىل التقطيع هو األسلوب التقليدي حيث تُقطع صور النصوص‬
‫عرف هذا‬‫إىل صور للوحدات التي يراد التعرف عليها قبل عملية التصنيف [‪ .]36‬و ُي َ‬
‫األسلوب أيضا بأسلوب التقطيع اخلارجي (‪ ،)External Segmentation‬أو التقطيع‬
‫الرصيح (‪ ،)Explicit Segmentation‬وشكل ‪ 11‬يوضح معامريته العامة‪.‬‬

‫‪-28-‬‬
‫وأكثر ما قد تنجع فيه هذه الطريقة للمطبوع من النصوص‪ ،‬ال سيام إذا كان بخطوط‬
‫صممت خصيصا لذلك‪ ،‬كاخلطوط التي تعطي مجيع املحارف نفس العرض أو التي‬
‫ترتك فراغا صغريا بني املحارف [‪.]24‬‬

‫شكل (‪ :)11‬خمطط عمليات التعرف القائم عىل التقطيع‪.‬‬

‫‪ 3.2‬التعرف الكيل (دون التقطيع إىل حمارف)‬


‫اقرتح باحثون [‪ ]37‬التعرف عىل الكلامت أو أجزاء الكلامت العربية دون تقطيعها‬
‫إىل حمارف‪ ،‬كام يف املعامرية املبينة يف شكل ‪.12‬‬
‫كلامت أو أجزاء كلامت‬ ‫التعرف‬ ‫رموز‬

‫شكل (‪ :)12‬خمطط عمليات التعرف الكيل‪.‬‬


‫ومما يساند هذا االجتاه‪ :‬تغ ّيب احلركات عن أكثر كتاباتنا اليومية (حيث يتدرب‬
‫القارئ العريب عىل استناج التشكيل والكلامت من السياق) وملن ال يعرف العربية‪،‬‬
‫قام بعض الباحثني [‪ ]38‬بتقديم مثال إنجليزي حذفوا منه مجيع حروف العلة‬
‫(‪ )Vowels‬لتوفري جتربة شبيهة بقراءة العربية‪ ،‬وهو ما أوردناه للفائدة يف شكل ‪.13‬‬
‫يؤدي تغ ّيب احلركات يف كتاباتنا اليومية إىل «إعادة تدوير» رسم الكلامت‪ ،‬فمثال رسم‬
‫ُب» و» ُكت ٍ‬ ‫ِ‬
‫ُب»‪ ،‬والتي لو‬ ‫ب» و» ُكت ٌ‬ ‫«كتب» يستعمل لكلامت عديدة مثل « َكت َ‬
‫َب» و»كُت َ‬
‫كانت بالتشكيل أو بأحرف التينية الحتاجت ألربعة أصناف (‪kataba”. “kutiba”.‬‬
‫‪.)“kutubun”. “kutubin‬‬

‫عالوة عىل ذلك‪ ،‬يتجه الكثري من الباحثني حلذف النقط واهلمزات واملدة من صور‬
‫النصوص ليشمل الرسم الواحد أكثر من كلمة‪ ،‬فتدخل حتت صنف «كتب» عندئذ‬
‫كلامت مثل (ك ْثب‪ ،‬كنب‪ ،‬كبت‪ ،‬كئب)‪.‬‬

‫شكل (‪ :)13‬مثال إنجليزي حذفت منه حروف العلة [‪.]38‬‬

‫‪-29-‬‬
‫‪ 3.3‬التعرف الذي يتخلله تقطيع ضمني‬
‫التقطيع القائم عىل التعرف‪ ،‬أو التقطيع الداخيل (‪ )Internal Segmentation‬أو‬
‫الضمني (‪ ،)Implicit Segmentation‬يستند إىل خوارزميات تقرتح أثناء التعرف‬
‫مواضع أولية البتداء وانتهاء املحارف‪ ،‬ثم تكرر حماوالت التعرف إىل احلصول عىل‬
‫نتائج جيدة إحصائيا أو لغويا‪ .‬شكل ‪ 14‬يوضح معامرية التقطيع القائم عىل التعرف‪.‬‬
‫ويمكن التجوز واعتبار أن التعرف الضمني جيعل التقطيع والتعرف حيدثان معا يف‬
‫نفس الوقت‪ ،‬كأشبه ما يكون بقراءة اإلنسان‪.‬‬

‫شكل (‪ :)١٤‬خمطط عمليات التعرف الذي يتخلله تقطيع ضمني‪.‬‬

‫وقد أخرنا الكالم عن هذا النوع ألمهيته حتى نتمكن من االستفاضة بطريقتي‬
‫«نامذج ماركوف اخلفية» وتقنيات «التعلم العميق» العاملتني بالتقطيع الضمني‪.‬‬

‫‪ 3.3.1‬التعرف بنامذج ماركوف اخلفية‬


‫نامذج ماركوف اخلفية (‪ Hidden Markov Models‬أو ‪ HMM‬ختصارا) تعمل‬
‫عادة عىل صور األسطر الكاملة‪ ،‬رغم وجود القليل من األعامل التي استعملت نامذج‬
‫ماركوف اخلفية يف التعرف عىل أعداد وحمارف منفصلة أو مقطعة [‪ ]39،40‬أيضا‪.‬‬
‫يرجح كفة استعامل ‪ HMM‬عىل أساليب أخرى (كآالت متجهات الدعم (‪Support‬‬
‫‪ )Vector Machines‬والشبكات العصبية االصطناعية (‪Artificial Neural‬‬
‫‪ )Networks‬والغابات العشوائية (‪ ))Random Forests‬هو قدرهتا عىل تقطيع صور‬
‫النصوص ضمنيا أثناء التعرف عىل صور األسطر وأحيانا الفقرات‪.‬‬
‫نتحدث فيام ييل عن أشهر طرق استخراج املالمح املستعملة مع نامذج ماركوف‬
‫اخلفية‪ ،‬ثم نتطرق لوحدات النمذجة املشتهرة فيها ولشكل السالسل األكثر استعامال‬
‫(وهو ما يسمى بـ«طوبولوجيا» (‪ )Topology‬السلسلة) ثم نذكر أشهر خوارزمياهتا‬
‫للنمذجة الصورية (للتدريب) واللغوية (للمعاجلة الالحقة)‪.‬‬

‫‪-30-‬‬
‫املالمح األشهر استعامال مع متعرفات نامذج ماركوف اخلفية‬
‫عادة ما تلجأ أنظمة التعرف القائمة عىل نامذج ماركوف اخلفية ‪-‬بعد عمليات املعاجلة‬
‫املسبقة‪ -‬إىل حساب املالمح عرب ما يعرف «بـالنافذة املنزلقة» (‪)Sliding Window‬‬
‫[‪]43-30،41‬؛ حيث حيدد جزء له نفس ارتفاع صورة السطر املراد التعرف عىل حمتواه‬
‫النيص بعرض مقارب لذلك االرتفاع‪ ،‬فتحسب املالمح ذلك اجلزء من الصورة والذي‬
‫يعرف باسم «النافذة»‪ .‬تُزلق النافذة (تزاح) من أول السطر (يمينه) حتى آخره (يساره)‬
‫وتكرر عملية حساب املالمح مع كل موضع من مواضع النافذة‪.‬‬
‫ثمة أسلوبان مشهوران إلزاحة النوافذ املنزلقة‪ ،‬أحدمها‪ :‬إزاحتها بمقدار عرض النافذة‬
‫بحيث ال حيصل تداخل بني مواضع النوافذ [‪ ،]27‬واآلخر‪ :‬إزاحتها بعرض أقل من ذلك‬
‫فيحصل تداخل جزئي بني النوافذ [‪ ]30،43،44‬كام هو مبني يف شكل ‪.]18[ 15‬‬
‫مواضع‬
‫نافذة حالية‬ ‫نوافذ سابقة‬

‫منطقة تداخل‬

‫شكل (‪ :)١٥‬النافذة املنزلقة ويرى فيها تداخل بني النافذة احلالية (املستطيل األخري) وبعض السابقة‬
‫(املستطيالت املنقطة) [‪.]18‬‬

‫عادة ما تكون النوافذ املنزلقة ذات عرض ثابت‪ ،‬بيد إن بعض التجارب ُأجريت‬
‫جلعل عرض النافذة يتغري اعتامدا عىل خصائص الصورة ‪-‬كأبعاد القيعان التي بينها قمم‬
‫يف إسقاطات عنارصها الصورية الرأسية (‪ -)Vertical Projection‬وقد وجد هؤالء‬
‫الباحثون حتسنا يف النتائج جراء ذلك [‪ .]12‬كام أن ثمة جتارب استحدثت نوافذ منزلقة‬
‫مائلة (يمينا ويسارا) استعملت مع نامذج ماركوف اخلفية [‪ .]29،45‬وأخريا‪ ،‬فعلينا أن‬
‫ننوه إىل عدة أبحاث سعت الستعامل نامذج ماركوف اخلفية جمردة عن أسلوب النوافذ‬
‫املنزلقة بالكلية [‪.]46،47‬‬

‫‪-31-‬‬
‫وحدات التعرف األشهر يف نامذج ماركوف اخلفية‬
‫أكثر نامذج ماركوف اخلفية تستهدف املحارف [‪ ]12،29،30،41،48‬ال احلروف‬
‫[‪ ]46‬وهذا ‪-‬كام أسلفنا‪ -‬ألن احلرف العريب له أكثر من شكل بحسب اتصاله بام‬
‫قبله وما بعده مما يصعب نمذجتها كلها بسلسلة موحدة؛ فأكثر املحارف استعامال‬
‫أشكال احلرف حسب املوضع («الشكل املنفصل»‪ ،‬و«الشكل االبتدائي»‪ ،‬و«الشكل‬
‫خيل من مساع لتجريب حمارف أخرى‬ ‫املتوسط»‪ ،‬و«الشكل النهائي»)‪ ،‬ولكن األمر مل ُ‬
‫كنمذجة األجزاء الرئيسة واملكملة من احلروف إىل حمارف [‪ ،]47‬ونمذجة األجزاء‬
‫التي تشرتك فيها عدة حمارف [‪ ،]49،50‬ونمذجة حرفني أو عدة حروف معا (كام يف‬
‫سعينا لنمذجة املرتاكبات األشهر ملحرفني فأكثر معا [‪ .)]51‬وقد وجدت أيضا مسا ٍع‬
‫لنمذجة املحارف وأجزاء الكلامت جمردة من النقط واهلمزات والتشكيل‪ ،‬ونمذجة تلك‬
‫النقاط واهلمزات والتشكيل عىل حدة [‪ ،]52‬وأخرى لنمذجة الفراغات البيضاء (بني‬
‫الكلامت) أو البينية (التي تقع بني أجزاء الكلمة املنفصلة) [‪ ]25،29‬بسالسل مستقلة‪.‬‬

‫أشكال السالسل األشهر لنامذج ماركوف اخلفية‬


‫تعتمد أغلب نامذج املحارف عىل طوبولوجيا باكيس (‪ )Bakis‬لسالسل ماركوف‬
‫اخلفية‪ ،‬وهو اسم للطوبولوجيا التي تسمح دائام بتخطي املرحلة التالية من السلسلة إىل‬
‫التي بعدها كام يبينها شكل ‪( 16‬ب)‪ .‬والرس يف اللجوء هلذه السالسل يكمن يف مرونتها‪،‬‬
‫خاصة وأن حروف العربية تتفاوت يف العرض‪ ،‬بل إن عرض احلرف نفسه قد خيتلف‬
‫من موضع آلخر بسبب استعامل التطويالت أو أسلوب خط معني‪ .‬وهذا ال يعني عدم‬
‫وجود بحوث ناجحة استعملت طوبولوجيات أبسط (كاخلطية [‪ )]30،42،44‬وأعقد‬
‫[‪ ]32‬من طوبولوجيا باكيس‪ ،‬لكن املقصود اإلشارة ملا اتفق عىل استعامله أكثر الباحثني‪.‬‬

‫(ب)‬ ‫(أ)‬

‫شكل(‪( :)16‬أ) طوبولوجيا خطية (ب) طوبولوجيا باكيس‪.‬‬

‫‪-32-‬‬
‫اخلوارزميات األشهر لتدريب نامذج ماركوف اخلفية‬
‫بعد نمذجة املحارف‪ ،‬يكثر استعامل خوارزمية فيترييب (‪ ،)Viterbi‬والتي‬
‫ظهرت ألول مرة يف منتصف الستينيات من القرن املايض‪ ،‬لتحديد التسلسل األمثل‬
‫لنامذج ماركوف اعتامدا عىل الربجمة الديناميكية (‪)Dynamic Programming‬‬
‫[‪.]12،41،4،53،54‬‬
‫ولتحديد احتامالت االنتقال األنسب بني النامذج‪ ،‬فكثريا ما تُستعمل خوارزمية‬
‫تدريب تعرف هي األخرى باسم خمرتعيها‪ ،‬باوم وويلتش (‪)Baum-Weltch‬‬
‫[‪ .]8،30،32،43،46،55‬وللمزيد‪ ،‬يمكن الرجوع لبحث « تقنيات التعرف اآليل‬
‫عىل الكالم املنطوق وتطبيقاهتا يف القرآن الكريم‪-‬واقع وطموح» يف كتابنا السابق‬
‫«احلرف العريب والتقنية» [‪.]56‬‬

‫النمذجة اللغوية‬
‫قد يستعان بعد التصنيف بنوع آخر من النامذج لرتجيح كفة املقبول والشائع‬
‫احتامليا ولغويا من الكلامت‪ ،‬وهذه تسمى بالنامذج اللغوية‪ .‬ونامذج ماركوف اخلفية‬
‫تتيح استعامل النامذج اللغوية (وخاصة «الورودات السابقة» ‪ )n-grams‬بسالسة‪.‬‬
‫فقد استعملت هذه النامذج عىل مستوى احلرف واملحرف إىل ‪ 4‬ورودات سابقة‬
‫بعدما حسبت من «مدونات لغوية» حوت عرشات املاليني من الكلامت [‪.]57، 8‬‬
‫كام قد تستعمل أيضا أجزاء‪-‬الكلامت للنمذجة اللغوية [‪ ]58‬ضمن تنويعات أخرى‬
‫لوحدات النمذجة اللغوية‪.‬‬

‫‪ 3.3.2‬التعلم العميق للتقطيع ضمني‬


‫موجة «التعلم العميق» (‪ )Deep Learning‬صاعدة ‪-‬هذه األيام‪ -‬يف شتى جماالت‬
‫رؤية احلاسب (‪ ،)Computer Vision‬وليس التعرف عىل النصوص مستثنى من‬
‫ذلك [‪ .]59،60‬التعلم العميق قائم عىل الشبكات العصبية االصطناعية (‪Artificial‬‬
‫‪ Neural Networks‬أو ‪ )ANN‬كثرية الطبقات‪ .‬وإذا استعني فيها بتقنيات للتصنيف‬
‫الزمني التوصييل (‪ Connectionist Temporal Classification‬أو ‪ )CTC‬والشبكات‬
‫العصبية املتكررة (‪ Recurrent Neural Network‬أو ‪ )RNN‬و ُبنى الذاكرة قصرية‪-‬‬

‫‪-33-‬‬
‫املدى الطويلة (‪ Long Short-Term Memory‬أو ‪ ،)LSTM‬تصبح ماهرة يف التقاط‬
‫السياقات املشرتكة ‪-‬وإن تباعد ورودها‪ ،-‬وهو ما جيعلها مفيدة يف جمال التعرف عىل‬
‫النصوص دون التقطيع املسبق [‪.]59‬‬
‫لذا‪ ،‬فقد فتحت هذه التقنيات احلديثة الباب للتعرف عىل النصوص العربية املكتوبة‬
‫بالتقطيع الضمني كام يف [‪ .]26،59،64‬فالشبكات العصبية التكرارية للتعرف اآليل‬
‫عىل النصوص دون تقطيع يمكن أن تستخدم عىل النهج الذي قدمه ‪ Graves‬و‬
‫‪ Schmidhuber‬ثم عاد فطوره ‪ Graves‬الحقا‪ ،‬بحيث تعالج العنارص الصورية يف‬
‫شبكات عصبية تكرارية متعددة األبعاد (‪Multi-Dimensional Recurrent Neural‬‬
‫‪ Network‬أو ‪ MDRNN‬اختصارا)‪.‬‬

‫‪ 3.3.3‬نامذج ماركوف اخلفية مع التعلم العميق‬


‫تنترش طرق هجينة الستعامل التعلم العميق جنبا إىل جنب مع نامذج ماركوف‬
‫اخلفية (كام يف [‪ ]58‬و[‪ .)]62‬فنامذج ماركوف اخلفية قد تستعمل يف حماذاة املحارف‬
‫مع صورها (التقطيع الضمني) ‪-‬مثال‪ -‬قبل التعلم العميق للمحارف‪ ،‬أو لتدريب‬
‫الشبكات العصبية التكرارية مع البنى ثنائية للذاكرة قصرية‪-‬املدى الطويلة عىل نتاج‬
‫تلك املحاذاة القرسية‪ ،‬قبل استعامل نتائج هذه األخرى إلعادة تدريب نامذج التعرف‬
‫النهائي عىل النصوص [‪.]42[]64[]26‬‬
‫وقد ُقدّ مت دراسات قارنت بني نظم مبنية عىل التعلم العميق (كالشبكات العصبية‬
‫التكرارية مع املالمح ذات الذاكرة قصرية‪-‬املدى الطويلة (أي ‪ RNN‬مع ‪))LSTM‬‬
‫للقراءة اآللية العربية وأخرى عىل نامذج ماركوف اخلفية [‪ ]65‬باستعامل نفس املالمح‪،‬‬
‫استطاع يف أغلبها نظام التعلم العميق التفوق عىل غريه‪ .‬وخلصت دراسة مقارنة إىل أنه‬
‫ليس ثمة فرق كبري بني استعامل الشبكات العصبية التكرارية مع املالمح ذات الذاكرة‬
‫قصرية‪-‬املدى الطويلة وبني استعامل الشبكات العصبية العادية (‪ ،)MLP‬وأنه ال فرق‬
‫يذكر كذلك بني استحداث واستعامل مالمح متقدمة وبني تقديم العنارص الصورية‬
‫بصورهتا اخلام إذا تم تدريب كل نظام بام يناسبه [‪ .]66‬وهذا مما حيث الباحثني إىل‬
‫حماولة تفهم هذه األنظمة وخصائص كل منها بشكل أكرب‪ ،‬ويدعوهم للتدقيق يف‬
‫نتائج التعرف واملقارنات بينها‪ ،‬وهو ما ال يتأتى إال بفهم طبيعة البيانات التي تتم‬

‫‪-34-‬‬
‫عليها مرحلة االختبار‪ .‬لذا‪ ،‬فقد أفردنا الفصل التايل للتعريف بأشهر قواعد بيانات‬
‫الكتابة العربية اليدوية التي تستعمل يف تدريب واختبار وتقرير نتائج املتعرفات اآللية‬
‫يف البحوث العلمية‪.‬‬

‫‪ -4‬مقارنات لبعض أشهر أنظمة التعرف اآليل عىل النصوص العربية املكتوبة‬
‫بخط اليد‬
‫قبل املقارنة بني النتائج املنشورة ألي متعرفات‪ ،‬جيدر بنا التعرف عىل قواعد البيانات‬
‫التي ُترى اختبارات كفاءة املتعرفات اآللية عليها‪ .‬وفيام ييل‪ ،‬نذكر أشهر هذه القواعد‬
‫مع ُن َب ٍذ عنها‪ ،‬ثم بعد ذلك‪ ،‬نقدم جداول ألشهر أنظمة التعرف اآليل عىل النصوص‬
‫املكتوبة بخط اليد‪ ،‬مع إيراد نسب اخلطأ فيها‪ ،‬واإلشارة إىل خصائصها وقواعد البيانات‬
‫التي ُقررت نتائجها عليها‪.‬‬

‫‪ 4.1‬قواعد بيانات للكتابة العربية اليدوية‬


‫نعرض فيام ييل تسع قواعد بيانات ‪-‬مرتبة حسب وقت نرشها التقريبي‪ -‬مع نبذة‬
‫عن كل منها‪ .‬ثم نعرض بعدها مقارنة جدولية هلا‪.‬‬

‫‪ 4.1.1‬قاعدة بيانات اإلرساء‬


‫تتكون قاعدة بيانات اإلرساء (‪ ]67[ )AL ISRA database‬من كلامت عربية‬
‫وأرقام وتوقيعات ومجل حرة‪ُ ،‬جعت من حوايل مائة طالب من جامعة اإلرساء األردنية‬
‫لصالح باحثني يف جامعة كولومبيا الربيطانية‪ .‬ولكن ‪-‬وكأغلب قواعد البيانات حينها‪-‬‬
‫فقد افتقرت قاعدة اإلرساء إىل فقرات نصية كاملة مكتوبة يف بيئة طبيعية‪.‬‬

‫‪ 4.1.2‬قاعدة بيانات الشيكات العربية‬


‫مجع العوهيل وآخرون قاعدة بيانات لسندات مرصفية (شيكات) عربية‬
‫(‪ ]7[ )CENPARMI‬والتي اشتملت عىل نصوص وأرقام تم استخراجها من ‪3000‬‬
‫سندا وفرها مرصف الراجحي يف اململكة العربية السعودية‪ .‬لذا‪ ،‬فهذه القاعدة قد تفيد‬
‫كثريا تطبيقات التعرف عىل حمتوى السندات البنكية‪.‬‬

‫‪-35-‬‬
‫‪ 4.1.3‬قاعدة بيانات النص العريب املكتوب بخط اليد‬
‫تتضمن قاعدة بيانات النص العريب املكتوب بخط اليد (‪Database for Arabic‬‬
‫‪ Handwritten text‬أو ‪ )AHDB‬الكلامت املستخدمة يف كتابة املبالغ عىل السندات‬
‫املرصفية كام اشتملت أيضا بعض صفحات الكتابة احلرة بخط ‪ 100‬كاتب [‪.]68‬‬

‫‪ 4.1.4‬قاعدة البيانات احلرة لألحرف العربية بخط اليد‬


‫أعد الباحثان خرض وعبندة [‪ ]4‬قاعدة بيانات مبكرة لألحرف العربية كتبت بشكل‬
‫حر (بال قيود عىل طريقة الكتابة) من قبل ‪ 48‬كاتبا‪ .‬كام طلبوا كتابة فقرة نصية حوت‬
‫أشكال املحارف واألعداد العربية وبعض الرموز دون فرض قيود عىل طريقة الكتابة‪.‬‬

‫‪ 4.1.5‬قاعدة بيانات األرقام‪ ،‬واحلروف‪ ،‬والرموز املعزولة واملتصلة يف كلامت‬


‫وهي قاعدة بيانات طورها العمري لتحوي أرقاما‪ ،‬وحروفا‪ ،‬ورموزا كتلك التي‬
‫تكتب يف التواريخ واألعداد والكلامت [‪.]69‬‬

‫‪ 4.1.6‬قاعدة بيانات األعداد العربية‬


‫قاعدة بيانات األعداد العربية املكتوبة بخط اليد (‪A database of handwritten‬‬
‫‪ Arabic‬أو ‪ )ADBase‬مناسبة ألهداف التعرف اآليل عىل األرقام العربية (والتي تعرف‬
‫أيضا باألعداد اهلندية) [‪.]70‬‬

‫‪ 4.1.7‬قواعد بيانات مرشوع حتليل وترمجة وتصنيف املستندات متعددة اللغات آليا‬
‫مرشوع حتليل وترمجة وتصنيف املستندات متعددة اللغات آليا (‪Multilingual‬‬
‫‪ Automatic Document Classification. Analysis and Translation‬أو‬
‫‪ )MADCAT‬ترعاه الوكالة األمريكية ملشاريع األبحاث املتقدمة (‪ )DARPA‬هبدف‬
‫دعم اجليش األمريكي بقدرات عىل القراءة والرتمجة اآللية من عدة لغات‪ ،‬من أمهها‬
‫ٍ‬
‫تدريب مكتوبة بخط اليد‪،‬‬ ‫نصوص‬
‫َ‬ ‫العربية [‪ .]71‬أنتج املرشوع يف مراحله األوىل‬
‫حيث تعاونت الوكالة مع احتاد البيانات اللغوية (‪ Linguistic Data Consortium‬أو‬
‫‪ )LDC‬إلنشاء قاعدة البيانات التي حوت ‪ 9693‬صفحة مكتوبة بخط اليد‪ ،‬شملت‬
‫وثائق عربية أصلية (ر ّمزت وق ّطعت إىل أسطر‪ ،‬ومسحت ضوئ ًيا بدقة ‪ 600‬نقطة يف‬
‫البوصة‪ ،‬ووسمت أجزاؤها‪ ،‬وترمجت نصوصها إىل اإلنجليزية)‪.‬‬

‫‪-36-‬‬
‫مصادر الوثائق حوت ‪-‬يف الغالب‪ -‬من األخبار واملدونات اإللكرتونية‪ .‬وقد‬
‫أقيمت مؤخرا مسابقات (‪ ]72[ )NIST-OpenHaRT‬للتعرف عىل أسطر نصية‪ ،‬وقد‬
‫أتيحت جزئيا لبعض الباحثني‪ ،‬ولكن ما تزال أكثر توزيعاهتا وأساليب مقارنة النتائج‬
‫رسية فيها [‪.]64،72،73‬‬

‫‪ 4.1.8‬قاعدة بيانات ‪IFN/ENIT‬‬

‫تعاون كل من معهد تكنولوجيا االتصاالت (‪Institut für Nachrichtentechnik‬‬


‫أو ‪ )IFN‬يف جامعة براونشفايغ التقنية (‪)Technische Universität Braunschweig‬‬
‫يف أملانيا مع املدرسة الوطنية اهلندسية يف تونس (‪Ecole Nationale d’Ingénieurs de‬‬
‫‪ Tunis‬أو ‪ )ENIT‬إلخراج ما كان حينا من الدهر املرجعي َة األكثر شيو ًعا لتقرير نتائج‬
‫بحوث التعرف عىل النصوص العربية املكتوبة بخط اليد [‪]74‬؛ وقد يرجع السبب يف‬
‫انتشارها لتوفرها جمانا منذ نشأهتا ولنشاط منشئيها يف خدمتها وعقد املسابقات عليها‪،‬‬
‫فقد تم استعامل قاعدة ‪ IFN/ENIT‬يف مسابقات عديدة للتعرف اآليل عىل النصوص‬
‫العربية‪ ،‬عرضت نتائجها يف مؤمترات مهمة [‪.]79–75‬‬
‫تتكون هذه القاعدة من صور مكتوبة بخط اليد ألسامء ‪ 937‬مدينة وبلدة تونسية‬
‫(أي أهنا تضمنت معلومات للخدمة الربيدية يف األصل) مقسمة إىل سبع جمموعات‬
‫(‪ A. B. C. D. E. F. S‬بعد إضافة املجموعتني ‪ F‬و‪ S‬مؤخرا)‪ .‬وتعترب جمموعة ‪ S‬األكثر‬
‫صعوبة ألهنا مل جتمع يف نفس بيئة بقية املجموعات‪ ،‬فتضمنت أنامطا كتابية خمتلفة عن‬
‫املجموعات األخرى‪.‬‬

‫‪ 4.1.9‬قاعدة بيانات «خط»‬


‫تُعنى قاعدة بيانات «خط» (‪KFUPM Handwritten Arabic TexT database‬‬
‫أو ‪ )KHATT‬بالكتابة احلرة [‪ ،]6،80‬حيث حتوي فقرات كتبها ‪ 1000‬شخص ّ‬
‫(كل‬
‫منهم كتب أربع فقرات‪ ،‬اثنتان منها نصهام موحد)‪.‬‬
‫حتوي القاعدة صور الفقرات مقطعة عىل مستوى أسطر النصوص‪ ،‬وتنقسم إىل‬
‫ثالث جمموعات‪ :‬جمموعة التدريب (‪ 4808‬سطرا)‪ ،‬وجمموعة التطوير (‪ 937‬سطرا)‪،‬‬
‫وجمموعة االختبار (‪ 966‬سطرا)‪.‬‬

‫‪-37-‬‬
‫‪ 4.1.10‬جدول قواعد بيانات الكتابة العربية اليدوية‬
‫نلخص يف اجلدول أدناه وصف وعدد كتاب بعض قواعد البيانات املذكورة آنفا‪.‬‬
‫جدول (‪ :)١‬ملخص بعض قواعد بيانات الكتابة العربية‪.‬‬

‫خمترص اسم قاعدة البيانات‬


‫عدد الكتاب‬ ‫وصف خمترص‬
‫مع إحالة مرجعية‬
‫‪411‬‬ ‫‪ 26.459‬صورة ألسامء مدن وبلدات تونسية‬ ‫]‪IFN/ENIT [74‬‬

‫‪ 37.000‬صورة كلمة و ‪ 10.000‬صورة عدد‬


‫‪500‬‬ ‫اإلرساء ]‪Al–Isra [67‬‬
‫و‪ 2500‬صورة توقيع و‪ 500‬صور جلمل‬
‫‪ 400‬عىل‬
‫‪ 9.693‬صور لصفحات من وثائق أخبار وغريها‬ ‫]‪MADCAT [42‬‬
‫األقل‬
‫شيكات مرصف الراجحي‬
‫–‬ ‫‪ 3.000‬صورة لقيم شيكات باألرقام واحلروف‬
‫]‪CENPARMI [7‬‬

‫‪100‬‬ ‫‪ 10.000‬صورة ملصطلحات شيكات مرصفية‬ ‫]‪AHDB [68‬‬

‫‪48‬‬ ‫صور حروف‬ ‫]‪Khedher et al. [4‬‬

‫‪ 46.800‬صــــورة ألعــــداد و‪13.439‬‬


‫صورةألرقام (سالسل عددية) و ‪ 21.426‬صورة‬ ‫العمري‬
‫‪328‬‬
‫حلروف و‪11.375‬صورة لكلامت و‪1.640‬‬ ‫‪[69] Alamri et al.‬‬
‫صورة لرموز كتابية خاصة وعالمات ترقيم‬
‫األرقام العربية‬
‫‪700‬‬ ‫‪ 700.000‬صورة ألعداد‬
‫]‪ADBase [70‬‬

‫‪ 1.000‬صورة نموذج و‪ 2.000‬صورة لفقرات‬ ‫قاعدة بيانات «خط»‬


‫‪1000‬‬
‫كتابة حرة‬ ‫]‪KHATT [6،80‬‬

‫وبعد تعرفنا عىل بيانات االختبار نستطيع تقديم مقارنات ألنظمة التعرف اآليل‬
‫عىل الكتابة اليدوية العربية األبرز يف البحوث العلمية‪ ،‬وتقارير نتائجها حسب قواعد‬
‫البيانات التي اختُربت عليها‪.‬‬

‫‪-38-‬‬
‫‪ 4.2‬مقارنة أهم بحوث املجال‬
‫نلخص هنا أهم البحوث املنشورة يف جمال التعرف اآليل عىل النص العريب املكتوب‬
‫بخط اليد‪ .‬وسنقسم مناقشتنا إىل ثالث جمموعات‪ :‬األوىل ألهم بحوث التعرف عىل‬
‫األعداد واملحارف املنعزلة‪ ،‬والتعرف الكيل عىل أجزاء الكلامت العربية‪ ،‬وحماوالت‬
‫مبكرة للتعرف عىل الكلامت كليا أو التعرف القائم عىل التقطيع الرصيح‪ .‬واملجموعة‬
‫الثانية ألهم البحوث التي اعتمدت يف تدريبها وتقييمها عىل قاعدة ‪]74[ IFN/ENIT‬‬
‫وذلك ملا تتسم به هذه القاعدة من أمهية وشعبية من جانب‪ ،‬وألهنا حمدودة الكلامت‪ ،‬مما‬
‫يمكن من التعامل معها بأسلوب خاص‪ .‬واملجموعة الثالثة ألهم بحوث التعرف اآليل‬
‫عىل الصور النصية التي حتوي عدة كلامت ذات اخلصائص اللغوية املفتوحة (ليست‬
‫كلامت حمدودة كام يف قاعدة ‪.)IFN/ENIT‬‬

‫‪ 4.2.1‬أهم بحوث التعرف عىل األعداد‪ ،‬واملحارف‪ ،‬والكلامت‪ ،‬وأجزاء الكلامت‬


‫املنعزلة‬
‫‪2‬ملخصا لألعامل املتعلقة بالتعرف عىل األعداد واملحارف املقطعة‬ ‫ً‬ ‫نقدم يف جدول‬
‫والكلامت وأجزاء الكلامت العربية‪ .‬يتيح اجلدول املقارنة بني أداء أعامل مم ِّثلة يف هذا‬
‫املجال‪ ،‬حيث ترتبط اجلوانب الرئيسية لفاعلية التعرف باملعاجلة املسبقة‪ ،‬واملالمح‬
‫واملصنفات‪.‬‬
‫يعد التعرف عىل األعداد املكتوبة بخط اليد أحد أسهل مهام التعرف إذ أن األصناف‬
‫فيها (من ‪ 0‬إىل ‪ )9‬قليلة‪ .‬لذلك‪ ،‬نجد تقارير عن نسب نحاج بمعدل ‪ ،]40[ ٪99‬أي‬
‫أهنا «مشكلة حملولة»‪ .‬أما التعرف عىل األرقام (أي السالسل التي حتوي عدة أعداد)‬
‫حيث قد تتالمس األعداد املتجاورة فام زالت اشكل حتديا وحتتاج مزيد حل [‪.]81‬‬
‫وأهم تطبيقات التعرف عىل األعداد واألرقام هي قراءة السندات املرصفية آليا‪.‬‬
‫يشبه التعرف عىل األعداد سهول ًة التعرف عىل املحارف املنعزلة؛ حيث تكمن أهم‬
‫التحديات يف التعرف عىل املحارف التي تتشابه أو تشرتك يف الشكل وختتلف يف النقط‪.‬‬
‫وأيضا يمكن اعتبار أن مشكلة التعرف عىل املحارف املنعزلة حملولة ‪-‬إىل حد كبري‪ -‬غري‬
‫أن استخدامات احلروف املعزولة عمليا حمدود‪ ،‬ربام كانت أهم تطبيقاته هي القراءة‬
‫اآللية للرموز الربيدية يف البلدان التي تعتمد احلروف العربية املنعزلة هلذه الرموز‪.‬‬

‫‪-39-‬‬
‫وأما التعرف عىل الكلامت العربية ‪-‬كليا أو بيشء من التقطيع‪ -‬فال تكاد تنجح إال‬
‫عندما يكون جمال املفردات الكيل هلذه الكلامت حمدو ًدا‪ ،‬كام يف مهام التعرف عىل أسامء‬
‫مدن أو قيم مكتوبة خطيا‪.‬‬
‫نعرض يف جدول ‪2‬بعض املساعي للتعرف عىل عىل األعداد‪ ،‬واملحارف‪ ،‬والكلامت‪،‬‬
‫وأجزاء الكلامت العربية املتصلة دون تقطيع يذكر‪.‬‬
‫جدول (‪ :)2‬بحوث يف التعرف عىل األعداد‪ ،‬واملحارف‪ ،‬والكلامت‪ ،‬وأجزاء الكلامت العربية املتصلة‪.‬‬

‫سامت النظام‬ ‫هدف‬


‫قاعدة البيانات‬ ‫نتائج التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫النظام‬
‫ŸŸنظام‪SVM‬‬ ‫ŸŸصور أعداد من‬ ‫ŸŸنسبة اخلطأ‬ ‫التعرف‬ ‫‪Alamri et‬‬
‫نواته ‪Radial‬‬ ‫قاعدة ‪CENPARMI‬‬ ‫يف التصنيف‬ ‫عىل‬ ‫‪al. 2009‬‬
‫‪Basis‬‬ ‫للشيكات العربية‬ ‫‪%1.52‬‬ ‫األعداد‬ ‫]‪[81‬‬
‫‪Function‬‬ ‫ ‪24.784-‬‬ ‫لألعداد غري‬ ‫واألرقام‬
‫صورة للتدريب ŸŸمالمح تدرجية‬ ‫املتالمسة‬ ‫ذات‬
‫ ‪ 6.199-‬صورة ŸŸخوارزمية‬ ‫ŸŸنسبة اخلطأ‬ ‫األعداد‬
‫قواعدية‬ ‫يف التصنيف‬ ‫املتالمسة‬
‫للتقييم‬
‫لفصل األعداد‬ ‫‪%7.78‬‬
‫ ‪ 132 -‬صورة‬
‫املتالمسة‬ ‫لألعداد‬
‫ألرقام فيها‬ ‫املتالمسة‬
‫أزواج متالمسة‬
‫من األعداد‬
‫للتقييم‬
‫ŸŸنامذج ماركوف‬ ‫ŸŸقاعدة من‬ ‫ŸŸنسبة اخلطأ‬ ‫التعرف‬ ‫‪Awaidah‬‬
‫اخلفية املنفصلة‬ ‫‪ 21،120‬صورة‬ ‫يف التصنيف‬ ‫عىل‬ ‫‪and‬‬
‫ŸŸمالمح التدرج‬ ‫بيد ‪ 44‬كاتبا‬ ‫‪%0.87‬‬ ‫األعداد‬ ‫‪Mahmoud‬‬
‫والتقعر‬ ‫ ‪ 15،840-‬صورة‬ ‫(منفصلة)‬ ‫]‪2009 [40‬‬
‫وامليزات‬ ‫للتدريب‬
‫اهليكلية )‪)GSC‬‬ ‫ ‪-‬و‪5.280‬‬
‫ŸŸتقسم الصورة‬ ‫صورة للتقييم‬
‫إىل إطارات‬
‫لكل منها نفس‬
‫عدد العنارص‬
‫الصورية تقري ًبا‬

‫‪-40-‬‬
‫سامت النظام‬ ‫هدف‬
‫قاعدة البيانات‬ ‫نتائج التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫النظام‬
‫ŸŸتم استعامل‬ ‫ŸŸصور أعداد‬ ‫ŸŸنسبة اخلطأ‬ ‫التعرف‬ ‫‪Mahmoud‬‬
‫‪ 3‬أنواع من‬ ‫من قاعدة‬ ‫يف التصنيف‬ ‫عىل‬ ‫‪and Al-‬‬
‫املصنفات‪:‬‬ ‫‪CENPARMI‬‬ ‫‪ %1.05‬عند‬ ‫األعداد‬ ‫‪Khateeb‬‬
‫ ‪-‬نامذج‬ ‫للشيكات العربية‪:‬‬ ‫استخدام‬ ‫(منفصلة)‬ ‫]‪2010 [82‬‬
‫ماركوف‬ ‫ ‪ 7.390-‬صورة‬ ‫مصنف ‪SVM‬‬
‫اخلفية‬ ‫للتدريب‬ ‫ŸŸنسبة اخلطأ‬
‫يف التصنيف‬
‫‪HMMs‬‬ ‫ ‪ 3.035-‬صورة‬
‫‪ %2.79‬عند‬
‫ ‪-‬آالت‬ ‫للتقييم‬
‫استخدم نامذج‬
‫متجهات‬
‫ماركوف اخلفية‬
‫الدعم ‪SVM‬‬
‫ŸŸنسبة اخلطأ‬
‫ ‪-‬اجلريان‬ ‫يف التصنيف‬
‫األقرب‬ ‫‪ %1.25‬عند‬
‫‪k-NN‬‬
‫استخدام اجلار\‬
‫ŸŸتم استخدام‬ ‫اجلريان األقرب‬
‫مالمح‬ ‫‪k-NN‬‬
‫مأخوذة من‬
‫مرشح «جابر»‬
‫اللوغاريمي‬
‫(‪)Log Gabor‬‬
‫بمقاييس‬
‫وتوجهات‬
‫املختلفة‬

‫‪-41-‬‬
‫سامت النظام‬ ‫هدف‬
‫قاعدة البيانات‬ ‫نتائج التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫النظام‬
‫·نامذج ماركوف‬ ‫ŸŸصور أجزاء كلامت‬ ‫ŸŸنسبة اخلطأ يف‬ ‫التعرف‬ ‫‪Cheriet et‬‬
‫اخلفية املنفصلة‬ ‫معزولة من قاعدة‬ ‫التعرف عىل‬ ‫عىل‬ ‫‪al. 2007‬‬

‫ ‪-‬عىل مستوى‬ ‫‪CENPARMI‬‬ ‫«أجزاء الكلامت‬ ‫الكلامت\‬ ‫]‪[83‬‬


‫«أجزاء‬ ‫للشيكات العربية‪:‬‬ ‫العربية» كانت‬ ‫أجزاء‬
‫الكلامت‬ ‫ ‪ 67-‬نوع من‬ ‫‪%26.47‬‬ ‫الكلامت‬
‫العربية»‬ ‫أجزاء الكلامت‬ ‫العربية‬
‫(‪)PAWs‬‬ ‫كليا‬
‫ ‪-‬أعداد مراحل‬
‫السالسل‬
‫تعتمد عىل‬
‫أعداد حروف‬
‫«أجزاء‬
‫الكلامت»‬
‫ŸŸنامذج ماركوف‬ ‫ŸŸ‪ 17.000‬كلمة‬ ‫ŸŸنسبة اخلطأ‬ ‫التعرف‬ ‫‪Dehghan et‬‬
‫اخلفية املنفصلة‬ ‫مكتوبة بخط اليد‬ ‫للكلامت‪:‬‬ ‫عىل‬ ‫‪2001 .al‬‬
‫ ‪-‬سلسلة لكل‬ ‫ألسامء ‪ 198‬مدينة‬ ‫‪%34.95‬‬ ‫الكلامت‬ ‫]‪[32‬‬
‫كلمة‬ ‫خمتلفة‪ ،‬قسمت‬ ‫كليا‬
‫كالتايل‬
‫ ‪-‬أعداد مراحل‬
‫السالسل‬ ‫ ‪ %60-‬للتدريب‬
‫تعتمد عىل‬ ‫ ‪ %40-‬للتقييم‬
‫معدل عرض‬
‫صورة الكلمة‬

‫‪-42-‬‬
‫سامت النظام‬ ‫هدف‬
‫قاعدة البيانات‬ ‫نتائج التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫النظام‬
‫ŸŸنامذج ماركوف‬ ‫ŸŸ‪ 4.700‬كلمة‬ ‫ŸŸنسبة اخلطأ‬ ‫‪ Alma’deed‬التعرف‬
‫اخلفية املنفصلة‬ ‫مكتوبة بخط ‪100‬‬ ‫التقريبية‬ ‫‪ et al. 2002‬عىل‬
‫ ‪-‬سلسلة لكل‬ ‫كاتب‬ ‫للكلامت‪:‬‬ ‫الكلامت‬ ‫]‪[84‬‬
‫كلمة‬ ‫ ‪-‬عدد الكلامت‬ ‫‪ ،%40‬تم‬ ‫كليا‬
‫املختلفة ‪47‬‬ ‫استدراكها إىل‬
‫ ‪-‬أوائل املرحل‬
‫‪ %31‬باملعاجلة‬
‫تصنف‬ ‫ ‪-‬ثلثان للتدريب‬
‫الالحقة‬
‫الكلامت إىل‬ ‫وثلث للتقييم‬
‫جمموعات‬
‫أولية‬
‫ŸŸعدة نظم‬ ‫ŸŸ‪ 4.800‬كلمة‬ ‫ŸŸنسبة اخلطأ‬ ‫التعرف‬ ‫‪Farah et al.‬‬
‫تصنيف جتمع‬ ‫مكتوبة بخط ‪100‬‬ ‫التقريبية‬ ‫عىل‬ ‫]‪2006 [85‬‬
‫نتائجها إلصدار‬ ‫كاتب‬ ‫للكلامت‪%6 :‬‬ ‫الكلامت‬
‫احلكم النهائي‪:‬‬ ‫ ‪-‬عدد الكلامت‬ ‫كليا‬
‫ ‪ -‬شبكات‬ ‫املختلفة ‪48‬‬
‫عصبية‬ ‫ ‪1.200-‬‬
‫اصطناعية‪،‬‬ ‫للتدريب‬
‫ ‪-‬اجلريان‬ ‫ ‪ 3.600-‬للتقييم‬
‫األقرب‬
‫ ‪-‬اجلريان‬
‫األقرب‬
‫الضبابية‬
‫ŸŸاملالمح هيكلية‪:‬‬
‫كصواعد‬
‫الكلامت‬
‫ونوازهلا‬
‫وحلقاهتا املغلقة‬

‫‪-43-‬‬
‫‪ 4.2.2‬أهم بحوث التعرف عىل قاعدة بيانات‪IFN/ENIT‬‬

‫يقدم جدول ‪ 3‬بيانات ألهم البحوث التي اعتمدت قاعدة بيانات ‪.IFN/ENIT‬‬
‫ونالحظ أن استخدام املصنفات املستندة إىل نامذج ماركوف اخلفية ‪ HMM‬هي النهج‬
‫السائد هلذه الفئة‪ .‬بجانب التحديات التقليدية للمعاجلة املسبقة‪ ،‬وتطوير املالمح‪،‬‬
‫واالستخدام الفعال للمصنفات؛ جيب أن يقرر املتعامل مع كلامت قاعدة بيانات ‪IFN/‬‬
‫‪ ENIT‬وحدات النمذجة التي سيعمل عليها (األحرف أو املحارف أو أجزاء املحارف‪،‬‬
‫أو الكلامت‪ ،‬أو أجزاء الكلامت)‪.‬‬
‫جدول (‪ :)٣‬بعض أهم بحوث التعرف عىل كلامت قاعدة بيانات ‪.IFN/ENI‬‬
‫أجزاء القاعدة‬
‫نسبة اخلطأ‬
‫سامت النظام‬ ‫املستعملة‬
‫مالحظات‬ ‫يف التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫للتدريب‪-‬‬
‫الكلمي‬
‫والتقييم‬
‫ŸŸنظام هجني من‪:‬‬ ‫‪Menasri et‬‬
‫ ‪-‬نامذج ماركوف‬ ‫]‪al. 2007 [47‬‬
‫اخلفية‬
‫ ‪-‬والشبكات‬
‫‪12.6‬‬ ‫‪abc–d‬‬
‫العصبية‬
‫االصطناعية‬
‫ŸŸمبني عىل التقطيع‬
‫الرصيح‬
‫ŸŸنامذج ماركوف اخلفية‬ ‫‪Benouareth‬‬
‫شبه‪-‬املتصلة‬ ‫‪et al. 2008‬‬
‫ ‪-‬سلسلة بعدد ثابت‬ ‫‪9.80‬‬ ‫‪abc–d‬‬ ‫]‪[12‬‬
‫من املراحل لكل‬
‫حمرف‬
‫النظام الفائز يف‬ ‫ŸŸثالث نامذج ماركوف‬ ‫‪12.78‬‬ ‫‪abcde–f‬‬ ‫‪Schambach‬‬
‫‪ICDAR2007‬‬ ‫للتعرف عىل املحارف‬ ‫‪et al. 2008‬‬
‫]‪[76‬‬ ‫‪26.06‬‬ ‫‪abcde–s‬‬ ‫]‪[44‬‬

‫‪-44-‬‬
‫أجزاء القاعدة‬
‫نسبة اخلطأ‬
‫سامت النظام‬ ‫املستعملة‬
‫مالحظات‬ ‫يف التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫للتدريب‪-‬‬
‫الكلمي‬
‫والتقييم‬
‫أصحاب النظام‬ ‫ŸŸعدة نامذج ماركوف‬ ‫‪Al-Hajj et al.‬‬
‫الفائز آنفا يف‬ ‫متصلة للتعرف عىل‬ ‫]‪2009 [29‬‬
‫‪ICDAR2005‬‬ ‫املحارف والفراغات‬
‫]‪[75‬‬
‫البيضاء‬ ‫‪9.04‬‬ ‫‪abc–d‬‬
‫ŸŸتنفيذ فكرة النوافذ‬
‫املنزلقة املائلة إضافة‬
‫إىل العادية‬
‫·نامذج ماركوف‬ ‫‪5.82‬‬ ‫‪abc-d‬‬ ‫‪Dreuw et‬‬
‫متصلة للتعرف عىل‬ ‫‪al. 2008 and‬‬
‫املحارف والفراغات‬ ‫]‪2009 [25][53‬‬
‫البيضاء‬
‫·متت االستعانة‬
‫بتحويرات صورية‬
‫لزيادة تنوع صور‬
‫التدريب‬
‫·إمكانية التأقلم عىل‬
‫خط معني متاحة‬
‫·املالمح مبنية عىل‬
‫‪11.22‬‬ ‫‪abcd-e‬‬
‫رشائح الصور‬
‫·استخدام خوارزمية‬
‫«حتليل املكونات‬
‫الرئيسية» (‪Principal‬‬
‫‪component‬‬
‫)‪)analysis (PCA‬‬
‫لتقليل عدد املالمح‬

‫‪-45-‬‬
‫أجزاء القاعدة‬
‫نسبة اخلطأ‬
‫سامت النظام‬ ‫املستعملة‬
‫مالحظات‬ ‫يف التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫للتدريب‪-‬‬
‫الكلمي‬
‫والتقييم‬
‫ŸŸنامذج ماركوف‬ ‫‪20.4‬‬ ‫‪abcd–e‬‬ ‫‪Kessentini et‬‬
‫متعددة الروافد‬ ‫‪17.91‬‬ ‫‪abcde–f‬‬ ‫]‪al. 2010 [31‬‬
‫ŸŸمالمح كنتورية ومن‬
‫العنارص الصورية‬
‫ŸŸكل ملمح يعرب يف‬ ‫‪25.49‬‬ ‫‪abcde–s‬‬
‫رافد مستقل‬

‫ŸŸنامذج ماركوف‬ ‫‪Pechwitz et‬‬


‫اخلفية شبه‪-‬املتصلة‬ ‫]‪al. 2012 [41‬‬
‫للمحارف‬
‫ŸŸمالمح من العنارص‬ ‫‪8.2‬‬ ‫‪abc–d‬‬
‫الصورية‬
‫ŸŸالتدريب بخوارزمية‬
‫‪Viterbi‬‬

‫ŸŸنامذج ماركوف اخلفية‬ ‫‪Natarajan et‬‬


‫املتصلة للمحارف‬ ‫]‪al. 2012 [8‬‬
‫‪10.6‬‬ ‫‪abc–d‬‬
‫ŸŸالتأقلم التلقائي عىل‬
‫خط معني‬
‫ŸŸنامذج ماركوف مع‬ ‫‪Rothacker‬‬
‫حقيبة مالمح‬ ‫‪and Fink‬‬
‫ŸŸاستخدام «حتليل‬ ‫]‪2012 [86‬‬
‫املكونات الرئيسية»‬ ‫‪3.8‬‬ ‫‪abc–d‬‬
‫)‪ )PCA‬لتقليل عدد‬
‫املالمح‬

‫صاحب النظام الفائز‬ ‫ŸŸشبكة عصبية متكررة‬ ‫‪6.63‬‬ ‫‪abcde–f‬‬ ‫‪2012 Graves‬‬
‫يف مسابقة ‪ICDAR‬‬ ‫(نواة تعلم عميق)‬ ‫]‪[60‬‬
‫·بنية ثنائية للذاكرة‬
‫]‪2009 [87‬‬
‫قصرية املدى طويلة‬ ‫‪18.94‬‬ ‫‪abcde–s‬‬
‫ŸŸمالمح من العنارص‬
‫الصورية‬

‫‪-46-‬‬
‫أجزاء القاعدة‬
‫نسبة اخلطأ‬
‫سامت النظام‬ ‫املستعملة‬
‫مالحظات‬ ‫يف التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫للتدريب‪-‬‬
‫الكلمي‬
‫والتقييم‬
‫ŸŸنظام هيكيل‬ ‫التدريب عىل‬ ‫‪Parvez and‬‬
‫ŸŸمصنف اجلار األقرب‬ ‫حروف مقطعة‬
‫‪Mahmoud‬‬
‫ŸŸاملحارف ممثلة عرب‬ ‫ليست من‬
‫‪20.42‬‬ ‫‪IFN/ENIT‬‬ ‫]‪2013 [88‬‬
‫مقاربة املضلعات‬
‫الضبابية‬ ‫والتقييم عىل‬
‫‪abcd–e‬‬
‫ŸŸعدة نامذج ماركوف‬ ‫‪2.3‬‬ ‫‪abc–d‬‬ ‫‪Azeem and‬‬
‫متصلة للتعرف عىل‬ ‫‪6.56‬‬ ‫‪abcd–e‬‬ ‫‪Ahmed 2013‬‬
‫املحارف والفراغات‬ ‫]‪[30‬‬
‫البيضاء بعد تطبيعه‬ ‫‪6.9‬‬ ‫‪abcde–f‬‬
‫عرضها‬
‫ŸŸمالمح التدرج‬
‫والتقعر‬
‫ŸŸإعادة تنفيذ فكرة‬ ‫‪15.2‬‬ ‫‪abcde–s‬‬
‫النوافذ املنزلقة املائلة‬
‫إضافة إىل العادية‬
‫]‪[29‬‬
‫أصحاب النظام‬ ‫ŸŸنامذج ماركوف اخلفية‬ ‫‪4.7‬‬ ‫‪abc–d‬‬ ‫‪Giménez et‬‬
‫الفائز ]‪ [89‬يف‬ ‫البرينولية‬ ‫‪6.1‬‬ ‫‪abcd–e‬‬ ‫]‪al. 2014 [90‬‬
‫‪ICFHR2010‬‬ ‫ŸŸاملالمح‪ :‬العنارص‬
‫]‪[78‬‬ ‫الصورية الثنائية‬ ‫‪7.80‬‬ ‫‪abcde–f‬‬
‫‪15.38‬‬ ‫‪abcde–s‬‬
‫ŸŸشبكة عصبية متكررة‬ ‫‪1.04‬‬ ‫‪abc–d‬‬ ‫‪Abandah et‬‬
‫(نواة تعلم عميق)‬ ‫‪6.54‬‬ ‫‪abcd–e‬‬ ‫]‪al. 2014 [61‬‬
‫ŸŸبنية ثنائية للذاكرة‬
‫قصرية املدى طويلة‬ ‫‪7.54‬‬ ‫‪abcde–f‬‬
‫ŸŸتقطيع رصيح‬
‫ŸŸعدة مالمح متنوعة‬ ‫‪15.20‬‬ ‫‪abcde–s‬‬

‫‪-47-‬‬
‫أجزاء القاعدة‬
‫نسبة اخلطأ‬
‫سامت النظام‬ ‫املستعملة‬
‫مالحظات‬ ‫يف التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫للتدريب‪-‬‬
‫الكلمي‬
‫والتقييم‬
‫عرضوا النظام الفائز‬ ‫ŸŸشبكة عصبية متكررة‬ ‫‪7.80‬‬ ‫‪abcde–f‬‬ ‫‪Hamdani et‬‬
‫يف ‪ICFHR‬‬ ‫مع نامذج ماركوف‬ ‫]‪al. 2014 [79‬‬
‫اخلفية املتصلة‬ ‫]‪[26‬‬
‫‪[79] 2011‬‬
‫ŸŸاملالمح تضمنت‬
‫العنارص الصورية‬
‫الرمادية‬
‫·استخدام «حتليل‬
‫املكونات الرئيسية»‬ ‫‪15.45‬‬ ‫‪abcde–s‬‬
‫)‪ )PCA‬لتقليل عدد‬
‫املالمح‬
‫·تم استخدام‬
‫خوارزمية ‪Viterbi‬‬
‫جزئيا‬
‫ŸŸنامذج ماركوف‬ ‫‪2.44‬‬ ‫‪abc–d‬‬ ‫‪Ahmad et al.‬‬
‫اخلفية املتصلة متعددة‬ ‫‪5.55‬‬ ‫‪abcd–e‬‬ ‫‪2013. 2014‬‬
‫الروافد‬ ‫]‪[49،50‬‬
‫ŸŸنامذج ألبعاض‬ ‫‪6.40‬‬ ‫‪abcde–f‬‬
‫املحارف (حتت‪-‬‬
‫املحرف أو ‪sub-‬‬
‫‪)characters‬‬
‫‪12.14‬‬ ‫‪abcde–s‬‬
‫وللفراغات البيضاء‬
‫وللتطويل بني‬
‫احلروف‬
‫ŸŸنامذج ماركوف‬ ‫‪1.92‬‬ ‫‪abc–d‬‬ ‫‪Ahmad and‬‬
‫اخلفية املتصلة متعددة‬ ‫‪5.07‬‬ ‫‪abcd–e‬‬ ‫]‪Fink [52‬‬
‫الروافد‬
‫ŸŸفصل الكتابة عن‬ ‫‪7.70‬‬ ‫‪abcde–f‬‬
‫النقط والتشكيل‬ ‫‪15.45‬‬ ‫‪abcde–s‬‬

‫‪-48-‬‬
‫أجزاء القاعدة‬
‫نسبة اخلطأ‬
‫سامت النظام‬ ‫املستعملة‬
‫مالحظات‬ ‫يف التعرف‬ ‫مرجع النظام‬
‫املخترصة‬ ‫للتدريب‪-‬‬
‫الكلمي‬
‫والتقييم‬
‫اختلفت النتائج‬ ‫ŸŸنامذج ماركوف اخلفية‬ ‫تبدأ من‬ ‫‪Stahlberg‬‬
‫‪abc–d‬‬
‫باختالف‬ ‫مع التعلم العميق‬ ‫‪ 2.4‬وتزيد‬ ‫‪and Vogel‬‬
‫تكوينات املالمح‬ ‫للتدريب‬ ‫تبدأ من‬ ‫]‪2015 [42‬‬
‫واسرتاتيجيات‬ ‫ŸŸتقطيع ضمني‬ ‫‪abcd–e‬‬
‫‪ 6.1‬وتزيد‬
‫التدريب‬ ‫باستخدام نامذج‬
‫ماركوف اخلفية هتيئة‬ ‫تبدأ من‬
‫‪abcde–f‬‬
‫للتعلم العميق‬ ‫‪ 6.8‬وتزيد‬
‫ŸŸاملالمح تضمنت‬
‫العنارص الصورية‬
‫الرمادية‬
‫ŸŸاستخدام «حتليل‬ ‫تبدأ من‬
‫املكونات الرئيسية»‬ ‫‪11.5‬‬ ‫‪abcde–s‬‬
‫(‪ )PCA‬لتقليل عدد‬ ‫وتزيد‬
‫املالمح‬
‫ŸŸأقلمة التدريب خلط‬
‫الكاتب املعني‬

‫‪ 4.2.3‬أهم بحوث التعرف اآليل عىل كلامت حرة‬


‫وأخريا‪ ،‬نعرض يف جدول ‪ 4‬نتائج أنظمة التعرف عىل نصوص الصور التي حتوي‬
‫عدة كلامت حرة‪ .‬فالفرق بني ما ههنا وما قبله أن هذه بمقدورها االعتامد عىل نامذج‬
‫لغوية عامة لتحسني النتائج‪ .‬عالوة عىل ذلك‪ ،‬فبعض األنظمة هنا تعالج صورا تتضمن‬
‫عدة أسطر‪ ،‬مما يضفي بعدا آخر مهام للمسألة‪ ،‬وهو تقطيع األسطر ضمنيا‪.‬‬

‫‪-49-‬‬
‫جدول ‪ 4‬بعض أهم بحوث التعرف عىل الصور التي حتوي عدة كلامت حرة‪.‬‬
‫نسبة اخلطأ يف‬
‫سامت النظام املخترصة‬ ‫قاعدة البيانات املستعملة‬ ‫مرجع النظام‬
‫التعرف الكلمي‬
‫ŸŸسالسل ماركوف املتصلة‬ ‫قاعدة مرشوع حتليل‬ ‫‪%30.0‬‬ ‫‪Saleem et‬‬
‫ŸŸالعديد من املالمح‪ ،‬وتم‬ ‫وترمجة وتصنيف‬ ‫‪al. 2009‬‬
‫تقليص عددها آليا‬ ‫املستندات متعددة اللغات‬ ‫]‪[91‬‬
‫ŸŸاهلدف‪ :‬التعرف عىل‬ ‫آليا لألحرف‪ ،‬وتشمل‪:‬‬
‫املحارف ومن ثم‬ ‫ŸŸ‪ 8.250‬وثيقة للتدريب‬
‫الكلامت‬ ‫ŸŸ‪ 218‬وثيقة للتطوير‬
‫ŸŸاستخدمت نامذج لغوية‬ ‫ŸŸ‪ 224‬وثيقة للتقيني‬
‫مداها ‪ 3‬أحرف قدرت‬
‫من مدونة نصية قوامها‬
‫‪ 90‬مليون كلمة عربية‬
‫(‪ 92‬ألف كلمة بحذف‬
‫التكرار)‬
‫ŸŸسالسل ماركوف املتصلة‬ ‫قاعدة «مرشوع حتليل‬ ‫‪%25.2‬‬ ‫‪Natarajan‬‬
‫ŸŸالعديد من املالمح‪ ،‬وتم‬ ‫وترمجة وتصنيف‬ ‫‪et al. 2012‬‬
‫تقليص عددها آليا‬ ‫املستندات متعددة اللغات‬ ‫]‪[8‬‬
‫ŸŸاهلدف‪ :‬التعرف عىل‬ ‫آليا» لألحرف‪ ،‬وتشمل‪:‬‬
‫املحارف ومن ثم‬ ‫ŸŸ‪ 37.608‬وثيقة‬
‫الكلامت‬ ‫للتدريب‬
‫ŸŸإمكانية التأقلم عىل خط‬ ‫ŸŸ‪ 868‬وثيقة للتطوير‬
‫كاتب معني‬ ‫ŸŸ‪ 885‬وثيقة للتقييم‬
‫ŸŸاستخدمت نامذج لغوية‬
‫مداها ‪ 3‬أحرف قدرت‬
‫من مدونة نصية قوامها‬
‫‪ 217‬مليون كلمة عربية‬
‫(‪ 120‬ألف كلمة بحذف‬
‫التكرار)‬

‫‪-50-‬‬
‫نسبة اخلطأ يف‬
‫سامت النظام املخترصة‬ ‫قاعدة البيانات املستعملة‬ ‫مرجع النظام‬
‫التعرف الكلمي‬
‫ŸŸسالسل ماركوف املتصلة‬ ‫مرشوع حتليل وترمجة‬ ‫‪%34.1‬‬ ‫‪Hamdani et‬‬
‫ŸŸاملالمح تضمنت العنارص‬ ‫وتصنيف املستندات‬ ‫للتعرف املقيد‬ ‫‪al. 2013‬‬
‫الصورية الرمادية‬ ‫متعددة اللغات آليا‬ ‫عىل ‪ 90‬ألف‬ ‫]‪[92‬‬
‫ŸŸ«حتليل املكونات‬ ‫كلمة بدون‬
‫ŸŸ‪ 42‬ألف صفحة‬
‫الرئيسية» (‪ )PCA‬لتقليل‬ ‫التكرار‬
‫للتدريب‬
‫عدد املالمح‬ ‫‪%25.9‬‬
‫ŸŸو‪ 470‬صفحة للتطوير‬
‫ŸŸيستخدم التعرف املقيد‬ ‫للتعرف بدون‬
‫كلامت التدريب كنموذج‬ ‫قيود عىل ‪200‬‬
‫لغوي بينام يستخدم‬ ‫ألف كلمة بدون‬
‫التعرف غري املقيد مدونة‬ ‫التكرار‬
‫نصية من مليار كلمة‬ ‫قاعدة بيانات «خط»‬ ‫‪%32.5‬‬
‫تقريبا‬ ‫للتعرف املقيد‬
‫ŸŸو‪ 9.475‬سطرا‬
‫عىل ‪ 15‬ألف‬
‫للتدريب‬
‫كلمة بدون‬
‫ŸŸو‪ 1.902‬سطرا‬ ‫التكرار‬
‫للتطوير‬
‫ŸŸو‪ 1.997‬سطرا للتقييم‬ ‫‪%26.8‬‬
‫للتعرف بدون‬
‫قيود عىل ‪200‬‬
‫ألف كلمة بدون‬
‫التكرار‬

‫‪-51-‬‬
‫نسبة اخلطأ يف‬
‫سامت النظام املخترصة‬ ‫قاعدة البيانات املستعملة‬ ‫مرجع النظام‬
‫التعرف الكلمي‬
‫ŸŸالتعلم العميق (‪BLSTM‬‬ ‫قاعدة بيانات مرشوع‬ ‫‪%26.8‬‬ ‫‪Hamdani et‬‬
‫مع ‪ )RNNs‬جنبا إىل‬ ‫حتليل وترمجة وتصنيف‬ ‫للتعرف املقيد‬ ‫‪al. 2014‬‬
‫جنب مع سالسل‬ ‫املستندات متعددة اللغات‬ ‫عىل ‪ 94‬ألف‬ ‫]‪[26‬‬
‫ماركوف املتصلة‬ ‫آليا‬ ‫كلمة بدون‬
‫ŸŸاملالمح تضمنت العنارص‬ ‫التكرار‬
‫ŸŸ‪ 42‬ألف صفحة‬
‫الصورية الرمادية‬ ‫للتدريب‬ ‫‪%17.0‬‬
‫ŸŸ«حتليل املكونات‬ ‫ŸŸو‪ 470‬صفحة للتطوير‬ ‫للتعرف غري‬
‫الرئيسية» )‪ )PCA‬لتقليل‬ ‫املقيد‬
‫عدد املالمح‬
‫ŸŸيستخدم التعرف املقيد‬
‫كلامت التدريب كنموذج‬
‫لغوي بينام يستخدم‬
‫التعرف غري املقيد مدونة‬
‫نصية من مليار كلمة‬
‫تقريبا‬
‫ŸŸإمكانية التأقلم عىل خط‬
‫معني‬
‫ŸŸنظام هجني من التعلم‬ ‫قاعدة بيانات مرشوع‬ ‫‪%19.9‬‬ ‫‪Hamdani et‬‬
‫العميق ونامذج ماركوف‬ ‫حتليل وترمجة وتصنيف‬ ‫‪al. 2014‬‬
‫اخلفية‬ ‫املستندات متعددة اللغات‬ ‫]‪[62‬‬
‫ŸŸاملالمح تضمنت العنارص‬ ‫آليا‬
‫الصورية الرمادية‬ ‫ŸŸ‪ 42‬ألف صفحة‬
‫ŸŸنموذج لغوي من ‪4‬‬ ‫للتدريب‬
‫أحرف حمسوب من ‪400‬‬ ‫ŸŸو‪ 470‬صفحة للتطوير‬
‫ألف كلمة (بدون التكرار‬
‫ŸŸو‪ 633‬صفحة للتقييم‬
‫حمسوبة من مدونة نصية‬
‫من مليار كلمة)‬

‫‪-52-‬‬
‫نسبة اخلطأ يف‬
‫سامت النظام املخترصة‬ ‫قاعدة البيانات املستعملة‬ ‫مرجع النظام‬
‫التعرف الكلمي‬
‫ŸŸسالسل ماركوف املتصلة‬ ‫قاعدة بيانات مرشوع‬ ‫‪Cao et al.‬‬
‫ŸŸعدة مالمح من ضمنها‬ ‫حتليل وترمجة وتصنيف‬ ‫]‪2014 [34‬‬
‫مرشحات «جابر»‬ ‫املستندات متعددة اللغات‬
‫ŸŸإمكانية التأقلم عىل خط‬ ‫آليا‬
‫معني‬ ‫ŸŸجمموعة‪NIST‬‬ ‫‪%7.4‬‬
‫‪OpenHaRT 2013‬‬
‫ŸŸهتجني عدة أنظمة‬
‫لتحسني النتائج‬
‫ŸŸاملجموعة ‪i‬‬ ‫‪%22.1‬‬
‫ŸŸنظام هجني من التعلم‬ ‫قاعدة بيانات مرشوع‬ ‫‪20.1ŸŸ Bluche et al.‬‬
‫العميق ونامذج ماركوف‬ ‫حتليل وترمجة وتصنيف‬ ‫للتعرف املقيد‬ ‫]‪2014 [64‬‬
‫اخلفية للتعرف عىل‬ ‫املستندات متعددة اللغات‬ ‫ŸŸ‪18.4‬‬
‫املحارف‬ ‫آليا‬ ‫للتعرف غري‬
‫ŸŸاملالمح هي العنارص‬ ‫املقيد‬
‫الصورية‬
‫ŸŸيتم التعرف بعد ‪4‬‬
‫مسوحات من اجلهات‬
‫األربعة‬
‫ŸŸالتدريب عىل كلامت‬
‫منعزلة ثم عىل أسطر‬
‫ŸŸنموذج لغوي من ‪3‬‬
‫أحرف حمسوب من ‪60‬‬
‫ألف كلمة‬
‫ŸŸيستخدم التعرف املقيد‬
‫كلامت التدريب كنموذج‬
‫لغوي بينام يستخدم‬
‫التعرف غري املقيد مدونة‬
‫نصية من مليار كلمة‬
‫تقريبا (‪)GigaWord‬‬

‫‪-53-‬‬
‫نسبة اخلطأ يف‬
‫سامت النظام املخترصة‬ ‫قاعدة البيانات املستعملة‬ ‫مرجع النظام‬
‫التعرف الكلمي‬
‫ŸŸنظام هجني من التعلم‬ ‫قاعدة بيانات مرشوع‬ ‫‪%29.5‬‬ ‫‪Moysset et‬‬
‫العميق ونامذج ماركوف‬ ‫حتليل وترمجة وتصنيف‬ ‫‪al. 2014‬‬
‫اخلفية للتعرف عىل‬ ‫املستندات متعددة اللغات‬ ‫]‪[63‬‬
‫املحارف‪ ،‬والكلامت‪،‬‬ ‫آليا من ‪ 9.729‬منطقة‬
‫وأجزاء الكلامت العربية‬ ‫نصية‬
‫ŸŸاملالمح هي العنارص‬ ‫ŸŸ‪ 1.835‬منطقة نصية‬
‫الصورية‬ ‫للتدريب‬
‫ŸŸيتم التعرف بعد ‪4‬‬ ‫ŸŸ‪ 1.582‬منطقة نصية‬
‫مسوحات من اجلهات‬ ‫للتطوير‬
‫األربعة‬
‫ŸŸالتدريب بدأ بالكلامت‬
‫األدق ثم األقل دقة ثم‬
‫بتحويرات صورية عىل‬
‫الصور األصلية‬
‫ŸŸتضمن تقطيعا ضمنيا‬
‫لألسطر‬

‫‪-54-‬‬
‫نسبة اخلطأ يف‬
‫سامت النظام املخترصة‬ ‫قاعدة البيانات املستعملة‬ ‫مرجع النظام‬
‫التعرف الكلمي‬
‫ŸŸنظام هجني من التعلم‬ ‫قاعدة بيانات من مرشوع‬ ‫‪ %30.9‬عند‬ ‫‪BenZeghiba‬‬
‫العميق ونامذج ماركوف‬ ‫حتليل وترمجة وتصنيف‬ ‫استعامل نامذج‬ ‫‪2015 .et al‬‬
‫اخلفية‬ ‫املستندات متعددة اللغات‬ ‫لغوية من ‪4‬‬ ‫]‪[58‬‬
‫ŸŸنامذج لغوية ألشهر‬ ‫آليا‬ ‫أحرف ألجزاء‬
‫الكلامت‪ ،‬وأجزاء‬ ‫الكلامت‬
‫ŸŸ‪ 13.496‬سطرا‬
‫الكلامت العربية‬ ‫للتدريب‬ ‫‪ %33.2‬عند‬
‫ŸŸ ‪ 1.125‬سطرا للتطوير‬ ‫استعامل نامذج‬
‫ŸŸ‪ 2.093‬سطرا للتقييم‬ ‫لغوية من ‪3‬‬
‫أحرف للكلامت‬
‫وأجزاء الكلامت‬
‫قاعدة بيانات خط‬ ‫‪ %31.3‬عند‬
‫استعامل نامذج‬
‫ŸŸ‪ 4.428‬سطرا للتدريب‬
‫لغوية من ‪4‬‬
‫ŸŸ ‪ 876‬سطرا للتطوير‬ ‫أحرف ألجزاء‬
‫ŸŸ‪ 959‬سطرا للتقييم‬ ‫الكلامت‬

‫‪ %33.2‬عند‬
‫استعامل نامذج‬
‫لغوية من ‪3‬‬
‫أحرف للكلامت‬
‫وأجزاء الكلامت‬

‫‪-55-‬‬
‫نسبة اخلطأ يف‬
‫سامت النظام املخترصة‬ ‫قاعدة البيانات املستعملة‬ ‫مرجع النظام‬
‫التعرف الكلمي‬
‫ŸŸالتعلم العميق ونامذج‬ ‫قاعدة بيانات خط‬
‫بني ‪%30.5‬‬ ‫‪Stahlberg‬‬
‫ماركوف اخلفية‬ ‫و‪%31.6‬‬ ‫‪and Vogel‬‬
‫ŸŸ‪ 9.462‬سطرا للتدريب‬
‫ŸŸاملالمح تضمنت العنارص‬ ‫حسب تعديالت‬ ‫]‪2015 [42‬‬
‫ŸŸ ‪ 1.899‬سطرا للتطوير‬ ‫النظام‬
‫الصورية الرمادية‬
‫ŸŸ‪ 1.996‬سطرا للتقييم‬
‫ŸŸ«حتليل املكونات‬
‫الرئيسية» )‪ )PCA‬لتقليل‬
‫عدد املالمح‬
‫ŸŸإمكانية التأقلم عىل خط‬
‫كاتب معني‬
‫ŸŸنموذج لغوي ثالثي‬
‫األحرف مستنتج من‬
‫بيانات التدريب يف قاعدة‬
‫بيانات «خط»‬

‫‪ -5‬أبرز أوعية النرش يف جمال التعرف اآليل عىل النصوص املكتوبة‬


‫إن التعرف عىل النصوص املكتوبة ‪-‬بام يف ذلك التعرف عىل النص العريب‪ -‬كام هو‬
‫من فروع الذكاء االصطناعي‪ ،‬فهو أحد تطبيقات جمال التعرف عىل األنامط (‪Pattern‬‬
‫‪)Recognition‬؛ لذا‪ ،‬فإن كثريا من نشاطات املجال العلمية تقع ضمن اختصاصات‬
‫الرابطة الدولية للتعرف عىل األنامط (‪International Association for Pattern‬‬
‫‪ Recognition‬أو (‪ IAPR‬وهي رابطة دولية جتمع املنظامت العلمية واملهنية غري‬
‫الربحية ذات العالقة‪ ،‬وهي تعتمد منظم ًة واحد ًة فقط من كل دولة يشارك عربها‬
‫األفراد املهتمون بأنشطتها‪ .‬وفيام ييل ثبت بأبرز املؤمترات واملجالت املتعلقة بالرابطة‬
‫املذكورة وبغريها حيث يمكن نرش البحوث املتعلقة بالتعرف عىل النصوص العربية‬
‫املكتوبة بخط اليد فيها‪ ،‬نقسمها إىل مؤمترات وجمالت علمية‪.‬‬

‫‪-56-‬‬
‫‪ 5.1‬أهم مؤمترات املجال الدولية‬
‫تنبع أمهية حضور املؤمترات املتخصصة والنرش فيها من كوهنا بيئة مكثفة لتالقح‬
‫األفكار وفرص النقاش والتعرف عىل أحدث النشاطات وأنشط الباحثني يف املجال‪.‬‬
‫كام أهنا قد تشكل مسارت نرش رسيعة لألفكار اجلديدة‪ ،‬حيث ال حتتاج لنفس درجة‬
‫التمحيص واإلثباتات التي تشرتطها املجالت‪ .‬لذا‪ ،‬فقد ارتأينا إثراء الباب بنبذ عن‬
‫بعض أهم املؤمترات التي قد هتتم بمناقشة القراءة اآللية‪.‬‬

‫‪ 5.1.1‬املؤمتر الدويل حلدود التعرف عىل خط اليد‬


‫إن املؤمتر الدويل حلدود التعرف عىل خط اليد (‪International Conference‬‬
‫‪ on Frontiers in Handwriting Recognition‬أو ‪ )ICFHR‬مؤمتر رئييس لبحوث‬
‫وتطبيقات التعرف عىل خط اليد جيمع خرباء من األوساط األكاديمية والصناعية‬
‫لتبادل اخلربات وتعزيز البحث املشرتك وتطويره‪.‬‬
‫يوفر هذا املؤمتر ملتقى للباحثني يف جماالت التعرف الفوري واملرتاخي‪ ،‬وواجهات‬
‫التعامل بالقلم‪ ،‬ومعاجلة النامذج واالستبيانات آليا‪ ،‬ومكتبات اخلط الرقمية‪ ،‬والوصول‬
‫واستعادة مستندات اإلنرتنت‪ .‬تتبنى الرابطة الدولية للتعرف عىل األنامط هذا املؤمتر‬
‫برعاية جلنتها الفنية (أنظمة القراءة)‪ ،‬إذ تقام فعاليات املؤمتر مرة كل عامني (لألعوام‬
‫الزوجية)‪ ،‬وقد كان آخر انعقاد له عام ‪ 2018‬يف منطقة شالالت نياغارا بالواليات‬
‫املتحدة األمريكية‪ ،‬وسيكون انعقاده القادم عام ‪ 2020‬يف دورمتوند‪ ،‬أملانيا ‪-‬إن‬
‫شاء اهلل‪ .-‬يتم نرش البحوث املقبولة من قبل املؤمتر بواسطة معهد مهنديس الكهرباء‬
‫واإللكرتونيات (‪.)IEEE‬‬

‫‪ 5.1.2‬املؤمتر الدويل لتحليل الوثائق والتعرف عليها‬


‫ربام تعد سلسلة املؤمترات الدولية لتحليل الوثائق والتعرف عليها (‪International‬‬
‫‪ Conference on Document Analysis and Recognition‬أو ‪ )ICDAR‬األنجح‬
‫يف املجال‪ ،‬إذ هي أكرب جتمع دويل ورئيس للباحثني والعلامء واملامرسني يف جمتمع حتليل‬
‫املستندات ‪-‬بشكل عام‪.-‬‬

‫‪-57-‬‬
‫يوفر هذا املؤمتر منصة بارزة ملناقشة وتشجيع وتبادل اآلراء حول أحدث التطورات‬
‫يف حتليل املستندات وفهمها واسرتجاعها وتقييمها‪ ،‬حيث يشمل مصطلح «املستندات»‬
‫عندهم أنواعا خمتلفة من الوثائق‪ :‬ابتداء من أوراق الربدي التارخيية‪ ،‬ومرورا باملستندات‬
‫الورقية‪ ،‬إىل الصور امللتقطة بالكامريا حتى املستندات احلديثة متعددة الوسائط‪.‬‬
‫متت املصادقة عىل هذا املؤمتر من قبل اللجنة التقنية العارشة للرابطة الدولية للتعرف‬
‫عىل األنامط ‪( IAPR‬التعرف عىل األشكال الرسومية) واللجنة التقنية احلادية عرشة‬
‫(أنظمة القراءة)‪ ،‬وكان املؤمتر قد تأسس منذ ما يقرب من ثالثة عقود‪ ،‬وهو يقام حاليا‬
‫مرة كل عامني‪ .‬عقد مؤمتر‪ ICDAR‬األخري عام ‪ 2017‬يف كيوتو باليابان‪ .‬وسيعقد‬
‫القادم عام ‪ 2019‬يف سيدين بأسرتاليا ‪-‬إن شاء اهلل تعاىل‪ .-‬يتم نرش بحوث املؤمتر‬
‫وإصداراهتم بواسطة معهد مهنديس الكهرباء واإللكرتونيات (‪.)IEEE‬‬

‫‪ 5.1.3‬ورشة العمل الدولية ألنظمة حتليل املستندات‬


‫ورشة العمل الدولية ألنظمة حتليل املستندات (‪International Workshop on‬‬
‫‪ Document Analysis Systems‬أو (‪ DAS‬بوتق ٌة مهمة أيضا لبحوث التعرف عىل‬
‫النصوص املكتوبة بخط اليد‪ .‬تقام ورشات العمل هذه كل عامني‪ ،‬وقد عقدت آخرهن‬
‫–حتى كتابة هذا الكتاب‪ -‬عام ‪ 2018‬يف فيينا يف النمسا‪ ،‬وستعقد ورشة العمل التالية‬
‫عام ‪ 2020‬يف ووهان يف الصني ‪-‬إن شاء اهلل‪.-‬‬

‫‪ 5.1.4‬املؤمتر الدويل للتعرف عىل األنامط‬


‫املؤمتر الدويل للتعرف عىل األنامط (‪International Conference on Pattern‬‬
‫‪ Recognition‬أو ‪ )ICPR‬من أقدم املؤمترات املرعية من ِق َبل ‪ IAPR‬ومن أرسخها‬
‫يف جمال التعرف عىل األنامط عموما‪ .‬يرحب املؤمتر باملوضوعات املتعلقة بالتعرف عىل‬
‫النصوص املكتوبة بخط اليد ضمن اهتامماته‪ .‬ويعقد املؤمتر كل عامني‪ .‬كان انعقاده‬
‫األخري (الرابع والعرشون) عام ‪ 2018‬يف بكني بالصني‪ ،‬وسيعقد املؤمتر الدويل اخلامس‬
‫والعرشون‪-‬إن شاء اهلل‪ -‬عام ‪ 2020‬يف ميالنو‪ ،‬إيطاليا‪.‬‬

‫‪-58-‬‬
‫والتعرف اآليل عليها‬
‫ّ‬ ‫‪ 5.1.5‬الورشة الدولية لتحليل النصوص العربية ومشتقاهتا‬
‫والتعرف اآليل عليها‬
‫ّ‬ ‫الورشة الدولية لتحليل النصوص العربية ومشتقاهتا‬
‫(‪International Workshop on Arabic and Derived Script Analysis and‬‬
‫‪ Recognition‬أو ‪ )ASAR‬بوتقة سنوية حديثة ‪-‬نسبيا‪ -‬متخصصة يف حتليل النصوص‬
‫والتعرف اآليل عليها‪.‬‬
‫ّ‬ ‫العربية ونصوص اللغات املشتقة من العربية‬
‫تنعقد ورشة العمل الثالثة عام ‪ 2019‬بالتزامن مع انعقاد ‪ ICDAR‬للعام ‪2019‬‬
‫يف مدينة سيدين‪ ،‬أسرتاليا؛ وقد كانت ورشة العمل الثانية عام ‪ 2018‬يف مدينة لندن‪،‬‬
‫اململكة املتحدة؛ واألوىل (عام ‪ )2017‬يف نانيس‪ ،‬فرنسا‪.‬‬
‫وإضافة للمؤمترات وورشات العمل املذكورة‪ ،‬تنعقد مؤمترات أخرى ربام تكون‬
‫ذات صلة ببعض مواضيع التعرف اآليل عىل الكتابة العربية‪ ،‬مثل املؤمتر الدويل للتعرف‬
‫عىل األنامط وذكاء اآللة (‪International Conference on Pattern Recognition‬‬
‫‪ and Machine Intelligence‬أو ‪ )PReMI‬واملؤمتر الدويل لتحليل ومعاجلة الصور‬
‫(‪ International Conference on Image Analysis and Processing‬أو ‪،)ICIAP‬‬
‫واملؤمتر الدويل لتحليل الصور واألنامط احلاسوبية (‪International Conference‬‬
‫‪ on Computer Analysis of Images and Patterns‬أو ‪ )CAIP‬وحلقات العمل‬
‫الدولية املشرتكة مع ‪ IAPR‬حول التقنيات اإلحصائية للتعرف عىل األنامط (‪IAPR‬‬
‫‪Joint International Workshops on Statistical Techniques in Pattern‬‬
‫‪ Recognition‬أو ‪ )SPR‬وكذلك التعرف عىل األنامط اهليكلية والنحوية ( ‪Structural‬‬
‫‪and Syntactic Pattern Recognition‬أو (‪ .SSPR‬ويمكن االطالع عىل قائمة‬
‫املؤمترات املعتمدة من ‪IAPR‬يف صفحتهم عىل الشبكة العنكبوتية‪.‬‬

‫‪ 5.2‬أهم املجالت العلمية املحكمة التي تصلح لنرش املقاالت يف املجال‬


‫نلقي فيام ييل بعض الضوء عىل بعض املجالت البارزة التي يتم فيها نرش البحوث‬
‫املتعلقة بالتعرف عىل النصوص املكتوبة بخط اليد باللغة العربية‪:‬‬

‫‪-59-‬‬
‫‪ 5.2.1‬املجلة الدولية لتحليل والتعرف عىل املستندات‬
‫تركز املجلة الدولية لتحليل والتعرف عىل املستندات (‪The International Journal‬‬
‫‪ on Document Analysis and Recognition‬أو ‪ )IJDAR‬عىل نرش املقاالت العلمية‬
‫املحكمة املتخصصة يف حتليل الوثائق والتعرف عليها‪ .‬يتضمن ذلك املسامهات التي‬
‫تتناول التعرف عىل املحارف واألرقام والنصوص واخلطوط والرسومات والصور‬
‫والكتابة اليدوية والتوقيعات‪ ،‬باإلضافة إىل جمال حتليل هياكل الوثائق؛ كل ذلك‬
‫هبدف فهم حمتواها الداليل آليا‪ .‬تنرش البحوث املقبوولة يف هذه املجلة بواسطة النارش‬
‫‪.Springer Verlag‬‬

‫‪ 5.2.2‬تداوالت معهد مهنديس الكهرباء واإللكرتونيات لتحليل األنامط والذكاء اآليل‬


‫ملعهد مهنديس الكهرباء واإللكرتونيات الدويل (‪ )IEEE‬عدة «تداوالت»‬
‫(‪ )Transactions‬مهمة‪ ،‬منها رسائل حتليل األنامط والذكاء اآليل (‪Transactions‬‬
‫‪ on Pattern Analysis and Machine Intelligence‬أو ‪ .)TPAMI‬تعد هذه البوتقة‬
‫من أشهر املجالت وأجودها يف املجال‪ ،‬وهي تنرش يف مجيع املجاالت التقليدية لرؤية‬
‫احلاسب وفهم الصورة‪ ،‬وكذلك املجاالت التقليدية لتحليل النامذج والتعرف عليها‪،‬‬
‫وجماالت خمتارة من ذكاء اآللة‪ ،‬مع الرتكيز عىل التعلم اآليل لتحليل األنامط‪ .‬كام يمكن‬
‫أحيانا تغطية تقنيات البحث املرئي‪ ،‬وحتليل املستندات واخلط اليدوي‪ ،‬وحتليل الصور‬
‫الطبية‪ ،‬وحتليل الفيديو وغريها‪ .‬تصدر املجلة ‪ 12‬عد ًدا يف السنة‪.‬‬

‫‪ 5.2.3‬التعرف عىل األنامط‬


‫التعرف عىل األنامط (‪ Pattern recognition‬أو ‪ )PR‬بوتقة مهمة أخرى يف املجال‪.‬‬
‫أنشئت املجلة منذ ما يقارب ‪ 50‬عا ًما‪- ،‬أي يف السنوات األوىل لتطور علوم احلاسب‬
‫اآليل ثم توسعت بشكل أكرب‪.‬‬
‫تقبل املجلة األوراق التي تقدم مسامهات أصيلة يف نظريات ومنهجيات وتطبيقات‬
‫التعرف عىل األنامط يف أي جمال‪ ،‬برشط أن يتم رشح سياق العمل بشكل واضح‬
‫وترسيخه يف أدبيات التعرف عىل األنامط‪ .‬تنرش املجلة ‪ 12‬عددا يف العام ‪ 12‬عد ًدا يف‬
‫السنة بواسطة ‪.Elsevier Science B.V‬‬

‫‪-60-‬‬
‫‪ 5.2.4‬رسائل التعرف عىل األنامط‬
‫جملة «رسائل التعرف عىل األنامط» (‪ Pattern Recognition Letters‬أو ‪)PRL‬‬
‫املحكّمة تنرش مقاالت موجزة بوقت رسيع (نسبيا) بتغطية واسعة ألدبيات التعرف عىل‬
‫األنامط (وخصوصا املواضيع التي هتتم هبا كل من اللجان الفنية ملعهد الرابطة الدولية‬
‫للتعرف عىل األنامط)‪ ،‬تقبل املجلة األوراق البحثية النظرية واملنهجية والتجريبية‬
‫والتطبيقية‪ .‬معايري قبول املقاالت ترتكز يف أصالة البحث وجودته ووضوح طرحه‪ .‬يتم‬
‫نرش املجلة شهر ًيا بواسطة ‪.Elsevier Science B.V‬‬

‫‪ -٦‬اخلامتة‬
‫قطعت القراءة اآللية أشواطا منذ ظهرت‪ ،‬وما زالت معاجلة الكتابة العربية تتطور‬
‫يف هذا املضامر مع أساليب تعلم اآللة احلديثة‪ ،‬خاصة ما ال يتطلب منها تقطيع الكلامت‬
‫فصل‬
‫إىل حروف‪ ،‬كالتعرف الكيل والضمني يف نامذج ماركوف اخلفية والتعلم العميق‪ّ .‬‬
‫هذا الباب يف رشح ومقارنة أحدث بحوث املجال‪ ،‬ثم ُختم بثبت ألهم مظان املراجع‬
‫وأوعية النرش من جمالت ومؤمترات‪ ،‬نسأل اهلل تعاىل أن ينفع به قارئه وكاتبيه ونارشه‪.‬‬

‫‪-61-‬‬
‫املراجع‬

[1] T. Gustav. Reading machine. US Patent 2.115.563. 1938.


[2] Timeline of optical character recognition. (n.d.). https://
en.wikipedia.org/wiki/Timeline_of_optical_character_
recognition.
‫ قواعد البيانات اإللكرتونية للمخطوطات الرتاثية العربية‬،‫سامح عويضة‬ [3]
‫ يوسف‬:‫ حترير‬،‫ احلرف العريب والتقنية‬،‫ احلارض واملستقبل‬:‫واإلسالمية‬
2015. ،‫ مركز امللك عبداهلل بن عبدالعزيز الدويل خلدمة اللغة العربية‬،‫العريان‬
[4] M.Z. Khedher. G.A. Abandah. Arabic character recognition
using approximate stroke sequence. in: Third Int’l Conf. Lang.
Resour. Eval. (LREC 2002). Canary Islands. Spain. 2002: pp.
28–34.
[5] Y. Elarian. S. Awaida. S.A. Mahmoud. Design of Datasets for
Handwritten Arabic Texts Research. in: 1st Saudi High. Educ.
Students Conf. Riyadh. 2010.
[6] S.A. Mahmoud. I. Ahmad. M. Alshayeb. W.G. Al-Khatib. M.T.
Parvez. G.A. Fink. V. Märgner. H. EL Abed. KHATT: Arabic
Offline Handwritten Text Database. in: Proc. 13th Int. Conf.
Front. Handwrit. Recognit. (ICFHR 2012). IEEE. 2012: pp. 447-
452.
[7] Y. Al-Ohali. M. Cheriet. C.Y. Suen. Databases for recognition of
handwritten Arabic cheques. Pattern Recognit. 36 (2003) 111–
121. doi:10.1016/S0031-3203(02)00064-X.
[8] P. Natarajan. R. Prasad. H. Cao. K. Subramanian. S. Saleem.
D. Belanger. S. Vitaladevuni. M. Kamali. E. MacRostie. Arabic
Text Recognition Using a Script-Independent Methodology:
A Unified HMM-Based Approach for Machine-Printed and

-62-
Handwritten Text. in: V. Märgner. H. El Abed (Eds.). Guid. to
OCR Arab. Scripts. Springer London. London. 2012: pp. 485-
505. doi:10.1007/978-1-4471-4072-6_20.
[9] Y. Elarian. I. Ahmad. S. Awaida. W. Al-Khatib. A. Zidouri. Arabic
ligatures: Analysis and application in text recognition. in: Proc.
Int. Conf. Doc. Anal. Recognition. ICDAR. 2015. doi:10.1109/
ICDAR.2015.7333891.
[10] Y. Elarian. A Lexicon of Connected Components for Arabic
Optical Text Recognition. Jordan University of Science and
Technology. Irbid. Jordan. 2006.
[11] U. V. Marti. H. Bunke. The IAM-database: An English sentence
database for offline handwriting recognition. Int. J. Doc. Anal.
Recognit. 5 (2003) 39–46. doi:10.1007/s100320200071.
[12] A. Benouareth. A. Ennaji. M. Sellami. Semi-continuous HMMs
with explicit state duration for unconstrained Arabic word
modeling and recognition. Pattern Recognit. Lett. 29 (2008)
1742–1752.
[13] M. Pechwitz. V. Märgner. H. El Abed. Comparison of Two
Different Feature Sets for Offline Recognition of Handwritten
Arabic Words. Proc. Tenth Int. Work. Front. Handwrit. Recognit.
(IWFHR 2006). (2006). https://hal.archives-ouvertes.fr/
inria-00112643/ (accessed February 9. 2016).
[14] G.A. Abandah. F.T. Jamour. Recognizing handwritten Arabic
script through efficient skeleton-based grapheme segmentation
algorithm. in: 2010 10th Int. Conf. Intell. Syst. Des. Appl.. 2010:
pp. 977–982.
[15] A.M. Al-Shatnawi. K. Omar. A comparative study between
methods of Arabic baseline detection. in: Proc. Int. Conf.
Electr. Eng. Informatics. 2009: pp. 73–77. doi:10.1109/
ICEEI.2009.5254814.

-63-
[16] H. El Abed. V. Märgner. Comparison of Different Preprocessing
and Feature Extraction Methods for Offline Recognition of
Handwritten ArabicWords. in: Proc. Ninth Int. Conf. Doc. Anal.
Recognit. (ICDAR 2007). 2007: pp. 974-978. doi:10.1109/
ICDAR.2007.4377060.
[17] Text extraction from skew images opencv. (n.d.). https://
stackoverflow.com/questions/34022113/text-extraction-from-
skew-images-opencv.
[18] H. Akram. S. Khalid. others. Using features of local densities.
statistics and HMM toolkit (HTK) for offline Arabic handwriting
text recognition. J. Electr. Syst. Inf. Technol. 4 (2017) 387–396.
[19] A.M. Al-Shatnawi. A Preprocessing Model For Handwritten
Arabic Texts Based on Voronoi Diagrams. Int. J. Comput. Sci.
Inf. Technol. 7 (2015). doi:10.5121/ijcsit.2015.7601.
[20] M. Wienecke. G.A. Fink. G. Sagerer. Toward automatic video-
based whiteboard reading. Int. J. Doc. Anal. Recognit. 7 (2005)
188–200.
[21] Y. Elarian. Analysis of Some Arabic Scripting Units in
Computational-Linguistic Resources. in: 1st Saudi High. Educ.
Students Conf. Riyadh. 2010.
[22] Y.S. Elarian. S.A. Mahmoud. An Adaptive Line Segmentation
Algorithm (ALSA) for Arabic. in: Proc. Int. Conf. Comput. Vis.
Pattern Recognit.. 2008: pp. 735–739.
[23] Y. Elarian. A. Zidouri. W. Al-Khatib. Ground-Truth and Metric for
the Evaluation of Arabic Handwritten Character Segmentation.
in: 2014 14th Int. Conf. Front. Handwrit. Recognit.. 2014: pp.
766–770.
[24] I.S. Abuhaiba. A discrete Arabic script for better automatic
document understanding. Arab. J. Sci. Eng. 28 (2003) 77–94.

-64-
[25] P. Dreuw. S. Jonas. H. Ney. White-space models for offline
Arabic handwriting recognition. in: Proc. 19th Int. Conf. Pattern
Recognit. (ICPR 2008). 2008: pp. 1–4.
[26] M. Hamdani. P. Doetsch. M. Kozielski. A.E.-D. Mousa. H. Ney.
The RWTH Large Vocabulary Arabic Handwriting Recognition
System. in: Proc. 11th IAPR Int. Work. Doc. Anal. Syst. (DAS
2014). IEEE. 2014: pp. 111–115. doi:10.1109/DAS.2014.61.
[27] H. El Abed. V. Märgner. How to Improve a Handwriting
Recognition System. in: Proc. 10th Int. Conf. Doc. Anal. Recognit.
(ICDAR 2009). IEEE. 2009: pp. 1181-1185. doi:10.1109/
ICDAR.2009.11.
[28] R. El-Hajj. L. Likforman-Sulem. C. Mokbel. Arabic handwriting
recognition using baseline dependant features and hidden markov
modeling. in: Proc. Eighth Int. Conf. Doc. Anal. Recognit.
(ICDAR 2005). 2005: pp. 893–897.
[29] R. Al-Hajj Mohamad. L. Likforman-Sulem. C. Mokbel.
Combining slanted-frame classifiers for improved HMM-based
Arabic handwriting recognition. IEEE Trans. Pattern Anal.
Mach. Intell. 31 (2009) 1165–1177.
[30] S. Azeem. H. Ahmed. Effective technique for the recognition of
offline Arabic handwritten words using hidden Markov models.
Int. J. Doc. Anal. Recognit. 16 (2013) 399–412. doi:10.1007/
s10032-013-0201-8.
[31] Y. Kessentini. T. Paquet. A.M. Ben Hamadou. Off-line
handwritten word recognition using multi-stream hidden Markov
models. Pattern Recognit. Lett. 31 (2010) 60–70.
[32] M. Dehghan. K. Faez. M. Ahmadi. M. Shridhar. Handwritten
Farsi (Arabic) word recognition: a holistic approach using discrete
HMM. Pattern Recognit. 34 (2001) 1057–1065. doi:10.1016/
S0031-3203(00)00051-0.

-65-
[33] R. Safabakhsh. P. Adibi. Nastaaligh handwritten word recognition
using a continuous-density variable-duration HMM. Arab. J. Sci.
Eng. 30 (2005) 95–118.
[34] H. Cao. P. Natarajan. X. Peng. K. Subramanian. D. Belanger. N.
Li. Progress in the Raytheon BBN Arabic Offline Handwriting
Recognition System. in: Proc. Int. Conf. Front. Handwrit.
Recognit. (ICFHR 2014). IEEE. 2014: pp. 555–560. doi:10.1109/
ICFHR.2014.99.
[35] N. Azizi. N. Farah. M. Sellami. A. Ennaji. Using Diversity in
Classifier Set Selection for Arabic Handwritten Recognition. in:
N. Gayar. J. Kittler. F. Roli (Eds.). Proc. 9th Int. Work. Mult.
Classif. Syst.. Springer Berlin Heidelberg. Berlin. Heidelberg.
2010: pp. 235–244. doi:10.1007/978-3-642-12127-2_24.
[36] B. Yanikoglu. P.A. Sandon. Segmentation of off-line cursive
handwriting using linear programming. Pattern Recognit. 31
(1998) 1825–1833.
[37] Y. Elarian. F. Idris. A Lexicon of Connected Components for
Arabic Optical Character Recognition. in: Int. Work. Front.
Arab. Handwrit. Recognition. Istanbul. 2011.
[38] S. Alansary. M. Nagi. N. Adly. Processing Arabic Text Content:
The Encoding Component in an Interlingual System for Man-
Machine Communication in Natural Language”. in: Proc. 6th
Int. Conf. Lang. Eng.. 2006.
[39] S.A. Mahmoud. Recognition of writer-independent off-line
handwritten Arabic (Indian) numerals using hidden Markov
models. Signal Processing. 88 (2008) 844–857.
[40] S.M. Awaida. S.A. Mahmoud. A multiple feature/resolution
scheme to Arabic (Indian) numerals recognition using hidden
Markov models. Signal Processing. 89 (2009) 1176–1184.

-66-
[41] M. Pechwitz. H. El Abed. V. Märgner. Handwritten Arabic Word
Recognition Using the IFN/ENIT-database. in: V. Märgner. H.
El Abed (Eds.). Guid. to OCR Arab. Scripts. Springer London.
2012: pp. 297-313. doi:10.1007/978-1-4471-4072-6{_}8.
[42] F. Stahlberg. S. Vogel. The QCRI Recognition System for
Handwritten Arabic. in: V. Murino. E. Puppo (Eds.). Proc.
18th Int. Conf. Image Anal. Process. (ICIAP 2015). Springer
International Publishing. Genoa. Italy. 2015: pp. 276–286.
doi:10.1007/978-3-319-23234-8_26.
[43] E. Chammas. C. Mokbel. L. Likforman-Sulem. Arabic
handwritten document preprocessing and recognition. in: Proc.
13th Int. Conf. Doc. Anal. Recognit. (ICDAR 2015). 2015: pp.
451–455. doi:10.1109/ICDAR.2015.7333802.
[44] M.P. Schambach. J. Rottland. T. Alary. How to convert a Latin
handwriting recognition system to Arabic. in: Proc. 11th Int.
Conf. Front. Handwrit. Recognit. (ICFHR 2008). 2008: pp. 265–
270.
[45] R. Al-Hajj Mohamad. C. Mokbel. L. Likforman-Sulem.
Combination of hmm-based classifiers for the recognition of
arabic handwritten words. in: Proc. Ninth Int. Conf. Doc. Anal.
Recognit. (ICDAR 2007). 2007: pp. 959–963.
[46] M.S. Khorsheed. Recognising handwritten Arabic manuscripts
using a single hidden Markov model. Pattern Recognit. Lett. 24
(2003) 2235–2242.
[47] F. Menasri. N. Vincent. E. Augustin. M. Cheriet. Shape-based
alphabet for off-line Arabic handwriting recognition. in: Proc.
Ninth Int. Conf. Doc. Anal. Recognit. (ICDAR 2007). 2007: pp.
969–973.

-67-
[48] M. Hamdani. H. El Abed. M. Kherallah. A.M. Alimi. Combining
multiple HMMs using on-line and off-line features for off-line
arabic handwriting recognition. in: Proc. 10th Int. Conf. Doc.
Anal. Recognit. (ICDAR 2009). Ieee. 2009: pp. 201–205.
doi:10.1109/ICDAR.2009.40.
[49] I. Ahmad. L. Rothacker. G.A. Fink. S.A. Mahmoud. Novel sub-
character HMM models for arabic text recognition. in: Proc.
Int. Conf. Doc. Anal. Recognition. ICDAR. 2013. doi:10.1109/
ICDAR.2013.135.
[50] I. Ahmad. G.A. Fink. S.A. Mahmoud. Improvements in Sub-
character HMM Model Based Arabic Text Recognition. in: Proc.
14th Int. Conf. Front. Handwrit. Recognit. (ICFHR 2014). IEEE.
Crete. 2014: pp. 537–542. doi:10.1109/ICFHR.2014.96.
[51] Y.S. Elarian. I. Ahmad. S.M. Awaida. W.G. Al-Khatib. A. Zidouri.
Arabic Ligatures: Analysis and Application in Text Recognition.
in: Proc. 13th Int. Conf. Doc. Anal. Recognit. (ICDAR 2015).
IEEE. 2015: pp. 896–900.
[52] I. Ahmad. G.A. Fink. Multi-stage HMM based Arabic text
recognition with rescoring. in: Proc. 13th Int. Conf. Doc. Anal.
Recognit. (ICDAR 2015). IEEE. 2015: pp. 751–755. doi:10.1109/
ICDAR.2015.7333862.
[53] P. Dreuw. D. Rybach. C. Gollan. H. Ney. Writer Adaptive Training
and Writing Variant Model Refinement for Offline Arabic
Handwriting Recognition. in: Proc. 10th Int. Conf. Doc. Anal.
Recognit. (ICDAR 2009). IEEE. 2009: pp. 21–25. doi:10.1109/
ICDAR.2009.9.
[54] A. Benouareth. A. Ennaji. M. Sellami. HMMs with Explicit State
Duration Applied to Handwritten Arabic Word Recognition. in:
Proc. 18th Int. Conf. Pattern Recognit. (ICPR 2006). IEEE. 2006:
pp. 897–900. doi:10.1109/ICPR.2006.631.

-68-
[55] S. Alma’adeed. C. Higgins. D. Elliman. Recognition of off-line
handwritten Arabic words using hidden Markov model approach.
in: Proc. Object Recognit. Support. by User Interact. Serv.
Robot.. IEEE Comput. Soc. 2002: pp. 481–484. doi:10.1109/
ICPR.2002.1047981.
‫ مركز امللك عبداهلل بن‬،‫ احلرف العريب والتقنية‬،)‫[ يوسف العريان (حمررا‬56]
2015. ،‫عبدالعزيز الدويل خلدمة اللغة العربية‬
[57] P. Natarajan. D. Belanger. R. Prasad. M. Kamali. K. Subramanian.
P. Natarajan. Baseline Dependent Percentile Features for Offline
Arabic Handwriting Recognition. in: Proc. 11th Int. Conf. Doc.
Anal. Recognit. (ICDAR 2011). IEEE. 2011: pp. 329–333.
doi:10.1109/ICDAR.2011.74.
[58] M.F. BenZeghiba. J. Louradour. C. Kermorvant. Hybrid word/
Part-of-Arabic-Word Language Models for arabic text document
recognition. in: Proc. 13th Int. Conf. Doc. Anal. Recognit.
(ICDAR 2015). IEEE. 2015: pp. 671–675. doi:10.1109/
ICDAR.2015.7333846.
[59] A. Graves. J. Schmidhuber. Offline handwriting recognition with
multidimensional recurrent neural networks. in: Adv. Neural Inf.
Process. Syst.. 2009: pp. 545–552.
[60] A. Graves. Offline Arabic Handwriting Recognition with
Multidimensional Recurrent Neural Networks. in: V. Märgner.
H. El Abed (Eds.). Guid. to OCR Arab. Scripts. Springer London.
London. 2012: pp. 297-313. doi:10.1007/978-1-4471-4072-
6_12.
[61] G.A. Abandah. F.T. Jamour. E.A. Qaralleh. Recognizing
handwritten Arabic words using grapheme segmentation and
recurrent neural networks. Int. J. Doc. Anal. Recognit. 17 (2014)
275–291. doi:10.1007/s10032-014-0218-7.

-69-
[62] M. Hamdani. P. Doetsch. H. Ney. Improvement of Context
Dependent Modeling for Arabic Handwriting Recognition. in:
Proc. 14th Int. Conf. Front. Handwrit. Recognit. (ICFHR 2014).
IEEE. 2014: pp. 494–499. doi:10.1109/ICFHR.2014.89.
[63] B. Moysset. T. Bluche. M. Knibbe. M.F. Benzeghiba. R.
Messina. J. Louradour. C. Kermorvant. The A2iA Multi-lingual
Text Recognition System at the Second Maurdor Evaluation. in:
Proc. 14th Int. Conf. Front. Handwrit. Recognit. (ICFHR 2014).
IEEE. 2014: pp. 297–302. doi:10.1109/ICFHR.2014.57.
[64] T. Bluche. J. Louradour. M. Knibbe. B. Moysset. M.F.
Benzeghiba. C. Kermorvant. The A2iA Arabic Handwritten Text
Recognition System at the Open HaRT2013 Evaluation. in: Proc.
11th IAPR Int. Work. Doc. Anal. Syst. (DAS 2014). IEEE. 2014:
pp. 161–165. doi:10.1109/DAS.2014.40.
[65] O. Morillot. C. Oprean. L. Likforman-Sulem. C. Mokbel. E.
Chammas. E. Grosicki. The UOB-Telecom ParisTech Arabic
Handwriting Recognition and Translation Systems for the
OpenHart 2013 Competition. in: Proc. 12th Int. Conf. Doc. Anal.
Recognit. (ICDAR 2013). Washington DC. United States. 2013:
p. NIST. https://hal.archives-ouvertes.fr/hal-00948985.
[66] T. Bluche. H. Ney. C. Kermorvant. A Comparison of Sequence-
Trained Deep Neural Networks and Recurrent Neural Networks
Optical Modeling for Handwriting Recognition. in: L. Besacier.
A.-H. Dediu. C. Mart\’in-Vide (Eds.). Proc. Second Int. Conf.
Stat. Lang. Speech Process. SLSP2014. Springer International
Publishing. Grenoble. 2014: pp. 199–210. doi:10.1007/978-3-
319-11397-5_15.
[67] N. Kharma. M. Ahmed. R. Ward. A New Comprehensive
Database of Hadritten Arabic Words . Numbers . and Signatures
used for OCR Testing. Can. Conf. Electr. Comput. Eng. (1999)
766–768.

-70-
[68] S. Al-Maadeed. D. Elliman. C. Higgins. A data base for Arabic
handwritten text recognition research. in: Proc. Eighth Int. Work.
Front. Handwrit. Recognit. (IWFHR 2002). IEEE Comput. Soc.
2002: pp. 485–489. doi:10.1109/IWFHR.2002.1030957.
[69] H. Alamri. J. Sadri. C.Y. Suen. N. Nobile. A Novel Comprehensive
Database for Arabic Off-Line Handwriting Recognition Huda
Alamri. in: Elev. Int. Conf. Front. Handwrit. Recognit.. Montreal.
Canada. 2008.
[70] E. El-Sherif. S. Abdleazeem. A two-stage system for Arabic
handwritten digit recognition tested on a new large database. in:
Int. Conf. Artificial Intell. Pattern Recognit.. 2007: pp. 237–242.
[71] S.M. Strassel. Linguistic Resources for Arabic Handwriting
Recognition. in: MEDAR Second Int. Conf. Arab. Lang. Resour.
Tools. Cairo. Egypt. April 22-23. 2009: pp. 37–41.
[72] A. Tong. M. Przybocki. V. Märgner. H. El Abed. NIST 2013
Open Handwriting Recognition and Translation (Open HaRT-
13) Evaluation. in: Proc. 11th IAPR Int. Work. Doc. Anal. Syst.
(DAS 2014). IEEE. 2014: pp. 81-85. doi:10.1109/DAS.2014.43.
[73] NIST. OpenHaRT 2013 Information Page. (n.d.). http://www.
nist.gov/itl/iad/mig/hart2013.cfm (accessed February 25. 2016).
[74] M. Pechwitz. S.S. Maddouri. V. Märgner. N. Ellouze. H.
Amiri. IFN/ENIT - Database of Handwritten Arabic Words. in:
7th Colloq. Int. Francoph. Sur l-Ecrit Le Doc. . CIFED 2002.
Hammamet. Tunis. 2002: pp. 129--136.
[75] V. Märgner. M. Pechwitz. H. El Abed. ICDAR 2005 Arabic
handwriting recognition competition. in: Proc. Eighth Int. Conf.
Doc. Anal. Recognit. (ICDAR 2005). IEEE. 2005: pp. 70-74 Vol.
1. doi:10.1109/ICDAR.2005.52.

-71-
[76] V. Märgner. H. El Abed. Arabic Handwriting Recognition
Competition. in: Proc. Ninth Int. Conf. Doc. Anal. Recognit.
(ICDAR 2007) Vol 2. IEEE. 2007: pp. 1274-1278. doi:10.1109/
ICDAR.2007.4377120.
[77] H. El Abed. V. Märgner. ICDAR 2009-Arabic handwriting
recognition competition. Int. J. Doc. Anal. Recognit. 14 (2010)
3-13. doi:10.1007/s10032-010-0117-5.
[78] V. Märgner. H. El Abed. ICFHR 2010 - Arabic Handwriting
Recognition Competition. in: Proc. 12th Int. Conf. Front.
Handwrit. Recognit. (ICFHR 2010). IEEE. 2010: pp. 709-714.
doi:10.1109/ICFHR.2010.115.
[79] V. Märgner. H. El Abed. ICDAR 2011 - Arabic Handwriting
Recognition Competition. in: Proc. 11th Int. Conf. Doc.
Anal. Recognit. (ICDAR 2011). IEEE. 2011: pp. 1444-1448.
doi:10.1109/ICDAR.2011.287.
[80] S.A. Mahmoud. I. Ahmad. W.G. Al-Khatib. M. Alshayeb. M.
Tanvir Parvez. V. Märgner. G.A. Fink. KHATT: An open Arabic
offline handwritten text database. Pattern Recognit. 47 (2014)
1096-1112. doi:10.1016/j.patcog.2013.08.009.
[81] H. Alamri. C. He. C.Y. Suen. A New Approach for Segmentation
and Recognition of Arabic Handwritten Touching Numeral
Pairs. Comput. Anal. Images Patterns. 5702 (2009) 165–172.
doi:10.1007/978-3-642-03767-2.
[82] S.A. Mahmoud. W.G. Al-Khatib. Recognition of Arabic (Indian)
bank check digits using log-gabor filters. Appl. Intell. 35 (2010)
445–456. doi:10.1007/s10489-010-0235-2.
[83] M. Cheriet. Y. Al-Ohali. N. Ayat. C.Y. Suen. Arabic Cheque
Processing System: Issues and Future Trends. in: B.B. Chaudhuri
(Ed.). Digit. Doc. Process.. Springer London. London. 2007: pp.
213–234. doi:10.1007/978-1-84628-726-8.

-72-
[84] S. Alma’adeed. C. Higgins. D. Elliman. Off-line recognition
of handwritten Arabic words using multiple hidden Markov
models. Knowledge-Based Syst. 17 (2004) 75–79. doi:http://
dx.doi.org/10.1016/j.knosys.2004.03.002.
[85] N. Farah. L. Souici-Meslati. M. Sellami. Classifiers combination
and syntax analysis for Arabic literal amount recognition.
Eng. Appl. Artif. Intell. 19 (2006) 29–39. doi:10.1016/j.
engappai.2005.05.005.
[86] L. Rothacker. S. Vajda. G.A. Fink. Bag-of-Features
Representations for Offline Handwriting Recognition Applied
to Arabic Script. in: Proc. 13th Int. Conf. Front. Handwrit.
Recognit. (ICFHR 2012). 2012: pp. 149–154. doi:10.1109/
ICFHR.2012.185.
[87] S. Mozaffari. H. Soltanizadeh. ICDAR 2009 Handwritten Farsi/
Arabic Character Recognition Competition. in: Proc. 10th Int.
Conf. Doc. Anal. Recognit. (ICDAR 2009). 2009: pp. 1413–
1417. doi:10.1109/ICDAR.2009.283.
[88] M.T. Parvez. S.A. Mahmoud. Arabic handwriting recognition
using structural and syntactic pattern attributes. Pattern Recognit.
46 (2013) 141–154. doi:10.1016/j.patcog.2012.07.012.
[89] A. Giménez. I. Khoury. A. Juan. Windowed Bernoulli Mixture
HMMs for Arabic Handwritten Word Recognition. in: Proc. 12th
Int. Conf. Front. Handwrit. Recognit. (ICFHR 2010). IEEE.
2010: pp. 533-538. doi:10.1109/ICFHR.2010.88.
[90] A. Giménez. I. Khoury. J. Andrés-Ferrer. A. Juan. Handwriting
word recognition using windowed Bernoulli HMMs.
Pattern Recognit. Lett. 35 (2014) 149-156. doi:10.1016/j.
patrec.2012.09.002.

-73-
[91] S. Saleem. H. Cao. K. Subramanian. M. Kamali. R. Prasad. P.
Natarajan. Improvements in BBN’s HMM-Based Offline Arabic
Handwriting Recognition System. in: Proc. 10th Int. Conf. Doc.
Anal. Recognit. (ICDAR 2009). IEEE. 2009: pp. 773–777.
doi:10.1109/ICDAR.2009.282.
[92] M. Hamdani. A.E.-D. Mousa. H. Ney. Open Vocabulary Arabic
Handwriting Recognition Using Morphological Decomposition.
in: Proc. 12th Int. Conf. Doc. Anal. Recognit. (ICDAR 2013).
IEEE. 2013: pp. 280–284. doi:10.1109/ICDAR.2013.63.

-74-
‫الباب الثاني‬
‫التعرف اآللي على الكالم العربي املنطوق‬
‫وتطبيقاته يف القرآن الكرمي‬

‫د‪ .‬أمحد محدي أبو عبسة‬

‫‪-75-‬‬
-76-
‫التعرف اآللي على الكالم العربي املنطوق وتطبيقاته‬
‫يف القرآن الكرمي‬
‫(((‬
‫د‪ .‬أمحد محدي أبو عبسة‬

‫ملخص‬
‫يعترب التعرف عىل الكالم العريب املنطوق من األبحاث اهلامة التي هلا دور كبري يف كثري‬
‫من جماالت احلياة مثل التعليم والصحة والصناعة وغريها من التطبيقات‪ .‬يف هذا البحث‬
‫تم تطوير التعرف اآليل عىل الكالم العريب املنطوق باستخدام أنظمة الذكاء االصطناعي‬
‫وتطبيقه خلدمة القرآن الكريم‪ .‬يف الطريقة التقليدية ملعاجلة الكالم‪ ،‬يتم االعتامد عىل‬
‫تقسيم اجلملة الصوتية إىل جمموعة ثابتة من األُطر‪ ،‬بينام يف هذا البحث تم االعتامد عىل‬
‫املقاطع الصوتية والتي تعرف عىل أهنا اجلزء األسايس األصغر يف اللغة واملكونة من‬
‫مقاطع ساكنة ومقاطع متحركة‪ .‬استعرضنا يف هذا البحث أهم خوارزميات استخراج‬
‫خصائص املقاطع الصوتية‪ ،‬والتي تعترب اخلطوة األوىل يف تصنيف املقاطع الصوتية‪ .‬ثم‪،‬‬
‫لتحسني نتيجة التصنيف‪ ،‬قلصنا حجم مصفوفة خصائص املقاطع الصوتية باستخدام‬
‫تقنية حتليل املكونات األساسية‪ .‬كام تم استخدام نظام التشجري التصنيفي املبني عىل‬
‫قواعد التجويد‪ ،‬حيث يتم تصنيف املقاطع الصوتية إىل ثالث مراحل‪ :‬تصنيف هناية‬
‫املقطع الصويت ساكن أم متحرك‪ ،‬وتصنيف احلرف الساكن من حيث التفخيم والغنة‪،‬‬
‫وحتديد زمن احلرف املتحرك يف املقطع الصويت‪ .‬من خالل تطبيق هذا البحث‪ ،‬وجدنا‬
‫أن إدخال قواعد التجويد القرآنية مع أنظمة التعرف اآليل عىل الكالم هلا دور مهم يف‬
‫حتسني دقة تصنيف البيانات القرآنية‪.‬‬

‫‪ -1‬د‪.‬أمحد محدي أبو عبسة رئيس قسم هندسة الربجميات يف جامعة فلسطني‪ .‬حصل د‪ .‬أبو عبسة عىل درجة البكالوريوس‬
‫يف هندسة االتصاالت والتحكم من اجلامعة اإلسالمية بغزة وعىل درجة املاجستري يف علوم احلاسب اآليل من جامعة‬
‫شامل فرجينيا ثم عىل ماجستري آخر يف أنظمة االتصاالت من اجلامعة اإلسالمية بغزة‪ .‬حصل عىل درجة الدكتوراة يف‬
‫معاجلة اإلشارة الرقمية من قسم اهلندسة الكهربائية يف جامعة امللك فهد للبرتول واملعادن‪ ،‬وله العديد من األبحاث‬
‫واملشاريع يف جمال معاجلة الصوت والصورة بتقنيات الذكاء االصطناعي‪.‬‬

‫‪-77-‬‬
‫‪ -1‬مقدمة‬
‫بدأ اهتامم خرباء احلاسب والباحثني يف جمال التعرف اآليل عىل الكالم منذ أكثر‬
‫من أربعة عقود‪ ،‬وذلك لكي يصل اإلنسان إىل مرحلة جتعله قادرا عىل التخاطب‬
‫مع احلاسب اآليل وإعطائه األوامر بدون احلاجة إىل الكتابة مما من شأنه توفري اجلهد‬
‫والوقت وإمكانية التفاعل مع اآللة بشكل طبيعي أكثر والتي تؤدي إىل استخدامها يف‬
‫جماالت تطبيقية متعددة‪.‬‬
‫ومع تطور التقنيات التكنولوجية يف العرص احلديث‪ ،‬اجته العامل إىل استخدام مفهوم‬
‫الذكاء االصطناعي (‪ Artificial Intelligence‬أو ‪ )AI‬وتعلم اآللة (‪Machine‬‬
‫‪ )Learning‬يف جماالت متعددة‪  ‬والتي من ضمنها التعرف اآليل عىل الكالم املنطوق‬
‫باللغة العربية‪ ،‬وكذلك جماالت التعرف عىل أحكام التجويد يف تالوة القرآن الكريم‪.‬‬
‫يعرف مصطلح الذكاء االصطناعي عىل أنه قدرة اآللة عىل حماكاة العقل البرشي‬
‫التطور الذي شهده احلاسب اآليل يف منتصف‬ ‫ّ‬ ‫والتعلم من التجارب السابقة‪ .‬ومنذ‬
‫القرن العرشين‪ ،‬متكن العلامء من برجمة احلاسب اآليل وتطويره للقيام بمهام كثرية‬
‫ومعقدة تضاهي مستوى أداء اخلرباء واملحرتفني يف جماالت كالتشخيص الطبي‪ ،‬أو يف‬
‫حمركات البحث أو يف تطبيقات التعرف عىل الصوت والكتابة اليدوية وغري ذلك [‪.]١‬‬
‫ويمكن تقسيم أهداف الذكاء االصطناعي وتعلم اآللة إىل ثالثة أقسام رئيسية عىل‬
‫النحو التايل‪:‬‬
‫‪ .1‬التصنيف (‪ :)Classification‬حيث تقوم اخلوارزمية بالتعلم وذلك‬
‫من خالل وجود جمموعة من األصناف ‪ Classes‬وكل صنف له‬
‫خصائص ‪ features‬مشرتكة‪ ،‬حيث يقوم املصنف بربط اخلصائص بصنف‬
‫معني‪.‬‬
‫‪ .2‬االرتباط (‪ :)Regression‬وهو أسلوب إحصائي يستخدم يف قياس مدى‬
‫العالقة الداللية بني متغريين ‪ ،‬بحيث يكون أحد املتغريات (متغري تابع) واآلخر‬
‫(متغري مستقل أو م ِ‬
‫فس) وهو املتسبب يف تغري املتغري التابع‪ ،‬وقد يستعمل للتنبؤ‬ ‫ُ‬
‫بقيم املتغري التابع بناء عىل املستقل‪.‬‬

‫‪-78-‬‬
‫‪ .3‬التجميع (‪ :)Clustering‬حيث تقوم اخلوارزمية بتقسيم البيانات إىل جمموعات‬
‫غري معروفة مسب ًقا وكل جمموعة يتم التعامل معها عىل أهنا صنف‪.‬‬
‫عرف التعرف التلقائي عىل الكالم (‪ASR)Automatic Speech Recognition‬‬
‫ُي ّ‬
‫بأنه عملية حتويل املوجات الصوتية (اإلشارات الصوتية للكالم) إىل كلامت أو وحدات‬
‫لغوية ‪ .]2[ Phonemes‬يظهر التعرف التلقائي عىل الكالم يف العديد من املجاالت‬
‫الصناعية واملدنية‪ ،‬بام يف ذلك‪ :‬التطبيقات التي تشجع االستغناء عن احتياج األيدي يف‬
‫التعامل معها‪ ،‬والتفاعل مع األجهزة الذكية‪ ،‬والرتمجة الشفوية التلقائية‪ ،‬وأدوات دعم‬
‫املعاقني سمعيا‪ ،‬واإلمالء التلقائي وغريها من التطبيقات‪.‬‬
‫وعند تطبيق نظام التعرف اآليل عىل الكالم الصويت يف احلاسب اآليل‪ ،‬وجد أنه من‬
‫السهل التعرف عىل الكلامت املنفردة‪ ،‬ولكن األصعب هو التعرف عىل الكالم املستمر‪.‬‬
‫وهذا كله يعتمد عىل عوامل من بينها اللغة املستهدفة وحجم وتنوع البيانات التي يقوم‬
‫النظام بالتدرب عليها‪ ،‬باإلضافة إىل طبيعة البيئة التي ُسجل فيها الصوت وغري ذلك‬
‫[‪.]3[ ]2‬‬
‫تعتمد الطريقة التقليدية ملعاجلة الصوت عىل تقسيم اجلملة الصوتية إىل جمموعة‬
‫ثابتة من األطر ‪ fixed frame‬بحيث ال يزيد طول اإلطار عن ‪ 30‬ميليثانية وذلك لثبات‬
‫خصائص الكالم الصويت يف هذه الفرتة وعدم تغري خصائصه‪ .‬ولكن هذه الطريقة قد‬
‫ال تالئم الوضع الطبيعي للكالم الصويت حيث أن الصوت البرشي يصدر عىل هيئة‬
‫مقاطع صوتية ‪ segment units‬خمتلفة األطوال ال أطر زمنية ‪.]5[ frames‬‬
‫ُعرف املقاطع الصوتية ‪ segment units‬عىل أهنا اجلزء األسايس األصغر يف اللغة‬‫ت ّ‬
‫واملكونة من مقاطع ساكنة ‪ )Consonants (C‬ومقاطع متحركة ‪ .)Vowels (V‬ويف‬
‫اللغة االعربية يتم تقسيم وحدات الكالم إىل مخسة أنواع أساسية‪ :‬حرف متحرك ‪ CV‬مثل‬
‫( َم)‪ ،‬حرف ممدود ‪ CVV‬مثل (ما) ‪ ،‬مقطع من متحرك فساكن ‪ CVC‬مثل ( َم ْل) ‪،‬‬
‫مقطع من ممدود فساكن‪ CVVC‬مثل (مال)‪ ،‬ومتحرك فساكنني ‪ CVCC‬مثل ( َع ْص)‪.‬‬
‫وبالتايل فإن كل مقطع صويت ‪ Segment unit‬يف اللغة ستكون عبارة عن صنف (‪)class‬‬
‫وسيكون دور املصنف ‪ classifier‬التعرف عىل هذه املقاطع الصوتية من جمموعة كبرية‬
‫من عدد األصناف ‪ classes‬املوجودة يف اللغة يف وقت واحد ‪ ،‬وهذا األمر يعترب صع ًبا‬

‫‪-79-‬‬
‫كبريا‬ ‫من الناحية العملية خاص ًة عندما يكون عدد األصناف ً‬
‫كبريا والتشابه بينهم أيضا ً‬
‫[‪.]6‬‬
‫يف نظام تالوة القرآن الكريم‪ ،‬يبلغ عدد مجيع املقاطع الصوتية ‪ segment units‬يف‬
‫اجلزء الثالثني من القرآن الكريم ‪ 4300‬مقطعا صوتيا تقريبا‪ ،‬كام يبلغ إمجايل عدد‬
‫أصناف هذه املقاطع الصوتية ‪ 800‬صنفا خمتلفا تقريبا [‪ .]5‬وبالتايل يصعب تصنيف‬
‫هذا العدد الكبري من األصناف باستخدام اخلوارزميات التقليدية؛ لذلك‪ ،‬فإننا نقرتح‬
‫يف هذا البحث اتباع تقنية من تقنيات الذكاء االصطناعي تسمى «التصنيف الشجري‬
‫اهلرمي» (‪ .)Hierarchical Tree Classification‬حيث يتم جتميع عدد كبري من‬
‫الفئات يف جمموعات فرعية قبل تصنيفها هنائيا [‪.]2‬‬
‫ً‬
‫هيكل يشبه الشجرة‪ ،‬حيث يمكن عبور العديد من‬ ‫يشكل نظام التصنيف اهلرمي‬
‫ً‬
‫وصول إىل األطراف (األوراق) عىل مبدأ «فرق واغز» «‪Divide‬‬ ‫املسارات من اجلذر‬
‫‪ ،»and Conquer‬حيث يتم تقسيم املشكلة الكبرية بشكل متكرر إىل مشاكل أصغر‬
‫وأسهل يمكن دمج حلوهلا إلجياد حل للمشكلة الشاملة [‪.]5[]4‬‬
‫يتميز نظام التصنيف اهلرمي عن املصنفات التقليدية بتقليل عدد األصناف إىل‬
‫أصناف أساسية والتي بدورها تقوم باالستغناء عن احلسابات غري الرضورية‪ .‬كام‬
‫ُيظهر التصنيف اهلرمي مرونة يف اختيار جمموعات فرعية خمتلفة للفصول حسب قواعد‬
‫لالنتقال بني املراحل املختلفة يف الشجرة‪ ،‬باإلضافة إىل إمكانية إجراء مفاضلة بني دقة‬
‫التعرف عىل الصنف يف أحد فروع الشجرة وكفاءة الفرتة الزمنية للحصول عىل النتيجة‪.‬‬
‫أما عيوب تصنيف التسلسل اهلرمي فمنها أن أي خطأ يف نظام التعرف عىل أفرع‬
‫األشجار الرئيسية يف املراحل األوىل ت َُو ّرث وتُنتَقل إىل املراحل الفرعية‪ .‬وهنا تتجىل‬
‫إشكالية املفاضلة بني الدقة والكفاءة‪ ،‬حيث يصعب حتسني كل من الدقة والكفاءة معا‪.‬‬
‫عالوة عىل ذلك‪ ،‬فثمة صعوبات يف حتديد القواعد وعدد املراحل يف الشجرة األمثل يف‬
‫التطبيق‪ ،‬وهذا بدوره يؤثر عىل نتيجة األداء باستخدام التصنيف اهلرمي [‪.]7[]6‬‬
‫يف هذا البحث نقوم بعرض نظام مقرتح لتصنيف الكلامت القرآنية باستخدام‬
‫أساليب وتقنيات املصنفات التقليدية واملصنف اهلرمي‪ .‬سيتم تقسيم البحث إىل‬

‫‪-80-‬‬
‫ستة وحدات عىل النحو التايل‪ :‬الوحدة الثانية عبارة عن وصف بنية نظام التعرف‬
‫عىل الكلامت القرآنية‪ .‬ويف الوحدة الثالثة يتم توضيح كيفية استخراج اخلصائص‬
‫للصوت (‪ )Feature Extraction‬ويف الوحدة الرابعة نبني كيفية تقليل حجم مصفوفة‬
‫اخلصائص املستخرجة ‪ Feature Extraction matrix Dimension‬باستخدام تقنية‬
‫حتليل املكونات األساسية (‪ .Principle Component Analysis (PCA‬ويف الوحدة‬
‫اخلامسة رشح أشهر املصنفات التقليدية والتي يتم استخدامها ملعاجلة الصوت يف‬
‫القرآن الكريم‪ .‬ويف الوحدة السادسة رشح نظام تصنيف التسلسل اهلرمي وتطبيقه عىل‬
‫الوحدات الكالمية يف القرآن الكريم‪.‬‬

‫‪ -٢‬بنية نظام التعرف اآليل عىل الوحدات الكالمية يف القرآن الكريم‬


‫يف هذا البحث سنقوم باالعتامد عىل املقاطع الصوتية ‪ segment units‬يف القرآن‬
‫الكريم عوضا عن اإلطارات الثابتة ‪ .fixed frames‬يوضح الشكل ‪ 1‬اخلطوات‬
‫الرئيسية لبنية نظام التعرف اآليل وفيه اخلطوات التالية‪:‬‬
‫‪1.1‬احلصول عىل املقاطع الصوتية اخلاصة بالقرآن الكريم‪.‬‬
‫‪2.2‬استخراج اخلصائص املتعلقة باملقاطع الصوتية القرآنية‪.‬‬
‫‪3.3‬تقليل أبعاد متجه اخلصائص ‪Feature Vector Dimension Reduction‬‬

‫‪4.4‬استخدام تقنية تصنيف التشجري اهلرمي (‪HTC) Hierarchical Tree‬‬


‫‪ Classification‬لـتقليل عدد األصناف إىل أصناف رئيسية‪.‬‬
‫‪5.5‬املقارنة مع خوارزمية املصنفات التقليدية ويف هذا البحث سنقوم برشح أربع‬
‫أنواع‪:‬‬
‫مصنف بايز ‪ ،]20[ Naïve Bayes‬ومصنف الشبكة العصبية متعددة الطبقات‬
‫(‪ ،]9[ Multi-Layer Perceptron (MLP‬ومصنف اجلار األقرب ‪K-Nearest‬‬
‫) [‪ ،]10‬ومصنف آلة متجه الدعم ‪Support Vector Machine‬‬ ‫‪( Neighbor‬‬
‫) [ ‪.]11‬‬ ‫(‬

‫‪-81-‬‬
‫وسنقوم اآلن برشح تفصييل لكل خطوة من اخلطوات املوجودة يف شكل ‪.1‬‬
‫املصنفات التقليدية‬ ‫اﻟﻤﺼﻨﻔﺎت اﻟﺘﻘﻠﯿﺪﯾﺔ‬

‫‪MLP‬‬ ‫‪KNN‬‬ ‫نوع‬


‫‪MLP‬‬ ‫‪KNN‬‬
‫املقاطع‬ ‫استخراج‬ ‫اﻟﻤﻘﺎطﻊ‬ ‫تصنيف‬
‫اﺳﺘﺨﺮاج‬ ‫ﺗﺼﻨﯿﻒ‬
‫الفصل‬
‫‪PCA‬‬ ‫‪ PCA‬التسلسل اﻟﺨﺼﺎﺋ‬
‫اهلرمي‬ ‫اﻟﺘﺴﻠﺴﻞ‬ ‫ﻞ‬
‫الصوتية‬ ‫اخلصائص‬ ‫اﻟﺼﻮﺗﯿﺔ‬ ‫ص‬ ‫بايز‬
‫اﻟﮭﺮﻣﻲ ‪SVM‬‬ ‫‪SVM‬‬

‫شكل (‪ :)١‬خمطط منهجية البحث يف استخدام الذكاء االصطناعي للتعرف عىل مقاطع القرآن الكريم‬

‫‪ 2.1‬احلصول عىل املقاطع الصوتية اخلاصة بالقرآن الكريم‬


‫مدخالت النظام املقرتح عبارة عن مقاطع صوتية خاصة بالقرآن الكريم حصلنا‬
‫عليها من قاعدة بيانات مدينة امللك عبدالعزيز للعلوم والتقنية للجزء الثالثني من‬
‫القرآن الكريم [‪ ،]5‬وبلغ إمجايل عدد وحدات املقاطع الصوتية فيها ما يقارب ‪4300‬‬
‫مقطعا صوتي ًا‪.‬‬

‫‪ 2.2‬استخراج اخلصائص املتعلقة باملقاطع الصوتية القرآنية‬


‫استخراج اخلصائص للمقاطع الصوتية مرحلة مهمة جدا يف التعرف عىل‬
‫الكالم‪ .‬ويتمثل التحدي والصعوبة يف كيفية استخراج خصائص قوية متكن املصنف‬
‫من التعرف عىل املقطع الصويت وحتديد الصنف الذي ينتمي له هذا املقطع‪ .‬والستخراج‬
‫اخلصائص من املقاطع الصوتية نقوم يف البداية بتقسيم املقطع الصويت املدخل إىل إطارات‬
‫‪ frames‬بطول نموذجي ‪ ،N‬يرتاوح من ‪ 660‬إىل ‪ 1320‬عينة لكل إطار‪ ،‬والتي تقدر‬
‫من ‪ 15‬إىل ‪ 30‬مليل ثانية‪ ،‬والتي حتافظ عىل ثبات خاصية الصوت يف هذه الفرتة الزمنية‪.‬‬
‫لقد قامت دراسات سابقة كثرية لتحديد اخلوارزميات التي تقوم باستخراج اخلصائص‬
‫من الصوت ويف هذا البحث سيتم التطرق إىل أهم هذه اخلصائص‪.‬‬

‫‪ ٢٫١٫1‬خاصية الطاقة الصوتية‬


‫تعترب خاصية الطاقة الصوتية سمة ممتازة خاصة للتمييز بني املقاطع الساكنة‬
‫(‪ )consonant‬واملقاطع املتحركة (‪ً ،)vowels‬‬
‫نظرا ألهنا تكون عادة ذات قيمة عالية‬
‫يف املقاطع املتحركة وقيم منخفضة يف ملقاطع الساكنة‪ .‬والستخراج خاصية الطاقة من‬
‫املقطع الصويت نقوم يف البداية بتحويل املقطع الصويت من مستمر ‪ Continuous‬إىل‬

‫‪-82-‬‬
‫متقطع ‪ Discrete‬عن طريق تقطيع املقطع الصويت إىل عينات ‪ samples‬بفرق زمني‬
‫ثابت ومن ثم يتم تطبيق املعادلة التالية [‪:]13‬‬
‫)‪............................................................(1‬‬
‫عينة ‪)sample) n‬‬ ‫حيث متثل ‪ Ei‬الطاقة الكلية للمقطع الصويت ‪ i‬و متثل‬
‫يف املقطع الصويت ‪ i‬و‪ N‬هو العدد الكيل للعينات (‪ )samples‬يف املقطع الصويت‪ .‬ومثال‬
‫عىل ذلك فإن قيمة الطاقة يف اآلية ﴿كال سيعلمون﴾ تظهر بلون أمحر يف الشكل ‪.2‬‬
‫حيث نالحظ أن قيمة احلرف املتحرك ( َك ) أكثر من احلرف الساكن ( ْل )‪.‬‬

‫الشكل (‪ :)2‬قيمة الطاقة للمقاطع الصوتية يف آية ﴿كال سيعلمون﴾ [‪]5‬‬

‫‪ ٢٫١٫٢‬خاصية حدة الصوت (‪)Pitch‬‬

‫تُعرف «حدة الصوت» عىل أهنا خاصية إدراكية تسمح برتتيب األصوات حسب‬
‫سلم مرتبط بالرتدد‪ ،‬أي حسب عدد تكرار االهتزازات (الذبذبات) هريتز يف الثانية‬
‫للطبقات الصوتية أثناء التحدث [‪ .]14‬حيث يتم استخدام هذه اخلاصية ملعرفة الرتدد‬
‫األسايس للمقطع الصويت بنا ًء عىل االرتفاع واالنخفاض يف نغمة الصوت‪.‬‬
‫هناك طرق خمتلفة يمكن استخدامها لتقدير درجة الصوت من إشارة الكالم ‪ .‬سنرشح‬
‫فيام ييل طريقة «تقنية االرتباط التلقائي» ‪ Autocorrelation Technique‬بني كل إطار‬
‫واإلطار اآلخر من خالل استخدام املعادلة التالية‪:‬‬
‫)‪...........................................(٢‬‬

‫‪-83-‬‬
‫هو إطار اإلشارة‪ k ،‬عامل اإلزاحة‪ ،‬و‬ ‫حيث أن هو طول اإلطار‪،‬‬
‫هي دالة االرتباط التتقريبي التلقائي‪.‬‬

‫‪ ٢٫١٫٣‬خاصية ترددات صفة صوت الكالم ‪Formant Frequencies‬‬

‫ُعرف خاصية ترددات صفة صوت الكالم عىل أهنا ترددات الرنني واالهتزاز يف‬ ‫ت َّ‬
‫األحبال الصوتية أثناء النطق وتكون ظاهرة بشكل كبري يف احلروف املجهورة (حروف‬
‫كلمة قطب جد) أكثر مـــن احلــــروف املهموسة (مثل حرف احلاء واهلاء) [‪.]15‬‬
‫ويمكن متثيل هذه الرتددات عن طــريق حســـاب القيم العظــــمى للرتددات‬
‫‪ Peaks of The Frequency Response‬من خالل تقنية الرتميز التوقعــي اخلطي‬
‫(‪ Linear Predictive Code (LPC‬والتي متثل عىل النحو التايل‪]17[ :‬‬
‫)‪..............................................(٣‬‬
‫هي العينة املتوقعة عند الوقت ‪ ،n‬واملتغري ‪ p‬عبارة عن عدد العينات‬ ‫حيث‬
‫السابقة للوقت ‪ ،n‬و هي معامالت ‪. LPC‬‬

‫‪Mel-Frequency Cepstrum‬‬ ‫‪ ٢٫١٫٤‬خصائص معامالت تردد ميل‬


‫تعترب تقنية معامالت تردد ميل (‪ )MFCCs‬من أكثر اخلصائص استخداما للتعرف‬
‫عىل الكالم‪ .‬حيث أن الفكرة وراء معاجلة ‪ MFCC‬هي مقاربة الطريقة التي يسمع هبا‬
‫البرش األصوات‪ .‬حيثرتكز األذن البرشية عند االستامع عىل الرتددات املنخفضة‪ ،‬وهذا‬
‫ما حتاوله ‪ MFCC‬من خالل تكبري مدى هذه الرتددات باستخدام اللوغاريتامت‪ .‬يبدأ‬
‫استخراج ‪ MFCC‬لكل إطار يف املقطع الصويت والذي يرتاوح من ‪ 660‬إىل ‪ 1320‬عينة‬
‫لكل إطار‪ ،‬والتي تقدر من ‪ 15‬إىل ‪ 30‬مليل ثانية [‪ .]14‬لتحويل الرتددات اخلطية إىل‬
‫مقياس ميل تكون يف املعادلة التالية‪:‬‬

‫)‪..............................................(٤‬‬
‫حيث ‪ f‬قيمة الرتدد يف هرتز‪ .‬لتوضيح خطوات عمل ‪ MFCC‬موضحة يف‬
‫الشكل ‪.3‬‬

‫‪-84-‬‬
‫اﻹﺷﺎرة اﻟﺼﻮﺗﯿﺔ‬ ‫‪Preprocessing‬‬ ‫‪Mel-Frequency‬‬
‫‪Warping‬‬

‫‪MFCCs‬‬ ‫‪DCT‬‬ ‫‪Logarithm‬‬ ‫‪Filter Bank‬‬

‫(أ)‬

‫(ب)‬
‫الشكل (‪( :) 3‬أ) خوارزمية ‪( MFCC‬ب) مرشح ميل‬

‫‪ ٢٫١٫٥‬حتويل املوجيات املنفصلة (‪Discrete Wavelet Transform (DWT‬‬


‫يعترب حتويل املوجيات املنفصلة من اخلصائص املميزة يف متثيل اإلشارة يف كل‬
‫من جمال الزمن والرتدد ‪ ،Time and Frequency domain‬حيث هذا املجاالن مها‬
‫التمثيالن املشهوران لإلشارات‪ ،‬حيث ُيربز كل منهام جانبا من خصائص اإلشارة‪.‬‬
‫إن الفكرة الرئيسية من ‪ DWT‬هو تقسيم نطاق إشارة تردد املقطع الصويت وترتيبها‬
‫(العقدة‬ ‫من األقل إىل اإلعىل بشكل متعاقب كام هو موضح يف الشكل ‪ .4‬حيث‬
‫اجلذرية لشجرة نطاق الرتددات يف املقطع الصويت) متثل تردد اإلشارة األصلية‪ .‬ومن‬
‫متثل النصف العلوي من نطاق تردد‬ ‫ثم يتم تقسيم نطاق الرتدد إىل قسمني بحيث‬
‫متثل اجلزء السفيل من جمال تردد املقطع الصويت وهكذا حسب‬ ‫املقطع الصويت و‬
‫عدد املستويات املطلوبة‪.‬‬

‫الشكل (‪ :)4‬املستويات الثالثة لتحلل نطاقات الرتدد للموجيات‬

‫‪-85-‬‬
‫تقليل أبعاد متجه اخلصائص ‪Feature Vector Dimension Reduction‬‬ ‫‪٢٫٣‬‬
‫إن استخـــدام اخلصائص التي تـــم احلديث عنهــا يف الفقرة السابقة يعــطي‬
‫نتائج جيدة ولكن ليست ممتازة وذلك بسبب احتاملية وجود بيانات كثرية مكررة أو‬
‫ليست ذات أمهية يف التمييز بني األصنــاف مما قد يؤدي إىل تعقد اعملية التصنيف‪.‬‬
‫ولكي نقوم بتحسني هذه النتائج يتم استخدام تقنية حتليل املكونات األساسية‬
‫(‪ Principle Component Analysis (PCA‬لتقليص بيانات اخلصائص واختصارها‪،‬‬
‫حيث تقوم بتحويل العدد الكبري من املتغريات املرتابطة ضمنا ‪-‬ولو بشكل جزئي‪ -‬إىل‬
‫جمموعة أصغر من املتحوالت املستقلة التخيلية‪ ،‬وهي تدعى عادة باملكونات الرئيسية‬
‫وحتسب أساسا من املتغريات األصلية بنسب ومقادير تزيد أو تنقص بحسب دور‬
‫وتأثري كل منها‪ ،‬لتصف أكرب قدر ممكن من البيانات املوجودة يف خصائص األصناف‪.‬‬
‫إن الفكرة األساسية يف حتليل املكونات الرئيسية ‪ PCA‬هو تقليل حجم مصفوفة‬
‫استخراج اخلصائص إىل أكرب قدر ممكن والتي تسهم يف التمييز بني األصناف‪ ،‬وذلك من‬
‫خالل عمل حماور ختيلية متعامدة والتي حتسب من خالل جمموع اخلصائص املستخرجة‬
‫للمقاطع الصوتية احلقيقية لكن بأوزان متفاوتة تعكس دور كل منها وأمهيته يف التفريق‬
‫ما بني األصناف‪ .‬تعمل خطوات تنفيذ اخلوارزمية عىل حرص أكرب قدر ممكن من‬
‫التباينات ضمن توليفة اخلاصية التخيلية األوىل والتي عادة ما يطلق عليها تسمية املكون‬
‫األسايس األول ‪ ،PC1‬كام يتم حساب نسبة مؤوية هلذه اخلاصية التخيلية والتي تشري‬
‫احلصة الكل ّية من التباينات التي تم إلتقاطها والتعبري عنها يف هذه اخلاصية التخيلية‪.‬‬
‫إىل ّ‬
‫ثم بعد ذلك يأيت الدور يف تكوين املكون األسايس الثاين ‪ PC2‬والذي سيقوم بدوره‬
‫بمحاولة التعبري عن أكرب قدر ممكن من التباينات املتبقية والتي مل يستطع ‪ PC1‬التعبري‬
‫عنها‪ ،‬ويستمر األمر بالنسبة لكل من ‪ PC3‬و‪ PC4‬وصوال إىل العدد الكيل للخصائص‬
‫التي تم استخراجها للمقاطع الصوتية‪.‬‬
‫هبذه التقنية نستطيع التمييز بني اخلصائص التي ال تسهم يف التفريق ما بني األصناف‬
‫املختلفة يف جمموعة البيانات ويكون هلا أوزان صغرية تقرتب من الصفر‪ ،‬وبني اخلصائص‬
‫التي هلا دورا هاما يف التفريق ما بني األصناف حيث يكون لتلك الصفات أوزان ذات‬
‫مقادير كبرية تقرتبفي قيمتها املطلقة من الواحد الصحيح [‪.]٢١‬‬

‫‪-86-‬‬
‫وحلساب ‪ PCA‬من الناحية الرياضية نقوم يف البداية بتحليل القيمة الذاتية‬
‫‪ eigenvalues‬ملصفوفة التباين التقريبي ‪ .estimated covariance‬وهذا األمر يتم‬
‫من خالل إجياد الوسط احلسايب ملصفوفة البيانات اخلاصة بكل نوع من أنواع املقاطع‬
‫الصوتية‪ .‬ويمكن إجياد مصفوفة التباين التقريبي من خالل العالقة التالية‪   :‬‬

‫)‪...............................................................(٥‬‬
‫حيث ‪ X‬هي مصفوفة اخلصائص املستخرجة من مجيع املقاطع الصوتية يف قاعدة‬
‫البيانات والتي أبعادها ‪ m n‬حيث أن ‪ m‬هي عدد اخلصائص الكلية التي تم‬
‫استخدامها‪ ،‬و‪ n‬هو عدد املالحظات ‪ observations‬والتي تعني هنا مجيع املقاطع‬
‫الصوتية‪ ،‬واملتغري عبارة عن مصفوفة مربعة متامثلة أبعادها ‪.m x m‬بحيث أن قطر‬
‫عبارة عن قيم التباينات التقديرية بني املتغريات‪ .‬للحصول عىل حتويل‬ ‫املصفوفة‬
‫‪ PCA‬نقوم بتطبيق املعادلة التالية‪:‬‬
‫)‪...................................................................(٦‬‬
‫حيث ‪ Y‬عبارة عن متثيل ‪ X‬بناء عىل أساس املصفوفة اجلديدة ‪ ،P‬حيث أن ‪ P‬عبارة‬
‫عن مصفوفة حتول ‪ X‬إىل نظام اإلحداثيات التخيلية اجلديدة وتكون فيها البيانات مرتبة‬
‫من األكرب إىل األصغر‪ .‬وإلجياد مصفوفة تقدير التباينات بالنسبة للمصفوفة ‪ Y‬يتم‬
‫احتساهبا من خالل املعادالت التالية‪:‬‬

‫(‪...........................................................)٧‬‬

‫‪-87-‬‬
‫يمكن حتليلها باستخدام حتليل القيم الذاتية عىل‬ ‫كام أن مصفوفة تقدير التباينات‬
‫النحو التايل‪:‬‬
‫)‪....................................................................(٨‬‬
‫حيث أن ‪ D‬عبارة عن مصفوفة قطرية تكون فيها البيانات مرتبة حسب القيم الذاتية‬
‫من األكرب إىل األصغر‪ .‬واملصفوفة ‪ U‬عبارة عن املتجهات الذاتية ‪ eigenvectors‬حيث‬
‫أن كل عمود يف املصفوفة عبارة متجه ذايت والتي تتميز بأنه عندما يتم إجراء حتويل‬
‫=‬ ‫خطي عىل هذه املتجهات ال يتغري اجتاهها‪ .‬وبام أن املصفوفة متامثلة فإن‬
‫وبالتايل يمكن كتابة عىل الشكل التايل‪:‬‬
‫)‪...............................................................(٩‬‬

‫تكون عىل الشكل التايل‪:‬‬ ‫فإن‬ ‫‪ ،‬نفرتض أن‬ ‫وبالعودة إىل‬

‫ž‬
‫ž‬ ‫(‪ž )10‬‬

‫يمكننا أن نرى أنه عندما يتم اختيار مصفوفة التحول عىل أساس‬
‫‪ ،‬فإن ناتج اخلصائص املتحولة (العنارص املوجودة يف املصفوفة ‪ )Y‬تصبح‬
‫غري مهمة بام أن مصفوفة التغاير يف النتائج قطرية‪ .‬إن هذه الطريقة أدت إىل عمل ترتيب‬
‫القيم الذاتية واملتجهات الذاتية حسب األمهية وبالتايل يمكن تقليل أبعاد املصفوفة إىل‬
‫‪ d x n‬حيث أن ‪ d‬عبارة عدد الصفوف املطلوبة من املصفوفة الكلية‪ .‬وعادة يف األبحاث‬
‫يكون اختيار حجم املصفوفة بحيث يكون جمموع التباينات عىل األقل ‪ %80‬من جمموع‬
‫التباينات الكلية‪.‬‬
‫ولتوضيح أمهية وقوة ‪ ،PCA‬نوضح يف الشكل ‪ 5‬خمطط التشتت ‪scatter plot‬‬
‫(خمطط يستخدم بياني ًا لتقديم وعرض العالقة بني متغريين) لكل من احلروف الساكنة‬
‫‪ consonants‬واحلروف املتحركة ‪ vowels‬للمقاطع الصوتية بعد تطبيق نظام التحويل‬
‫‪.PCA‬‬

‫‪-88-‬‬
‫‪5.9‬‬ ‫‪-9.8‬‬ ‫‪0.4‬‬
‫‪consonant‬‬ ‫‪consonant‬‬ ‫‪consonant‬‬
‫‪5.8‬‬ ‫‪vowel‬‬ ‫‪-9.9‬‬ ‫‪vowel‬‬ ‫‪0.3‬‬ ‫‪vowel‬‬

‫‪5.7‬‬ ‫‪0.2‬‬
‫‪-10‬‬
‫‪5.6‬‬ ‫‪0.1‬‬
‫‪-10.1‬‬

‫‪PCA-LDA projection 2‬‬


‫‪PCA-LDA projection 2‬‬

‫‪PCA-LDA projection 2‬‬


‫‪5.5‬‬ ‫‪0‬‬
‫‪-10.2‬‬
‫‪5.4‬‬ ‫‪-0.1‬‬
‫‪-10.3‬‬
‫‪5.3‬‬ ‫‪-0.2‬‬
‫‪-10.4‬‬
‫‪5.2‬‬ ‫‪-0.3‬‬

‫‪-10.5‬‬ ‫‪-0.4‬‬
‫‪5.1‬‬

‫‪5‬‬ ‫‪-10.6‬‬ ‫‪-0.5‬‬

‫‪4.9‬‬ ‫‪-10.7‬‬ ‫‪-0.6‬‬


‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬ ‫‪6‬‬ ‫‪7‬‬ ‫‪8‬‬ ‫‪9‬‬ ‫‪10‬‬ ‫‪-11.5‬‬ ‫‪-11‬‬ ‫‪-10.5‬‬ ‫‪-10‬‬ ‫‪-9.5‬‬ ‫‪-9‬‬ ‫‪-8.5‬‬ ‫‪-8‬‬ ‫‪-0.5‬‬ ‫‪0‬‬ ‫‪0.5‬‬ ‫‪1‬‬ ‫‪1.5‬‬ ‫‪2‬‬ ‫‪2.5‬‬
‫‪PCA-LDA projection 1‬‬ ‫‪PCA-LDA projection 1‬‬ ‫‪PCA-LDA projection 1‬‬

‫اجلملة الثالثة‬ ‫اجلملة الثانية‬ ‫اجلملة األوىل‬

‫الشكل (‪ :)٥‬خمطط التشتت للحروف الساكنة واملتحركة بعد تقليل أبعاد اخلصائص باستخدام حتويل ‪.PCA‬‬

‫يف الشكل ‪ ،6‬يوضح الرسم البياين لكل من احلروف الساكنة واحلروف املتحركة بناء‬
‫عىل دالة التوزيع االحتاميل ‪ PDF‬عىل شكل توزيع جاوس ‪ .Gaussian distribution‬حيث‬
‫نالحظ أيضا أن صنف احلروف الساكنة منفصلة متاما عن صنف احلروف املتحركة وهذا‬
‫بدوره يؤدي إىل احلصول عىل نتائج ممتازة للتصنيف بني األصناف‪.‬‬
‫‪3‬‬ ‫‪3‬‬ ‫‪4‬‬
‫‪PCA+LDA Feat‬‬ ‫‪1 for Cons‬‬ ‫‪PCA+LDA Feat‬‬ ‫‪1 for Cons‬‬ ‫‪PCA+LDA Feat‬‬ ‫‪1 for Cons‬‬
‫‪PDF PCA+LDA‬‬ ‫‪Feat 1 for Cons‬‬ ‫‪PDF PCA+LDA‬‬ ‫‪Feat 1 for Cons‬‬ ‫‪3.5‬‬ ‫‪PDF PCA+LDA‬‬ ‫‪Feat 1 for Cons‬‬
‫‪2.5‬‬ ‫‪PCA+LDA Feat‬‬ ‫‪1 for Vowel‬‬ ‫‪2.5‬‬ ‫‪PCA+LDA Feat‬‬ ‫‪1 for Vowel‬‬ ‫‪PCA+LDA Feat‬‬ ‫‪1 for Vowel‬‬
‫‪PDF PCA+LDA‬‬ ‫‪Feat 1 for Vowel‬‬ ‫‪PDF PCA+LDA‬‬ ‫‪Feat 1 for Vowel‬‬ ‫‪PDF PCA+LDA‬‬ ‫‪Feat 1 for Vowel‬‬
‫‪3‬‬

‫‪2‬‬ ‫‪2‬‬
‫‪2.5‬‬

‫‪1.5‬‬ ‫‪1.5‬‬ ‫‪2‬‬

‫‪1.5‬‬
‫‪1‬‬ ‫‪1‬‬

‫‪1‬‬

‫‪0.5‬‬ ‫‪0.5‬‬
‫‪0.5‬‬

‫‪0‬‬ ‫‪0‬‬ ‫‪0‬‬


‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬ ‫‪6‬‬ ‫‪7‬‬ ‫‪8‬‬ ‫‪9‬‬ ‫‪10‬‬ ‫‪-12‬‬ ‫‪-11.5‬‬ ‫‪-11‬‬ ‫‪-10.5‬‬ ‫‪-10‬‬ ‫‪-9.5‬‬ ‫‪-9‬‬ ‫‪-8.5‬‬ ‫‪-8‬‬ ‫‪-7.5‬‬ ‫‪-0.5‬‬ ‫‪0‬‬ ‫‪0.5‬‬ ‫‪1‬‬ ‫‪1.5‬‬ ‫‪2‬‬ ‫‪2.5‬‬

‫اجلملة الثالثة‬ ‫اجلملة الثانية‬ ‫اجلملة األوىل‬


‫الشكل (‪ :)٥‬الرسم البياين لدالة توزيع االحتامالت عىل شكل جاوس بعد تطبيق إسقاط ‪.PCA‬‬

‫‪ 2٫4‬التصنيف اهلرمي ‪Hierarchical Classification‬‬


‫يعترب تصميم هيكل شجرة التصنيف اهلرمي (‪ Hierarchical Classification‬أو‬
‫‪ )HTC‬من الطرق املهمة يف التصنيف وذلك من خالل البحث عن الشجرة املناسبة‬
‫واخلصائص املناسبة للمجموعات الفرعية حتى يتم التعرف عىل الفروع يف كل‬
‫طبقة ‪ .‬إن أبسط طريقة هي تقسيم املشكلة إىل مشكالت فرعية ال حتتوي عىل عنارص‬
‫أيضا «االنقسام الصعب» [‪. ]19‬ويمكن استخدام هذه الطريقة يف‬
‫مشرتكة‪ ،‬وتسمى ً‬
‫القرآن الكريم بحيث يتم تصنيف املقاطع الصوتية عىل شكل هرمي ‪ HTC‬كام هو‬
‫موضح يف الشكل ‪.7‬‬

‫‪-89-‬‬
‫تعتمــد بنية ‪ HTC‬عــىل املعـــرفة املســبقة كيفـــية قراءة املقاطــع الصوتية بنا ًء‬
‫عىل قواعد التجويد املستخدمة يف تالوة القرآن الكريم ‪ .‬يف بداية التصنيف اهلرمي يف‬
‫الطبقة األوىل يتم التمييز يف جذر الشجرة بني املقاطع الصوتية من نوع ‪ CV‬أو ‪CVC‬‬
‫وذلك عن طريق أخذ آخر ثالث إطارات ‪ frames‬من املقطع الصويت ونقوم باستخدام‬
‫خاصية الطاقة ‪ energy‬للتعرف هل هناية املقطع هل هو حرف ساكن أم متحرك‪.‬‬
‫يف الطبقة الثانية يتم تصنيف كل فرع بناء عىل معيارين رئيسني‪ :‬املعيار األول هل‬
‫احلرف الساكن مفخم أم ال‪ ،‬واملعيار الثاين هل احلرف الساكن فيه غنة أم ال‪ .‬بناء عىل‬
‫هاذين املعيارين فلقد تم جتزئة الفرع األول من الشجرة ‪ CV‬إىل أربعة أجزاء‪ :‬اجلزء‬
‫األول حرف ساكن مفخم بغنة (مثل كلمة « ُقتل»)‪ ،‬واجلزء الثاين ساكن مفخم بدون‬
‫غنة (مثال ذلك كلمة « ُطبع»)‪ ،‬واجلزء الثالث ساكن غري مفخم بغنة (مثال ذلك‬
‫«سأل»)‪ .‬أما‬‫كلمة «كنتم»)‪ ،‬واجلزء الرابع ساكن غري مفخم بدون غنة (مثال ذلك كلمة َ‬
‫يف الطبقة الثالثة يف هذا الفرع فكان املعيار الرئييس كم زمن احلرف املتحرك‪ ،‬حيث يف‬
‫القرآن الكريم يكون إما حركة أو حركتني أو أربع أو ست حركات بناء عىل قواعد‬
‫التجويد‪ .‬بناء عىل معيار زمن احلرف املتحرك فسيكون إما حركة واحدة (‪( )V‬مثال‬
‫ذلك الفتح َة)‪ ،‬أو حركتني (‪( )V2‬مثال ذلك املد باأللف) ‪ .‬وبنفس هذه املعايري يف‬
‫الفــرع األول من الشجرة الرئيسية قمنا بتطبيقــها عىل الفرع الثاين من الشجرة‬
‫الرئيسية ‪ CVC.‬حيث تم تقسيم ‪ CVC‬كذلك إىل حرف ساكن مفخم بغنة (مثال‬
‫ذلك «من قال» )‪ ،‬وحرف ساكن مفخم بدون غنة (مثال ذلك كلمة «قال»)‪ ،‬وحرف‬
‫ساكن غري مفخم بغنة (مثال عىل ذلك كلمة «أنتم»)‪ ،‬وحرف ساكن غري مفخم بدون‬
‫غنة (مثال ذلك كلمة «قيل») ‪ .‬ثم‪ ،‬ينقسم كل فرع إىل أربع أجزاء النوع األول متحرك‬
‫قصري (‪( )V‬مثال عىل ذلك)‪ ،‬حرف ممدود (‪( )V2‬عىل سبيل املثال َا )‪ ،‬حرف ممدود‬
‫بزمن أربع حركات (‪( )V4‬عىل سبيل املثال سائل)‪ ،‬وحرف ممدود بزمن ست حركات‬
‫(‪( )V6‬مثال عىل ذلك سيعلمونعند الوقوف عليها يكون مد عارض للسكون بمقدار‬
‫‪ 6‬حركات) ‪ .‬نالحظ يف الشكل ‪ 7‬أن الفرع ‪ V4‬و‪ V6‬ليست مدرجة يف فرع ‪ .CV‬حيث‬
‫هذا النوع ‪ ،V4‬حيدث عندما يتبع احلرف املتحرك حرف مهزة (ء) وهذا ال يكون إال إذا‬
‫كان املقطع من نوع ‪ .CVC‬كذلك الفرع من نوع ‪ V6‬حيدث عندما يكون بعد احلرف‬
‫املتحرك حر ًفا ساكنا عندما يتوقف القارئ عن قراءة اآلية‪ .‬بناء عىل هذه األنواع يكون‬

‫‪-90-‬‬
‫لكل مقطع صويت نوع واحد فقط من هذا األفرع وبالتايل يسهل عملية التصنيف‪.‬‬
‫بناء عىل ما تم رشحه يف التصنيف اهلرمي‪ ،‬فمن الواضح بأن ‪ HTC‬هلا ثالث طبقات‪:‬‬
‫الطبقة األوىل لدينا فئتني رئيسيتني ‪ CVs‬و ‪ .CVCs‬يف الطبقة الثانية لديناأربع تصنيفات‬
‫حتت كل فرع‪ :‬مفخم بغنة‪ ،‬مفخم بدون غنة‪ ،‬غري مفخم بغنة‪ ،‬و غري مفخم بدون‬
‫غنة‪ .‬أما يف الطبقة الثالثة‪ ،‬لدينا الفئات الفرعية ‪ V‬و ‪ V2‬حتت فرع مقاطع ‪ CV‬والفئات‬
‫الفرعية ‪ V‬و‪ V2‬و‪ V4‬و‪ V6‬حتت فرع ‪ .CVCs‬وبالتايل يبلغ إمجايل عدد التفريعات ‪22‬‬
‫تفريعة أي أنه تم تقليص عدد األصناف للمقاطع الصوتية من ‪ 800‬إىل ‪ 22‬صنفا‪.‬‬

‫الشكل ‪ :7‬شجرة تصنيف املقاطع الصوتية اخلاصة بالقرآن الكريم‬

‫‪ -٣‬خوارزميات التصنيف ‪Classification‬‬


‫هتدف عمليات التصنيف (ضمن بيئة تعلم اآللة املراقب (‪Supervised‬‬
‫‪ ))Learning‬لتصنيف بيانات التدريب ضمن فئات خمتلفة حسب خواصها املشرتكة‬
‫وهلا عدة خوارزميات ‪ .‬هذا‪ ،‬وتعتمد عملية التصنيف عىل النامذج (‪ )Models‬التي يتم‬
‫بناؤها أثناء عملية التصنيف واملرتبطة بنوع املصنف (‪ )Classifier‬املستخدم [‪.]20‬‬
‫وفيام ييل نستعرض بعض املصنفات التي متت املقارنة معها يف هذا البحث‪:‬‬

‫‪-91-‬‬
‫‪ ٣٫١‬مصنف بايز ‪Naïve Bayes‬‬
‫يستند هذا املصنف إىل نظرية بايز االحتاملية (‪ )Bayes’ theorem‬القائمة عىل مبدأ‬
‫االحتامل الرشطي الذي يقوم بحساب احتامل وقوع أحد األحداث االحتاملية بناء عىل‬
‫وقوع حدث مستقل آخر أو أكثر وفق املعادلة التالية‪:‬‬
‫ )‪Prob(B given A) = Prob(A and B) / Prob(A‬‬ ‫)‪(11‬‬
‫حيث‪:‬‬
‫(‪ :Prob(B given A‬احتامل وقوع احلدث ‪ B‬بناء عىل وقوع احلدث ‪ – A‬وهو‬
‫االحتامل املطلوب‬
‫و(‪ :Prob(A and B‬احتامل وقوع احلدثني ‪ A‬و ‪ B‬مع ًا أو ما يدعى (‪)pairwise‬‬
‫و(‪ :Prob(A‬احتامل وقوع احلدث ‪A‬أو ما يدعى (‪.)singleton‬‬
‫إن احلدث (‪ )B‬يبدو كحدث مرتبط بحدث مستقل وحيد (‪ ،)A‬لكن يف احلقيقة‬
‫تقوم هذه اخلوارزمية أغلب األحيان بربط احلدث بعدة أحداث مستقلة‪.‬‬
‫يمتاز هذا التصنيف بالرسعة يف بناء النامذج كام أنه يمتاز بأنه قابل للتوسع (‪)scalable‬‬
‫مع ازدياد بيانات التدريب وبتنفيذ عملية بناء النامذج بشكل متوازي (‪)parallelized‬‬
‫ويمكن استخدامه لتصنيف بيانات ثنائية الفئات (‪ )binary class‬أو متعددة الفئات‬
‫(‪.)multi class‬‬

‫‪ ٣٫٢‬مصنف الشبكة العصبية متعددة الطبقات(‪Multi-Layer Perceptron (MLP‬‬


‫يعتمد هذا املصنف عىل خوارزميات الشبكة العصبية (‪Artificial Neural‬‬
‫‪ )Network‬ذات طبقة أو أكثر بني الدخل واخلرج بحيث ترتبط كل عقدة (‪)Node‬‬
‫يف كل طبقة بجميع العقد األخرى يف باقي الطبقات‪ ،‬وباستثناء طبقة الدخل فإن مجيع‬
‫العقد هي عصبونات اصطناعية (‪،)Artificial Neuron‬كام هو موضح يف الشكل ‪.8‬‬
‫عند تدريب البيانات أو اجراء االختبار عليها يتم إدخال البيانات عرب طبقة اإلدخال‬
‫(‪ )Input Layer‬وتتم معاجلتها ضمن الطبقات املخفية (‪ )Hidden Layers‬وعرضها‬
‫بالنهاية عرب طبقات اخلرج (‪.)Output Layer‬‬

‫‪-92-‬‬
‫الشكل (‪ :)8‬أنواع الطبقات الثالث لتصنيف ‪.MLP‬‬

‫تتألف كل طبقة من واحدة أو أكثر من العصبونات االصطناعية املتوازية‪ ،‬لكل‬


‫عصبون كام يظهر يف الشكل ‪ 9‬عدد ‪ N‬من املدخالت ذات الوزن ‪ W‬لكل منها باإلضافة‬
‫ملخرج واحد فقط‪ .‬يقوم كل عصبون بدمج املدخالت خمتلفة األوزان من خالل مجعهم‬
‫سوية وباالستناد إىل حد العتبة ‪ Threshold‬والذي يرمز له عادة باحلرف اإلغريقي ‪θ‬‬
‫ليقوم بتحديد قيمة اخلرج‪.‬‬
‫‪Input 1‬‬ ‫‪W1‬‬

‫‪Input 2‬‬ ‫‪W2‬‬


‫∑‬ ‫‪Sigmoid‬‬ ‫‪Output‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪Input n‬‬ ‫‪Wn‬‬
‫‪Threshold θ‬‬

‫الشكل (‪ :)9‬بنية العصبون االصطناعي‬

‫لرشح آلية عمل هذه اخلوارزمية بصورة مبسطة البد من تعريف املتغريات التالية‪:‬‬
‫املدخالت (‪ )x1، x2، ….، xn‬ذات األوزان (‪.)w1، w2، …. wn‬‬
‫الدالة ‪ u‬دالة تعرب عن احتاملية التنشيط (‪.)activation potential‬‬
‫دالة حد العتبة (‪.)threshold‬‬

‫‪-93-‬‬
‫دالة اخلرج (‪.)output‬‬
‫دالة التنشيط (‪)activation function‬‬
‫يعرف دالة احتاملية التنشيط باملعادلة‪:‬‬
‫)‪..........................................................(12‬‬
‫وباالعتامد عىل تعريف دالة اخلرج املبينة يف املعادلة‪:‬‬
‫)‪............................................................(13‬‬
‫املعادلة النهائية لتابع اخلرج تظهر يف املعادلة‪:‬‬
‫)‪...........................(14‬‬
‫يتم استخدام هذا التصنيف بشكل واسع يف عدة جماالت؛ كالتعرف اآليل عىل‬
‫الكالم (‪ ،)speech recognition‬والتعرف اآليل عىل الصور (‪)image recognition‬‬
‫إضافة لربامج الرتمجة اآللية (‪.)machine translation‬‬

‫‪K-Nearest Neighbor‬‬ ‫‪ ٣٫٣‬مصنف اجلار األقرب‬


‫مصنف اجلار األقرب (‪ K-Nearest Neighbor‬أو ‪ )KNN‬هتدف للتنبؤ بالصنف‬
‫عن طريق مقارنة السجالت الشبيهة بالسجل املراد التنبؤ بقيمته وتقدير القيمة املجهولة‬
‫هلذا السجل بناء عىل مقدار تلك السجالت‪ .‬يعتمد عمل هذه اخلوارزمية بشكل أسايس‬
‫عىل وحدة القياس (‪ .)metric‬يمثل الرمز (‪ )K‬عدد احلاالت األكثر تشاهب ًا مع احلالة‬
‫املراد التنبؤ بقيمتها‪ .،‬الشكل (‪ )10‬يوضح آلية عمل هذه اخلوارزمية حيث تظهر‬
‫النقطة املجاورة األقرب إلحدى نقاط البيانات املراد تصنيفها (‪ )X‬ضمن احلد الفاصل‬
‫(املسافة) (‪ )C1‬بينام يظهر ضمن احلد الفاصل (‪ )C2‬النقطتني املجاورتني للنقطة (‪)X‬‬
‫وضمن احلد الفاصل (‪ )C3‬النقاط الثالثة املجاورة للنقطة (‪.)X‬‬

‫‪-94-‬‬
‫الشكل (‪ :)10‬توزع البيانات ضمن املصنف ‪.KNN‬‬

‫تنتمي النقطة (‪ )X‬يف حالة (‪ )C1‬تنتمي إىل الصف السالب‪ ،‬ويف حالة (‪ )C3‬إىل‬
‫الصف املوجب وذلك حسب نظام التصويت لألغلبية (‪،)Majority Voting Scheme‬‬
‫أما يف حالة (‪ )C3‬فإنه يتم اختيار الصف بناء عىل وحدة القياس (‪ )metric‬ليتم تصنيف‬
‫النقطة عىل أساسه‪ .‬يتم اختيار العدد (‪ )K‬بشكل مناسب مع عدد البيانات بحيث يتم‬
‫التغلب عىل الرتاكب الناتج عن عملية التصنيف والتي تزداد مع ازدياد شذوذ البيانات‬
‫وعدم تناسقها‪.‬‬

‫‪ ٣٫٤‬مصنف آلة متجه الدعم (‪Support Vector Machine (SVM‬‬


‫يعترب هذا املصنف أحد أقوى املصنفات التقليدية بامتالكه آلية عمل تدمج ك ً‬
‫ال‬
‫من خوارزمية الشبكات العصبونية مع خوارزمية الشعاع األسايس (‪)Radial Basis‬‬
‫إلجياد أفضل سطح فاصل بني بيانات التدريب‪ .‬يمتاز هذا املصنف باملرونة‪ ،‬قابلية‬
‫التوسع والرسعة يف األداء مما يعطيه األفضلية يف معاجلة مسائل التعرف اآليل املتنوعة‬
‫وعلوم معلوماتية األحياء (‪ ،)Bioinformatics‬كام يتميز هذا املصنف بقدرته عىل‬
‫معاجلة معطيات ذات عدد كبري من املعايري مقارنة بعدد سجالت البيانات املتواجدة‪.‬‬
‫تعمل آلية تصنيف املعطيات وفق حالتني‪:‬‬
‫·تصنيف خطي‪ :‬وذلك باختيار أفضل خط مستقيم أو مستوي يستطيع فصل‬
‫البيانات ويكون أقرب ما يمكن جلميع هذه البيانات وهنا يمكن متييز حالتني‪:‬‬

‫‪-95-‬‬
‫جمموعة البيانات ثنائية الفئة (‪ )Binary Class‬ذات بعدين (‪ ،)D=2‬يبني‬
‫الشكل (‪ )11‬مستقيم احلالة األمثل (‪ )Optimum Situation‬التي تقسم‬
‫جمموعة البيانات إىل قسمني ويمكن تعميم هذه احلالة إىل جمموعة البيانات‬
‫متعددة الفئات (‪ )Multi Class‬متعددة األبعاد (‪،)D>2‬‬
‫·تصنيف غري خطي‪ :‬وذلك باختيار أفضل سطح أو منحني يستطيع فصل‬
‫البيانات ويكون أقرب ما يمكن جلميع هذه البيانات وهنا يمكن متييز حالتني‬
‫حسب فئات وأبعاد البيانات فيام إذا كانت مؤلفة من ثنائية الفئة فقط (‪)D=2‬‬
‫كام يظهر يف الشكل (‪-5‬ب) أو متعددة الفئات (‪.)D>2‬‬

‫(ب)‬ ‫(أ)‬
‫الشكل( ‪ :)11‬توضيح أسطح فصل البيانات ملصنف ‪.SVM‬‬

‫‪ -٤‬التجارب والنتائج‬
‫بناء عىل ما تم ذكره يف الفقرات السابقة‪ ،‬سنقوم يف هذه الوحدة بتطبيق هذه املفاهيم‬
‫من الناحية العملية وعرض نتائج البحث‪ .‬كام قلنا سابقا بأنه تم االعتامد عىل قاعدة‬
‫بيانات مدينة امللك عبد العزيز للعلوم والتقنية واحلصول املتكونة من ‪ 4300‬مقطعا‬
‫صوتيا [‪ .]5‬حيث أن هذه املقاطع الصوتية تم تصنيفها عىل صيغة ‪ CV‬وصيغة ‪CVC‬‬
‫بناء عىل مبدأ التصنيف الشجري اهلرمي املبني عىل قواعد التجويد والتي حتتوي عىل‬
‫‪ 22‬صنفا رئيسيا‪ .‬يف بداية األمر تم استخراج ‪ 281‬خاصية لكل مقطع صويت عىل‬
‫النحو التايل‪:‬‬

‫‪-96-‬‬
‫·خوارزمية الطاقة وتم استخراج خاصية الطاقة لكل مقطع صويت‪.‬‬
‫·خوارزمية درجة حدة الصوت وتم استخراج أربع خصائص وهي معدل‬
‫وتشتت وأعىل وأقل قيمة درجة حدة صوت املقطع الصويت‪.‬‬
‫·خوارزمية ترددات صفة صوت الكالم وتم استخراج ثالث خصائص وهي‬
‫معدل وتشتت وأعىل قيمة ترددات صفة صوت الكالم للمقطع الصويت‪.‬‬
‫·خوارزمية معامالت تردد ميل ‪ MFCC‬وتم استخراج عرشين خاصية عن‬
‫طريق إجياد املعدل والتشتت ألول عرش معامالت اخلوارزمية للمقطع الصويت‪.‬‬
‫·خوارزمية حتويل املوجيات املنفصلة للطبقات السبعة حيث تم استخراج ‪255‬‬
‫خاصية للمقطع الصويت‪.‬‬
‫بعد استخراج هذه اخلصائص للمقاطع الصوتية أصبح حجم مصفوفة استخراج‬
‫اخلصائص ‪ 4300x281‬عنرصا‪ .‬ثم بعد ذلك تم استخدام تقنية حتليل املكونات‬
‫األساسية ‪ PCA‬بحيث تم تقليل حجم املصفوفة إىل ‪ 4300x50‬والتي حتتوي عىل‬
‫جمموع نسبة التشتت ما يقارب ‪ %90‬من نسبة التشتت للخصائص احلقيقية‪ .‬ثم بعد‬
‫ذلك تم إدخال مصفوفة البيانات ‪ 4300x50‬إىل نظام تصنيف التشجري اهلرمي املبني‬
‫عىل قواعد جتويد القرآن الكريم لتصنيفها إىل ‪ CV‬و‪ CVC‬كام تم توضيحه سابقا‪ .‬ثم‬
‫بعد ذلك تم استخدام املصنفات التقليدية (‪ )MLP. KNN. SVM. NB‬حيث تم‬
‫تدريب هذه املصنفات عىل ‪ %80‬من البيانات وعمل فحص ‪ %20‬املتبقية من البيانات‪.‬‬
‫أعطى املصنف ‪ SVM‬أفضل النتائج حيث كانت نتيجة دقة البيانات ما يقارب ‪%86‬‬
‫للمقاطع الصوتية من نوع ‪ CV‬و‪ %90‬للمقاطع الصوتية من نوع ‪.CVC‬‬
‫إن هذه النتيجة لو قارهنا بدون استخدام التصنيف اهلرمي حلصلنا عىل نتيجة ‪.%49‬‬
‫مما يعني أنه باستخدام التصنيف الشجري املبني عىل قواعد التجديد يتم حتسني النتائج‬
‫بنسبة ‪.%34‬‬

‫‪-97-‬‬
‫‪ -٥‬اخلامتة‬
‫يف هذا البحث تم عمل دراسة عن التعرف اآليل عىل الكالم العريب املنطوق‬
‫وتطبيقاته يف القرآن الكريم باستخدام أنظمة الذكاء االصطناعي‪ .‬حيث تم يف البداية‬
‫احلصول عىل املقاطع الصوتية القرآنية من خالل قاعدة بيانات مدينة امللك عبد العزيز‬
‫ومن ثم تم استخراج اخلصائص هلذه املقاطع الصوتية باستخدام خوارزميات مشهورة‬
‫يف جمال معاجلة الصوت‪ .‬تبني أن حجم مصفوفة استخراج اخلصائص هلذه املقاطع‬
‫الصوتية كبرية وبالتايل تم استخدام تقنية حتليل املكونات األسلسية ‪ PCA‬لتقليل حجم‬
‫املصفوفة واستخدام خصائص ختيلية تقوم بإعطاء األوزان األعىل للخصائص احلقيقية‬
‫األهم وأوزان قليلة للخصائص احلقيقية الغري مهمة والتي بدورها أسهمت بشكل كبري‬
‫يف حتسني النتائج‪ .‬ثم بعد ذلك تم استخدام خاصية التصنيف اهلرمي بناء عىل قواعد‬
‫التجويد القرآنية والتي بدورها قللت عدد األصناف من ‪ 800‬صنف إىل ‪ 22‬صنف‪.‬‬
‫ويف النهاية تم عرض أشهر املصنفات التي تسخدم يف معاجلة الصوت بشكل عام ويف‬
‫القرآن بشكل خاص‪.‬‬

‫‪-98-‬‬
‫املراجع‬
[1] S. J. Russell and P. Norvig. Artificial Intelligence. A Modern
Approach. 2010.
[2] X. He and L. Deng. “Discriminative learning for speech
recognition: Theory and practice.” vol. 4. 2008.
[3] M. K. Sharma. “Speech Recognition : A Review.” in Special
Conference Issue: National Conference on Cloud Computing &
Big Data. 2015.
[4] R. K. Aggarwal and M. Dave. “Implementing a Speech
Recognition System Interface for Indian Languages.” Proc.
IJCNLP-08 Work. NLP Less Privil. Lang.. no. January. pp. 105–
112. 2008.
[5] A. H. Abo. M. Deriche. M. Elshafie. Y. Elhadj. and B. Juang.
“Algorithm for Arabic Speech using Feature Fusion and a
Genetic Algorithm.” IEEE Access. 2018.
[6] P. A. A. Ali and I. T. Hwaidy. “Hierarchical Arabic Phoneme
Recognition Using Mfcc Analysis.” Iraq J. Electr. Electron. Eng..
vol. 3. no. 1. 2007.
[7] R. Polikar. “Ensemble based systems in decision making.”
Circuits Syst. Mag. IEEE. vol. 6. no. 3. pp. 21–45. 2006.
[8] and M. A. Yahya Ould Mohamed Elhadj. Mansour Alghamdi.
“Phoneme-Based Recognizer to Assist Reading the Holy Quran.”
Adv. Intell. Syst. Comput.. vol. 235. pp. 141–152. 2014.
[9] E. M. Essa. A. S. Tolba. and S. Elmougy. “A comparison of
combined classifier architectures for arabic speech recognition.”
2008 Int. Conf. Comput. Eng. Syst. ICCES 2008. pp. 149–153.
2008.

-99-
[10] N. N. Radio. “Neural Networks used for speech recognition.”
in NINETEENTH NATIONAL RADIO SCIENCE
CONFERENCE. ALEXANDRIA. 2002. vol. 2. no. 4. pp. 19–21.
[11] J. Hai and E. M. Joo. “Improved linear predictive coding method
for speech recognition.” Information. Commun. Signal Process.
2003 Fourth Pacific Rim Conf. Multimedia. Proc. 2003 Jt. Conf.
Fourth Int. Conf.. vol. 3. no. December. pp. 1614–1618 vol.3.
2003.
[12] F. O. F. Engineering. “Parametric Speech Emotion Recognition
Using Neural Network.” 2014.
[13] A. Lilia and R. Herrera. -Un Método para la Identificación
Automática del Lenguaje Hablado Basado en Características
Suprasegmentales Ana Lilia Reyes Herrera Doctor en Ciencias
en el área de Ciencias Computacionales.- 2007.
[14] D. G. M. John G.Proakis. Digital Signal Processing. Third. New
Jersey. USA: Pearson Education. 1996.
[15] F. Snell. Roy;Milinazzo. “Formant Location From LPC Analysis
Data.” IEEE Tansaction speech audio Process.. vol. 1. 1993.
[16] M. W. Bhatti. Y. Wang. and L. Guan. “A Neural Network
Approach for Human Emotion Recognition in Speech.” ISCAS.
pp. 0–3. 2006.
[17] S. M. Al-qaraawi and S. S. Mahmood. “Wavelet Transform Based
Features Vector Extraction in Isolated Words Speech Recognition
System.” Int. Symp. Commun. Syst. Networks Digit. Sign. pp.
847–850. 2014.
[18] A. L. Reyes-herrera. L. Villaseñor-pineda. M. Montes-y-gómez.
and L. E. Erro. -Automatic Language Identification using
Wavelets.- INTERSPEECH. 2006.

-100-
[19] S. R. Safavian and D. Landgrebe. “A Survey of Decision Tree
Classifier Methodology.” IEEE Trans. Syst. Man Cybern.. vol.
21. no. 3. pp. 660–674. 1991.
[20] T Kaddar. J Al- Daher. “Using Data Mining Tools For Human
Resource Management” Damascus University Journal for basic
Sciences. 2013.
‫ تلخيص البيانات واختصارها عرب حتليل املكونات‬.)2019( .‫] أكاديمية حسوب‬21[
R. [online] Available at: https://academy. ‫) يف لغة‬PCA( ‫الرئيسية‬
.]hsoub.com/programming/r-language/ [Accessed 12 Jun. 2019

-101-
-102-
‫الباب الثالث‬
‫حتليل اآلراء العربية إلكتروني ًا‬

‫د‪.‬أجمد يوسف أبو جبارة‬

‫‪-103-‬‬
-104-
‫حتليل اآلراء العربية إلكتروني ًا‬
‫د‪.‬أجمد يوسف أبو جبارة‬

‫امللخص‬
‫يتناول هذا الباب استعراض ًا استقصائي ًا ملوضوع التحليل اآليل لآلراء وتطبيقاته‬
‫يف اللغة العربية‪ .‬يقدم الباب تعريف ًا تفصيلي ًا باملوضوع يتضمن رشح ًا للمهام املطلوبة‬
‫لتميكن احلاسب اآليل من فهم اآلراء‪ ،‬واستعراض ًا للمقاربات البحثية املختلفة لتنفيذ‬
‫كل من هذه املهام مع مقارنتها واملفاضلة بينها كلام دعت احلاجة‪ .‬كام يتضمن الباب‬
‫عرض ًا ألهم اخلوارزميات التي اقرتحها الباحثون للتنقيب عن اآلراء وتصنيفها مع‬
‫تسليط الضوء عىل ما استهدف اللغة العربية منها‪ .‬يتطرق الباب كذلك إىل بعض‬
‫التطبيقات الرئيسية لتحليل اآلراء كتصنيف مراجعات املنتجات يف املتاجر اإللكرتونية‪،‬‬
‫ٍ‬
‫باستعراض موجز لبعض‬ ‫والتنقيب عن اآلراء يف الشبكات االجتامعية‪ .‬وخيتتم الباب‬
‫املوارد املفيدة يف املجال من جمموعات نصية‪ ،‬ومعاجم آراء‪ ،‬ومكتبات برجمية‪.‬‬

‫حتليل املشاعر واآلراء‬


‫حتليل املشاعر ‪( Sentiment Analysis‬ويعرف أيض ًا بـ»التنقيب عن اآلراء»‬
‫‪ )Opinion Mining‬هو أحد جماالت لسانيات احلاسب اآليل ‪Computational‬‬
‫‪ Linguistics‬املتفرعة عن جمال الذكاء االصطناعي‪ ، Artificial Intelligence‬وهو‬
‫واحد من أنشط فروع هذه العلوم بحثا نظر ًا ألمهية تطبيقاته ووفرة املحتوى النيص‬
‫الالزم إلجراء البحوث فيه‪ ،‬السيام ما تقدمه شبكات التواصل االجتامعي اليوم من‬
‫كميات مهولة من النصوص املحملة بآراء أصحاهبا جتاه كل أنواع القضايا التي يمكن‬
‫ختيلها‪.‬‬
‫تقوم خوارزميات حتليل املشاعر بتحليل النص اللغوي هبدف الكشف عن املشاعر‬
‫التي يعرب عنها الكالم جتاه موضوع النص‪ ،‬وبينام تركز أغلبية اخلوارزميات عىل تصنيف‬
‫املشاعر إىل إجيابية أو سلبية أو حمايدة‪ ،‬فإن بعض اخلوارزميات تذهب إىل تصانيف أشمل‬
‫يتضمن حاالت شعورية أكثر تفصي ً‬
‫ال كالسعادة واحلامسة والغضب واالشمئزاز‪ ،‬إلخ‪.‬‬

‫‪-105-‬‬
‫ولعل أهم العوامل التي ساعدت يف نشأة وتطور هذا العلم هو تطبيقاته املهمة يف‬
‫جماالت التسويق‪ ،‬وخدمة العمالء‪ ،‬وتطوير املنتجات‪ ،‬وقياس الرأي العام‪ ،‬والعلوم‬
‫السياسية‪ ،‬والدراسات االجتامعية‪ ،‬وغريها الكثري‪ .‬حتى أصبح حتليل اآلراء خدمة‬
‫مدفوعة تقدمها رشكات متخصصة وتستفيد منها جهات عديدة (من رشكات ومنظامت‬
‫وحكومات) معنية برصد وقياس آراء زبائنها أو مستخدمي منتجاهتا أو املستفيدين من‬
‫خدماهتا‪.‬‬

‫نبذة تارخيية‬
‫تعود أصول جمال حتليل اآلراء واملشاعر إىل علم الفلسفة‪ ،‬وتستند الكثري من‬
‫الدراسات األوىل يف املوضوع إىل أفكار فريدريك نيتشه ونظرياته حول تعدد اآلراء‬
‫‪ Perspectivism‬التي تتلخص يف أن احلقيقة ممكن أن تكون ذات أوجه متعددة‪ ،‬وأن‬
‫كثري من القضايا التي يتجادل حوهلا الناس ليس هلا حقيقة مطلقة بالرضورة [‪]2[ ]1‬‬
‫[‪.]3‬‬
‫الفيلسوف األمريكي ريتشارد سكاشت درس أفكار نيتشه‪ ،‬وأعاد صياغتها بحيث‬
‫فرق بني نوعني من األفكار‪ :‬األفكار املرتبطة بحقائق‪ ، Objective‬واألفكار التي تعرب‬
‫عن رأي ‪ .]4[ Subjective‬وتعترب هذه الدراسات هي األرضية التي ارتكزت عليها‬
‫الكثري من الدراسات احلديثة يف جمال حتليل اآلراء‪.‬‬
‫وملا كان الكالم املكتوب واملنطوق هو الوسيلة الرئيسية للتعبري عن األفكار‬
‫ومشاركتها مع اآلخرين‪ ،‬فقد انصب كثري من اهتامم الباحثني يف هذا املجال عىل‬
‫دراسة العالقة بني طبيعة الكالم املستخدم يف احلديث واآلراء التي حيملها املتحدث‬
‫[‪ ،]7[ ]6[ ]5‬حتى ظهر جمال يف علم اللغويات متخصص بدراسة اللغويات النفسية‬
‫‪ .]8[ Psycolinguistics‬فعىل سبيل املثال درست الباحثة آن بانفيلد ‪Ann Banfield‬‬
‫اجلمل التي تعرب عن احلالة النفسية للمتحدث من حيث كونه يرسد حقائق موضوعية‬
‫أو يعرب عن آراء‪ ،‬وعالقة ذلك باختيار األلفاظ والتعبريات وتركيب اجلمل [‪ ،]9‬كام‬
‫ظهر ٌ‬
‫جمال أكثر ختصص ًا يتعلق باللغويات االجتامعية ‪ ،]10[ Sociolingistics‬وهيتم‬
‫بدراسة الطرق املختلفة التي يستخدمها الناس للتعبري عن أفكارهم يف أوضاع التفاعل‬
‫االجتامعي املختلفة كحال االتفاق أو اإلعجاب أو املعارضة إلخ‪.‬‬

‫‪-106-‬‬
‫وقد مثلت كل هذه الدراسات املختلفة أساس ًا بنى عليه الباحثون املهتمون بمجال‬
‫معاجلة اللغات مقارباهتم ‪ approaches‬املختلفة لبناء أنظمة حاسوبية قادرة عىل حتليل‬
‫اآلراء التي يتم التعبري عنها بطريق الكالم‪ .‬ومن الرواد يف هذا املجال الباحثة جينيس‬
‫ويب ‪ Janyce Wiebe‬التي استفادت من دراسة بانفيلد سابقة الذكر لتطوير خوارزمية‬
‫قادرة عىل اكتشاف أنامط الكالم التي تظهر بشكل متكرر مع احلاالت النفسية ويف‬
‫احلاالت االجتامعية املختلفة [‪ .]11‬ومن أمثلة الدراسات الريادية املهمة يف هذا‬
‫املجال كذلك ما قام به الباحث ستيفن جرين من تطوير خوارزميات قادرة عىل كشف‬
‫أنامط الكالم التي تعرب عن ميول وحتيزات ضمنية ال يتم التعبري عنها بشكل رصيح‬
‫يف الكالم‪ ،‬وقد تضمن بحثه إجراء دراسات لغوية اجتامعية واقعية متعددة لتدعيم‬
‫استنتاجاته واختبار دقة خوارزميته [‪.]12‬‬
‫ومن أوائل التطبيقات العملية احلديثة التي انصب عليها تركيز باحثي لغويات‬
‫احلاسب اآليل فيام يتعلق بتحليل اآلراء‪ :‬أنظمة إجابة األسئلة ‪Question Answering‬‬
‫‪ .Systems‬وكانت بؤرة الرتكيز فيها هي تطوير هذه األنظمة بحيث تصبح‪ -‬إىل جانب‬
‫قدرهتا عىل إجابة األسئلة املرتبطة بحقائق‪ -‬قادرة كذلك عىل إجابة أسئلة الرأي التي‬
‫حتتمل أكثر من إجابة‪.‬‬
‫وكان من أهم اجلهود الريادية يف هذا املجال ما قامت به الباحثة جينيس ويب عام‬
‫‪ 2002‬عندما نظمت ورشة عمل استمرت شهرين مجعت فيها عدد ًا من الباحثني‬
‫لدراسة كيفية استخدام الناس للغة للتعبري عن اآلراء‪ .‬وخرجت هذه الورشة‬
‫ٍ‬
‫بمجموعة من التعريفات املحددة التي متيز الكالم احلامل للرأي عن احلقائق‪ ،‬ومعايري‬
‫تصنيف الكالم احلامل للرأي إىل كالم إجيايب أو سلبي أو حمايد‪ .‬كام قام املشاركون يف‬
‫هذه الورشة بتطبيق هذه التعريفات واملعايري عىل مدونة نصية ‪ Text Corpus‬مأخوذة‬
‫من مقاالت إخبارية لتشكل هذه املجموعة ما يعرف اآلن بـ ‪ MPQA‬والتي أصبحت‬
‫أحد أهم املجموعات النصية التي يستخدمها باحثو لغويات احلاسب اآليل لتدريب‬
‫واختبار خوارزميات حتليل اآلراء [‪.]13‬‬
‫ومع ظهور وانتشار مواقع التجارة اإللكرتونية وإقبال الناس املتزايد عىل رشاء‬
‫احتياجاهتم عرب اإلنرتنت‪ ،‬ومع ما تقدمه هذه املواقع يف الغالب للمشرتين من إمكانية‬

‫‪-107-‬‬
‫التعليق عىل املنتجات التي قاموا برشائها وتبيان ما أعجبهم وما مل يعجبهم فيها‪ ،‬انصب‬
‫اهتامم باحثي حتليل املشاعر واآلراء عىل دراسة هذه التعليقات واقرتاح خوارزميات‬
‫تسهل عىل الباعة واملصنعني معرفة مقدار إعجاب الناس بمنتجاهتم مع تلخيص‬
‫اجلوانب التي القت استحسان املشرتين واجلوانب التي طاهلا نقدهم [‪]15[ ]14‬‬
‫[‪.]17[ ]16‬‬
‫ثم مع ظهور وانتشار مواقع اإلعالم االجتامعي والشبكات االجتامعية‪ ،‬توفرت‬
‫ميادين واسعة ملستخدمي اإلنرتنت للتعبري عن آرائهم جتاه كل القضايا‪ ،‬بل واخلوض يف‬
‫جداالت حول مواضيع االختالف سوا ًء كانت هذه املواضيع تقنية أو فكرية أو سياسية‬
‫احلملة لآلراء جهود ًا بحثي ًة كثري ًة‬
‫[‪ .]18‬استقطبت هذه الوفرة املهولة يف النصوص َّ‬
‫انصب ُج ُّل اهتاممها عىل حماولة فهم اللغة التي يستخدمها الناس للتعبري عن آرائهم عرب‬
‫وسائل التواصل االجتامعي‪ ،‬واملفردات والتعبريات التي يستعملها الناس يف كالمهم‬
‫حال االتفاق أو االختالف‪ ،‬وكيف يمكن استخدام تقنيات معاجلة اللغات لتحليل‬
‫النصوص احلاملة لآلراء هبدف تصنيفها آلي ًا وكشف عالقات االتفاق واالختالف بني‬
‫أصحاهبا [‪.]21[ ]20[ ]19‬‬
‫ومن تطبيقات حتليل اآلراء األخرى التي القت اهتامم ًا متزايد ًا يف السنوات األخرية‬
‫دراسة طرائق التعبري عن اآلراء يف السياق األكاديمي‪ ،‬وحتديد ًا عندما يشري الباحثون إىل‬
‫أعامل باحثني آخرين ويتعرضون هلا بالنقد‪ .‬حياول الباحثون يف هذا املجال إحداث نقلة‬
‫يف معايري تقييم املسامهات العلمية للباحثني بحيث ال يتم االكتفاء بتعداد اإلشارات‬
‫املرجعية التي يتلقاها العمل البحثي‪ ،‬بل يتم النظر أيض ًا إىل طبيعة الرأي املصاحب‬
‫لإلشارة وهل هو رأي مؤيد أم معارض ملا جاء به البحث املشار إليه [‪]24[ ]23[ ]22‬‬
‫[‪.]26[ ]25‬‬

‫حتليل اآلراء العربية‬


‫جهود البحث يف حتليل اآلراء العربية جاءت متأخرة نوع ًا ما‪ ،‬بعد أن وفر انتشار‬
‫وسائل التواصل االجتامعي وتعاظم أثرها عربي ًا وعاملي ًا حافز ًا كبري ًا لدى كثري من‬
‫الباحثني من عرب وغريهم ملبارشة البحث يف هذا املجال‪ .‬ركزت اجلهود األوىل عىل‬

‫‪-108-‬‬
‫مواءمة املقاربات املستخدمة لتحليل اآلراء يف اللغة اإلنجليزية واللغات األخرى‬
‫للغة العربية‪ ،‬وتضمن هذا بناء موارد لغوية ختدم حتليل اآلراء العربية كمعاجم آراء‬
‫ومدونات لغوية ‪ Corpora‬مصنفة يدوي ًا ومكتبات برجمية لتحليل اآلراء [‪]28[ ]27‬‬
‫[‪ .]30[ ]29‬انتقلت اجلهود البحثية يف هذا املجال بعد ذلك إىل التعامل مع التحديات‬
‫اخلاصة باللغة العربية كتعدد اللهجات العربية [‪ ،]33[ ]32[ ]31‬ودراسة أثر املعاجلة‬
‫املسبقة للنص العريب (كالتحليل الرصيف والتجذير والتجذيع) عىل دقة حتليل اآلراء‪.‬‬
‫نُرشت العديد من األبحاث االستقصائية يف السنوات األخرية حول حتليل اآلراء يف‬
‫اللغة العربية وخلصت اجلهود البحثية يف املجال عىل اختالف حماور تركيزها وتطبيقاهتا‬
‫والطرق التي استخدمتها والتحديات التي عاجلتها‪ ،‬وندعو القارئ املهتم إىل الرجوع‬
‫إىل هذه الدراسات كقراءة مكملة ملا حيتويه هذا الباب [‪]38[ ]37[ ]36[ ]35[ ]34‬‬
‫[‪.]40[ ]39‬‬

‫املهام الرئيسية يف حتليل اآلراء‬


‫نستعرض يف هذا القسم العمليات واملهام املختلفة التي تصدى هلا الباحثون يف جمال‬
‫حتليل اآلراء‪ ،‬ونكتفي هنا بتعريف هذه املهام واإلشارة إىل أهم األبحاث التي تصدت‬
‫لكل منها‪ ،‬الرشح األكثر تفصي ً‬
‫ال لطرق إجراء هذه املهام سنتطرق إليه يف القسم التايل‪.‬‬

‫Ÿ Ÿمتييز الكالم احلامل لآلراء‬


‫وتعترب هذه املهمة (ويشار إليها يف األبحاث عادة بـ»حتليل موضوعية الكالم»‬
‫‪ )Subjectivity Analysis‬بمثابة املهمة األساسية األوىل يف معظم عمليات حتليل‬
‫اآلراء‪ ،‬وتستند األبحاث األوىل فيها إىل الدراسات اللغوية النفسية والفلسفية‬
‫واالجتامعية كام أرشنا آنف ًا‪.‬‬
‫اهلدف من هذه املهمة هو التمييز بني الكالم الذي ينقل حقائق والكالم الذي يعرب‬
‫ال قول أحدهم‪« :‬كشفت رشكة سامسونج النقاب عن هاتفها اجلديد يوم‬ ‫عن رأي‪ ،‬فمث ً‬
‫اخلميس املايض» إنام ينقل خرب ًا يتعلق هباتف سامسونج دون التعبري عن أي رأي أو أي‬
‫مشاعر مرتبطة هبذا احلدث أو موجهة جتاه اهلاتف اجلديد‪ .‬قارن هذا بـ‪« :‬اهلاتف اجلديد‬
‫الذي أعلنت عنه سامسونج رائع‪ ،‬وفيه الكثري من اخلصائص املميزة»‪ ،‬فالكالم يف هذه‬

‫‪-109-‬‬
‫احلالة يعرب عن رأي صاحبه املتحمس للهاتف اجلديد وما به من خصائص يراها مميزة‪.‬‬
‫وغالب ًا ما جيرى هذا النوع من التحليل عىل مستوى اجلمل‪ ،‬حيث يتم تصنيف كل‬
‫مجلة يف النص إىل مجلة موضوعية ‪Objective‬أو مجلة معربة عن رأي ‪ Subjective‬اعتامد ًا‬
‫عىل ما حتويه اجلملة من ألفاظ [‪ .]42[ ]41‬فاجلمل احلاملة للرأي تتميز باحتوائها عىل‬
‫صفات (إجيابية أو سلبية) مثل «رائع» و»املميزة» كام يف املثال السابق‪ ،‬يف حني أن اجلمل‬
‫املوضوعية حتتوي غالب ًا عىل أرقام أو تواريخ أو غريها من التعبريات التي يكثر اقرتاهنا‬
‫بنقل احلقائق أو توثيق األحداث‪.‬‬
‫وإذا لزم تصنيف موضوعية نص كامل فإن ذلك يتم بطريقة إحصائية يف الغالب من‬
‫خالل رصد موضوعية اجلمل املكونة للنص‪ ،‬فكلام زادت نسبة اجلمل احلاملة للرأي يف‬
‫ال نحو كونه نص ًا معرب ًا عن رأي والعكس صحيح‪.‬‬‫النص‪ ،‬اعترب النص يف جممله أكثر مي ً‬
‫Ÿ Ÿحتديد قطبية الكالم‬
‫بعد حتديد الكالم احلامل للرأي تأيت املهمة التالية وهي التعرف عىل نوعية املشاعر‬
‫التي يعرب عنها النص‪ .‬الغالبية الراجحة من الدراسات ركزت عىل تصنيف املشاعر إىل‬
‫مشاعر سلبية ومشاعر إجيابية مع إمكانية التمييز بني درجات خمتلفة من قوة أو ضعف‬
‫اإلجيابية أو السلبية‪ .‬ويطلق عىل اخلاصية التي تصف الكالم من حيث كونه سلبي ًا أو‬
‫إجيابي ًا يف األوساط البحثية بـ «قطبية الكالم» ‪ ،Text Polarity‬وتعرف أيض ًا بـ»االنحياز‬
‫املعنوي» ‪.Semantic Orientation‬‬
‫تطرقت أبحاث حتليل قطبية الكالم إىل دراسة القطبية عىل مستويات خمتلفة ابتدا ًء‬
‫من قطبية الكلامت وصوالً إىل قطبية النصوص الكاملة‪.‬‬
‫Ÿ Ÿمتييز قطبية الكلامت‪:‬‬
‫وهتدف هذه العملية إىل تصنيف الكلامت الواردة يف النص إىل كلامت إجيابية (مثل‪:‬‬
‫مجيل‪ ،‬حسن‪ ،‬رائع‪ ،‬كريم‪ ،‬إلخ) أو كلامت سلبية (مثل‪ :‬يسء‪ ،‬رديء‪ ،‬هزيل‪ ،‬بخيل‪،‬‬
‫ب‪َ ،‬مع‪ِ ،‬كتاب‪ِ ،‬‬
‫شارع‪ ،‬إلخ)‪ .‬للوهلة األوىل قد تبدو‬ ‫إلخ) أو كلامت حمايدة (مثل‪َ :‬ذ َه َ‬
‫هذه العملية سهلة وأن الكلامت السلبية واإلجيابية يمكن حرصها يف معجم حرص ًا‬
‫يدوي ًا (وهو ما قام به العديد من الباحثني يف جمال اللغويات النفسية واالجتامعية بالفعل‬

‫‪-110-‬‬
‫[‪ ،)]45[ ]44[ ]43[ ]41‬ولكن هذه العملية يف احلقيقة حتيط هبا حتديات متعددة‬
‫جتعل املعاجم اليدوية غري قادرة عىل تلبية احتياجات معظم تطبيقات حتليل اآلراء‪:‬‬
‫َبت أحجامها ُّ‬
‫تظل عاجز ًة عن حرص كل الكلامت‬ ‫Ÿ Ÿفاملعاجم اليدوية املتاحة مهام ك ُ َ‬
‫التي حتمل دالئل قطبية‪ ،‬خاصة أن كثريا من تطبيقات حتليل اآلراء جتري عىل‬
‫نصوص منشورة عىل اإلنرتنت حيث تظهر مفردات جديدة باستمرار للتعبري‬
‫عن معاين سلبية أو إجيابية (مثل وصف األفكار بأهنا «داعشية» ‪ -‬وهو لفظ‬
‫مستحدث ال حتويه معاجم القطبية)‪ ،‬ويغلب استعامل الكالم العامي‪ ،‬ويكثر‬
‫استعامل االختصارات (مثل استعامل ‪ gr8‬كاختصار ل ‪ ،)great‬واستعامل‬
‫الوجوه التعبريية‪ ،‬وغريها‪.‬‬
‫Ÿ Ÿكام أن معاجم القطبية متوفرة لعدد حمدود من اللغات فقط‪ ،‬يف حني أن عدد كبري‬
‫من اللغات ال توجد هلا معاجم قطبية عىل اإلطالق أو أن ما هو متوفر منها يعاين‬
‫من حمدودية املحتوى وغياب االهتامم بتحديثه‪.‬‬
‫معان متعددة‪ ،‬وخيتلف معناها بحسب‬ ‫ٍ‬ ‫Ÿ Ÿكذلك توجد كلامت كثرية حتتمل‬
‫السياق‪ ،‬وبنا ًء عىل املعنى املقصود قد تتن َّقل قطبيتها بني إجيابية وسلبية وحمايدة‪،‬‬
‫ال كلمة «أسد» يف معناها الغالب هي اسم حيوان مفرتس‪ ،‬ولكن يف‬ ‫فمث ً‬
‫ٍ‬
‫جمازي ُيراد‬ ‫ٍ‬
‫استعامل‬ ‫سياقات معينة تكون هلا داللة إجيابية كقوهلم «أنت أسد» يف‬
‫منه التعبري عن صفات الشجاعة والقوة‪ .‬تتجنب املعاجم القطبية إدراج هذه‬
‫الكلامت ألن الغالب عليها هو املعنى املحايد‪ ،‬يف حني أن كثري من تطبيقات‬
‫حتليل اآلراء حتتاج إىل أن تكون قادرة عىل التعرف عىل املقصد القطبي هلذه‬
‫الكلامت‪.‬‬
‫Ÿ Ÿأخري ًا‪ ،‬ختتلف الكلامت القطبية يف مقدار قطبيتها‪ ،‬فكلمة «ممتاز» ‪-‬مثالً‪ -‬تتعرب‬
‫أقوى يف داللتها اإلجيابية من كلمة مثل «جيد»‪ .‬مثل هذا التقدير لدرجة اإلجيابية‬
‫أو السلبية غري متاح يف الغالبية العظمى من املعاجم القطبية‪ ،‬وما هو موجود‬
‫منها يكتفي بتصنيف قطبية الكلامت إىل قوية وضعيفة فقط‪.‬‬

‫‪-111-‬‬
‫بسبب هذه التحديات وحمدودية املعاجم اليدوية انصب اهتامم كثري من الباحثني‬
‫األوائل يف جمال حتليل اآلراء عىل البناء اآليل للمعاجم أو اإلثراء اآليل للمعاجم اليدوية‬
‫املوجودة‪ ،‬واستخدم الباحثون طرق ًا متعددة لتحقيق هذا اهلدف نستعرض بعض ًا منها‬
‫يف الفقرات التالية‪.‬‬
‫استندت كثري من هذ الطرق إىل فرضية أن الكلامت التي حتمل دالالت قطبية‬
‫ال إذا كان هناك نص يبدي رأي ًا جتاه منتج‬
‫متشاهبة تظهر غالب ًا يف مواضع متقاربة‪ ،‬فمث ً‬
‫جديد‪ ،‬وإذا كنا نعرف قطبية بعض الكلامت الواردة يف هذا النص‪ ،‬فيمكن افرتاض‬
‫أن باقي الصفات الواردة يف النص من املمكن أن حتمل قطبية مماثلة‪ ،‬وإذا أجرينا هذا‬
‫الرصد للظهور املتزامن لكلامت معروفة القطبية مع بقية الكلامت عىل كمية ضخمة‬
‫جد ًا من النصوص يصبح من املمكن رصد عالقات اقرتان إحصائية تقود إىل ختمني‬
‫ال الكلامت التي تتكرر عىل مقربة من كلامت‬ ‫قطبية الكلامت غري معروفة القطبية‪ .‬فمث ً‬
‫معروفة اإلجيابية يمكن افرتاض أهنا إجيابية‪ ،‬واألمر كذلك مع الكلامت التي تتكرر مع‬
‫كلامت سلبية‪ ،‬أما الكلامت التي ترد بنفس مقدار التكرار مع كلامت إجيابية وكلامت‬
‫سلبية فيمكن افرتاض أهنا كلامت متعادلة القطبية [‪. ]46‬‬
‫حاولت مقاربات أخرى النظر إىل الطريقة التي ترتبط فيها الصفات التي تتجاور يف‬
‫النصوص وتفصلها حروف عطف أو حروف استدراك أو ما شابه‪ ،‬وحماوالت استنتاج‬
‫ال إذا‬‫القطبية للكلامت جمهولة القطبية بمساعدة الكلامت ذات القطبية املعروفة‪ .‬فمث ً‬
‫احتوى نص عىل يشء من قبيل‪« :‬مجيل ورائع» وكانت قطبية «مجيل» معروفة مسبق ًا‪،‬‬
‫فإن حرف العطف «و» يوفر قرينة قوية بأن كلمة «رائع» حتمل نفس القطبية‪ .‬أما إذا‬
‫احتوى نص عىل تعبري مثل‪« :‬مجيل لكنه مزعج»‪ ،‬وكانت قطبية «مجيل» معروفة‪ ،‬فإن‬
‫حرف االستدراك «لكن» يمنح قرينة قوية بأن كلمة «مزعج» هلا قطبية معاكسة [‪.]47‬‬
‫عمدت طرق أخرى إىل االستفادة من شبكات الكلامت ‪ ،Word Networks‬وهي‬
‫شبكات تكون كل نقطة ‪ node‬فيها عبارة عن كلمة‪ ،‬وترتبط الكلامت ببعضها بروابط‬
‫‪ edges‬متثل عالقات ترادف أو تضاد أو غريها من العالقات املعنوية ‪Semantic‬‬
‫‪ .Relationships‬الطرق التي تعتمد عىل هذه الشبكات تستخدم خوارزميات التعلم‬
‫اآليل شبه املوجه ‪ Semi-supervised learning‬للتعرف عىل قطبية الكلامت املختلفة‬

‫‪-112-‬‬
‫يف الشبكة انطالق ًا من عدد قليل ‪-‬نسبيا‪ -‬من الكلامت معروفة القطبية يتم اختيارها‬
‫يدوي ًا [‪. ]48‬‬
‫من هذه اخلوارزميات ما يعتمد عىل التنقل العشوائي يف الشبكة ‪،Random Walks‬‬
‫ولتحديد قطبية كلمة ما باستخدام هذه الطريقة فإن عملية التنقل العشوائي تنطلق‬
‫من تلك الكلمة وتستمر يف التنقل العشوائي عرب الشبكة حتى تصل إىل كلمة معروفة‬
‫القطبية‪ ،‬ويتم تكرار هذه العملية مرات كثرية لكل كلمة‪ ،‬ويف النهاية يتم تعيني قطبية‬
‫للكلمة بحسب القطبية التي غلبت عىل الكلامت ذات القطبية املعروفة التي توقفت‬
‫عندها عملية التنقل يف كل حماولة‪ .‬أما يف حال تعذر إجياد أغلبية واضحة إلحدى‬
‫القطبيتني فيتم اعتبار أن الكلمة ذات قطبية متعادلة [‪.]49‬‬
‫حاولت مقاربات أخرى إثراء املعاجم القطبية للغات التي تعاين من فقر املعاجم‬
‫وفقر املوارد النصية التي تتيح بناء معاجم آلية هلا (كقلة املحتوى املكتوب بتلك اللغة‬
‫عرب اإلنرتنت مثالً) من خالل االستفادة من معاجم لغات أخرى تتميز بثراء معامجها‪،‬‬
‫ٍ‬
‫كلامت متعددة اللغات ‪Multi-lingual‬‬ ‫ومن هذه الطرق مث ً‬
‫ال ما يعمد إىل بناء شبكات‬
‫‪ Word Networks‬من خالل استخدام القواميس وربط الكلامت برتمجاهتا من اللغات‬
‫املختلفة‪ .‬يتبع ذلك استخدام خوارزميات كالتي عرضناها يف الفقرة املاضية الستنتاج‬
‫قطبية الكلامت غري معروفة القطبية يف اللغات املختلفة انطالق ًا من بعض كلامت معروفة‬
‫يتم اختيارها يدوي ًا‪ ،‬كام هو مبني يف شكل ‪.]50[ 1‬‬

‫شكل ‪ 1‬يوضح شبكتني ‪ WordNet‬للغتني خمتلفتني‪ ،‬األوىل ‪-‬يمني‪ -‬حتتوي عىل كلامت معروفة القطبية‪،‬‬
‫والثانية ‪-‬يسار‪ -‬ختلو من هذه املعلومات ولكنها مرتبطة بالشبكة األخرى من خالل ترمجة الكلامت‬

‫‪-113-‬‬
‫Ÿ Ÿالتعرف عىل قطبية اجلمل والفقرات‬
‫املهمة التي حتدثنا عنها يف القسم السابق هتتم بدراسة قطبية الكلمة بشكل جمرد‬
‫معزول عن سياقها الذي وردت فيه‪ .‬يف هذا القسم سنتحدث عن مهمة أكثر تعقيد ًا‬
‫وهي التي يؤخذ فيها السياق بعني االعتبار‪ ،‬وهي خطوة مهمة ألن السياق له دور كبري‬
‫يف حتديد قطبية الكلمة‪ ،‬ونستعرض فيام ييل بعض احلاالت التي يؤثر فيها السياق عىل‬
‫الكلامت مع ذكر أمثلة عىل كل منها‪.‬‬
‫Ÿ Ÿبعض الكلامت حتتمل أكثر من معنى‪ .‬فقد تستخدم الكلمة يف سياق فتحمل‬
‫معنى سلبي ًا أو تكون حمايدةً‪،‬‬ ‫ٍ‬
‫سياق آخر فتحمل‬ ‫معنى إجيابي ًا وقد تستخدم يف‬
‫ً‬ ‫ً‬
‫ومثال ذلك كلمة «أسد» كام أوردنا سابق ًا‪ .‬مثال آخر كلمة «عني»‪ ،‬فقد تأيت‬
‫ٍ‬
‫إجيايب‬ ‫بمعنى‬
‫ً‬ ‫بمعنى حمايد كام يف‪« :‬اشرتيت قطرة ٍ‬
‫عني لعالج االمحرار»‪ ،‬أو‬ ‫ً‬
‫ً‬ ‫ً‬
‫عندما تستخدم استخداما جمازيا كام يف «ابني هو عيني وال غنى يل عنه»‪ ،‬أو‬
‫سلبي كام يف «كان عين ًا لألعداء» أي «جاسوس ًا»‪.‬‬
‫ٍ‬ ‫بمعنى‬
‫ً‬
‫Ÿ Ÿإذا وردت الكلمة القطبية يف سياق ٍ‬
‫نفي فإن قطبيتها تنعكس‪ .‬فمث ً‬
‫ال يف مجلة‪:‬‬
‫«ال أحب الباذنجان» األصل يف كلمة «أحب» أهنا موجبة القطبية‪ ،‬ولكن ورود‬
‫حرف «ال» يف بداية اجلملة‪ ،‬ووقوع كلمة «أحب» يف نطاق نفيها‪ ،‬قلب قطبيتها‬
‫من موجبة إىل سالبة‪.‬‬
‫Ÿ Ÿقد ترد الكلمة القطبية يف سياق نفي ولكن ال يؤدي النفي إىل عكس قطبيتها‬
‫بالرضورة‪ ،‬ولكن يؤدي إىل التقليل من قوة قطبيته ا �‪Sentiment Intensi‬‬
‫ال يف مجلة «ال أحب الباذنجان كثري ًا» برغم أن كلمة «أحب» وردت‬ ‫‪ ،ty‬فمث ً‬
‫يف سياق النفي‪ ،‬إال أن تذييل اجلملة بـ»كثري ًا» قد جعل املنفي هو كثرة املحبة‬
‫وليس أصلها‪.‬‬
‫Ÿ Ÿقد ترد الكلامت القطبية يف سياق السخرية ويكون مقصد قائلها معاكس ًا‬
‫ال قد يقول أحد لآلخر «يا ذكي» يف سياق من السخرية‬ ‫لقطبيتها الظاهرة‪ .‬فمث ً‬
‫يكون مقصده فيه أن املوجه إليه الكالم قليل الذكاء وهو ما يعاكس ظاهر‬
‫املعنى‪ .‬ويعترب التعامل مع حاالت السخرية يف الكالم من أصعب مشكالت‬
‫حتليل اآلراء‪ ،‬وذلك ألن متييز الكالم اجلاد من الكالم الساخر حيتاج يف أغلب‬

‫‪-114-‬‬
‫األحيان إىل معرفة الثقافة اللغوية السائدة بني املتحدثني‪ ،‬وهو ما يتجاوز كثري ًا‬
‫نطاق النص الذي جيري حتليله‪.‬‬
‫للتعامل مع هذه التحديات التي تستوجب إدراك السياق حاولت بعض طرق حتليل‬
‫ال يف حال ورود‬‫اآلراء استخدام بعض اخلوارزميات املبنية عىل قواعد مصاغة يدوي ًا‪ ،‬مث ً‬
‫كلمة نفي يف اجلملة يتم عكس قطبية كل الكلامت القطبية الواردة يف نفس اجلملة وعىل‬
‫بعد مسافة حمددة من أداة النفي وهكذا‪ ،‬ولكن هذه الطرق تعاين من عدم مقدرهتا عىل‬
‫اكتشاف كل أنواع السياق املؤثرة يف قطبية الكالم‪ .‬ولذلك فإن الكثري من طرق حتليل‬
‫اآلراء قد اعتمدت عىل تقنيات تعلم اآللة ‪ Machine Learning‬سوا ًء الطرق التقليدية‬
‫منها أو طرق التعلم العميق ‪ .Deep Learning‬يف حالة طرق تعلم اآللة التقليدية‬
‫ينصب جهد الباحثني عىل تعريف إشارات وخصائص ‪ Features‬ممكن إجيادها يف‬
‫النص ويمكن أن يكون هلا أثر يف قطبية الكالم‪ ،‬ومن أمثلة هذه اخلصائص ما ييل‪:‬‬
‫Ÿ Ÿالكلامت املجاورة (الكلمة السابقة والتالية مثالً) للكلامت القطبية يف اجلملة‪.‬‬
‫Ÿ Ÿوجود أداة نفي يف اجلملة‪ ،‬واملسافة ‪-‬مقاسة بالكلامت‪ -‬بني أداة النفي والكلامت‬
‫القطبية يف اجلملة‪.‬‬
‫Ÿ Ÿوجود كلامت تقوية ‪ Intensifiers‬أو تضعيف ‪ Downtoners‬مقرتنة بالكلمة‬
‫القطبية مثل‪« :‬بشدة»‪« ،‬بقوة»‪« ،‬كثري ًا»‪« ،‬جد ًا»‪« ،‬قليالً»‪ ،‬إلخ‪.‬‬
‫Ÿ Ÿالعالقات اإلعرابية بني الكلامت يف اجلملة‪ ،‬السيام بني الكلمة القطبية وغريها‬
‫من الكلامت كأدوات النفي أو كلامت التقوية والتضعيف وغريها‪.‬‬
‫Ÿ Ÿاحتواء اجلملة عىل وجوه تعبريية ‪ ،Emoticons‬أو عالمات ترقيم (مثل‬
‫عالمة تعجب أو عالمة استفاهم)‪ ،‬أو رموز تزينية‪ ،‬أو وسوم تصنيفية‬
‫‪ ،Hashtags‬أو التطويل لبعض احلروف يف بعض الكلامت كام يف‬
‫«عجيــــــــــــــــــــــــب»‪ ،‬أو تكرار احلروف كام يف «راااااااااائع»‪ ،‬إلخ‪.‬‬
‫هذه اخلصائص يتم تعريفها لكل مجلة أو فقرة يف النص‪ ،‬وعند توفر كمية كافية‬
‫من اجلمل أو الفقرات معروفة القطبية‪ ،‬يتم تدريب خوارزميات تعلم اآللة عىل هذه‬
‫األمثلة‪ ،‬حتى تصبح قادرة عىل ختمني قطبية أي مجل أو فقرات أخرى‪.‬‬

‫‪-115-‬‬
‫مؤخر ًا ‪-‬ومع الوفرة الكبرية للبينات املحملة باآلراء املنشورة عىل اإلنرتنت‪-‬‬
‫شهدت تقنيات حتليل اآلراء صعود الطرق املعتمدة عىل التعلم العميق‪ ،‬وفيها ينرصف‬
‫تركيز الباحثني عن تعريف خصائص رصحية الكتشاف القطبية يف ضوء السياق إىل‬
‫الرتكيز عىل بنية النموذج العميق ‪ Model Architecture‬الذي يراد تدريبه‪ .‬وسوف‬
‫نتحدث بقدر أكرب من التفصيل عن هذه الطرق الحق ًا يف هذا الباب‪.‬‬
‫Ÿ Ÿالتعرف عىل مصدر الرأي‬
‫كثري من تطبيقات حتليل اآلراء هتتم بتمييز اآلراء املنقولة عن آخرين‪ .‬فمث ً‬
‫ال عند قول‬
‫أحدهم‪« :‬صديقي يكره منتجات رشكة آبل‪ ،‬ولكني أحبها»‪ ،‬نجد أن التعبري السلبي‬
‫«يكره» ليس مقرتن ًا باملتحدث صاحب النص‪ ،‬وإنام هو ينقل مشاعر مصدرها خمتلف‪.‬‬
‫ولذلك فإن طرق حتليل الرأي يف مثل هذه التطبيقات حتتاج إىل ربط كل تعبري قطبي يف‬
‫النص بمصدره والتمييز بني كونه مقرتن ًا بالكاتب أم بمصدر آخر‪.‬‬
‫Ÿ Ÿالتعرف عىل املستهدف بالرأي‬
‫كثري من تطبيقات حتليل اآلراء هتتم أيض ًا برصد رأي صاحب النص جتاه منتج حمدد‬
‫أو خدمة حمددة‪ ،‬ولذلك يلزم معرفة املستهدف بكل تعبري قطبي يف النص‪ .‬فمث ً‬
‫ال إذا قال‬
‫أحدهم‪« :‬أنا أحب هواتف آبل‪ ،‬ولكني أكره أجهزهتا اللوحية»‪ ،‬حتتاج أكثر تطبيقات‬
‫إىل القدرة عىل متييز أن مشاعر املحبة موجهة للهواتف‪ ،‬بينام مشاعر الكره موجهة نحو‬
‫اللوحيات وليس العكس‪.‬‬
‫كذلك فإن كثري من تطبيقات حتليل اآلراء تتطرق إىل رصد رأي الناس يف خدمات أو‬
‫منتجات متعددة اجلوانب‪ ،‬ومن املمكن أن خيتلف تقييم الناس لكل من هذا اجلوانب‪،‬‬
‫فمث ً‬
‫ال عند قيام املستخدمني بتقديم تقييم نيص ألحد املطاعم فإن هذا التقييم قد يتطرق‬
‫إىل جودة الطعام‪ ،‬ترتيب ونظافة مكان اجللوس‪ ،‬لباقة النادل‪ ،‬األسعار‪ ،‬إلخ‪ .‬فمث ً‬
‫ال يف‬
‫تعليق مثل‪« :‬الطعام لذيذ جد ًا‪ ،‬وتعامل طاقم املطعم راق‪ ،‬ولكن الضوضاء يف املكان‬
‫شديدة واإلضاءة ضعيفة» نجد خليطا من آراء إجيابية وسلبية‪ .‬وحتتاج كثري من تطبيقات‪.‬‬
‫ونظر ًا ألمهية هذا الربط بني الرأي واجلانب املستهدف بالرأي ألكثر تطبيقات حتليل‬
‫اآلراء فقد ظهر جمال خاص يعرف بـ»حتليل اآلراء متعدد اجلوانب‪Aspect-based ».‬‬
‫‪.Sentiment Analysis‬‬

‫‪-116-‬‬
‫وتعتمد الطرق التقليدية املهتمة بمعرفة مصدر ووجهة الرأي عىل حتليل العالقات‬
‫اإلعرابية يف اجلملة بني الكلامت القطبية والكلامت األخرى السيام اجلمل االسمية‬
‫‪ Noun Phrases‬والكيانات املسامة ‪ .Named Entities‬أما طرق التعلم العميق‬
‫فتحاول كشف العالقات اإلعرابية بشكل ضمني من خالل بنية النموذج ‪Model‬‬
‫‪ Architecture‬الذي يتم تدريبه دون أن يتم إجراء عملية اإلعراب نفسها بالرضورة‪.‬‬

‫§ §مهام متقدمة لتحليل املشاعر‬


‫املهام التي تناولناها يف الفقرات السابقة تعترب مهام أساسية والزمة للغالبية العظمى‬
‫من تطبيقات حتليل اآلراء‪ .‬نتناول هنا عىل عجالة بعض املهام املتقدمة التي قد حتتاجها‬
‫بعض تطبيقات حتليل اآلراء‪.‬‬

‫Ÿ Ÿتلخيص اآلراء‬
‫كام ذكرنا سابق ًا فإن العديد من تطبيقات حتليل اآلراء تتعامل مع حاالت تتعدد فيها‬
‫اجلوانب التي يستهدفها الناس بآرائهم‪ ،‬مثل تعليق الناس عىل أحد املنتجات كهاتف‬
‫ال ولكنهم يتضجرون من قرص عمر البطارية أو‬ ‫ال فيستحسنون جودة الكامريا مث ً‬ ‫مث ً‬
‫يعجبهم الشكل األنيق للهاتف ولكن يضايقهم تأخر استجابة شاشة اللمس وهكذا‪.‬‬
‫يف هذه التطبيقات ال يكفي وسم تعليق املستخدم بأنه إجيايب أو سلبي بمجمله بل‬
‫جيب تفصيل اجلوانب اإلجيابية واجلوانب السلبية من وجهة نظر كل مستخدم‪.‬‬
‫هتدف مهمة تلخيص اآلراء إىل تصنيف اآلراء املختلفة للمستخدمني من حيث‬
‫اجلوانب التي استهدفتها آراؤهم‪ ،‬بحيث يتم وضع اآلراء اخلاصة بكل جانب يف جمموعة‬
‫واحدة ثم يتم تصنيفها إىل إجيابية وسلبية‪ .‬ثم يتم تطبيق آليات تلخيص النصوص ‪Text‬‬
‫‪ Summarization‬عىل جمموعة النصوص اخلاصة بكل منهام‪ ،‬ويكون املخرج النهائي‬
‫هلذه العملية هو ملخص مفصل يعرض كل جانب عىل حدة وأهم اآلراء اإلجيابية‬
‫والسلبية التي استهدفت كل جانب‪.‬‬

‫‪-117-‬‬
‫Ÿ Ÿتتبع تطور اآلراء‬
‫حياول الباحثون املهتمون هبذا النوع من حتليل اآلراء دراسة الطبيعة الديناميكية‬
‫لآلراء وتتبع تطورها وتغريها مع الوقت‪ .‬ففي حالة حتليل آراء املستفيدين من خدمة ما‬
‫‪-‬مثالً‪ ،-‬قد يكون من املفيد تتبع التغري الذي يطرأ عىل آرائهم بعد إجراء أي تغيريات‬
‫يف اخلدمة‪ ،‬ومالحظة كيف متيل اآلراء نحو اإلجيابية أو السلبية كردة فعل من طرف‬
‫املستفيدين‪.‬‬
‫كذلك يف جمموعات النقاش عرب الشبكات االجتامعية‪ ،‬هتتم العديد من الدراسات‬
‫االجتامعية برصد كيف يؤثر سري النقاش عىل آراء املشاركني فيه وإذا ما كان أحدهم‬
‫سيغري رأيه مع مرور الوقت‪ ،‬وتأثري سري النقاش كذلك عىل الرأي املبدئي الذي يتبناه‬
‫من ينخرط يف النقاش متأخر ًا‪.‬‬

‫Ÿ Ÿرصد انقسام جمموعات النقاش حول موضوع النقاش‬


‫من جماالت الدراسة التي يعنى هبا الباحثون يف جمال حتليل اآلراء دراسة انقسام‬
‫املنخرطني يف نقاشات جدلية حول موضوع النقاش‪ ،‬ودراسة اللغة التي يستخدموهنا‬
‫يف التعبري عن انقسامهم‪ .‬ويتم تطبيق هذه الدراسات غالب ًا عىل احلوارات التي حتوي‬
‫العديد من منشورات األخذ والرد بني املشاركني يف النقاش كام يف منتديات احلوار‬
‫وغريها من وسائل التواصل االجتامعي؛ فيحاول الباحثون حتليل املنشورات التي‬
‫يكتبها كل مشارك وحتديد ما إذا كانت تعرب عن اتفاق أو اختالف مع رأي املنشور السابق‬
‫الذي جاءت رد ًا عليه‪ ،‬فمث ً‬
‫ال إذا بدأ املشارك تعليقه عىل منشور سابق بقوله‪« :‬هذا رأي‬
‫خاطئ» أو «أنا أختلف مع هذا الرأي» أو ما شابه ذلك حتاول هذه اخلوارزميات أن‬
‫تستنج أن صاحب الرد وصاحب التعليق األصيل عىل طريف نقيض فيام يتعلق بموضوع‬
‫النقاش‪ .‬وتذهب الدراسات إىل أبعد من ذلك فهي حتاول كذلك أن ترصد مواطن‬
‫االتفاق واالختالف بني املتحاوريني‪ ،‬فقد خيتلف متحاورين حول أحد جوانب النقاش‬
‫ولكن قد خيتلفان يف جانب آخر من مثل‪« :‬أتفق معك يف كذا‪ ،‬ولكني أخالفك الرأي‬
‫يف كذا»‪ .‬حتاول األبحاث يف هذه احلالة بناء «سجل انطباعات» ‪ Attitude Profile‬لكل‬
‫مستخدم تسجل فيه انطباعات املستخدم السلبية أو اإلجيابية جتاه املستخدمني اآلخرين‬
‫وجتاه اجلوانب املختلفة ملوضوع النقاش‪.‬‬

‫‪-118-‬‬
‫تستند كثري من هذه الدراسات إىل نظريات يف العلوم االجتامعية كنظرية التوازن‬
‫البنائي ‪ Structural Balance Theory‬والتي ترصد ظواهر اجتامعية متكررة تفرس‬
‫انقسام الناس حول اآلراء املختلفة مثل «صديق صديقي صديقي» و«عدو عدوي‬
‫صديقي»‪ ،‬وهكذا‪.‬‬

‫Ÿ Ÿرصد التأثري عىل اآلراء يف املناظرات‬


‫حتاول الدراسات املهتمة هبذا اجلانب رصد عملية التأثري التي جتري يف احلوارات‬
‫التي تدور عرب منصات احلوار اإللكرتوين كالشبكات االجتامعية وما شاهبها‪ ،‬والتعرف‬
‫عىل األشخاص املؤثرين الذين يوجهون سري النقاش ويؤثرون يف آراء غريهم من‬
‫املشاركني وربط هذا بام لدهيم من قوة اجتامعية ‪ ،Social Power‬وسلطة عىل اآلخرين‬
‫‪.Social Authority‬‬

‫Ÿ Ÿتصنيف أكثر تفصي ً‬


‫ال للمشاعر‬
‫ثمة فرع من حتليل اآلراء يتجاوز تصنيف اآلراء لسلبية وإجيابية ويقرتح تصنيفات‬
‫ال تتضمن مشاعر مثل الغضب‪ ،‬واحلزن‪ ،‬وامللل‪ ،‬والسعادة‪ ،‬واحلامسة‪ ،‬إلخ‪.‬‬ ‫أكثر تفصي ً‬
‫ولكن الدراسات يف هذا اجلانب ما زالت قليلة نسبي ًا نظر ًا لقلة البيانات املتاحة التي‬
‫يتوفر فيها نصوص مكتوبة مقرونة بمشاعر تفصيلية‪.‬‬

‫طرق حتليل اآلراء‬


‫يف هذا الباب نستعرض املقاربات املختلفة التي استعملها باحثو حتليل اآلراء إلجراء‬
‫املهام التي عرضنا بعض ًا منها يف اجلزء السابق من هذا الباب‪.‬‬
‫نبدأ بعرض عمليات املعاجلة املسبقة ‪ Preprocessing‬التي يلزم القيام هبا قبل البدء‬
‫بعمليات حتليل اآلراء مع الرتكيز هنا عىل ما حتتاجه اللغة العربية‪ .‬يتبع ذلك استعراض‬
‫لثالثة مدارس يف حتليل اآلراء مع تقديم أمثلة لكل منها وعقد املقارنات بينها كلام‬
‫قضت احلاجة‪.‬‬

‫‪-119-‬‬
‫§ §املعاجلة املسبقة للنصوص‬
‫هي خطوة مهمة جيب إجراؤها قبل البدء بتحليل اآلراء‪ ،‬خاص ًة عند التعامل مع‬
‫اللغة العربية‪ ،‬وقد بينت الدراسات أن هذا النوع من املعاجلة له أثر واضح يف دقة‬
‫عمليات حتليل اآلراء التي تتبعها [‪ .]51‬وتعود األمهية اخلاصة إلجراء هذه املعاجلة‬
‫لنصوص اللغة العربية ملا تتميز به من ثراء املفردات‪ ،‬وكثرة أشكال الرصف‪ ،‬وغياب‬
‫التشكيل من معظم النصوص العربية املكتوبة مع ما خيلقه هذا من غموض ملعاين بعض‬
‫الكلامت‪ ،‬وتعدد اللهجات العربية‪ ،‬وغريها‪ .‬وتتضمن عمليات املعاجلة املطلوبة يف‬
‫اللغة العربية ما ييل‪:‬‬

‫Ÿ Ÿتقطيع الكالم (إىل كلامت أو وحدات نصية) ‪:Tokenization‬‬


‫وتسمى هذه العملية أيض ًا بالتحليل اللفظي ‪ Lexical Analysis‬ويقصد به تقطيع‬
‫النص إىل وحدات ‪ Tokens‬تتكون كل وحدة منها من أحرف أو أرقام أو رموز متصلة‬
‫كالكلامت أو األعداد أو عالمات الرتقيم‪ ،‬مع حتديد موضع بداية وهناية كل وحدة‪.‬‬

‫Ÿ Ÿتسوية الكالم ‪Orthographic Normalization‬‬


‫وهتدف إىل تنقية النص من الشوائب الكتابية كالرموز الزائدة وعالمات الرتقيم‬
‫غري اهلامة لعملية املعاجلة مثالً‪ ،‬والتأكد من توحيد األنامط املختلفة لكتابة اليشء‬
‫الواحد (مثل إثبات أو ترك رسم اهلمزة يف األلف املهموزة)‪ ،‬والتخلص من التطويل‪،‬‬
‫والتخلص من احلروف املكررة كام يف «راااائع»‪ ،‬وإزالة التشكيل إذا كان غري الزم ًا يف‬
‫عمليات املعاجلة التالية أو غري متوفر بشكل شامل لكل النص املكتوب‪.‬‬
‫وقد بينت بعض البحوث املتعلقة بمعاجلة اللغة العربية أن إجراء عمليات التسوية‬
‫عىل النصوص العربية له تأثري ملحوظ عىل جودة وكفاءة عمليات املعاجلة الالحقة‬
‫للنص [‪.]52‬‬

‫Ÿ Ÿالتحليل الرصيف ‪Morphological Analysis‬‬


‫وهتدف عملية التحليل الرصيف للكلامت إىل دراسة بنية الكلمة بغرض التعرف عىل‬
‫القسم الرصيف للكلمة‪ ،‬كتحديد هل هي مجع أم مفرد‪ ،‬صيغة تذكري أم تأنيث‪ ،‬صيغة‬
‫ٍ‬
‫ماض أم مضارع أم أمر لألفعال ‪ ...‬إلخ‪ ،‬كام هتدف إىل حتديد جذر الكلمة وحتديد‬
‫الزوائد التي أدخلت عىل اجلذر لرصفه‪.‬‬

‫‪-120-‬‬
‫وهذه العملية مهمة جد ًا لتحليل اآلراء ففي حال االعتامد عىل املعاجم القطبية‬
‫إلجراء عملية التحليل فإن املعاجم املتاحة ال حتوي كل أشكال الرصف للكلمة‬
‫ال قد حيتوي املعجم عىل كلمة «رائع» ولكنها لن حتوي ربام كلامت مثل‬ ‫القطبية‪ ،‬فمث ً‬
‫ِ‬
‫«رائعة‪ ،‬رائعان‪ ،‬رائ َعني‪ ،‬رائعون‪ ،‬رائعني‪ ،‬إلخ‪ .‬وهلذا فإن عملية التحليل الرصيف تساعد‬
‫عمليات التحليل التالية يف إدراك أن كلمة مثل «رائعان» مرتبطة بكلمة «رائع» املوجودة‬
‫يف املعجم‪.‬‬
‫كذلك يف اللغة العربية قد تدخل الضامئر عىل الكلمة‪ ،‬فمث ً‬
‫ال قد حيتوي نص ما عىل‬
‫كلمة مثل «حسناهتم»‪ ،‬والتي هي مكونة من قسمني‪« :‬حسنات» وهي مجع «حسنة»‬
‫والضمري «هم»‪ .‬فاملعاجم القطبية قد حتوي كلمة مثل «حسنة» ولكنها لن حتوي‬
‫األشكال الرصفية األخرى أو احلاالت التي يدخل فيها ضمري عىل الكلمة‪.‬‬

‫Ÿ Ÿالتجذير والتجذيع ‪Stemming and Lemmatization‬‬


‫ومها عمليتان حتاوالن جتريد الكلامت من الزوائد الرصفية التي تدخل عليها‬
‫وحتويل الكلمة إىل جذرها الصحيح (كام يف التجذير) أو صورة قريبة من اجلذر (كام يف‬
‫التجذيع)‪ ،‬ويلجأ الباحثون إىل استخدام هذا النوع من املعاجلة مع الطرق املعتمدة عىل‬
‫تعلم اآللة هبدف تصغري فضاء املعرفة اللغوية الذي حتتاج اخلوارزميات إىل تعلمه حتى‬
‫تتمكن من حتليل النصوص وتصنيفها‪.‬‬

‫Ÿ Ÿالكشف عن اإلشارات املشرتكة ‪Co-Reference Resolution‬‬


‫ويقصد به التعرف عىل اإلشارات املختلفة يف النص التي تشري إىل اليشء نفسه سوا ًء‬
‫كانت هذه اإلشارات عىل شكل ضمري يعود عىل اليشء‪ ،‬أو إشارة إىل اليشء باختصار‬
‫ال يف مجلة‪« :‬أفضل رشكة سامسونج عىل آبل بسبب جتربتي‬ ‫أو جزء من االسم‪ .‬فمث ً‬
‫السيئة مع منتجاهتا»‪ ،‬الكلمة القطبية «سيئة» موجهة نحو منتجات اجلهة املشار إليها‬
‫بالضمري «ها» امللتصق بالكلمة‪ ،‬وحتى تتمكن تقنيات حتليل اآلراء من ربط هذا الرأي‬
‫القطبي بشكل صحيح يلزم متييز أن الضمري «ها» هنا يشري إىل رشكة آبل كام هو مفهوم‬
‫من السياق‪.‬‬

‫‪-121-‬‬
‫Ÿ Ÿتصنيف أقسام الكالم ‪Part of Speech Tagging‬‬
‫ويتم فيها تصنيف كل كلمة يف النص بحسب حالتها الرصفية وبحسب سياقها‬
‫اإلعرايب‪ ،‬كتصنيف الكلمة من حيث كوهنا فعل أو اسم أو حرف‪ ،‬ومتييز الفعل من‬
‫حيث كونه ماضيا أو مضارع ًا أو أمر ًا‪ ،‬أو تصنيف االسم عىل أنه مفرد أو مثنى أو مجع‪،‬‬
‫ومتييز احلروف عىل أهنا أدوات عطف أو وصل أو تأكيد‪ ،‬ومتييز األسامء إىل صفة أو‬
‫حال‪ ،‬أو غري ذلك‪.‬‬
‫وهذه العملية مهمة حلاجة تطبيقات حتليل اآلراء إىل التعرف عىل الصفات‪ .‬فكثري‬
‫من الكلامت القطبية صفات‪ ،‬كام أن هذه العملية تسهم يف كشف الغموض الذي قد‬
‫يكتنف بعض الكلامت إذا ما عوملت منفصل ًة عن سياقها‪ .‬مثال لذلك يف اللغة العربية‬
‫كلمة «ذهب» ففي بعض السياقات هي اسم معدن ثمني وتستخدم بشكل متكرر كصفة‬
‫ٍ‬
‫ماض للمفرد الغائب‪.‬‬ ‫إجيابية‪ ،‬ويف سياقات أخرى هي ٌ‬
‫فعل‬

‫Ÿ Ÿحتليل البناء النحوي ‪ Syntactic Parsing‬اإلعراب ‪Dependency Parsing‬‬


‫هتدف عملية حتليل البناء النحوي إىل كشف بنية اجلملة من الناحية النحوية‪ ،‬كتبيان‬
‫ال أن مجلة ما تتكون من رشط وأداة رشط وجواب رشط‪ ،‬أو حتديد الكلامت املكونة‬ ‫مث ً‬
‫لعبارة اسمية ‪ Noun Phrase‬أو عبارة فعلية ‪.Verb Phrase‬‬
‫أما اإلعراب فيهدف إىل كشف العالقات االعتامدية واملعنوية بني الكلامت‪ ،‬مثل‬
‫حتديد الفاعل واملفعول به واملفعول ألجله‪ ،‬إلخ‪.‬‬
‫وكام ذكرنا سابق ًا فإن الكثري من طرق حتليل اآلراء عىل مستوى اجلمل حتتاج إىل‬
‫حتليل البناء النحوي واإلعراب حتى تتمكن من ربط الكلامت القطبية بمصدرها‬
‫وباجلهة التي تستهدفها‪ ،‬وحتتاجه كذلك لتعرف إذا كانت التعبريات القطبية تقع يف‬
‫سياق منفي مثال بام يستدعي عكس قطبيتها‪.‬‬
‫واآلن‪ ،‬نستعرض طرق ًا خمتلفة لتحليل اآلراء نصنفها إىل‪:‬‬
‫Ÿ Ÿطرق تعتمد عىل خوارزميات مصاغة بشكل يدوي ‪Hand-crafted Rules‬‬
‫وتستخدم موارد لغوية كمعاجم قطبية وغريها‪.‬‬

‫‪-122-‬‬
‫Ÿ Ÿوطرق تعتمد عىل تقنيات تعلم اآللة التقليدية‪.‬‬
‫Ÿ Ÿوطرق التعلم العميق‪.‬‬
‫وهذا التصنيف يمثل أيض ًا التطور الزمني الذي مرت به طرق حتليل اآلراء‪ ،‬فالطرق‬
‫املعتمدة عىل اخلوارزميات اليدوية واملعاجم القطبية متثل املحاوالت األوىل لتحليل‬
‫اآلراء وقد عمد إليها الباحثون يف ظل ندرة النصوص املقرتنة بقطبية معروفة بشكل‬
‫يمكن استخدامه لتدريب خوارزميات تعلم اآللة‪ ،‬ثم مع توفر مثل هذه البيانات بدأت‬
‫تربز الطرق املعتمدة عىل تعلم اآللة كبديل قوي حل حمل اخلوارزميات املصاغة بشكل‬
‫يدوي‪ ،‬ثم مع اتساع نطاق اإلنرتنت وزخم البيانات الذي شهدته الشبكات االجتامعية‬
‫وتوفر كميات مهولة من البينات املصحوبة بآراء معروفة القطبية‪ ،‬برزت تقنيات التعلم‬
‫العميق وأصبحت هي اآلن اخلوارزميات األساسية املستخدمة يف تطبيقات حتليل‬
‫اآلراء‪.‬‬

‫‪ -١‬الطرق املعتمدة عىل املعاجم القطبية ‪Sentiment Lexicons‬‬


‫هذه الطرق تستخدم خوارزميات يتم تطويرها بشكل يدوي وتعتمد عىل دراية‬
‫مطورها باملجال الذي جيري حتليل اآلراء فيه‪ ،‬وحتتاج إىل استخدام موارد لغوية كمعاجم‬
‫القطبية‪ ،‬وقوائم أدوات النفي‪ ،‬أو كلامت تفيد التقوية ‪ Intensification‬أو التضعيف‬
‫‪ ،Downtoning‬مع إملام بقواعد اللغة وأنواع العالقات التي تربط املكونات املختلفة‬
‫للجمل هبدف الكشف عن نطاق النفي إذا وجد‪ ،‬أو ربط التعبريات القطبية بمصادرها‬
‫واجلوانب التي تستهدفها يف النص‪ .‬الفكرة العامة هلذه الطرق هي أهنا تفحص كل‬
‫كلمة يف النص وتبحث عنها يف املعاجم القطبية‪ ،‬وتصنف كل كلمة إىل موجبة أو سالبة‬
‫أو متعادلة‪ ،‬ويتم تعيني قيمة رقمية لكل من هذه القطبيات فكل كلمة موجبة مث ً‬
‫ال‬
‫يتم التعبري عنها بقيمة عددية موجبة ‪ 1+‬أو ‪ 2+‬بحسب شدة القطبية – يف حال توفر‬
‫معلومات عن شدة القطبية يف املعجم املستخدم‪ -‬وباملثل فإن الكلمة السالبة يقابلها‬
‫رقم سالب ‪ 1-‬أو ‪ ، 2-‬والكلامت املتعادلة يقابلها الرقم ‪.]56[ ]55[ ]54[ ]53[ 0‬‬
‫تراعي هذه الطرق أيض ًا وجود ما يؤثر عىل اجتاه القطبية أو قوهتا من خالل جمموعة من‬
‫ال إذا احتوت اجلملة عىل أداة نفي ووقعت الكلمة‬ ‫القواعد املصاغة بشكل يدوي‪ ،‬فمث ً‬
‫القطبية يف نطاق مسافة معينة ‪-‬مقاسة بالكلامت‪ -‬من أداة النفي يتم عكس قطبية الكلمة‬

‫‪-123-‬‬
‫والقيمة العددية املرتبطة هبا‪ ،‬وكذلك إذا تبعت كلمة قطبية إحدى الكلامت التي تؤثر يف‬
‫شدة قطبيتها يتم زيادة أو تقليل القيمة العددية لقطبيتها وفق ًا لذلك [‪.]59[ ]58[ ]57‬‬
‫ييل ذلك جتميع هذه القيم عىل مستوى اجلملة ثم عىل مستوى النص بكامله‪ ،‬وبذلك‬
‫تكون القطبية النهائية للنص هي جمموع قطبية الكلامت املكونة له‪.‬‬
‫املشكلة يف هذه الطرق هو اعتامدها عىل توفر معاجم قطبية ثرية‪ ،‬وتستلزم معرفة‬
‫قوية باللغة املستعملة يف النصوص بشكل عام‪ ،‬وبطبيعة املوضوع الذي جيري حتليل‬
‫اآلراء فيه بشكل خاص‪ ،‬وحتتاج إىل صياغة قواعد خاصة لكل من املواضيع املختلفة‪،‬‬
‫ال القواعد التي تصلح لتحليل التعليقات‬ ‫وهو ما يتطلب جهد ًا كبري ًا من الباحثني‪ ،‬فمث ً‬
‫عىل املنتجات اإللكرتونية ال تصلح بالرضورة لتحليل اآلراء يف النقاشات التي تتناول‬
‫مواضيع فكرية‪ .‬هذا باإلضافة إىل أن هذه الطرق هي األقل من حيث الدقة يف نتائجها‪،‬‬
‫ولذلك انرصف اهتامم الباحثني عنها إىل الطرق املعتمدة عىل تعلم اآللة‪.‬‬

‫‪ -٢‬الطرق املعتمدة عىل تقنيات تعلم اآللة التقليدية ‪Machine Learning‬‬


‫يف هذا النوع من املقاربات يتم االعتامد عىل تقنيات تعلم اآللة للتعرف عىل األنامط‬
‫اللغوية املرتبطة بالتعبري عن املشاعر واآلراء يف النصوص‪ ،‬ويلزم فيها توفر نصوص‬
‫معروفة القطبية‪ ،‬ويلزم قيام الباحث بتعريف عدد من اخلصائص اللغوية ‪Features‬‬
‫التي يظن أهنا مرتبطة بقطبية النص‪ ،‬وبدالً من صياغة قواعد ومعادالت يدوية لتصنيف‬
‫قطبية النص ‪ ،‬تقوم خوارزميات تعلم اآللة باكتشاف العالقات بني اخلصائص التي‬
‫يعرفها الباحث وقطبية النص وبناء نموذج قادر عىل ختمني قطبية أي نص جديد‬
‫بمعلومية خصائصه‪.‬‬
‫ومن أمثلة اخلصائص ‪ Features‬التي حاول الباحثون استخدامها يف هذا النوع من‬
‫حتليل اآلراء ما ييل‪:‬‬
‫Ÿ Ÿخصائص لفظية ‪ :Lexical Features‬ومن أمثلتها املفردات املتتالية ‪n-grams‬‬
‫سوا ًء من خالل رصد وجود أو غياب كل من هذه املفردا ت �‪Binary Rep‬‬
‫‪ resentation‬أو من خالل تعداد تكرار كل منها يف النص الواحد ‪Term‬‬
‫‪ )Frequency (TFF‬وتكرار ظهورها يف النصوص املختلفة �‪Document Fre‬‬

‫‪-124-‬‬
‫‪ ،)quency (DF‬يف هذه احلالة يكون كل ‪ n-gram‬يف النص عبارة عن خاصية‬
‫‪ .Feature‬هذا يعني أن عدد هذه اخلصائص قد يكون كبري ًا جد ًا‪ ،‬وهنا تكون‬
‫تقنيات كالتجذير والتجذيع والتحليل الرصيف مهمة السيام يف حالة اللغة‬
‫العربية ألهنا تقلل من عدد هذه اخلصائص وجتعل خوارزمية التعلم اآليل أقدر‬
‫عىل التعلم‪.‬‬
‫بعض هذه اخلصائص ممكن أن تعتمد عىل املعاجم‪ ،‬مثل حتديد عدد الكلامت القطبية‬
‫يف اجلملة‪ ،‬وحتديد إذا ما كان النص حيتوي عىل أدوات نفي أو تقوية أو تضعيف‪ ،‬إلخ‪.‬‬
‫ويف هذه احلالة ال يتم تعريف قواعد حمددة كام يف الطرق اليدوية السابقة وإنام يتم إدخال‬
‫هذه اخلصائص خلوارزمية تعلم اآللة‪ ،‬ويرتك للخوارزمية أن تتعلم كيفية االستفادة من‬
‫هذه املعلومات لتصنيف القطبية‪.‬‬
‫Ÿ Ÿخصائص بنائية ‪ :Structural Features‬وهي خصائص متعلقة برتكيب اجلملة‬
‫والكلامت املكونة هلا‪ ،‬ومن أمثلتها طول النص‪ ،‬املسافة بني الكلامت القطبية‬
‫وأداة النفي إن وجدت‪ ،‬موضع ظهور الكلامت القطبية يف النص أو اجلملة‪،‬‬
‫إلخ‪.‬‬
‫Ÿ Ÿخصائص نحوية ‪ :Syntactic Features‬وهي خصائص تتعلق بالبناء النحوي‬
‫للجملة والعالقات اإلعرابية التي تربط كلامهتا‪ ،‬ومن أمثلتها تصنيف أقسام‬
‫الكلامت ‪ ،Part-of-Speech‬وتفيد هذه اخلصائص يف جعل عملية حتليل‬
‫ال بدالً من استخدام الكلمة فقط جمردة من‬ ‫الرأي أكثر إدراك ًا للسياق فمث ً‬
‫سياقها‪ ،‬يصبح بواسطة هذه اخلاصية معروف ًا إذا ما كانت الكلمة استعملت‬
‫كصفة أو اسم أو فعل‪ ،‬وإذا ما كانت للمفرد أو املثنى أو اجلمع‪ ،‬أو إذا كانت‬
‫للمذكر أو املؤنث‪ ،‬إلخ‪.‬‬
‫ومن أمثلة هذه اخلصائص أيض ًا العالقات النحوية التي تربط الكلامت مثل ارتباط‬
‫املبتدأ باخلرب يف اجلملة االسمية‪ ،‬والفعل بالفاعل يف اجلملة الفعلية‪ ،‬إلخ‪ .‬ومثل هذا‬
‫اخلصائص تكون رضورية أكثر يف حالة احلاجة إىل ربط كل كلمة قطبية بمصدرها‬
‫وباجلانب الذي تستهدفه‪ ،‬فبدون أن تكون هذه العالقات النحوية متاحة خلوارزميات‬
‫تعلم اآللة يكون من الصعب تعلم هذه العالقات بشكل مبارش من النص‪.‬‬

‫‪-125-‬‬
‫ُجربت العديد من خوارزميات تعلم اآللة لتعلم تصنيف قطبية اآلراء‪ ،‬عىل‬
‫رأسها خوارزمية التصنيف املعتمدة عىل جمموعة النقاط الداعمة ‪Support Vector‬‬
‫‪ Machines‬وهي ربام أكثر اخلوارزميات استخدام ًا يف هذا املجال وذلك لكفاءهتا يف‬
‫التعامل مع أعداد ضخمة من اخلصائص‪ ،‬وخوارزمية بييز البدهية ‪،Naive Bayes‬‬
‫وخوارزمية التصنيف بحسب أقرب النقاط املجاورة ‪ ،K-NN‬واخلوارزميات التي‬
‫تستخدم جمموعات أشجار القرار ‪.Tree Ensembles‬‬

‫‪ -٣‬الطرق املعتمدة عىل التعلم العميق ‪Deep Learning‬‬


‫شهدت السنوات العرش املاضية صعودا كبريا لتقنيات التعلم العميق يف العديد من‬
‫املجاالت وحققت نجاحات باهرة يف حتليل الصور ‪ ،Image Processing‬وإدراك‬
‫الكالم املنطوق ‪ ،Speech Recognition‬ومعاجلة اللغات ‪Natural Language‬‬
‫‪ .Processing‬امليزة األساسية يف هذه الطرق أهنا تستطيع التعلم بشكل مبارش من‬
‫البيانات يف صورهتا اخلام وتعفي الباحث من احلاجة إىل تعريف خصائص حمددة بشكل‬
‫يدوي‪ .‬الصورة اخلام للبينات ‪low-level features‬قد تكون عبارة عن الكلامت‬
‫نفسها بتسلسلها يف النص أو حتى جمموعات احلروف املتوالية ‪.Character n-grams‬‬
‫تستخدم هذه الطرق أشكاال خمتلفة من خوارزميات الشبكات العصبية‬
‫‪ ، Neural Networks‬وينصب تركيز الباحثني فيها عىل بنية نموذج الشبكة ‪Model‬‬
‫‪ ،Architecture‬من البنى املستخدمة بشكل متكرر يف جمال معاجلة اللغات الشبكات‬
‫العصبية املتكررة ‪ Recurrent Neural Networks‬ومن أمثلتها شبكات الذاكرة‬
‫قصرية املدى الطويلة‪ ،)Long Short Term Memory (LSTM‬والشبكات العصبية‬
‫املبوبة‪ ،)Gated Recurrent Neural Networks (GRNN‬ومن البنى املشهورة‬
‫أيض ًا الشبكات العصبية االلتفافية ‪ )Convolutional Neural Networks (CNN‬يف‬
‫ال عن الصور‪ ،‬وأخري ًا البنى التي شهدت صعودا كبريا‬
‫شكلها املطبق عىل النصوص فض ً‬
‫مؤخرا النامذج املنتبهة لنفسها ‪ Self-Attention Models‬ومن أمثلتها خوارزميات‬
‫‪ Transformer‬و‪ BERT‬من رشكة جوجل‪.‬‬
‫ونظر ًا ألن هذه اخلوارزميات حتاول أن تتعلم من البيانات اخلام بشكل مبارش فإهنا‬
‫حتتاج إىل كميات كبرية جد ًا من البينات حتى تتمكن من اكتشاف العالقات االقرتانية‬

‫‪-126-‬‬
‫بني الكلامت (أو احلروف يف بعض األحيان) وقطبية اآلراء‪ .‬املثري يف هذه التقنيات أهنا‬
‫ال عىل التعلم من نصوص معروفة القطبية‪ ،‬فبعض مراحل التعلم‬ ‫ال تعتمد اعتامد ًا كام ً‬
‫ال حتتاج سوى نصوص بدون رضورة ملعرفة تصنيفها ‪،Unsupervised Learning‬‬
‫وهتدف هذه املرحلة إىل تعلم متثيل معنوي للكلامت ‪ Word Embedding‬وهو عبارة‬
‫عن جمموعة من األرقام التي يتم تعلمها بشكل آيل لكل كلمة بحيث تصبح هذه األرقام‬
‫بمثابة متثيل رقمي للمعنى الذي حتمله الكلمة و الذي يتم استنباطه من خالل رصد‬
‫مئات آالف السياقات التي وردت فيها الكلمة يف ماليني النصوص التي يتم تدريب‬
‫اخلوارزمية عليها‪ ،‬ثم يتم استخدام هذه األرقام للنيابة عن الكلامت يف املراحل املتقدمة‬
‫من تعليم اخلوارزمية والتي يلزم فيها استخدام نصوص معروفة القطبية سوا ًء بشكل‬
‫كامل ‪ ،Supervised Learning‬أو بشكل جزئي أو ضعيف ‪ Weak Supervision‬كأن‬
‫يفرتض أن احتواء النص عىل وجه تعبريي ضاحك دليل عىل أن النص حيمل قطبية‬
‫موجبة‪.‬‬
‫ومما يميز هذه التقنيات هو سهولة مواءمتها لتصبح قادرة عىل حتليل اآلراء يف‬
‫جماالت خمتلفة من خالل تقنيات ‪ ،Transfer Learning‬بحيث إذا تم تعليم اخلوارزمية‬
‫عىل حتليل اآلراء يف جمال معني مثل مراجعات األجهزة اإللكرتونية‪ ،‬فإنه ال يلزم إعادة‬
‫تدريب اخلوارزمية من الصفر حتى تتمكن من حتليل اآلراء الفكرية يف الشبكات‬
‫االجتامعية مثالً‪ .‬وذلك ألن هذه التقنيات تسمح باإلتيان بالنموذج التي تم تعلمه‬
‫للمجال األول ثم مواصلة تدريبه عىل مدونات نصية من املجال اجلديد يف عملية تسمى‬
‫أحيان ًا «مواءمة املجال» ‪ Domain Adaptation‬أو «املعايرة الدقيقة» ‪.Fine-Tuning‬‬
‫ومن ميزاهتا أيض ًا سهولة إجراء التعلم املتزامن للمهام املختلفة ‪Multi-task learning‬‬
‫وهو ما جيعل من املمكن تدريب اخلوارزمية لتصبح قادرة عىل إجراء أكثر من مهمة‬
‫بشكل متزامن مثل تدريب النموذج عىل حتليل قطبية مراجعات املنتجات‪ ،‬ومراجعات‬
‫املطاعم‪ ،‬واآلراء الفكرية يف آن واحد!‬
‫وقد أصبحت طرق التعلم العميق األكثر استخدام ًا بني الباحثني املهتمني بتحليل‬
‫اآلراء يف اللغات املختلفة‪ ،‬والتي القت اهتامم ًا خاص ًا بني الباحثني يف اللغة العربية‬
‫املعرفة‬
‫وذلك ألن التعقيد الرصيف والنحوي للغة العربية جيعل االعتامد عىل اخلصائص ّ‬

‫‪-127-‬‬
‫يدوي ًا صعبا جد ًا وغري عميل‪ .‬هذا التعقيد من شدته جعل تقنيات التعلم العميق يف‬
‫حتليل اآلراء العربية أقل نجاحا منها يف اللغة اإلنجليزية مثالً‪ ،‬وقد وجد الباحثون أن‬
‫إجراء التحليل الرصيف وتقطيع الكالم بنا ًء عىل نتيجة هذا التحليل (بل وإجراء عمليات‬
‫معاجلة مثل التجذير والتجذيع) تعترب خطوات مهمة لتعظيم النجاح الذي حتققه هذه‬
‫التقنيات يف حتليل اآلراء العربية‪.‬‬

‫مصادر وأدوات‬
‫نستعرض يف هذا القسم جمموعة من املوارد التي نظن أهنا مفيدة يف جمال حتليل‬
‫اآلراء‪ ،‬ويمكن أن يستفيد منها من حياول إجراء أبحاث يف املجال‪ ،‬أو حياول أن يبنى‬
‫أنظمة لتحليل اآلراء‪ .‬سيقترص العرض هنا عىل األدوات اخلاصة باللغة العربية‪.‬‬

‫‪ .١‬أدوات املعاجلة املسبقة للنص‪:‬‬


‫نستعرض هنا بعض األدوات التي يمكن استخدامها لتقطيع النص وإجراء عمليات‬
‫التجذير والتجذيع والتحليل الرصيف‪ ،‬وغريها‪.‬‬
‫ومن األدوات املتاحة ملعاجلة النص العريب ‪ ]60[ AMIRA‬وتضم أدوات لتنفيذ‬
‫العديد من املهام األساسية يف معاجلة اللغة العربية‪ ،‬كالتقطيع ‪ ،Tokenization‬وتصنيف‬
‫أقسام الكالم ‪ ،Part of Speech Tagging‬واإلعراب السطحي ‪.Shallow Parsing‬‬
‫ومن األدوات أيض ًا ‪ ]61[ MADA‬وحتتوي الباقة عىل حملل الرصيف وأداة لتقطيع‬
‫النص وأداة لتسوية النص ‪ ،Orthographic Normalization‬وأداة لتحويل النصوص‬
‫العربية إىل ترميز ‪ ASCII‬وفق طريقة ‪.Buckwalter‬‬
‫ومن أدوات املتاحة لتحليل البناء النحوي للجملة ‪]62[ The Stanford Parser‬‬
‫وأيض ًا ‪ ]63[ Bikel’s Parser‬وكالمها يدعامن عدة لغات منها اللغة العربية‪ ،‬ويمكن‬
‫استخدام نفس األداتني لتصنيف أقسام الكالم كذلك ‪.Part-of-speech tagging‬‬
‫ومن األدوات التي توفر إمكانية اإلعراب وإجياد العالقات االعتامدية للباحثني‬
‫واملطورين ‪.]64[ TurboParser‬‬

‫‪-128-‬‬
‫‪ .٢‬معاجم قطبية عربية‬
‫نستعرض هنا بعض املعاجم القطبية العربية‪ ،‬ونعرض نوعني من هذه املعاجم‪ .‬النوع‬
‫األول هو املعاجم املعدة بشكل يدوي‪ ،‬والنوع اآلخر املعاجم املبنية بشكل آيل أو شبه آيل‪.‬‬
‫Ÿ Ÿاملعاجم املعدة يدوي ًا‪:‬‬
‫من أمثلتها معجم ‪ ]41[ ArabSenti‬ويضم ‪ 3.982‬صفة تم استخراجها من‬
‫‪ 400‬مقال من بني املقاالت املوجودة يف ‪ ،]65[ Arabic Tree Bank‬وتم تصنيف هذه‬
‫الصفات إىل إجيابية وسلبية ومتعادلة عىل يد ثالثة من متحدثي اللغة العربية‪.‬‬
‫ومن األمثلة أيض ًا معجم ‪ ]66[ SIFAT‬وتم بناؤه بطريقة مشاهبة وحيتوي عىل‬
‫‪ 3.325‬صفة‪.‬‬
‫ومن املعاجم القطبية املتاحة كذلك‪ ،]43[ NileULex‬ويتميز باحتوائه عىل‬
‫تعبريات متعددة الكلامت باإلضافة إىل الكلامت املفردة‪ ،‬كام أنه يضمن كلامت وتعبريات‬
‫عامية باللهجة املرصية باإلضافة إىل الفصحى‪ ،‬باملجمل حيتوي املعجم عىل ‪5.953‬‬
‫عبارة أو مفردة قطبية‪ .‬وتتوفر نسخة مطورة من هذا املعجم ‪WeightedNileULex‬‬
‫تضيف وزنا يمثل قوة قطبيته [‪.]44‬‬
‫Ÿ Ÿاملعاجم املعدة بشكل آيل أو شبه آيل‪:‬‬
‫ومنها ‪ ]67[ ArSenL‬وحيتوي عىل ‪ 29‬ألف جذر عريب مع أوزان حيدد قوة قطبية‬
‫كل منها‪ .‬و‪ ]68[ ArSEL‬وفيه تم تصنيف الكلامت يف املعجم إىل ‪ 8‬أنواع من املشاعر‬
‫مع إعطاء وزن لكل منها‪.‬‬
‫ومن هذه املعاجم أيض ًا ‪ ]69[ SLSA‬الذي يضم قرابة ‪ 35‬ألف جذر عريب مع‬
‫تصنيف قطبية وشدة قطبية كل منها‪.‬‬

‫‪ .٣‬مكتبات برجمية‪:‬‬
‫من أنظمة حتليل اآلراء املتاحة للغة العربية نظام ‪ ]70[ SAMAR‬وهو نظام لتصنيف‬
‫موضوعية الكالم ‪ Subjectivity Analysis‬وكذلك لتصنيف القطبية ‪Sentiment‬‬
‫‪ .Analysis‬وهو غري متوفر للتحميل عرب اإلنرتنت ولكن يمكن احلصول عليه بطلبه‬
‫من أصحاب البحث‪.‬‬

‫‪-129-‬‬
‫ومن األنظمة كذلك نظام حتليل املشاعر العربية ‪Arabic Sentiment Analyzer‬‬
‫[‪ ]71‬وهو متاح لالستخدام عرب اإلنرتنت ومن خالل املتصفح‪.‬‬

‫‪ .٤‬مدونات لغوية ‪Corpora‬‬


‫نستعرض يف هذا القسم بعض املدونات اللغوية التي يمكن استخدامها يف أبحاث‬
‫حتليل اآلراء العربية‪ ،‬هذه املجموعات حتتوي عىل نصوص يتم تصنيف قطبيتها بشكل‬
‫يدوي وفق إرشادات يضعها الباحثون‪ ،‬وتستخدم يف طرق حتليل اآلراء التي تعتمد عىل‬
‫تقنيات تعلم اآللة‪ ،‬كام تستعمل لتقييم قدرة اخلوارزميات املختلفة عىل تصنيف اآلراء‬
‫بشكل صحيح‪.‬‬
‫املدونة اللغوية املستخدمة يف [‪ ]29‬تضم ‪ 2.855‬مجلة تم تصنيف موضوعيتها‬
‫وقطبيتها بشكل يدوي‪ ،‬ويمكن استخدام هذه املجموعة للدراسات املهتمة بتحليل‬
‫املوضوعية و‪/‬أو تصنيف القطبية‪.‬‬
‫املجموعة النصية ‪ ]72[ AWATIF‬هي امتداد للمجموعة السابقة وفيها أضاف‬
‫الباحثون ‪ 5.342‬مجلة من صفحات النقاش يف ويكيبيديا‪ ،‬و‪ 2.532‬مجلة من‬
‫منتديات حوار عربية لتيصبح حجم املجموعة ‪ 10.729‬مجلة تم تصنيف قطبيتها‬
‫يدوي ًا‪.‬‬
‫من املدونات اللغوية أيض ًا جمموعة ‪ ]73[ LABR‬وهي تضم أكثر ‪ 63‬ألف من‬
‫تقييامت الكتب مأخوذة من أحد مواقع الكتب‪ ،‬وفيها تعليقات عىل الكتب كتبها أكثر‬
‫من ‪ 16‬ألف مستخدم‪ ،‬وكل تعليق مقرتن بتقييم رقمي من ‪ 1‬إىل ‪ .5‬جمموعة ‪BRAD‬‬
‫[‪ ]74‬هي جمموعة نصية أخرى حتتوي عىل أكثر من نصف مليون من تقييامت الكتب‪،‬‬
‫وكل التعليقات أيض ًا مقرتنة بتقييم رقمي من ‪ 1‬إىل ‪ 5‬يدخله صاحب التعليق‪.‬‬
‫مدونة لغوية أخرى هي ‪ ، HARD‬وهذه املرة تضم هذه املجموعة تقييامت فنادق‬
‫باللغة العربية يقرتب عددها من نصف مليون تقييم مأخوذة من موقع ‪booking.com‬‬
‫الشهري‪ ،‬وكام يف املجموعات السابقة كل تقييم نيص يأيت مصحوب ًا بتقييم عددي من ‪1‬‬
‫إىل ‪ 10‬يدخله صاحب التعليق‪.‬‬

‫‪-130-‬‬
‫اخلالصة‬
‫معاجلة اآلراء واحدة من أكثر موضوعات لسانيات احلاسب اآليل نشاط ًا سوا ًء‬
‫يف الوسط البحثي أو الوسط العميل‪ ،‬وتطبيقاهتا كثرية ومتشعبة وتالمس جوانب‬
‫عديدة من حياة الناس‪ .‬تشتمل معاجلة اآلراء عىل جمموعة من املهام الفرعية األساسية‬
‫كالتعرف عىل موضوعية الكالم وقطبيته ومصدره واجلهة املستهدفة به‪ ،‬ومهام متقدمة‬
‫حتتاجها بعض التطبيقات كتلخيص اآلراء وتتبع تطورها وكشف انقسام الناس حوهلا‬
‫إىل جمموعات‪ .‬يمكن تصنيف املقاربات التي جلأ إليها الباحثون يف هذا املجال إىل ثالثة‬
‫أصناف‪ :‬مقاربات تعتمد عىل املعاجم القطبية‪ ،‬ومقاربات تعتمد عىل خوارزميات تعلم‬
‫اآللة التقليدية‪ ،‬ومقاربات تعتمد عىل تقنية التعلم العميق احلديثة‪ .‬حتليل اآلراء العربية‬
‫تواجهه حتديات خاصة نظر ًا للثراء الرصيف للغة العربية وتعدد هلجاهتا‪ ،‬وغياب التشكيل‬
‫من معظم النصوص املكتوبة هبا‪ .‬وهلذا السبب فإن للمعاجلة املسبقة للنص العريب قبل‬
‫إجراء عمليات حتليل اآلراء عليه هلا أمهية كبرية يف زيادة دقة حتليل اآلراء‪ .‬ومن هذه‬
‫املعاجلات املفيدة التحليل الرصيف‪ ،‬والتجذيع‪ ،‬والتجذير‪ ،‬واإلعراب‪ ،‬وتصنيف أقسام‬
‫الكالم وغري ذلك‪ .‬اجلهود البحثية يف حتليل اآلراء العربية أسفرت عن جمموعة غري‬
‫قليلة من األبحاث املنشورة واملدونات النصية واملكتبات الربجمية املفيدة يف إجراء‬
‫البحوث وبناء التطبيقات العملية هلا‪.‬‬

‫املراجع‬
‫]‪[1‬‬ ‫‪V. S. Poythress، Symphonic theology: The validity of multiple‬‬
‫‪perspectives in theology.، Zondervan، 1987.‬‬

‫]‪[2‬‬ ‫‪P. Heelan، Nietzsches perspectivalism: A hermeneutic philoso-‬‬


‫‪phy of science، Boston Studies in the Philosophy of Science،‬‬
‫‪1999.‬‬

‫]‪[3‬‬ ‫‪J. D. Haynes، Perspectival Thinking for Inquiring Organisa-‬‬


‫‪tions.، Informing Science، 2000.‬‬

‫]‪[4‬‬ ‫‪R. Schacht، Making sense of Nietzsche: Reflections timely and‬‬


‫‪untimely، University of، 1995.‬‬

‫‪-131-‬‬
[5] L. Doleezel.، Narrative modes in Czech literature.، University of
Toronto Press، 1973.
[6] B. A. Uspenskij، A Poetics of Composition: The Structure of the
Poetic Text and Typology of a Compositional Form، Univ of Cal-
ifornia Press، 1973.
[7] C. J. Fillmore، The case for case، UC Berkeley Linguistics، 1967.
[8] M. W. Crocker، Computational psycholinguistics، Department of
Computational Linguistics and Phonetics، 2009.
[9] A. Banfield، Unspeakable Sentences: Narration and Representa-
tion in the Language of Fiction، Routledge Revivals، 1982.
[10] J. W. Sedelow، Computational sociolinguistics، 1967.
[11] J. Wiebe، Tracking point of view in narrative، Computational
Linguistics، 1994.
[12] S. C. Greene، Spin: lexical semantics, transitivity, and the identi-
fication of implicit sentiment، ProQuest، 2007.
[13] J. Wiebe، E. Breck، C. Buckley، C. Cardie، P. Davis، B. Fraser،
D. Litman، D. Pierce، E. Riloff، T. Wilson، D. Day ‫ و‬M. Maybury
، Recognizing and Organizing Opinions Expressed in the World
Press، AAAI Spring Symposium on New Directions in Question
Answering، 2003.
[14] L. Zhuang، F. Jing، Zhu ‫ و‬Xiao-Yan، Movie review mining and
summarization.، Proceedings of the 15th ACM international con-
ference on Information and knowledge management، 2006.
[15] McDonald، I. Titov ‫ و‬Ryan، A joint model of text and aspect rat-
ings for sentiment summarization، Urbana، 2008.
[16] M. Hu ‫ و‬B. Liu، “Mining and summarizing customer reviews،»
‫ تأليف‬Proceedings of the tenth ACM SIGKDD international con-
ference on Knowledge discovery and data mining، New York,
NY, USA، 2004.

-132-
[17] N. Kobayashi، K. Inui ‫ و‬a. Y. Matsumoto، “Extracting aspect-
evaluation and aspect-of relations in opinion mining،» ‫ تأليف‬n
Proceedings of the 2007 Joint Conference on Empirical Methods
in Natural Language Processing and Computational Natural Lan-
guage Learning، 2007.

[18] A. Haenlein ‫ و‬M. K. Michael، Users of the world, unite! The


challenges and opportunities of social media، Business Hori-
zons، 2010.

[19] A. Abu-Jbara، B. King، M. Diab ‫ و‬D. R. Radev، “Identifying


opinion subgroups in arabic online discussions،» ‫ تأليف‬Proceed-
ings of The Association for Computational Linguistics Confer-
ence، 2013.

[20] D. Radev ‫ و‬A. Abu-Jbara، “Subgroup detection in ideological


discussions،» ‫ تأليف‬Proceedings of the 50th Annual Meeting
of the Association for Computational Linguistics، Jeju, Korea،
2012.

[21] J. Wiebe ‫ و‬S. Somasundaran، “Recognizing stances in online de-


bates،» ‫ تأليف‬Proceedings of the Joint Conference of the 47th An-
nual Meeting of the ACL and the 4th International Conference on
Natural Language Processing of the AFNLP، Suntec, Singapore،
2009.

[22] A. Abu-Jbara، J. Ezra ‫ و‬D. Radev، “Purpose and polarity of ci-


tation: Towards nlp-based bibliometrics،» ‫ تأليف‬Proceedings of
the North American Association for Computational Linguistics،
2013.

[23] R. Jha، A. Abu-Jbara، V. Qazvinian ‫ و‬D. Radev، “NLP Driven


Citation Analysis for Scientometrics،» Natural Language Engi-
neering، 2016.

-133-
[24] A. Athar ‫ و‬S. Teufel، “Detection of implicit citations for senti-
ment detection،» ‫ تأليف‬Proceedings of the Workshop on Detect-
ing Structure in Scholarly Discourse، 2012.

[25] S. Teufel ‫ و‬A. Athar، “Context-enhanced citation sentiment de-


tection.،» ‫ تأليف‬Proceedings of the 2012 Conference of the North
American Chapter of the Association for Computational Linguis-
tics، 2012.

[26] A. Athar، “Sentiment analysis of citations using sentence struc-


ture-based features،» ‫ تأليف‬Proceedings of the ACL 2011 Student
Session، 2011.

[27] M. Abdul-Mageed ‫ و‬M.Diab، “AWATIF: A Multi-Genre Corpus


for Modern StandardArabic Subjectivity and Sentiment Analy-
sis،» ‫ تأليف‬Proceedings of the Eight International Con-ference
on Language Resources and Evaluation، 2012.

[28] M. Abdul-Mageed ‫ و‬M. Diab، “Toward building a large-scale


Arabic sentiment lexicon.،» ‫ تأليف‬Proceedings of the 6th Inter-
national Global Word-Net Conference، 2012.

[29] M. Abdul-Mageed ‫ و‬M. Diab، “Subjectivity and sentiment anno-


tation of modern standardarabic newswire،» ‫ تأليف‬Proceedings
of the 5th Linguistic Annotation Workshop,، 2011.

[30] M. Abdul-Mageed، S. Kuebler ‫ و‬M. Diab، “Samar: A system


for subjectivity and senti-ment analysis of arabic social media،»
‫ تأليف‬Proceedings of the 3rd Workshop in ComputationalAp-
proaches to Subjectivity and Sentiment Analysis، 2012.

[31] O. Alharbi، “Classifying Sentiment of Dialectal Arabic Reviews:


A Semi-Supervised Approach،» ‫ تأليف‬International Arab Journal
of Information Technology، 2019.

[32] H. ElSahar ‫ و‬S. El-Beltagy، A fully automated approach for ara-


bic slang lexicon extraction from microblogs، International Con-

-134-
ference on Intelligent Text Processing and Computational Lin-
guistics، 2014.

[33] N. Al-Twairesh، H. Al-Khalifa ‫ و‬A. AlSalman، AraSenTi: large-


scale twitter-specific arabic sentiment lexicons، Proceedings of
the 54th Annual Meeting of the Association for Computational
Linguistics، 2016.

[34] M. Hadzikadic ‫ و‬M. Abdullah، Sentiment analysis on arabic


tweets: Challenges to dissecting the Language، Proceedings of
the International Conference on Social Computing and Social
Media، 2017.

[35] A.-A. e. al، A comprehensive survey of arabic sentiment analy-


sis، Information Processing & Management، 2018.

[36] A. e. al، Survey on Arabic sentiment analysis in twitter، Interna-


tional Science Index، 2015.

[37] A. e. al، A Review on Corpus Annotation for Arabic Sentiment


Analysis، International Conference on Social Computing and
Social Media، 2017.

[38] A. Assiri، A. Emam ‫ و‬H. Aldossari، Arabic sentiment analysis:


A survey، International Journal of Advanced Computer Science
and Applications، 2015.

[39] A. Hamdi، K. Shaban ‫ و‬A. Zainal، A Review on Challenging


Issues in Arabic Sentiment Analysis، Journal of Computer Sci-
ence، 2016.

[40] G. BADARO، R. BALY، H. HAJJ، W. EL-HAJJ، K. B. SHA-


BAN، N. HABASH، A. AL-SALLAB ‫ و‬A. HAMDI، A Survey of
Opinion Mining in Arabic: A Comprehensive System Perspective
Covering Challenges and Advances in Tools, Resources, Models,
Applications and Visualizations، ACM Transactions on Asian and
Low-Resource Language Information Processing، 2018.

-135-
[41] M. Abdul-Mageed، M. Diab ‫ و‬M. Korayem، “Subjectivity and
sentiment analysis of modern standard Arabic،» ‫ تأليف‬n Proceed-
ings of the 49th Annual Meeting of the Association for Compu-
tational Linguistics، 2011.

[42] M. Karamibekr ‫ و‬A. A. Ghorbani، “Sentence Subjectivity Anal-


ysis in Social Domains،» ‫ تأليف‬IEEE/WIC/ACM International
Joint Conferences on Web Intelligence (WI) and Intelligent
Agent Technologies (IAT)، 2013.

[43] S. El-Beltagy، “NileULex: A phrase and word level sentiment


lexicon for egyptian and modern standard Arabic،» ‫ تأليف‬Pro-
ceedings of the International Conference on Language Resources
and Evaluation، 2016.

[44] S. El-Beltagy، “WeightedNileULex: A scored Arabic sentiment


lexicon for improved sentiment analysis،» ‫ تأليف‬Language Pro-
cessing, Pattern Recognition and Intelligent Systems. Special Is-
sue on Computational Linguistics, Speech& Image Processing
for Arabic Language. World Scientific Publishing Co.، 2017.

[45] Philip، J. Stone ‫ و‬J. Z. N. D. M. O. Robert F. Bales، “The general


inquirer: A computer system for content analysis and retrieval
based on the sentence as a unit of information،» Computers in
Behavioral Science، 1962.

[46] P. Turney ‫ و‬M. Littman، “Measuring praise and criticism: Infer-


ence of semantic orientation from association،» ACM Transac-
tions on Information Systems، 21 ‫المجلد‬، p. 315–346، 2003.

[47] V. Hatzivassiloglou ‫ و‬K. McKeown، “Predicting the semantic


orientation of adjectives.،» ‫ تأليف‬EACL، 1997.

[48] J. Kamps، M. Marx، R. Mokken ‫ و‬M. DeRijke، “Using WordNet


to measure semantic orientations of adjectives،» ‫ تأليف‬Proceed-
ings of the 4th International Conference on Language Resources
and Evaluation، 2004.

-136-
[49] A. Hassan، A. Abu-Jbara، W. Lu ‫ و‬D. Radev، “A random walk–
based model for identifying semantic orientation،» Computa-
tional Linguistics، 3 ‫ رقم‬،4 ‫المجلد‬، pp. 539-562، 2014.

[50] A. Hassan، A. Abu-Jbara، R. Jha ‫ و‬D. Radev، “Identifying the


semantic orientation of foreign words،» ‫ تأليف‬Proceedings of the
49th Annual Meeting of the Association for Computational Lin-
guistics، 2011.

[51] G. Al-Sukkar، I. Aljarah ‫ و‬H. Alsawalqah، “Enhancing the Arabic


Sentiment Analysis Using Different Preprocessing Operators،»
‫ تأليف‬Proceedings of the New Trends in Information Technol-
ogy، Amman, Jordan، 2017.

[52] A. El-Kholy ‫ و‬N. Habash، “Orthographic and morphological pro-


cessing for English--Arabic statistical machine translation،» Ma-
chine Translation، ‫ المجلد‬vol. 26، pp. pp. 25-45، 2012.

[53] K. Ahmad، D. Cheng ‫ و‬Y. Almas، “Multi-lingual sentiment anal-


ysis of financial news streams،» ‫ تأليف‬Proceedings of the 1st In-
ternational Workshop on Grid Technology for Financial Model-
ing and Simulation، 2007.

[54] NawafA.Abdulla، NizarA.Ahmed، M. Shehab، M. Al-Ayyoub،


M. Al-Kabi ‫ و‬S. Al-rifai، “Towards improving the lexicon-based
approach for Arabic sentiment analysis،» Int. J. Inf. Technol.
Web Eng، p. 55–71، 2014.

[55] S. Mohammad، F. Bravo-Marquez، M. Salameh ‫ و‬S. Kiritch-


enko، “Sentiment lexicons for Arabic social media،» ‫ تأليف‬Pro-
ceedings of the International Conference on Language Resources
and Evaluation، 2018.

[56] H. Awwad ‫ و‬A. Alpkocak، “Performance comparison of differ-


ent lexicons for sentiment analysis in Arabic،» ‫ تأليف‬Proceed-
ings of the 2016 3rd European Network Intelligence Conference
(ENIC’16)، 2016.

-137-
[57] M. Elhawary ‫ و‬M. Elfeky، “Mining Arabic business reviews،»
‫ تأليف‬Proceedings of the 2010 IEEE International Conference on
Data Mining Workshops (ICDMW’10)، 2010.

[58] R. Duwairi ‫ و‬M. Alshboul، “Negation-aware framework for sen-


timent analysis in Arabic Reviews،» ‫ تأليف‬Proceedings of the
2015 3rd International Conference on Future Internet of Things
and Cloud (FiCloud’15)، 2015.

[59] S. Oraby، Y. El-Sonbaty ‫ و‬M. El-Nasr، “Finding opinion strength


using rule-based parsingforArabicsentimentanalysis،» ‫ تأليف‬Pro-
ceedingsoftheMexicanInternationalConferenceonArtificialIntel-
ligence، 2013.

[60] M. Diab، “Second generation AMIRA tools for Arabic process-


ing: Fast and robust tokenization, POS tagging, and base phrase
chunking،» 2 ‫تأليف‬nd International Conference on Arabic Lan-
guage Resources and Tools، 2009.

[61] N. Habash، O. Rambow ‫ و‬R. Roth، “Mada+ tokan: A toolkit for


arabic tokenization, diacritization, morphological disambigua-
tion, pos tagging, stemming and lemmatization،» ‫ تأليف‬The 2nd
International Conference on Arabic Language Resources and
Tools (MEDAR)، Cairo, Egypt، 2009.

[62] S. Green ‫ و‬C. Manning، “Better Arabic Parsing: Baselines, Eval-


uations, and Analysis،» ‫ تأليف‬COLING، 2010.

[63] D. Bikel، “Intricacies of Collins’ Parsing Model،» Computation-


al Linguistics، 4 ‫ رقم‬،30 ‫المجلد‬، pp. 479-511، 2006.
[64] M. AFT، S. NA ‫ و‬X. EP، “Concise Integer Linear Programming
Formulations for Dependency Parsing،» ‫ تأليف‬Proceedings of the
Joint Conference of the Annual Meeting of the Association for
Computational Linguistics and the International Joint Confer-
ence on Natural Language Processing، Singapore، 2009.

-138-
[65] M. Maamouri، A. Bies، T. Buckwalter ‫ و‬W. Mekki، “The penn
Arabic treebank: Building a large-scale annotated Arabic cor-
pus،» ‫ تأليف‬Proceedings of the NEMLAR Conference on Arabic
Language Resources and Tools، 2004.

[66] M. Abdul-Mageed ‫ و‬M. Diab، “Toward building a large-scale


Arabic sentiment lexicon،» ‫ تأليف‬Proceedings of the 6th Interna-
tional Global WordNet Conference، 2012.

[67] G. Badaro، R. Baly، H. Hajj، N. Habash ‫ و‬W. El-Hajj، “A large


scale Arabic sentiment lexicon for Arabic opinion mining،» ‫تأليف‬
Proceedings of the Annual Conference on Natural Language Pro-
cessing، 2014.

[68] G. Badaro، O. El-Jundi، A. Khaddaj، A. Maarouf، R. Kain، H.


Hajj ‫ و‬W. El-Hajj، “EMA at SemEval-2018 task 1: Emotion
mining for Arabic،» ‫ تأليف‬Proceedings of the 12th International
Workshop on Semantic Evaluation، 2018.

[69] R. Eskander ‫ و‬O. Rambow، “SLSA: A sentiment lexicon for stan-


dard Arabic.،» ‫ تأليف‬Proceedings of the Conference on Empirical
Methods in Natural Language Processing، 2010.

[70] M. Abdul-Mageed، S. Kubler ‫ و‬M. Diab، “SAMAR: A System


for Subjectivity and Sentiment Analysis of Arabic Social،» ‫تأليف‬
Proceedings of the 3rd Workshop on Computational Approaches
to Subjectivity and Sentiment Analysis، 2012.

[71] M. El-Masri، N. Altrabsheh، H. Mansour ‫ و‬A. Ramsay، “A web-


based tool for Arabic sentiment analysis،» ‫ تأليف‬Procedia Com-
puter Science، 2017.

[72] M. Abdul-Mageed ‫ و‬M. Diab، “AWATIF: A multi-genre corpus


for modern standard Arabic subjectivity and sentiment analysis،»
‫ تأليف‬Proceedings of the International Conference on Language
Resources and Evaluation، 2012.

-139-
[73] M. Atiya، A. Aly ‫ و‬A. F.، “LABR: A large scale Arabic book re-
views dataset.،» ‫ تأليف‬Proceedings of the Annual Meeting of the
Association of Computer Linguistics، 2013.

[74] A. Elnagar ‫ و‬O. Einea، “Brad 1.0: Book reviews in arabic data-
set،» ‫ تأليف‬Proceedings of the 2016 IEEE/ACS 13th Internation-
al Conference of Computer Systems and Applications (AICC-
SA’16). IEEE، 2016.

[75] J. G. M Hernández، “Survey in sentiment, polarity and function


analysis of citation،» ‫ تأليف‬Proceedings of the First Workshop on
Argumentation Mining، 2014.

[76] H. S. C Jochim، “Improving citation polarity classification with


product reviews،» ‫ تأليف‬Proceedings of the 52nd Annual Meet-
ing of the Association for Computational Linguistics، 2014.

[77] A. a. H. N. El Kholy، “Orthographic and morphological process-


ing for English--Arabic statistical machine translation،» Machine
Translation، 26 ‫المجلد‬، pp. 25-45، 2012.

[78] M. A.-B. M. D. A. E. K. R. E. N. H. M. P. O. R. a. R. M. R. Arfath


Pasha، “Morphological Tagging for Arabic،» [‫]متصل‬. Available:
http://www1.cs.columbia.edu/~rambow/software-downloads/
MADA_Distribution.html. [2019 6 6 ‫]تاريخ الوصول‬.

[79] A. F. a. S. N. A. a. X. E. P. Martins، “Concise integer linear pro-


gramming formulations for dependency parsing،» ‫ تأليف‬The
Joint Conference of the 47th Annual Meeting of the ACL and the
4th International Joint Conference on Natural Language Process-
ing of the AFNLP، 2009.

[80] W. B. a. J. M. Samah Alhazmi، “Arabic SentiWordNet in relation


to SentiWordNet 3.0،» ‫ تأليف‬IJCL، 2013.

-140-
‫الباب الرابع‬
‫التعلم العميق وتطبيقاته املرتبطة باللغة العربية‬

‫د‪ .‬أمحد احلايك‬

‫‪-141-‬‬
-142-
‫التعلم العميق وتطبيقاته املرتبطة باللغة العربية‬
‫(((‬
‫د‪ .‬أمحد احلايك‬

‫ملخص‬
‫لقد استطاعت تقنية التعلم العميق (‪ )Deep learning‬أن حتقق نتائج رائعة يف‬
‫العديد من جماالت الذكاء االصطناعي وتعلم اآللة خالل األعوام األخرية‪ .‬يرجع‬
‫هذا النجاح لعدة أسباب لعل من أمهها توفر وحدات معاجلة الرسوميات (‪)GPU‬‬
‫ذات القدرة احلسابية اهلائلة وتوفر جمموعات بيانات تدريبية كبرية جد ًا تصل إىل‬
‫ماليني النصوص أو الصور‪ .‬ويعترب كل من جمال حتليل النصوص الطبيعية (‪Natural‬‬
‫‪ )Language Processing‬وجمال متييز الكالم املنطوق (‪)Speech Recognition‬‬
‫وجمال التعرف الضوئي عىل احلروف (‪ Optical Character Recognition‬أو ‪)OCR‬‬
‫من أبرز املجاالت التي استطاعت تقنية التعلم العميق التفوق فيها عىل مجيع التقنيات‬
‫التقليدية‪ .‬هذه املجاالت هلا أمهية بالغة نظر ًا لكثرة تطبيقاهتا احلالية واملتوقعة‪ ،‬والتي‬
‫تشمل ‪-‬عىل سبيل املثال‪ -‬التخاطب مع اإلنسان اآليل باللغة الطبيعية‪ ،‬والرتمجة اآللية‪.‬‬
‫وعىل الرغم من كثرة اإلنجازات التي استفادت مؤخر ًا من تقنية التعلم العميق خلدمة‬
‫اللغة اإلنجليزية وغريها‪ ،‬إال أن اللغة العربية مل تستفد بعد من هذه التقنية بشكل كبري‪.‬‬
‫نقدم يف هذا البحث تعريفا لتقنية التعلم العميق وتارخيها وأسباب نجاحها الذي مل‬
‫يكن يتوقعه معظم اخلرباء يف جمال الذكاء االصطناعي‪ .‬ثم نسلط الضوء بعد ذلك عىل‬
‫بعض األبحاث التي سخرت تقنية التعلم العميق خلدمة اللغة العربية من خالل تطوير‬
‫خوارزميات عالية الكفاءة يف املجاالت املذكورة وغريها‪ ،‬ونأمل أن يكون هذا البحث‬
‫نقطة انطالق لالستفادة املثىل من تقنية التعلم العميق خلدمة لغة القرآن العظيم‪.‬‬

‫‪ -1‬أستاذ مساعد يف كلية علوم احلاسب اآليل بجامعة األمري مقرن بن عبدالعزيز‪ .‬حصل د‪ .‬احلايك عىل درجة املاجستري‬
‫من جامعة سارالند عن خوارزميته لتتميم صور اخلاليا ثالثية األبعاد‪ ،‬ثم حصل عىل درجة الدكتوراه يف تتبع حركة‬
‫اإلنسان يف البيئات غري املنضبطة باستخدام عدد حمدود من الكامريات التقليدية من معهد ماكس بالنك بالتعاون‬
‫مع جامعة سارالند‪ .‬عمل باحثا يف معهد ماكس بالنك للمعلوماتية يف أملانيا وباحثا ومدرسا يف مركز األبحاث‬
‫األملاين للذكاء االصطناعي يف جامعة كايزرسالوترن‪ ،‬وله العديد من البحوث املنشورة باسمه‪.‬‬

‫‪-143-‬‬
‫‪ -1‬مقدمة‬
‫و‪Bengio Yoshua‬‬
‫(((‬ ‫(((‬
‫و‪Hinton Geoffrey‬‬ ‫(((‬
‫فاز كل من ‪Yann LeCun‬‬
‫مؤخرا بجائزة تورنج (تشبه جائزة نوبل ولكنها متنح لعلامء الكمبيوتر) لعام ‪2018‬م‬
‫[‪ ]1‬بجدارة عن تطويرهم لتقنية التعلم العميق (وتسمى ايض ًا الشبكات العصبية‬
‫العميقة) التي غريت مسار البحث العلمي يف العديد من املجاالت وجعلت من‬
‫بعض األفكار ‪-‬التي كان يتصور الكثريون أهنا بعيدة املنال ‪ -‬واقعا نعيشه اليوم‪ .‬وألن‬
‫تطبيقات تقنية التعلم العميق يف حياتنا اليومية كثرية ونتائجها منقطعة النظري‪ ،‬جيدر‬
‫تقديمها للقارئ العريب‪.‬‬
‫قريب‪ ،‬كانت الشبكات العصبية االصطناعية مستبعدة من قبل جمتمع‬ ‫ٍ‬ ‫حتى ٍ‬
‫وقت‬
‫أبحاث الذكاء االصطناعي‪ .‬فعىل الرغم من وجودها منذ األيام األوىل للذكاء‬
‫ِ‬
‫القليل جد ًا من النتائج املفيدة عملي ًا‪ .‬ولعل أحد‬ ‫االصطناعي‪ ،‬إال أهنا مل تُنتج سوى‬
‫أن هذه الشبكات مكلفة جد ًا حسابي ًا (أي إهنا حتتاج‬‫أسباب هذا الضعف يف األداء هو ّ‬
‫إىل إجراء مليارات العمليات احلسابية)‪ .‬بل إن الشبكات العصبية األبسط منها كانت‬
‫ربام حتتاج إىل شهور إلمتام عملياهتا احلسابية عىل بعض احلاسبات اآللية األقدم‪ .‬بالرغم‬
‫من هذا‪ ،‬ظلت جمموع ُة من العلامء تبحث يف هذه التقنية (مثل ‪ Geoffrey Hinton‬و‬
‫‪ Yann LeCun‬اللذان كانا يرأسان جمموعتني بحثيتني لتطوير هذه التقنية [‪.)]2‬‬
‫قامت جمموعة ‪ Geoffrey Hinton‬بمزامنة هذه الشبكات (أي تقسيمها إىل عدد‬
‫من املهام التي تنفذ يف نفس الوقت عىل حاسبات آلية متعددة ) إلثبات كفاءهتا‪ .‬ويف‬
‫عام ‪1998‬م‪ ،‬طورت جمموعة ‪ Yann LeCun‬البحثية مفهوم الشبكات العصبية‬
‫االلتفافية (‪ )Convolutional Neural Network‬والتي مكنت من تقليل التكلفة‬
‫احلسابية للشبكات العصبية وبالتايل زيادة عمقها (راجع الفصل ‪.)2.3‬‬
‫ويف عام ‪2012‬م‪ ،‬استطاعت تقنية التعلم العميق أن تفرض نفسها بنتائجها اجليدة‪.‬‬
‫فعىل سبيل املثال متكنت رشكة ‪ DeepMind‬التابعة لرشكة جوجل من استخدام تقنية‬

‫‪ -1‬رئيس قسم الذكاء االصطناعي بفيس بوك‪.‬‬


‫‪ -2‬أستاذ فخري بجامعة تورنتو ونائب رئيس رشكة قوقل‪.‬‬
‫‪ -3‬أستاذ بجامعة مونرتيال ومدير علمي لعدد من معاهد الذكاء االصطناعي‪.‬‬

‫‪-144-‬‬
‫التعلم العميق يف تصميم برنامج ‪ AlphaGo‬الذي انتهى به املآل يف عام ‪2015‬م للتفوق‬
‫عىل الالعب الكوري املحرتف ‪ Lee Se-dol‬يف لعبة ‪ .]3[ Go‬كام تفوقت تقنية التعلم‬
‫العميق مؤخرا يف جمال تشخيص بعض األمراض كالرسطان رجمال التعرف عىل الصور‬
‫(‪ )ImageNet challenge‬وغريها من املجاالت‪.‬‬
‫إن فهم فكرة التعلم العميق وأقسامه وتارخيه بشكل تفصييل يساعد يف تسخري هذه‬
‫التقنية الفعالة‪ .‬وحتى نفهم املقصود هبذه التقنية‪ ،‬فالبد من تعريف بعض املصطلحات‬
‫األساسية مثل‪ :‬الذكاء االصطناعي‪ ،‬وتع ُّلم اآللة‪ ،‬الشبكات العصبية االصطناعية؛‬
‫لذلك سنفرد الفصل الثاين من الباب للتعرف عىل معاين هذه املصطلحات قبل أن‬
‫نسلط الضوء عىل التعلم العميق وأنواع التقنيات التي استحدثت مؤخرا فيه‪ ،‬كام‬
‫أننا سنحاول إيضاح أهم أسباب نجاح تقنية التعلم العميق‪ .‬نعرض بعد ذلك كوكبة‬
‫من األبحاث احلديثة التي سخرت هذه التقنية خلدمة اللغة العربية يف جماالت حتليل‬
‫النصوص الطبيعية (‪ ،)Natural language processing‬والتعرف عىل الكالم املنطوق‬
‫(‪ ،)Speech recognition‬والتعرف الضوئي عىل النصوص (‪Optical Character‬‬
‫‪)Recognition‬؛ وهي جهود مشجعة نأمل أن تتضاعف حتى نصل إىل تطبيقات‬
‫ناضجة ختدم اللغة العربية والقرآن الكريم‪.‬‬

‫‪ -٢‬تعريف بعض املصطلحات املرتبطة بالتعلم العميق‬


‫يف هذا الفصل نقدم تعريفات خمترصة لتقنية التعلم العميق وما يرتبط هبا من‬
‫علوم وما يتفرع عنها من التقنيات التي نجحت يف حتقيق نتائج قوية خالل األعوام‬
‫األخرية‪ .‬وال شك أن تفاصيل وجوانب التعلم العميق ال يمكن تغطيتها يف هذا البحث‬
‫القصري‪ ،‬لذلك فإننا نعرض يف هذا الفصل أفكاره األساسية دون اخلوض يف التفاصيل‪،‬‬
‫مكتبات برجمية مثل ‪ ]4[ PyTorch‬و‪]5[ Caffe‬‬
‫ٌ‬ ‫خاصة وقد أغنت عن اخلوض فيها‬
‫و‪ ]6[ TensorFlow‬التي جعلت بناء خوارزميات التعلم العميق أمرا سهال وميرس ًا‬
‫ووفرت رشوحا وأمثلة تيرس ذلك؛ مثل الرشوح عىل عملية التعرف عىل األرقام‬
‫املكتوبة باليد يف جمموعة بيانات ‪.]7[ Mnist‬‬

‫‪-145-‬‬
‫رسم توضيحي (‪ :)١‬العالقة بني التعلم العميق واملصطلحات املرتبط به‪.‬‬
‫ٍ‬
‫طريقة لفهم العالقة بني الذكاء االصطناعي وتع ُّلم اآللة والشبكات‬ ‫ولعل أسهل‬
‫العصبية االصطناعية هو متثيلها كمجموعات متداخلة كام هو مبني يف الرسم‬
‫التوضيحي ‪ .1‬فالذكا ُء االصطناعي هو الدائرة األكرب؛ إذ خوارزمية تعلم اآللة تعترب‬
‫خوارزمية ذكاء اصطناعي والعكس غري صحيح‪ .‬كام أن تعلم اآللة ‪-‬بدوره‪ -‬يشتمل‬
‫عىل العديد من اخلوارزميات مثل شعاع الدعم اآليل (ٍ‪)Support vector machine‬‬
‫والشبكات العصبية االصطناعية وغريمها‪ .‬لذلك فإن الشبكات العصبية االصطناعية‬
‫تعترب جمموعة جزئية من تعلم اآللة‪ .‬أما التع ُّلم العميق فهو أحد تقنيات الشبكات‬
‫العصبية االصطناعية‪.‬‬

‫‪ ٢٫1‬الذكاء االصطناعي‬
‫يعرف الذكاء االصطناعي عىل أنه علم هيتم بتصميم خوارزميات تستطيع أداء مهام‬
‫حمددة بنفس كفاءة البرش أو أفضل‪ .‬بناء عىل هذا التعريف فإن أي خوارزمية حتاكي‬
‫سلوكا خيتص به اإلنسان تدخل حتت مظلة الذكاء االصطناعي‪ .‬فعىل سبيل املثال‪،‬‬
‫اإلنسان يستطيع فهم الكالم‪ ،‬فأي خوارزمية تستطيع عمل هذه املهمة تعترب خوارزمية‬
‫ذكاء اصطناعي‪ .‬وكذلك خوارزميات التعرف عىل الوجوه يف الصور التي تستعمل يف‬
‫بعض جوانب الذكاء البرشي [‪.]2،8‬‬ ‫برامج ‪ُ Facebook‬‬
‫حتمل َ‬

‫‪-146-‬‬
‫تم اعتامد مصطلح «الذكاء االصطناعي» عام ‪1956‬م يف مؤمترات دارمتوث [‪ .]9‬يف‬
‫ٍ‬
‫معقدة ُ‬
‫متتلك حواسا ويمكنها‬ ‫ذلك الوقت كان حلم رواد الذكاء االصطناعي بناء ٍ‬
‫آالت‬ ‫َ‬
‫مثل البرش [‪ .]2،8‬وكام أن للبرش قدرة عىل التعلم مما يسمعونه ويدركونه‬ ‫التفكري َ‬
‫يشاهدونه‪ ،‬كان تعلم اآللة أحد جماالت الذكاء االصطناعي التي رمي إىل حماكاة الذكاء‬
‫البرشي عربها‪ ،‬ومن هنا ظهر جمال «تعلم اآللة»‪.‬‬

‫‪ 2.2‬تعلم اآللة‬
‫تعلم اآللة (‪ )Machine Learning‬يعنى بتطوير خوارزميات قادرة عىل حتليل‬
‫معي أو تصنيف ٍ‬
‫يشء‬ ‫قرار َّ ٍ‬
‫البيانات والتعلم منها لتحسني أدائها يف مهمة حمددة‪ ،‬كاختاذ ٍ‬
‫ما‪ .‬وبعد بناء برامج تعلم اآللة‪ ،‬فإهنا متر بمرحلة تدريب )‪ (Training‬عىل بيانات كثرية‬
‫مصنفة برشيا لتكسب خوارزمية تعلم األلة القدر َة عىل تع ُّل ِم تنفيذ نفس املهمة الحقا‬
‫عىل بيانات جديدة غري مصنفة‪ .‬وهنا‪ ،‬يبدأ الباحثون باختبار أداء األنظمة )‪(Testing‬‬
‫بعرض بعض املدخالت عىل اخلوارزمية املدربة ومقارنة النتيجة التي تعطيها هذه‬
‫اخلوارزمية بالتصنيف الصحيح هلا‪.‬‬
‫لتوضيح هذا التعريف دعونا نرضب مثاال خلوارزمية لدهيا القدرة عىل حتديد نوع‬
‫الفاكهة التي تظهر يف صورة ما‪ .‬يف كل مرحلة‪ ،‬تأخذ هذه اخلوارزمية صورة إلحدى‬
‫الفواكه كمدخل‪ .‬يف املرحلة األوىل يتم بناء اخلوارزمية بحيث تكون قادرة عىل استقبال‬
‫صور وإعطاء أوسمة حمددة كمخرج‪ .‬ثم تبدأ مرحلة التدريب )‪ (Training‬بحيث‬
‫تعطى هذه اخلوارزمية عددا كبريا من صور الفواكه ومع كل صورة تعطى اسم الفاكهة‬
‫التي تظهر يف تلك الصورة‪ ،‬فتقوم اخلوارزمية بتحليل كل صورة من أجل إجياد عالقة‬
‫بني الصورة ونوع الفاكهة املرفق معها (كالشكل أو اللون أو احلجم) حتى تتمكن‬
‫اخلوارزمية من إجياد عالقة مطردة بني الصور وأسامئها أو أوسمتها‪ .‬ثم تبدأ مرحلة‬
‫االختبار )‪ (Testing‬للخوارزمية بأن تعطى بعض الصور اجلديدة (أي صور مل تستخدم‬
‫يف مرحلة التدريب) لفواكه من نفس األنواع التي تم تدريب اخلوارزمية عليها؛ ومن‬
‫ثم‪ ،‬يتم تقييم اخلوارزمية وحساب دقتها بتحديد نسبة التصنيفات الصحيحة يف جمموعة‬
‫الصور التي أعدت لالختبار )‪.(Testing set‬‬

‫‪-147-‬‬
‫لقد استطاعت خوارزميات تعلم االلة فتح آفاق واسعة لتطبيقات مل تكن ممكنة‬
‫بخوارزميات الرتميز اليدوي السابقة‪.‬كمحركات البحث‪ ،‬وبعض التطبيقات الطبية‪،‬‬
‫والعسكرية‪ ،‬واألمنية‪ ،‬والتجارية‪ ،‬وغريها [‪.]10‬‬
‫يوجد عدد كبري من خوارزميات تعلم اآللة التي تتبع مناهج خمتلفة‪ ،‬مثل‪ :‬شجرة القرار‬
‫(‪ ،)Decision tree‬وبرجمة املنطق االستقرائي (‪،)Inductive logic programming‬‬
‫وخوارزميات املراكمة (‪ ،)Clustering‬والتعلم املعزز (‪،)Reinforcement learning‬‬
‫والشبكات البايزية (‪ ،)Bayesian networks‬وشعاع الدعم اآليل (‪Support vector‬‬
‫‪ .)machine‬ويمكن تصنيف هذه اخلوارزميات عموم ًا إىل جمموعتني رئيسيتني‪:‬‬
‫·التعلم حتت اإلرشاف‪ (Supervised Learning) ‬وفيه يتم تدريب خوارزمية‬
‫تعلم اآللة باستخدام بيانات تم وسمها وتصنيفها مسبق ًا كام يف مثال الفواكه‬
‫السابق‪:‬‬

‫·التعلم دون إرشاف )‪ :(Unsupervised Learning‬وفيه ّ‬


‫جتمع اخلوارزمية‬
‫البيانات املتشاهبة إىل جمموعات ومن تطبيقاهتا اكتشاف وتصنيف األشخاص‬
‫ذوي االهتاممات املشرتكة يف وسائل التواصل االجتامعي [‪.]10‬‬
‫ومن بني مناهج تعلم اآللة‪ ،‬ظهرت الشبكات العصبية االصطناعية ملحاكاة عقل‬
‫اإلنسان يف بنيته وطريقة عمله‪ ،‬إذ إن عقل اإلنسان حيوي ‪ 16-14‬مليار خلية عصبية‬
‫(أو «عصبونات») مرتبط بعض منها ببعض‪.‬‬

‫‪ ٣٫٢‬الشبكات العصبية االصطناعية‬


‫الشبكات العصبية االصطناعية (‪ )Artificial Neural Network. ANN‬منهجي ٌة‬
‫من منهجيات تعلم اآللة مستوحا ٌة من اخلاليا العصبية‪ .‬يوضح الرسم التوضيحي ‪٢‬‬
‫دماغ اإلنسان بشكل مبسط‪ .‬حيث ُيمكن للخاليا العصبية االتصال بخاليا عصبية‬
‫جماورة‪.‬‬

‫‪-148-‬‬
‫الرسم التوضيحي (‪ :)٢‬الشبكة العصبية االصطناعية متعددة الطبقات‪ .‬كل دائرة متثل خلية‬
‫عصبية واألسهم متثل الوصالت بني هذه اخلاليا‪.‬‬

‫طبقات و​​وصالت لنرش‬


‫ٌ‬ ‫وكذلك فإن الشبكات العصبية االصطناعية تتكون من‬
‫الت حتسب يف مرحلة التدريب ثم ي تم حتديدُ الناتج أو‬ ‫دخ ِ‬‫البيانات‪ ،‬أو أوزان ُم َ‬
‫التصنيف عربها أثناء االستعامل‪( .‬أنظر الرسم التوضيحي ‪ ،٣‬حيث تتصل كل خلية‬
‫بجميع خاليا الطبقة التى تسبقها)‪.‬‬

‫الرسم التوضيحي (‪ :)٣‬الشبكة العصبية االصطناعية متعددة الطبقات‪ .‬كل دائرة متثل خلية‬
‫عصبية واألسهم متثل الروابط بني هذه اخلاليا‪.‬‬

‫ترتكب الشبكة العصبية االصطناعية ‪-‬كام هو موضح يف الرسم التوضيحي ‪ -٣‬من‬


‫جمموعة من اخلاليا العصبية املرتبة ضمن طبقات اإلدخال (‪ )Input Layer‬واإلخراج‬
‫(‪ )Output Layer‬وطبقة أو أكثر من الطبقات اخلفية (‪.)Layers Hidden‬‬

‫‪-149-‬‬
‫وتعترب الشبكات العصبية بالدخل األمامي (‪)Feed forward neural network‬‬
‫إحدى أشهر الشبكات العصبية االصطناعية وقد سميت هبذا االسم ألهنا تعتمد مبدأ‬
‫االنتشار األمامي حيث يكون خمرج كل طبقة هو املدخل للطبقة التي تليها فيكون خمرج‬
‫ال لكل عصبون يف الطبقة التي تليها‪ .‬وبزيادة الطبقات‬ ‫مجيع عصبونات أي طبقة دخ ً‬
‫اخلفية وتطوير خوارزمياهتا‪ ،‬ظهر ما يسمى بالتعلم العميق‪.‬‬

‫‪ -٣‬التعلم العميق ورس نجاحه‬


‫إن مصطلح التعلم العميق (‪ Deep Learning‬أو ‪ )DL‬اختصار ملصطلح شبكات‬
‫التعلم العميق (‪ ،)Deep neural networks. DNN‬فإن شبكات التعلم العميق ما هي‬
‫إال شبكات عصبية اصطناعية )‪ (Neural Networks. NN‬ولكنها حتتوى عىل عدد‬
‫كبري (أكثر من ‪ 150‬طبقة يف بعض احلاالت) من الطبقات اخلفية (‪)Hidden Layers‬‬
‫[‪.]2‬‬
‫تؤدي هذه الزيادة يف الطبقات اخلفية لشبكات التعلم العميق إىل زيادة تعقيد عملية‬
‫التدريب ويتطلب قدرا أكرب من البيانات لتدريبها‪ .‬ويف مقابل هذه الصعوبة يف التدريب‬
‫فإن الشبكات العصبية العميقة تتميز بالقدرة عىل تعلم املدخالت بدون احلاجة لتحديد‬
‫مالمح (‪ )Features‬مسبق ًا خالفا ألكثر خوارزميات تعلم اآللة األخرى‪.‬‬
‫تقوم الطبقات األوىل يف خوارزميات التعلم العميق تلقائي ًا بعمليات تنوب عن‬
‫حتديد وتعلم املالمح بدقة عالية‪ .‬وباإلضافة لذلك فهي من أفضل اخلوارزميات التي‬
‫متكن اآللة من تعلم مستويات خمتلفة من مالمح البيانات‪.‬‬
‫فمثال لو فرضنا أن املدخل للشبكة العميقة صورة‪ ،‬فإن الطبقة األوىل قد تركز عىل‬
‫حتديد أماكن احلواف (‪ )Edges‬يف الصورة يف حني تركز الطبقة الثانية عىل حتديد أماكن‬
‫الزوايا فيها‪ ،‬وهكذا إىل أن تتمكن بعض الطبقات من حتديد الشكل املوجود يف الصورة‪.‬‬
‫هذا األمر جعل تصميم أنظمة التعلم بتقنية التعلم العميق أسهل ألهنا ال تتطلب‬
‫اخلربة الالزمة لتحديد مالمح املدخالت‪ ،‬وهو ما قد يعد أهم مراحل خوارزميات‬
‫تعلم اآللة وأكثرها تأثري ًا يف نتائجها‪.‬‬

‫‪-150-‬‬
‫لذا‪ ،‬فإن أحد أهم أسباب نجاح خوارزميات التعلم العميق أهنا ال تعتمد عىل‬
‫خصائص ثابتة وحمددة مسبق ًا كام هو احلال يف مجيع خوارزميات تعلم اآللة األخرى‪،‬‬
‫ولكنها تتعلم اخلصائص املهمة من البيانات أثناء مرحلة التدريب‪ .‬غري أن نجاح‬
‫خوارزميات التعلم العميق يقوم بشكل أسايس عىل توفر قدر كبري جد ًا من بيانات‬
‫التدريب‪.‬‬
‫يرجع نجاح تقنية التعلم العميق لعدة عوامل منها تطور بعض تقنياهتا وخوارزمياهتا‬
‫احلالية مثل الشبكات العصبية االلتفافية (‪ )Convolutional Neural Network‬التي‬
‫ساعدت يف تقليل التكلفة احلسابية للشبكات العصبية االصطناعية كثريا؛ كام سنوضحه‬
‫قريب ًا‪.‬‬
‫كذلك من العوامل التي أسهمت يف هذا التطور بشكل كبري توافر وحدات معاجلة‬
‫الرسومات (‪ )Graphics processing units‬ذات القدرات احلسابية اهلائلة‪ ،‬والتي‬
‫وقت مىض‪.‬‬‫جعلت املعاجل َة املتوازي َة أرسع وأرخص وأكثر قو ًة من أي ٍ‬
‫َ‬ ‫َ‬ ‫َ‬
‫من أسباب نجاح التعلم العميق أيض ًا توفر كميات كبرية من البيانات‪ ،‬فقد توفرت‬
‫مؤخر ًا كميات هائلة من البيانات وصار باإلمكان مجعها وختزينها بشكل أسهل‬
‫ِ‬
‫والتدفق اهلائل‬ ‫وأرخص بكثري من السابق‪ .‬فهذا التطور اهلائل يف وحدات التخزين‬
‫حدب وصوب‪ ،‬وبكل أنواعها (الصور والنصوص واملعامالت‬ ‫ٍ‬ ‫للبيانات من كل‬
‫واخلرائط‪ ...‬إلخ)‪ ،‬لعب دور ًا كبري ًا يف نجاح تقنية التعلم العميق حيث أن كفاءة التعلم‬
‫تزداد بشكل مستمر مع زيادة كمية البيانات املستخدمة يف مرحلة التدريب‪ .‬كام جيليه‬
‫الرسم التوضيحي رقم ‪.٤‬‬

‫‪-151-‬‬
‫الرسم التوضيحي (‪ :)٤‬مقارنة بني خوارزميات تعلم اآللة من حيث العالقة بني الكفاءة وكميات‬
‫بيانات التدريب [‪.]12‬‬

‫‪ -٤‬أبرز تقنيات التعلم العميق‬


‫ثمة عدة تقنيات للتعلم العميق‪ ،‬تعتمد عىل نوع الشبكة العصبية التي تنبني منها‪،‬‬
‫ويف هذا الفصل نعرض تقنيات التعلم العميق احلديثة التي حققت نجاح ًا كبري ًا وانتشار ًا‬
‫واسع ًا ونعرج عىل أسباب نجاحها‪.‬‬

‫‪ ٤٫1‬الشبكات العصبية االلتفافية‬


‫الشبكات العصبية االلتفافية )‪ Convolutional Neural Network‬أو ‪CNN‬‬
‫اختصار ًا( هي نوع خاص وهام من أنواع الشبكات العصبية العميقة قدمها العامل‬
‫‪ Yann LeCun‬عام ‪1998‬م [‪ .]13‬يعترب هذا النوع من الشبكات العصبية ح ً‬
‫ال للكثري‬
‫من مشاكل الرؤية احلاسوبية (‪ )Computer Vision‬والتي هي فرع من فروع الذكاء‬
‫االصطناعي يعنى بتطبيقات معاجلة الصور ومقاطع الفيديو وحتليل حمتوياهتا‪.‬‬
‫تقوم الفكرة األساسية هلذا النوع من الشبكات عىل استبدال طبقات االتصال‬
‫الكامل (‪ )Fully Connected Layers‬التقليدية بالطبقات االلتفافية (‪Convolution‬‬
‫‪ .)Layers‬ففي هذا النوع من الشبكات تتأثر كل وحدة يف الطبقات االلتفافية بعدد‬
‫حمدود من وحدات الطبقة السابقة؛ كام يف الرسم التوضيحي ‪.٥‬‬

‫‪-152-‬‬
‫إن فكرة الطبقات االلتفافية مستوحاة من عملية الطي أو االلتفاف الرياضية‬
‫(‪ )Convolution‬وهي عميلة رياضية تستعمل يف حتوير دالة خمرجة من دالتني‬
‫مدخلتني وتستخدم هذه األداة الرياضية يف الكثري من تطبيقات معاجلة الصور‪ .‬وتقوم‬
‫طبقة االلتفاف بتطبيق عملية االلتفاف الرياضية عىل عنارص الدخل (عصبونات الطبقة‬
‫السابقة أو املدخالت) حلساب قيمة الوحدة يف الطبقة التالية‪.‬‬

‫الرسم التوضيحي (‪ :)٥‬اتصال الطبقة االلتفافية (يمني) واالتصال الكامل (يسار) [‪.]14‬‬

‫‪ ٤٫٢‬الشبكة العصبية املتكررة‬


‫الشبكات العصبية املتكررة (‪ Recurrent Neural Network‬أو ‪ RNN‬اختصار ًا)‬
‫ٍ‬
‫حلقات راجعة‬ ‫تتضم ُن‬ ‫من أنواع الشبكات العصبية االصطناعية والتي تتميز بأهنا‬
‫َّ‬
‫ِ‬
‫الذاكرة‪ ،‬فعىل العكس من الشبكات العصبية بالدخل‬ ‫َ‬
‫داخل الشبكة ممَّا ُيعطيها مفعول‬
‫األمامي (‪ )Feed forward Neural Network‬فإن الشبكات العصبية املتكررة تأخذ‬
‫املدخالت عىل عدة مراحل أو دورات وليس دفعة واحدة ولذلك فإهنا حتوي حلقات‬
‫تعود باملخرج من الدورة السابقة للخلف بحيث يكون ُمدخال للدورة التالية‪ .‬هذه‬
‫اخلاصية تعطي الشبكة القدرة عىل تذكر نتيجة املرحلة املاضية وبالتايل االستفادة منها‬
‫يف املرحلة التالية‪ .‬هذه اخلاصية مهمة جد ًا يف التطبيقات التي تعتمد عىل الرتابط الزمني‬
‫بني املدخالت‪ .‬فعىل سبيل املثال فإن معنى املقطع الصويت يف تطبيقات حتليل الكالم‬
‫يف أي مرحلة يعتمد بشكل كبري عىل الكلامت السابقة‪ .‬يف مثل هذه التطبيقات تعترب‬
‫ِ‬
‫الشبكات‬ ‫تدريب‬ ‫الشبكات العصبية املتكررة احلل األمثل‪ .‬وينبغي التنويه إىل أن‬
‫َ‬
‫كلف أكثر من الشبكات العصبونية االلتفافية‪ .‬الرسم التوضيحي‬ ‫العصبية ا ُمل ِّ‬
‫تكررة ُم ٌ‬
‫‪ ٦‬يبني خمطط الشبكات العصبية املتكررة‪.‬‬

‫‪-153-‬‬
‫الرسم التوضيحي (‪ :)٦‬ختطيط الشبكات العصبية املتكررة ومتثيل بسطها زمنيا [‪.]15‬‬

‫‪ ٤٫٣‬شبكات الذاكرة قصرية‪-‬املدى الطويلة‬


‫أحد أهم عيوب الشبكات العصبية املتكررة أهنا ال تستطيع التذكر ملدة طويلة‪ .‬حلل‬
‫هذه املشكلة تم تطوير شبكات الذاكرة قصرية‪-‬املدى الطويلة (‪Long Short-Term‬‬
‫‪ Memory‬أو ‪ LSTM‬اختصار ًا) نوع خاص من الشبكات العصبية املتكررة ‪RNN‬‬
‫مصممة لتخزين نتائج املراحل السابقة ملدد أطول‪ .‬هذا النوع من الشبكات متكن من‬
‫حتقيق نتائج أفضل يف الكثري من التطبيقات التي تعتمد عىل ترابط املدخالت ملدة طويلة‬
‫[‪.]16‬‬

‫‪ ٤٫٤‬شبكات اخلصومة التوليدية‬


‫شبكات اخلصومة التوليدية (‪ Generative Adversarial Networks‬أو ‪GANs‬‬
‫اختصارا) شبكات عصبية عميقة تتألف الواحدة منها من شبكتني متخاصمتني بحيث‬
‫أن األوىل (وتسمى املولدة (‪ ))generator‬تسعى لتوليد بيانات تشبه البيانات احلقيقية‬
‫بشكل كبري‪ ،‬يف حني أن الثانية (املميزة (‪ ))discriminator‬حتاول أن تكتشف إن كانت‬
‫البيانات املولدة حقيقية أم مزورة‪ ،‬وبعد كل دورة تتعلم كل شبكة وتتطور يف مهمتها‪.‬‬
‫فمثالً‪ ،‬يمكن للشبكة املولدة أن تأخذ صورة إلنسان مرسومة باليد وأن تولد منها صورة‬
‫معدلة تشبه األصلية‪ .‬وعند إدخال الصورة املعدلة للشبكة املميزة‪ ،‬فإن هذه األخرية‬
‫تسعى للحكم عىل الصورة بأهنا حقيقية أو مزورة‪ .‬ومع التدريب تصبح الشبكة املولدة‬
‫قادرة عىل انتاج صورا تشبه احلقيقية إىل حد كبري؛ أنظر إىل الرسم التوضيحي ‪.٧‬‬

‫‪-154-‬‬
‫الرسم التوضيحي (‪ :)٧‬خمطط عمل شبكات اخلصومةلصور أرقام مكتوبة بخط اليد [‪.]17‬‬

‫إن إمكانات شبكات ‪ GAN‬ضخمة‪ ،‬ألهنا يمكن أن تتعلم حماكاة أي توزيع‬


‫للبيانات‪ .‬وهذا يعني أنه يمكن تعليم الشبكات العصبية إنشاء عوامل تشبه بشكل خميف‬
‫عاملنا يف أي جمال‪ :‬الصور‪ ،‬الكالم ‪.‬تم تقديم ‪ GANs‬يف ورقة ]‪ [18‬من إعداد ‪Ian‬‬
‫‪ Goodfellow‬وباحثني آخرين يف جامعة مونرتيال‪ ،‬يف عام ‪.2014‬‬

‫‪ ٤٫٥‬شبكة التشفري اآليل‬


‫تشبه شبكة التشفري اآليل (‪ )Autoencoders‬شبكات اخلصومة التوليدية حيث إهنا‬
‫تتكون من شبكتني عصبيتني األوىل هي شبكة التشفري (‪ )Encoder‬وتقوم بتحويل‬
‫املدخل إىل متثيل مضغوط (‪ )Compressed Representation‬والشبكة الثانية هي‬
‫شبكة فك التشفري (‪ )Decoder‬وتسعى إلعادة تكوين بيانات اإلدخال من خالل متثيلها‬
‫اخلفي فقط‪ .‬يتم تدريب كل من هاتني الشبكتني يف نفس الوقت بحيث أن األوىل حتاول‬
‫انتاج متثيل خمفي حيوي مجيع خصائص املدخل مما يمكن شبكة فك التشفري من اسرتجاع‬
‫املدخل باستخدام ذلك التمثيل املخفي‪ .‬بعد انتهاء مرحلة التدريب يفرتض أن نصل إىل‬
‫متثيل مضغوط يقوم بتمثيل املدخل بشكل دقيق؛ انظر الرسم التوضيحي ‪.٨‬‬

‫‪-155-‬‬
‫الرسم التوضيحي (‪ :)٨‬توضيح طريقة عمل شبكة التشفري اآليل [‪.]19‬‬
‫إحدى فوائد هذه الشبكات أهنا تعمل عىل احلد من حجم املدخالت؛ أي أن حجم‬
‫التمثيل املضغوط يكون أقل بكثري من حجم البيانات األولية‪ .‬فبدالً من استخدام‬
‫الصورة ذات احلجم الكبري يمكن استخدام التمثيل املضغوط الذي يقوم مقام هذه‬
‫الصورة يف الكثري من التطبيقات‪.‬‬

‫‪-٥‬أهم تطبيقات التعلم العميق يف خدمة اللغة العربية‬


‫يف هذا الفصل‪ ،‬نعرض بعض تطبيقات تقنية التعلم العميق يف خدمة اللغة العربية‬
‫لتحفيز اجلهود يف هذا املجال حتى تتطور التطبيقات وتصل إىل مرحلة متكن من‬
‫استخدامها يف حياتنا اليومية‪ .‬ورغم أن تطبيقات تقنية التعلم العميق يف خدمة اللغة‬
‫العربية مازلت يف مرحلة ابتدائية مل تنضج فيها اخلوارزميات املتوفرة لدرجة تؤدي إىل‬
‫تطبيقات فعالة ومفيدة للمجتمع واللغة‪ ،‬إال أنه من الصعوبة بمكان استقصاء مجيع‬
‫اجلهود التي بذلت يف هذا املجال‪ .‬لذلك فإننا نعرض يف هذا الفصل بعض األبحاث‬
‫املهمة ذات العالقة باملوضوع ومن أراد االستزادة فننصحه بالرجوع إىل بعض األبحاث‬
‫املوسعة باللغة اإلنجليزية مثل ]‪.[20‬‬
‫ومن اجلدير بالذكر أن هناك فروق متعددة بني تقنيات تعلم اآللة التقليدية وتقنيات‬
‫التعلم العميق‪ .‬من هذه الفروق عىل سيبل املثال‪:‬‬
‫· أن تقنية التعلم العميق ال تتطلب خربة كبرية يف جمال تعلم اآللة عىل عكس‬
‫تقنيات تعلم اآللة التقليدية التي تتطلب خربة كبرية حيث إنه يقع عىل عاتق‬
‫الباحث ‪-‬يف معظم األحيان‪ -‬حتويل البيانات اخلام إىل مالمح يمكن التقنيات‬

‫‪-156-‬‬
‫التقليدية التعامل معها‪ ،‬أما تقنيات التعلم العميق فإهنا تتعامل مع البيانات‬
‫اخلام بشكل مبارش دون احلاجة لتحويلها إىل متثيل آخر‪ .‬هذا األمر أدى إىل‬
‫سهولة استخدام تقنية التعلم العميق‪.‬‬
‫· نتائج التعلم العميق يف خدمة اللغة العربية وغريها أثبتت تفوقا عىل تقنيات‬
‫تعلم اآللة التقليدية‪ .‬فعىل سبيل املثل يف جمال التعرف عىل األحرف العربية‬
‫املكتوبة بخط اليد‪ ،‬استطاعت تقنية التعلم العميق حتقيق نتائج غري مسبوقة‪.‬‬

‫‪ ٥٫1‬تطبيقات التعلم العميق يف جمال حتليل اللغة العربية الطبيعية‬


‫حتليل اللغات الطبيعية (‪ )Natural Language Processing‬هو جمال يعنى‬
‫بالتفاعالت بني احلاسب اآليل واإلنسان من خالل اللغات الطبيعية التي يستخدمها‬
‫الناس يف حياهتم اليومية‪ .‬يف [‪ ،]21‬اقرتح الباحثون نموذجا لغويا (‪language‬‬
‫‪ )model‬عىل مستوى احلرف يقوم بتعيني قيمة حمتملة لكل سلسلة من احلروف عن‬
‫طريق التوزيع االحتاميل‪ .‬اجلديد يف هذا البحث أنه آتى نتائج كانت بالعادة حتتاج لنامذج‬
‫عىل مستوى الكلامت‪ .‬يطبق البحث الشبكات العصبية االلتفافية ‪ CNN‬عىل أحرف‬
‫اإلدخال قبل إدخاهلا إىل الشبكات ذات الذاكرة قصرية‪-‬املدى الطويلة ‪ .LSTM‬تم‬
‫تطبيق هذه اخلوارزمية عىل لغات من ضمنها اللغة العربية‪ .‬وهذه اخلوارزمية متاحة‬
‫للتنزيل واالستخدام ]‪.[22‬‬

‫‪ ٥٫٢‬تطبيقات التعلم العميق يف جمال التعرف عىل الكالم العريب املنطوق‬


‫التعرف عىل الكالم املنطوق (‪ )Speech Recognition‬هو جمال يعنى بتحويل‬
‫الكالم املنطوق إىل ترميز حاسويب نيص‪ .‬يف أحد أول األعامل التي استخدمت تقنية‬
‫التعلم العميق يف جمال التعرف عىل الكالم العريب املنطوق [‪ ،]23‬استخدم الباحثون‬
‫الشبكة العصبية املتكررة للتعرف عىل األرقام العربية املنطوقة‪ .‬تكونت شبكتهم‬
‫العصبية املقرتحة من طبقتني خف ّيتني وكان أداؤها جيدً ا لبيانات عدة متكلمني‪.‬‬
‫البحث [‪ ]24‬قدم أفضل حل للتحدي الذي تم اطالقة عام ‪ 2017‬باسم «‪Multi-‬‬
‫‪ »Genre Broadcast‬والذي تضمن جمال التعرف عىل املنطوق‪ .‬استطاع املؤلفون حتقيق‬
‫نتائج ممتازة بمزج العديد من التقنيات احلديثة وعىل رأسها تقنية التعلم العميق‪ ،‬حيث‬

‫‪-157-‬‬
‫استخدم الباحثون الشبكات العصبية املتكررة مع نامذج لغوية وتقنيات أخرى‪ .‬كام‬
‫شارك يف حتدي عام ‪2016‬م باحثون يف جامعة لومان بفرنسا ومتكنوا من تسخري تقنية‬
‫التعلم العميق للتعرف عىل النامذج الصوتية العربية وحتقق حتسني للدقة بنسبة ‪٪15.7‬‬
‫[‪.]25‬‬

‫‪ ٥٫٣‬تطبيقات التعلم العميق يف جمال التعرف عىل احلروف العربية املكتوبة‬


‫يعترب استخدام تقنية التعلم العميق يف جمال التعرف الضوئي (اآليل) عىل النصوص‬
‫العربية ( ‪ Optical Character Recognition‬أو ‪ )OCR‬من أكثر جماالت خدمة اللغة‬
‫العربية انتشارا‪،‬وإن كان ما زال ثمة جمال للتحسني باستخدام هذه التقنية القوية‪ .‬يف‬
‫الكتابة‪ ،‬ختتلف العربية عن اللغات األخرى بخصائص منها‪:‬‬
‫·اجتاه الكتابة يف اللغة العربية من اليمني إىل اليسار عىل عكس اللغات الالتينية‪.‬‬
‫·شكل احلرف العريب يعتمد عىل اتصاله بام حوله‪.‬‬
‫·طبيعة اللغة العربية خمتلفة يف االشتقاق والرصف والنحو والتشكيل وغري ذلك‪.‬‬
‫·بعض احلروف متشاهبة حلد كبري حيث ختتلف يف بعض األحيان يف عدد أو‬
‫مواضع النقاط فقط‪.‬‬
‫هذه اخلصائص وغريها هلا تأثري كبري عىل األساليب التي جيب أخذها يف عني االعتبار‬
‫عند دراسة وتصميم خوارزميات التعرف اآليل عىل النصوص العربية املكتوبة‪ .‬لذلك‬
‫فإنه ليس من املمكن دائام تطبيق اخلوارزميات املصممة للتعرف عىل كتابات التينية أو‬
‫صينية ‪-‬دون تعديلها‪ -‬عىل نص عريب‪.‬‬
‫وبالرغم أن هذا املجال تم بحثه منذ سنوات عديدة من خالل تطبيق تقنيات تعلم‬
‫اآللة التقليدية إال أنه مل يبحث بشكل كاف بتقنيات التعلم العميق خصوص ًا اجلديد من‬
‫هذه التقنيات‪ .‬عالوة عىل ذلك‪ ،‬فإن بعض املشكالت املتعلقة بـمجال التعرف عىل‬
‫النصوص العربية مل يتم معاجلتها باستخدام تقنية التعلم العميق حتى اآلن من هذه‬
‫املجاالت عىل سبيل املثال التعرف عىل كاتب النص (‪.]26[ )Writer Identification‬‬
‫تقدم [‪ ]27‬نظرة عامة حول جمال التعرف الضوئي عىل احلرف العربية املكتوبة بخط‬

‫‪-158-‬‬
‫اليد‪ .‬كام أهنا تلخص التحديات التقنية الرئيسية املتعلقة بخصائص اللغة العربية‪ .‬حياول‬
‫هذا البحث أيض ًا استقصاء البحوث املتعلقة بمجال التعرف الضوئي عىل احلروف‬
‫العربية املكتوبة باليد والتى نرشت يف عام ‪2015‬م وما قبله‪.‬‬
‫يف عام ‪ 2017‬قدم الباحث شوقي بوفنار وزمالؤه ]‪ [28‬عم ً‬
‫ال استخدم فيه الشبكة‬
‫العصبية االلتفافية العميقة للتعرف عىل صور األحرف العربية املكتوبة بخط اليد‪.‬‬
‫أظهرت نتائج البحث دقة تصل إىل ‪.]29[ ٪97.32‬‬
‫وعرض البحث ]‪ [30‬نتائج ممتازة يف التعرف عىل حروف واحدة من جمموعات‬
‫البيانات املهمة واملعروف باسم (‪ )]31[ KHATT‬التي حتتوى عىل أنامط متنوعة‬
‫من النص املكتوب بخط اليد‪ ،‬وحقق أدا ًء متميز ًا من خالل تطبيق شبكات الذاكرة‬
‫قصرية‪-‬املدى الطويلة (‪ )LSTM‬متعددة االجتاهات‪ .‬لقد متكن باستعامل تقنية التعلم‬
‫العميق واملعاجلة املسبقة من حتسني النتائج من ‪ ٪46.13‬إىل ‪.٪75.8‬‬
‫كام قام الباحث أمحد الصاوي وزمالؤه [‪ ]32‬ببناء شبكة عصبية التفافية وتطبيقها‬
‫للتعرف عىل احلروف العربية املكتوبة بخط اليد‪ .‬استخدمت صور وبيانات ‪16800‬‬
‫حرف يف تدريب واختبار الشبكة لتتمكن من حتيقيق دقة تصل إىل ‪.%94.9‬‬
‫‪ -٦‬اخلامتة‬
‫عرض هذا البحث مقدمة مبسطة للتعريف بتقنية التعلم العميق وأهم ما يرتبط‬
‫هبا من العلوم واملصطلحات‪ ،‬وعرض باختصار عددا من تقنيات التعلم العميق التي‬
‫حققت شهرة واسعة ونتائج مبهرة‪ .‬كام سعى للحث عرب أمثلة تطبيقية ناجحة للتقنية‬
‫عىل استخدمها يف خدمة اللغة العربية‪ .‬كام ُيرجى هلذا البحث أن يكون نقطة انطالق‬
‫للتأليف ‪-‬بالعربية‪ -‬يف جمال التعلم العميق هذا املجال اجلدير بالعديد من املؤلفات‪.‬‬
‫أظهرت تطبيقات التعلم العميق يف معاجلة اللغة العربية طبيعيا والتعرف عىل الكالم‬
‫املنطوق واملكتوب فاعلية رغم من أهنا مل تستغل ‪-‬بعد‪ -‬بالشكل املريض‪ .‬نويص يف‬
‫ختام هذا البحث باالهتامم هبذه التقنية التي نتوقع هلا نجاحا يف الكثري من املجاالت‬
‫وعىل رأسها خدمة اللغات الطبيعية‪.‬‬

‫‪-159-‬‬
‫املراجع‬
[1] Association for computing machinery. Fathers of the Deep
Learning Revolution Receive ACM A.M. Turing Award. 2018.
Retrieved from: https://awards.acm.org/about/2018-turing
[Accessed 19 Jun. 2019].
[2] M. Copeland. What’s the Difference Between Artificial Intelligence.
Machine Learning. and Deep Learning?. Nvidia. 2016.
[3] DeepMind. The story of AlphaGo so far. 2015. Retrieved from:
https://deepmind.com/research/alphago/ [Accessed 19 Jun.
2019].
[4] Pytorch. An open source deep learning platform. Retrieved from:
https://pytorch.org/. [Accessed 6.6.2019]
[5] Berkeley AI Research. Deep learning framework. Retrieved
from: https://caffe.berkeleyvision.org/. [Accessed 6.6.2019]
[6] Tensorflow. An end-to-end open source machine learning
platform. Retrieved from: https://www.tensorflow.org/.
[Accessed 6.6.2019]
[7] Y. LeCun. C. Cortes. ‚MNIST handwritten digit database‘.
(2010) http://yann.lecun.com/exdb/mnist/
[8] H. AlQasir. B. Zeno. W. Dimashky. K. Alsakka. G. S. Saado. H.
Azzam. ‫ما هو الفرق بني الذكاء االصطناعي وتعلم اآللة والتعلم العميق؟‬
‫الباحثون السوريون‬
[9] S. Knapp. Artificial Intelligence: Past. Present. and Future. Vox
of Dartmouth. 2006.
[10] F. Al-Qunaieer. “2017 .”‫ مقدمة سريعة‬:‫تعلم اآللة‬. https://www.
nmthgiat.com.
[11] Memorypsych. The Science of Memory. October 29.
2015. Retrieved from . April 16. 2016. Retrieved from: https://
memorypsych.wordpress.com/2016/04/16/the-science-of-memory/

-160-
[12] A. Wasicek. Artificial Intelligence vs. Machine Learning vs.
Deep Learning: What’s the Difference?. sumo logic. 2018
[13] Y. Lecun. L. Bottou. Y. Bengio and P. Haffner. “Gradient-based
learning applied to document recognition.” in Proceedings of the
IEEE. vol. 86. no. 11. pp. 2278-2324. Nov. 1998.
[14] T. Hope. Y. S. Resheff. I. Lieder. Learning Tensorflow: A Guide
to Building Deep Learning Systems. O’Reilly Media. 2017.
[15] P. Radhakrishnan. Introduction to Recurrent Neural Network.
To Wards Data Science. 2017. https://towardsdatascience.com/
introduction-to-recurrent-neural-network-27202c3945f3
[16] F. Gers. Long Short-Term Memory in Recurrent Neural Networks.
PhD thesis. 2001
[17] T. Silva. An intuitive introduction to Generative Adversarial
Networks (GANs). Free Code Camp.2018. https://medium.
freecodecamp.org/an-intuitive-introduction-to-generative-
adversarial-networks-gans-7a2264a81394
[18] I. J. Goodfellow. J. Pouget-Abadie. M. Mirza. B. Xu. D.
Warde Farley. S. Ozair. A. C. Courville. Y. Bengio. Generative
Adversarial Nets. NIPS (2014).
[19] F. Chollet. Building Autoencoders in Keras. The Keras Blog.
2016 https://blog.keras.io/building-autoencoders-in-keras.html
[20] M. Al-Ayyoub. A. NUSEIR . K. Alsmearat. Deep learning for
Arabic NLP: survey. Journal of Computational Science. 2017.
[21] Y. Kim. Y. Jernite. D. Sontag. A.M. Rush. Character-aware neural
language models. AAAI (2016) 2741–2749.
[22] Y. Kim. Character-Aware Neural Language Models. github.
2016. https://github.com/yoonkim/lstm-char-cnn
[23] Y.A. Alotaibi. Spoken Arabic digits recognizer using recurrent
neural networks. Fourth IEEE International Symposium on Signal
Processing and Information Technology. 2004. pp.195–199.

-161-
[24] P. Smit. S. R. Gangireddy. S. Enarvi. S. Virpioja and M. Kurimo.
Aalto system for the 2017 Arabic multi-genre broadcast challenge.
IEEE Automatic Speech Recognition and Understanding
Workshop (ASRU). Okinawa. 2017. pp. 338-345.
[25] N. Tomashenko. K. Vythelingum. A. Rousseau. Y. Estéve.
LIUM ASR systems for the 2016 multi-genre broadcast Arabic
challenge. IEEE Spoken Language Technology Workshop (SLT).
2016. pp. 285–291.
[26] A. Durou. I. Aref. S. Al-Maadeed. A. Bouridane. E. Benkhelifa.
Writeridentification approach based on bag of words with OBI
features. Inf.Process. Manag. (2017).
[27] M. Shatnawi. Off-line Handwritten Arabic Character
Recognition: A Survey. International Conference on Image
Processing. Computer Vision (IPCV). 2015.
[28] C. Boufenar and M. Batouche. Investigation on deep learning for
off-line handwritten Arabic Character Recognition using Theano
research platform. Intelligent Systems and Computer Vision
(ISCV). Fez. 2017. pp. 1-6.
[29] C. Boufenar. M. Batouche. OIHACDB: A New Database for
Offline Isolated Handwritten Arabic Character Recognition.
COSI. 2016
[30] R. Ahmad. S. Naz. M. Z. Afzal. S. F. Rashid. M. Liwicki. A.
Dengel. DeepKHATT: A Deep Learning Benchmark on Arabic
Script. Advances in Neural Information Processing Systems.
2017.
[31] S. A. Mahmoud. I. Ahmad. W. G. Al-Khatib. M. Alshayeb. M. T.
Parvez. V. Märgner. G. A. Fink. KHATT: an open Arabic offline
handwritten text database. Pattern Recognition. 2014.
[32] A. El-Sawy. M. Loey. H. EL-Bakry. Arabic Handwritten
Characters Recognition Using Convolutional Neural Network.
WSEAS Transactions on Computer Research. 2017.

-162-
‫الباب اخلامس‬
‫شاعر بال مشاعر‪ :‬جتربة يف الشعر العربي اآللي‬
‫باستخدام التعلم العميق‬

‫أ‪ .‬غريب واجب غريبي‬

‫‪-163-‬‬
-164-
‫شاعر بال مشاعر‪ :‬جتربة يف الشعر العربي اآللي‬
‫باستخدام التعلم العميق‬
‫(((‬
‫أ‪ .‬غريب واجب غريبي‬

‫ملخص‬
‫هندف يف بحثنا هذا إىل تسليط الضوء عىل علم معاجلة اللغات الطبيعية ‪Natural‬‬
‫‪ Processing Language‬أو ‪ NLP‬باعتباره أحد أهم جماالت الذكاء االصطناعي‬
‫‪ ،Artificial Intelligence‬وسنركز بخاصة عىل استخدام خوارزميات التعلم العميق‬
‫‪ Deep Learning‬فيه ملحاولة حماكاة نصوص الشاعر العريب نزار قباين‪.‬‬
‫ونستعرض يف هذا البحث ماهية علم معاجلة اللغات الطبيعية مع إعطاء نبذة‬
‫تارخيية عن نشأته ومراحل تطوره‪ .‬ثم نعرج عىل أهم تطبيقات هذا العلم كالرتمجة‬
‫اآللية‪ ،‬وحتليل املشاعر واآلراء‪ ،‬وأنظمة اإلجابة التلقائية وغريها‪ .‬كام نستقيص أهم‬
‫املوضوعات الفرعية املندرجة حتت مبحث معاجلة اللغات الطبيعية كتصنيف‪ ،‬وتقطيع‪،‬‬
‫وإعراب‪ ،‬وفهم‪ ،‬وتوليد النصوص‪.‬‬
‫إضافة إىل ذلك‪ ،‬فإننا نرشح أساسيات التعلم العميق وكيفية استخدامه يف جمال‬
‫معاجلة اللغات الطبيعية‪ .‬ومن ثم نستعرض كيفية استخدام الشبكات العصبية املتكررة‬
‫‪ Recurrent Neural Networks‬لتوليد نصوص عربية آلي ًا‪ ،‬حيث نستخدم توليد‬
‫الشعر العريب احلر كدراسة عملية هلذا املوضوع‪ ،‬فنرشح ذلك ‪-‬خطوة خطوة‪ -‬يف‬
‫الفصل األخري من البحث‪.‬‬
‫كام أننا نركز عىل تبيان األبحاث واألدوات مفتوحة املصدر ملعاجلة اللغة العربية‬
‫عموم ًا‪ .‬وذلك من أجل تعريف القارئ بأهم التقنيات واخلوارزميات والطرق‬
‫املستحدثة جلمع‪ ،‬ومتثيل‪ ،‬وحتليل اللغات الطبيعية مع اإلشارة إىل بعض املراجع‬
‫للحصول عىل معلومات تفصيلية يف كل موضوع‪.‬‬

‫‪ -1‬باحث مساعد يف مركز التعلم الكبري التابع ملؤسسة العلوم الوطنية األمريكية ‪ ،NSF‬وحمارض يف أمن وخصوصية تعلم‬
‫اآللة‪ ،‬وطالب دكتوراه يف جامعة ميزوري بمدينة كانساس األمريكية ‪ .UMKC‬حصل م‪ .‬غريبي عىل درجة املاجستري‬
‫مع مرتبة الرشف األوىل يف ختصص هندسة الربجميات من جامعة ميزوري بمدينة كانساس‪ ،‬وهو ناشط شغوف يف‬
‫تطوير وإثراء املحتوى العريب للذكاء االصطناعي‪.‬‬

‫‪-165-‬‬
‫‪ -1‬مقدمة‬
‫خلق اهلل اإلنسان وميزه عن باقي خملوقاته بالعقل‪ ،‬وخلق ‪-‬سبحانه وتعاىل‪ -‬شعوب ًا‬
‫لكل منها عاداهتا وتقاليدها ولغتها التي متيزها عن غريها‪ ،‬حيث بينت بعض‬ ‫وقبائل ٍ‬
‫الدراسات احلديثة [‪ ]١‬أن عدد اللغات الطبيعية (لغات البرش) حول العامل يتخطى‬
‫الستة آالف لغة‪ .‬ومع التطور التقني اهلائل يف كافة جماالت وعلوم احلاسب اآليل‬
‫والتقنية‪ ،‬ظهر علم معاجلة اللغات الطبيعية الذي يسعى لتمكني احلاسب من فهم‬
‫ومعاجلة وحتليل اللغات الطبيعية لتسهيل الكثري من املهام إلكرتوني ًا يف كافة جوانب‬
‫احلياة‪.‬‬

‫‪ 1.1‬التعريف ونبذة تارخيية‬


‫علم معاجلة اللغات الطبيعية ‪ Natural Language Processing‬أو ‪ NLP‬هو علم‬
‫تطبيقي يعنى باستخدام تقنيات احلاسب اآليل‪ ،‬وعىل رأسها خوارزميات تعلم اآللة‬
‫‪ ،Machine Learning‬ألَمتَتَة((( علوم اللغويات ‪ Linguistics‬بحيث يصبح احلاسوب‬
‫قادر ًا عىل متثيل وحتليل وتوليد النصوص املكتوبة واملقروءة باللغات الطبيعية كالعربية‬
‫واإلنجليزية‪.‬‬
‫ومع التطور اهلائل يف مجيع جماالت احلاسب اآليل واستخدامه يف أمتتة الكثري من‬
‫املهام املتكررة‪ ،‬كفهرسة مواقع اإلنرتنت والرد عىل العمالء وحتليل آرائهم‪ ،‬أصبح‬
‫لتقنيات معاجلة اللغات الطبيعية دور ًا هام ًا يف الكثري من التطبيقات التي تعتمد عىل‬
‫فهم اللغات الطبيعية وتفاعل املستخدمني مع اآللة‪ ،‬كمحركات البحث‪ ،‬والرتمجة‬
‫اآللية‪ ،‬والتلخيص اآليل‪ ،‬وأنظمة اإلعالنات الذكية‪ ،‬وتصنيف املواضيع‪ ،‬وتنقية الربيد‬
‫اإللكرتوين من الرسائل الضارة‪ ،‬وحتليل املشاعر وقياس الرأي العام‪ ،‬وتوليد النصوص‬
‫ذات املعنى املرتابط واملفهوم‪.‬‬
‫يمكننا تتبع تاريخ نشأة علم معاجلة اللغات الطبيعية إىل مخسينيات القرن املايض‬
‫بعد وقت قصري من ظهور احلاسب املعروف باسم ‪ ]٢[ Turing Machine‬نسبة إىل‬

‫‪ -1‬األمتتة (‪ :)Automation‬مصطلح ُمـ َع َّـرب يدل عىل حتويل العمليات التي تتطلب تدخل البرش إىل عمليات آلية ال‬
‫تتطلب تدخل البرش‪ .‬ونعني هبا يف هذا السياق تطوير برجميات آلية ال تتطلب تدخل اخلرباء إلمتام املهمة‪.‬‬

‫‪-166-‬‬
‫مصممه العامل الشهري آلن تورينغ‪ ،‬والذي توجه اهتاممه إىل إنشاء برجميات ذكية حتاكي‬
‫ذكاء اإلنسان‪ .‬وبالفعل قام يف عام ‪1950‬م باقرتاح اختبار تيورنغ ‪]٣[ Turing Test‬‬
‫للحكم عىل ذكاء احلواسب من خالل قدرهتا عىل اإلجابة بلغة طبيعية عىل األسئلة دون‬
‫قدرة احلكم عىل متييز أهنا صادرة من حاسب‪.‬‬
‫ومع تزايد االهتامم يف معاجلة اللغات الطبيعية‪ ،‬ظهرت إحدى أوىل تطبيقاهتا يف‬
‫جامعة جورج تاون لرتمجة عبارات بني اللغتني الروسية واإلنجليزية [‪ ،]٥-٤‬لتتواىل‬
‫بعد ذلك تطبيقات كأنظمة إجابة األسئلة [‪ ،]٧-٦‬وأنظمة تطوير وفهم احلوار [‪-٨‬‬
‫‪ ،]٩‬وأدوات تقطيع الكالم وحتديد أصنافه وإعراب اجلمل [‪ ،]١٣-١٠‬وتطبيقات‬
‫التلخيص اآليل [‪ ،]١٤‬وأنظمة اسرتجاع البيانات [‪ ،]١٥‬وموخر ًا ظهرت تطبيقات‬
‫فهم وحتليل املشاعر واآلراء والتي تزامن ظهورها مع انتشار مواقع تقييم املنتجات‬
‫واخلدمات عىل الشبكة العنكبوتية (اإلنرتنت) [‪.]١٧-١٦‬‬
‫وكانت أغلب هذه التطبيقات تعتمد عىل قوانني تصاغ يدوي ًا من قبل الباحثني ثم‬
‫ترتجم إىل إحدى لغات الربجمة وتعطى للحاسب من أجل تنفيذها‪ .‬ولكن هذه الطريقة‬
‫كانت تتطلب فه ًام عميق ًا للغة وقواعدها ومعانيها باإلضافة إىل اجلهد الكبري لتغطية‬
‫احلاالت املختلفة؛ إىل أن ظهرت تقنيات تعلم اآللة يف أواسط الثامنينات [‪،]٢٠-١٨‬‬
‫حيث تراجعت الطرق اليدوية السابقة لصالح الطرق اإلحصائية التي ترتك للحاسب‬
‫عملية استنباط وتعلم قوانني اللغة بشكل آيل‪ ،‬وذلك من خالل االطالع عىل كميات‬
‫هائلة من النصوص واستنباط العالقات املتكررة بينها إحصائي ًا‪ .‬وأدت أمتتة هذه الطرق‬
‫إىل تركيز الباحثني عىل حتويل النصوص إىل صيغ إحصائية تتمثل فيها أهم خصائص‬
‫وأنامط اللغة املتكررة‪ .‬كام ُوجدت طرق هجينة تعتمد عىل الطرق اليدوية لعمل أنظمة‬
‫خبرية ومن ثم تضمينها مع تقنيات تعلم اآللة مما أدى إىل تطور تقنيات معاجلة اللغات‬
‫الطبيعية‪.‬‬
‫ثم نشطت‪-‬مؤخر ًا‪ -‬خوارزميات التعلم العميق والتي أثبتت قدرهتا عىل معاجلة‬
‫اللغات الطبيعية بشكل يفوق خوارزميات تعلم اآللة السابقة‪ ،‬بام فيها اهلجينة‪ ،‬وبدون‬
‫احلاجة لصياغة النص بشكل إحصائي؛ حيث تعتمد هذه اخلوارزميات عىل بناء شبكات‬
‫عصبية اصطناعية ‪ Artificial Neural Networks‬يمكنها استنباط القواعد واألنامط‬

‫‪-167-‬‬
‫بشكل آيل وبدقة عالية من خالل االطالع عىل كمية كبرية من النصوص دون الرجوع‬
‫لقواعد اللغة‪ ،‬كام نبني ذلك يف الفصل الثاين‪.‬‬

‫‪ 1.2‬أهم تطبيقات معاجلة اللغات الطبيعية‬


‫قبل التطرق للوظائف((( الرئيسية لعلم معاجلة اللغات الطبيعية‪ ،‬نرسد يف هذا‬
‫الفصل بعض أهم تطبيقات((( معاجلة اللغات الطبيعية وبخاصة تلك التي نرى وجوب‬
‫االهتامم هبا من قبل الباحثني واملربجمني املهتمني بإثراء معاجلة اللغة العربية‪.‬‬

‫‪ 1.2.1‬الرتمجة اآللية ‪Machine Translation‬‬

‫ال ختفى أمهية املرتمجات اآللية يف حياتنا اليومية‪ ،‬إذ هي من أهم ‪-‬إن مل تكن أهم‪-‬‬
‫تطبيقات معاجلة اللغات الطبيعية‪ .‬وكام ذكرنا يف مقدمة الباب‪ ،‬فإن ترمجة النصوص‬
‫من اللغة اإلنجليزية إىل اللغة الروسية كانت أوىل خطوات املجال‪ .‬ومن األمثلة األكثر‬
‫شيوع ًا للمرتمجات املستخدمة عىل اإلنرتنت حمرك الرتمجة ‪ Google Translate‬من‬
‫رشكة قوقل وحمرك الرتمجة ‪ Bing‬من رشكة مايكروسوفت‪ .‬وأول ما بدأت‪ ،‬كانت‬
‫خوارزميات الرتمجة اآللية تتطلب فه ًام عميق ًا للغات الطبيعية وجهد ًا كبري ًا لتحويلها إىل‬
‫برجميات حاسب آيل‪ .‬وفوق ذلك‪ ،‬فقد كانت دقة وفعالية هذه الربجميات ضعيفة جد ًا‪.‬‬
‫ولكن مع انتشار تعلم اآللة ‪-‬وخاصة التعلم العميق مؤخر ًا‪ -‬أصبحت خوارزميات‬
‫الرتمجة اآللية ذات فعالية أكرب وامتدت إىل لغات عديدة‪ ،‬وأصبحت تستفيد من الكم‬
‫اهلائل من النصوص التي يتم إنتاجها بلغات عديدة يومي ًا عىل شبكة اإلنرتنت‪ .‬وشهدت‬
‫الرتمجة من وإىل اللغة العربية مؤخر ًا اهتامم ًا واضح ًا كالرتمجة لإلنجليزية [‪،]٢٥-٢١‬‬
‫وللفرنسية [‪ .]٢٨-٢٦‬ويمكن االطالع عىل استقصاء للرتمجة اآللية من وإىل اللغة‬
‫العربية يف [‪.]٣٢-٢٩‬‬

‫‪ -1‬الوظائف (‪ :)Tasks‬املهام أو العمليات‪ .‬فعىل سبيل املثال‪ ،‬عملية إرجاع الكلمة إىل أصلها تعترب أحد وظائف معاجلة‬
‫اللغات الطبيعية‪.‬‬
‫‪ -2‬التطبيقات (‪ :)Applications‬االستخدامات‪ .‬فعىل سبيل املثال‪ ،‬حتليل املشاعر واآلراء يعد أحد أهم تطبيقات‬
‫اللغات الطبيعية‪.‬‬

‫‪-168-‬‬
‫‪ 1.2.2‬تصنيف النصوص ‪Text Classification‬‬

‫خوارزميات تصنيف النصوص يمكنها االطالع عىل نص معني وتصنيف حمتواه‬


‫إىل موضوعات (كالرياضية‪ ،‬واالقتصادية‪ ،‬والسياسية‪ ،‬وغري ذلك)‪ .‬كثري ًا ما يكون‬
‫حتليل النصوص بنا ًء عىل خوارزمية «الورودات األخرية» ‪ N-grams‬الشهرية (املفردة‬
‫واملزدوجة والثالثية) والتي تعتمد بشكل عام عىل تذكر عدد من الكلامت التي تظهر يف‬
‫سياق معني [‪ .]٣٧-٣٣‬كام تعتمد بعض اخلوارزميات األخرى عىل استخراج مميزات‬
‫وخصائص النص [‪.]٤٠-٣٨‬‬
‫حظي هذا املجال ببعض االهتامم من قبل الباحثني لتصنيف النصوص العربية‬
‫كاستخدام خوارزميات العد [‪ ،]٤١‬أو تعلم اآللة [‪ ،]٤٣-٤٢‬وكذلك التعرف اآليل‬
‫(الضوئي) عىل احلروف [‪ .]٤٥-٤٤‬وملن أراد استقصاء الدراسات السابقة لتصنيف‬
‫النصوص العربية الرجوع إىل املرجع [‪.]٤٦‬‬

‫‪ 1.2.3‬التلخيص اآليل ‪Automatic Summarization‬‬

‫هتتم عملية التلخيص اآليل بتلخيص النصوص‪ ،‬كنرشات األخبار والتقارير‬


‫املطولة‪ ،‬واستنباط خالصتها بشكل آيل‪ .‬وتساعد عملية التلخيص اآليل يف تسهيل كثري‬
‫من املهام التي تتطلب االطالع عىل خالصات الكتب والتقارير الطويلة‪ ،‬والبحث عن‬
‫إجابة معينة داخل النص‪ ،‬واختصار الكالم‪ ،‬وتقليل أحجام امللفات النصية مع احلفاظ‬
‫عىل املعاين واملفاهيم الواردة يف النص‪.‬‬
‫وعادة مايتم التلخيص اآليل بإحدى طريقتني‪ :‬التلخيص االقتبايس ‪Extractive‬‬
‫‪ ]٤٨-٤٧[ Summarization‬والتلخيص اخلاليص ‪Abstractive Summarization‬‬
‫[‪ .]٥١-٤٩‬فالتلخيص االقتبايس يعمل عىل تلخيص النص من خالل اقتباس أهم‬
‫ٍ‬
‫معان غري‬ ‫العبارات واملفاهيم الواردة فيه بدون توليد أي نصوص جديدة أو اختزال‬
‫هامة‪ .‬وبالتايل فإن مجيع اجلمل امللخصة هي مجل وتعابري موجودة يف النص األصيل تم‬
‫بقدر ٍ‬
‫كاف‪.‬‬ ‫تصنيفها من قبل اخلوارزمية عىل أهنا مهمة وتلخص املوضوع ٍ‬

‫أما التلخيص اخلاليص فيعمل عىل توليد نصوص ختترص حمتوى ومعنى النص‬
‫اإلمجايل باستخدام نص جديد صحيح لغوي ًا وإمالئي ًا‪ .‬وبالطبع فإن التلخيص اخلاليص‬

‫‪-169-‬‬
‫حيتاج إىل خوارزميات متقدمة تستطيع فهم النص أوالً ومن ثم توليد نص صحيح‬
‫يلخص النص األسايس‪.‬‬
‫نصيب من الدراسات التي عملت عىل حماكاة‬
‫ٌ‬ ‫وللتلخيص اآليل يف اللغة العربية‬
‫طرق التلخيص يف اللغات األخرى مع األخذ بعني االعتبار خصائص اللغة العربية‬
‫وثرائها النحوي [‪.]٥٦-٥٢‬‬

‫‪ 1.2.4‬اإلجابة عىل األسئلة ‪Automatic Question Answering‬‬

‫تعترب خدمة اإلجابة التلقائية عىل أسئلة وطلبات الزبائن من أنشط املواضيع يف‬
‫جمال معاجلة اللغات الطبيعية [‪]٥٩-٥٧‬؛ وذلك ألمهية هذا املجال يف سوق العمل‪،‬‬
‫وأسواق األموال‪ ،‬والتجارة اإللكرتونية‪ ،‬وغريها‪ .‬حيث إن هذه اخلوارزميات يمكنها‬
‫أن تؤدي إىل تطوير برجميات قادرة عىل فهم سؤال الزبون‪ ،‬سوا ًء املكتوب أو املنطوق‪،‬‬
‫ومن ثم البحث عن اإلجابة الصحيحة وإيصاهلا إما نص ًا أو نطق ًا‪.‬‬
‫والالفت للنظر يف هذا املجال هو جودة وكفاءة عمالء الرد اآليل للغة اإلنجليزية‬
‫حيث يصعب التفريق بينهم وبني العمالء البرش يف كثري من األحيان‪ .‬ويظهر ذلك جلي ًا‬
‫يف خدمات الرد اآليل يف املتاجر اإللكرتونية ومواقع احلكومات اإللكرتونية املتطورة‪.‬‬
‫ومن األنظمة التي ُطورت للرد اآليل باللغة العربية نظام ‪ ]٦٠[ QARAB‬والذي‬
‫تم تدريبه عىل مقاالت الصحف العربية وذلك يف حماولة جلمع أكرب قدر ممكن من‬
‫املعلومات عن األحداث‪ ،‬والتواريخ‪ ،‬والشخصيات وغريها‪ .‬وشبيه هبذا النظام نظام‬
‫‪ ]٦١[ AQUSYS‬للرد اآليل عىل األسئلة‪ .‬أما نظام ‪ ]٦٢[ AL-Byan‬فهو نظام تم‬
‫تدريبه عىل نصوص القرآن الكريم لإلجابة عىل األسئلة الفقهية واملوضوعات الدينية‪.‬‬

‫‪ 1.2.5‬حتليل املشاعر واكتشاف اآلراء ‪Sentiment Analysis‬‬

‫مع التوسع التجاري اهلائل يف مجيع املجاالت‪ ،‬وانتشار املنتجات واخلدمات املتنوعة‬
‫عىل شبكة اإلنرتنت‪ ،‬ظهرت احلاجة إىل مواقع وخدمات إلكرتونية لتقييم املنتجات‬
‫واخلدمات بكافة أنواعها (كاملطاعم‪ ،‬والفنادق‪ ،‬واملدراس‪ ،‬وحتى الدوائر احلكومية)‪.‬‬
‫وتتيح هذه اخلدمات للمستخدمني كتابة آرائهم وجتربتهم واقرتاحاهتم للخدمات‬
‫املوجودة بحيث يستفيد منها اآلخرون بلغة حرة‪ .‬لذا‪ ،‬كان البد لصناع القرار ومقدمي‬

‫‪-170-‬‬
‫اخلدمات التي يتم تقييمها عىل شبكة اإلنرتنت من مراجعة هذه التقييامت واملقرتحات‬
‫لتحليلها ودراسة سلوك املستخدمني من أجل تطوير اخلدمات وتصحيح أخطائها‪ .‬وهنا‬
‫تكمن أمهية خوارزميات حتليل املشاعر واآلراء‪ ،‬حيث إنه يصعب عىل صناع القرار تتبع‬
‫مجيع التقييامت بشكل يدوي عىل شبكة اإلنرتنت‪ ،‬وعليه فإن هذه اخلوارزميات تلعب‬
‫دور ًا هام ًا جد ًا يف حتليل وتلخيص التقييامت بشكل تلقائي وبرسعة فائقة‪.‬‬
‫تعتمد أغلب أنظمة حتليل اآلراء عىل استباط الكلامت والعبارات ذات دالالت‬
‫اإلعجاب أو الرفض‪ ،‬مثل «املنتج رائع» أو «اخلدمة سيئة»‪ ،‬باإلضافة إىل األخذ بعني‬
‫االعتبار الرموز ‪ Emojis‬املستخدمة حالي ًا يف شبكات التواصل االجتامعي لداللتها عىل‬
‫اإلعجاب‪ ،‬أو احلرية‪ ،‬أو الغضب وغري ذلك‪.‬‬
‫وبالطبع‪ ،‬فقد اهتم الكثري من الباحثني بتطوير خوارزميات وبرجميات لتسهيل جتميع‬
‫وحتليل اآلراء باللغة العربية‪ .‬ومثال ذلك‪ ،‬الدراسة [‪ ]٦٣‬والتي اهتمت بتحليل اآلراء‬
‫وتقسيم جمموعات النقاش عىل شبكة اإلنرتنت حسب آراء املشرتكني فيها وتوجهاهتم‪،‬‬
‫ونظام ‪ ]٦٤[ SAMAR‬لتحليل اآلراء يف شبكات التواصل االجتامعي باللغة العربية‪،‬‬
‫ونظام [‪ ]٦٥‬لتحليل آراء مستخدمي الفنادق‪ ،‬والدراسة [‪ ]٦٦‬التي سعت لتحليل‬
‫مشاعر مستخدمي شبكة تويرت للتواصل االجتامعي‪.‬‬
‫باإلضافة إىل ذلك‪ ،‬عمل بعض الباحثني عىل استقصاء أهم الدراسات واألنظمة‬
‫لتحليل املشاعر واآلراء باللغة العربية [‪ ]٦٧‬والتي يمكن الرجوع إليها للمهتمني‬
‫بتطوير هذا املجال‪.‬‬

‫‪ 1.2.6‬توليد النصوص ‪Text Generation‬‬

‫عملية توليد النصوص شغلت العديد من الباحثني ألوقات طويلة منذ بدايات‬
‫ظهور علم معاجلة اللغات الطبيعية‪ .‬وكانت عملية توليد النصوص يف بداية األمر‬
‫بدائية جد ًا تعتمد عىل عمليات اإلحصاء واالحتامالت إلعادة توزيع النصوص املدخلة‬
‫مسبق ًا بشكل خمتلف [‪ .]٦٩-٦٨‬وكانت أغلب هذه الطرق تفتقر لوجود ترابط منطقي‬
‫وداليل يف النصوص التي تم توليدها من قبل احلاسب اآليل‪.‬‬

‫‪-171-‬‬
‫ومع التطور األخري يف خوارزميات التعلم العميق‪ ،‬وخاصة خوارزميات الشبكات‬
‫العصبية املتكررة‪ ،‬أصبح جمال توليد النصوص جماالً خصب ًا علمي ًا وعملي ًا يف كثري‬
‫من التطبيقات‪ .‬حيث إن توليد النصوص يمكن توظيفة يف كتابة املقاالت وتلخيص‬
‫التقارير وعرض النتائج [‪.]٧٨-٧٠‬‬
‫وبسبب ثراء اللغة العربية وقواعدها‪ ،‬يعترب جمال توليد النصوص العربية أحد أصعب‬
‫فروع معاجلة اللغة العربية‪ .‬ولكن ومع التطور احلايل يف جماالت الذكاء االصطناعي‪،‬‬
‫وبخاصة التعلم العميق‪ ،‬أصبحت عملية توليد النصوص أقل جهد ًا بكثري وال تتطلب‬
‫تعمق ًا يف قواعد اللغة بقدر ما تتطلب من خربات برجمية لبناء خوارزميات لدهيا القدرة‬
‫عىل استنباط قواعد وأنامط اللغة بشكل تلقائي‪ .‬ونود اإلشارة هنا إىل أن جمال توليد‬
‫النصوص باللغة العربية يعد جماالً خصب ًا جد ًا للدراسة والبحث العلمي وتطوير‬
‫الربجميات التطبيقية‪.‬‬

‫‪ 1.3‬أهم وظائف معاجلة اللغات الطبيعية‬


‫نسلط الضوء يف هذا الفصل عىل أهم وظائف (مهام) معاجلة اللغات الطبيعية‬
‫من أجل متثيل‪ ،‬وتقطيع‪ ،‬وجتذيع‪ ،‬وربط الدالالت واملعاين يف النصوص وغريها من‬
‫الوظائف اهلامة التي يكثر استخدامها‪ .‬كام أننا نشري إىل بعض أهم الدراسات واألدوات‬
‫مفتوحة املصدر التي هتدف إىل خدمة اللغة العربية يف هذه املجاالت‪ .‬ونود توجيه‬
‫القارئ إىل بحث أجمد أبو جبارة «استقصاء تقنيات معاجلة اللغات الطبيعية وتطبيقاهتا‬
‫يف اللغة العربية» ضمن كتاب «احلرف العريب والتقنية» [‪ ]٧٩‬والذي استقىص فيه‬
‫الباحث أهم وظائف وتطبيقات علم معاجلة اللغة العربية بالتفصيل مع اإلشارة إىل‬
‫أهم مراجع املجال‪.‬‬

‫‪ 1.3.1‬التسوية اإلمالئية ‪Orthographic Normalization‬‬

‫وهتتم هذه العميلة بتجهيز النصوص للمعاجلة من خالل إزالة الشوائب الكتابية‬
‫والرموز التي ال تؤثر يف عملية معاجلة النص‪ .‬فقد ال يكون لعالمات الرتقيم أو‬
‫التشكيل أي أمهية يف بعض التطبيقات‪ ،‬وعليه يتم إزالتها‪ .‬ومن األمثلة األخرى توحيد‬
‫األحرف التي يتم اخللط بينها كهمزات الوصل والقطع‪ ،‬واأللف املقصورة والياء يف‬
‫آخر الكلمة‪ ،‬والتاء املربوطة واهلاء يف آخر الكلمة‪ ،‬وإزالة الـتــطول‪.‬‬

‫‪-172-‬‬
‫‪ 1.3.2‬التحليل اللفظي ‪Lexical Analysis‬‬

‫ويقصد به تقطيع النص إىل أجزائه األساسية ‪ Tokens‬من الكلامت واحلروف‬


‫وعالمات الرتقيم مع تبيان بداية وهناية كل وحدة من هذه األجزاء [‪ .]٨٢-٨٠‬ونميز‬
‫هنا بني نوعني للتحليل اللفظي‪:‬‬
‫(‪ )1‬التحليل اللفظي السطحي‪ :‬والذي يعمل عىل تقطيع النص إىل الوحدات التي‬
‫تفصل بينها املسافة البيضاء‪ ،‬وهناية السطر‪ ،‬وهناية النص‪ ،‬واألرقام‪ ،‬وعالمات الرتقيم‪.‬‬
‫(‪ )2‬والتحليل اللفظي العميق‪ :‬والذي يعمل عىل تقطيع النص إىل األجزاء األساسية‬
‫للمفردات الناجتة عن تركيب عدة مكونات‪ ،‬كالضامئر املتصلة وأل التعريف‪.‬‬

‫‪ 1.3.3‬تصنيف أقسام الكالم ‪Part of Speech Tagging‬‬

‫و ُيعنى هذا الفرع بدراسة وتصنيف أجزاء الكالم حسب سياقها اإلعرايب‪ ،‬كتصنيف‬
‫الكلامت إىل أسامء (فردية وزوجية ومجع)‪ ،‬أو أفعال (املايض واحلارض واملستقبل)‪ ،‬أو‬
‫حروف (كحروف العطف واجلر)‪ ،‬وغريها من أقسام الكالم وتصنيفاته‪ .‬وتكمن‬
‫صعوبة هذه العملية يف تصنيف أقسام الكالم بنا ًء عىل السياق‪ ،‬فيمكن أن تصنف كلمة‬
‫«سعيد» عىل كوهنا اسم أو صفة حسب سياق الكالم‪.‬‬

‫‪ 1.3.4‬التجذيع ‪Stemming‬‬

‫وهي عملية حذف الزوائد الداخلة عىل الكلمة إلرجاعها إىل جذعها (أو أقرب‬
‫ما يكون إىل أساس الكلمة)‪ .‬فكل من املصطلحات التالية ‪ arguing‬و‪argument‬‬
‫و ‪ argued‬متتلك نفس اجلذع ‪ argu‬مع مالحظة أن هذا اجلذع ليس كلمة إنجليزية‬
‫صحيحة ولكنه اجلذع األقرب ألساس الكلمة‪ .‬ولعملية التجذيع أمهية يف تطبيقات‬
‫اسرتجاع البيانات‪ ،‬وفهرستها‪ ،‬وجتميع النصوص‪ ،‬وكشف النصوص املتشاهبة [‪-٨٣‬‬
‫‪ .]٨٦‬واليزال هذا املجال خصب ًا للبحث العلمي والتطري يف اللغة العربية [‪.]٨٩-٨٧‬‬

‫‪ 1.3.5‬تأصيل الكلمة ‪Lemmatization‬‬


‫وهي عملية إعادة الكلمة إىل أصلها ولكن برشط كون األصل كلمة صحيحة وذلك‬
‫عىل عكس التجذيع الذي ال يشرتط كون اجلذع صحيح ًا‪ .‬فأصل كلمة ‪computers‬‬

‫‪-173-‬‬
‫يعود إىل ‪( compute‬أما جذع الكلمة فهو ‪ .)comput‬وثمة اختالف آخر‪ :‬إذ إن‬
‫التأصيل يمكن أن يرجع كلمة إىل أخرى خمتلفة يف اللفظ كتأصيل ‪ am‬و‪ is‬و‪ are‬إىل‬
‫فعل الكون ‪.be‬‬
‫وباإلضافة إىل هذه الوظائف اهلامة ملعاجلة اللغات الطبيعية‪ ،‬توجد العديد من‬
‫الوظائف األخرى التي يستطيع الدارسون االطالع عليها‪ ،‬مثل وظائف التشكيل اآليل‬
‫[‪ ،]٩١-٩٠‬وحتليل البناء النحوي [‪ ،]٩٣-٩٢‬وحتليل عالقات الكالم [‪ ،]٩٤‬ومتييز‬
‫أسامء األعالم [‪ ]٩٥‬وغريها‪.‬‬
‫ونود اإلشارة هنا أنه بالرغم من وجود مصادر متعددة وأدوات مفتوحة املصدر‬
‫ملعاجلة اللغات الطبيعية‪ ،‬إال أن جمال معاجلة اللغة العربية ال يزال يفتقر إىل الكثري من‬
‫األبحاث العلمية والعملية واألدوات مفتوحة املصدر للوصول إىل درجات متقدمة‬
‫متكننا من تطوير تطبيقات برجمية يف خمتلف املجاالت‪ ،‬وبخاصة تلك التطبيقات التي‬
‫تعتمد عىل خوارزميات الذكاء االصطناعي املتقدمة‪.‬‬

‫‪-2‬التعلم العميق ومعاجلة اللغات الطبيعية‬


‫التعلم العميق ‪ ]97-96[ Deep Learning‬هو أحد فروع علم تعلم اآللة‬
‫‪ Machine Learning‬والذي هيتم بتطوير خوارزميات ُتكن احلاسب اآليل من‬
‫«تعلم» أداء املهام الصعبة التي تتطلب فه ًام عميق ًا للبيانات وطبيعية عملها (كتشخيص‬
‫األمراض تلقائي ًا باستخدام الصور الطبية)‪ .‬وما يميز خوارزميات التعلم العميق‬
‫بشكل خاص هو إمكانيتها تعلم املهام بدون برجمة رصحية‪ .‬ونعني بالربجمة الرصحية‬
‫هنا استخراج ميزات البيانات ‪ Features‬بشكل يدوي واحلكم عليها بقواعد ثابتة‪.‬‬
‫فخوارزميات التعلم العميق يمكنها استخراج ميزات البيانات وأنامطها املتكررة بشكل‬
‫تلقائي من خالل االطالع عىل الكثري من البيانات املدخلة ومن ثم حتليلها إلجياد روابط‬
‫وعالقات مبارشة أو غري مبارشة بني البيانات املدخلة (كالصور الطبية) واملخرجات‬
‫املطلوبة (كتشخيص املرض)‪ .‬وذلك عىل عكس خوارزميات تعلم اآللة السابقة التي‬
‫فهم البيانات وجهد ًا كبري ًا لتحديد ميزاهتا وأنامطها بشكل يدوي من قبل‬
‫كانت تتطلب َ‬
‫علامء البيانات‪ .‬الشكل ‪ ١‬يوضح االختالف بني طريقة عمل خوارزميات تعلم اآللة‬

‫‪-174-‬‬
‫السابقة وخوارزميات التعلم العميق‪ :‬حيث يوضح الشكل أن خوارزميات تعلم اآللة‬
‫السابقة تتطلب تدخ ً‬
‫ال من قبل علامء البيانات وخمتيص املجال من أجل استخراج ميزات‬
‫البيانات قبل متريرها إىل خوارزميات تعلم اآللة‪ ،‬أما خوارزميات التعلم العميق فتعمل‬
‫ذلك تلقائي ًا بدون تدخل البرش‪.‬‬

‫(أ) طريقة عمل خوارزميات تعلم اآللة‬

‫(ب) طريقة عمل خوارزميات التعلم العميق‬

‫الشكل (‪ :)١‬مقارنة بني طريقتي عمل خوارزميات تعلم اآللة والتعلم العميق‪.‬‬

‫وعىل الرغم من نجاح خوارزميات تعلم اآللة سابق ًا يف حل الكثري من املشكالت ذات‬
‫البنى البسيطة‪ ،‬إال أهنا مل تكن فعالة يف حل املشكالت ذات البنى املعقدة كاللغات الطبيعة‬
‫واملشاهد البرصية واإلشارات الصوتية‪ .‬حيث إن هذه املشكالت تتطلب فه ًام عميق ًا‬
‫للبيانات وأنامطها وعمل حتويالت غري خطية عديدة ومعقدة من أجل حتويل البيانات‬
‫بشكلها الطبيعي‪ ،‬كالصورة مثالً‪ ،‬إىل املخرجات املطلوبة‪ ،‬كوصف حمتوى الصورة‪.‬‬

‫‪ 2.1‬كيف تتعلم خوارزميات التعلم العميق‬


‫َيكم ُن جوهر خوارزميات التعلم العميق يف إجياد «الرابط العجيب» ما بني البيانات‬
‫املدخلة كالصور مثالً‪ ،‬واملخرجات املطلوبة كتصنيف حمتوى الصور—راجع الشكل‬
‫‪ 1‬الفقرة ب‪ .‬وعملية «إجياد الرابط العجيب» تسمى بعملية تدريب (أو تعليم) اآللة‬
‫‪ .Machine Training‬وتتم عملية التدريب من خالل مترير البيانات املدخلة يف عدد‬
‫كبري من الطبقات املتتالية التي حتوي كل منها عىل عدد من الوحدات العصبونية‬
‫‪( Neurons‬أو العصبونات) مهمتها حتويل البيانات املدخلة إىل املخرجات املطلوبة من‬
‫خالل إجراء عمليات رياضية غري خطية عليها‪.‬‬

‫‪-175-‬‬
‫وتشكل جمموعة الطبقات مايعرف بالشبكات العصبية االصطناعية ‪Artificial‬‬
‫‪ ،Neural Networks‬لكوهنا مستوحاة من الشبكات العصبية يف دماغ اإلنسان‪.‬‬
‫وكذلك يطلق عليها مصطلح الشبكات العصبية العميقة‪Deep Neural Networks‬‬
‫بسبب عمق الطبقات فيها (كثرة عددها) وعليه تم تسمية جمموعة خوارزميات تعلم‬
‫اآللة التي تعتمد عىل الشبكات العصبية العميقة بالتعلم العميق‪.‬‬
‫وختتلف خوارزميات التعلم العميق باختالف بنية ‪ Architecture‬الشبكة العصبية‪،‬‬
‫والتي ترمز إىل عدد الطبقات‪ ،‬وكيفية ارتباطها مع بعضها البعض‪ ،‬وعدد العصبونات‬
‫يف كل طبقة‪ .‬وبشكل عام‪ ،‬يمكن تصنيف طبقات الشبكات العصبية إىل األنواع التالية‬
‫(انظر الشكل ‪:)2‬‬
‫Ÿ Ÿطبقة املدخالت‪ :‬وهي املسؤولة عن إدخال البيانات إىل الشبكة العصبية‪ .‬وعدد‬
‫ٍ‬
‫مساو لعدد ميزات البيانات املدخلة ‪.Features‬‬ ‫العصبونات يف هذه الطبقة‬
‫Ÿ Ÿالطبقات اخلفية (أو املخفية) ‪ :Hidden Layers‬وتقع جمموعة الطبقات‬
‫هذه ما بني طبقة املدخالت وطبقة املخرجات‪ ،‬ووظيفتها األساسية حتويل‬
‫البيانات املدخلة إىل املخرجات املطلوبة‪ .‬ويتم حتديد عدد هذه الطبقات وعدد‬
‫العصبونات داخل كل منها خالل عملية تدريب الشبكة العصبية‪.‬‬
‫Ÿ Ÿطبقة املخرجات‪ :‬وهي املسؤولة عن استقبال نتائج الطبقات اخلفية وإصدار‬
‫النتيجة النهائية للشبكة العصبية (نتيجة التنبؤ ‪.)Prediction‬‬

‫الشكل (‪ :)٢‬بنية توضيحية للشبكات العصبية املستخدمة يف التعلم العميق (من اليسار إىل اليمني)‬

‫‪-176-‬‬
‫وعملية تدريب الشبكة العصبية—يف حالة التدريب حتت اإلرشاف—تتم بخطوتني‬
‫أساسيتني‪ :‬االنتشار األمامي ‪ Forward Propagation‬و االنتشار اخللفي ‪Back‬‬
‫‪ .Propagation‬هتدف عملية التدريب لضبط أوزان الشبكة (واألوزان هي متغريات‬
‫موجودة عىل روابط الشبكة العصبية تستخدم يف حساب نتيجة التنبؤ)‪ ،‬وهي تشمل‬
‫العمليات التالية يف كل من عصبونات الطبقات اخلفية‪ ،‬كام يف الشكل ‪:٣‬‬
‫‪،‬‬ ‫باألوزان املقابلة‬ ‫(‪ )1‬تُرضب كل قيمة من املدخالت‬
‫ويف بعض‬ ‫(‪ )2‬وثم ُتمع نتائج عمليات الرضب‬
‫األحيان يتم إضافة قيمة انحياز معينة للتحكم يف نتائج التنبؤ‪،‬‬
‫(‪ )3‬تُطبق عملية غري خطية عىل نتيجة اجلمع من أجل كرس العالقات اخلطية‬
‫مابني البيانات املدخلة واملخرجات املطلوبة‪ .‬وتعترب عملية ‪ ReLU‬إحدى‬
‫أكثر العمليات الغري خطية املستخدمة يف الشبكات العصبية‪ .‬بعد ذلك‪ ،‬يتم‬
‫مترير تلك النتيجة إىل عصبونات الطبقة التالية حيث يتم تكرار هذه العمليات‬
‫احلسابية يف كل وحدة عصبية وهكذا حتى طبقة املخرجات حيث يتم استخراج‬
‫القيمة النهائية (نتيجة التنبؤ)‪ ،‬وهنا تنتهي عملية االنتشار األمامي‪.‬‬
‫(‪ )4‬وبعد إجياد نتيجة التنبؤ يتم مقارنتها مع النتيجة الصحيحة (حيث إننا أثناء‬
‫ال ونتيجتها‬‫عملية التدريب نعرف كل من البيانات املدخلة كالصورة مث ً‬
‫الصحيحة كتصنيف الصورة) بحساب الفرق بني هاتني القيمتني باستخدام‬
‫دالة خسارة معينة ‪ ،Loss Function‬ثم يتم إعادة ضبط أوزان الشبكة بناء عىل‬
‫قيمة اخلسارة بعملية االنتشار اخللفي ‪ Back Propagation‬من أجل تقليص‬
‫قيمة اخلسارة بأكرب قدر ممكن‪ .‬ويتم تكرار هاتني اخلطوتني (االنتشار األمامي‬
‫وثم ضبط أوزان الشبكة) مرات عديدة حتى يتم احلصول عىل أقل خسارة‬
‫ممكنة وذلك من خالل إجياد جمموعة األوزان املثىل التي يمكن استخدامها‬
‫لتحويل البيانات املدخلة إىل املخرجات املطلوبة بأكرب دقة ممكنة‪.‬‬

‫‪-177-‬‬
‫الشكل ‪ .3‬املبدأ األسايس لعمل الشبكات العصبية (من اليسار إىل اليمني)‪.‬‬

‫‪ 2.2‬معاجلة اللغات الطبيعية باستخدام التعلم العميق‬


‫رغم نجاح الشبكات العصبية يف أمتتة الكثري من التطبيقات التي تعتمد عىل البيانات‬
‫املنفصلة (كتصنيف األمراض باالطالع عىل صور األشعة السينية)؛ فإن هذه الشبكات‬
‫تواجه حتدي ًا صعب ًا عند حتليل البيانات املتسلسلة التي تعتمد عىل ارتباط وثيق فيام بينها‬
‫كالنصوص اللغوية واملوجات الصوتية ومقاطع الفيديو‪ ،‬حيث إن أمتتة تطبيقات كهذه‬
‫يتطلب فه ًام لسياق النص وتسلسله‪ .‬لذا‪ ،‬ظهر نوع جديد من الشبكات العصبية التي‬
‫متلك وظائف إضافية متكنها من ربط البيانات املتسلسلة حسب ترتيبها الزمني ومن ثم‬
‫استخدامها يف تطبيقات خمتلفة كمعاجلة اللغات الطبيعية واملشاهد البرصية واألصوات‪.‬‬
‫هذا النوع من الشبكات العصبية‪ ،‬والتي تسمى بالشبكات العصبية املتكررة [‪]98‬‬
‫‪ ،Recurrent Neural Networks‬متتلك روابط تغذية اسرتجاعية ‪Feedback Loops‬‬
‫متُكنها من اكتشاف األنامط املعينة ضمن البيانات املتسلسلة الزمنية‪.‬‬
‫ولكن حتى مع وجود خوارزميات متخصصة يف التعلم من البيانات املتسلسلة‪ ،‬إال‬
‫أن معاجلة اللغات الطبيعية‪ ،‬وبخاصة العربية‪ ،‬التزال تواجه العديد من الصعوبات‪،‬‬
‫كتحويل النص إىل ترميز معني يمكن إجراء العمليات احلسابية عليه‪ .‬ونميز فيام ييل بني‬
‫طريقتني لتمثيل اللغات الطبيعية يف التعلم العميق‪:‬‬
‫أ) ترميز البت الواحد ‪ :One-Hot Encoding‬ويف هذه الطريقة يتم متثيل كل كلمة‬
‫بمصفوفة سطرية (شعاع سطري) حتوي أصفار ًا يف مجيع اخلانات ما عدا اخلانة التي متثل‬

‫‪-178-‬‬
‫تلك الكلمة (والتي يتم اختيارها بشكل عشوائي غري متكرر) حيث ُيوضع الرقم ‪ 1‬يف‬
‫اخلانة املقابلة لتلك الكلمة‪ .‬فعىل سبيل املثال‪ ،‬نتيجة متثيل مجلة «أكل الطفل التفاحة» قد‬
‫تتكون من املصفوفات السطرية التالية‪:‬‬
‫]‪[1. 0. 0‬‬ ‫أكل‬
‫]‪[0. 1. 0‬‬ ‫الطفل‬
‫]‪[0. 0. 1‬‬ ‫التفاحة‬
‫ٍ‬
‫مساو لعدد‬ ‫ونالحظ من املثال السابق أن عدد األعمدة يف املصفوفات السطرية‬
‫الكلامت يف النص‪ .‬فلو كان لدينا نص يتألف من ألفي كلمة‪ ،‬لكان حجم متثيل كل‬
‫كلمة هو مصفوفة سطرية حتوي ألفي عمود‪ .‬وهذا بالتأكيد يؤدي إىل إنتاج مصفوفات‬
‫سطرية ذات حجم ضخم جد ًا يصعب إجراء العمليات احلسابية عليها‪ ،‬بغض النظر أن‬
‫أغلب عنارص املصفوفة حتوي أصفار ًا‪.‬‬
‫كام نالحظ عدم ارتباط معنى الكلامت مع متثيلها‪ .‬فعىل سبيل املثال‪ ،‬كلمة «طبيب»‬
‫يمكن أن متُثل بـ‬
‫]‪ ،[1. 0. 0. 0. 0‬بينام كلمة «دكتور» يمكن أن ُتثل بـ]‪ [0. 0. 0. 0. 1‬رغم‬
‫احتامل قرهبام يف املعنى‪ .‬وهذا بالطبع يفقد حتليل النص أمهية كبرية يف فهم وربط املعاين‬
‫واجلمل والتسلسل املنطقي والدالالت اللفظية وربط الضامئر وغريها‪.‬‬
‫ب) تضمني الكلامت ‪ :Word Embeddings‬وهذه الطريقة تعتمد عىل متثيل‬
‫الكلامت باستخدام مصفوفات سطرية مع تضمني العالقات بني الكلامت املستخدمة‬
‫[‪ .]99‬ويتم إنشاء هذه املصفوفات السطرية لتمثيل الكلامت من خالل تدريبها عىل‬
‫شبكات عصبية بسيطة البنية‪ .‬فعىل سبيل املثال‪ ،‬يتم تدريب شبكة عصبية عىل التنبؤ‬
‫بالكلمة الناقصة يف العبارة التالية «أكل الطفل ‪ ....‬الناضجة»‪ .‬وباالعتامد عىل التدريب‬
‫ال من كلمتي «التفاحة»‬‫باستخدام نصوص وفرية املعاين ذات عبارات مشاهبة‪ ،‬فإن ك ً‬
‫و»الربتقالة» سوف متثل احتامالً عالي ًا ملئ الفراغ يف اجلملة السابقة‪ .‬وهذا يعني أيض ًا‬
‫وجود ارتباط وتشابه بني هاتني الكلمتني (وبالفعل إن الكلمتني متشاهبتني يف كوهنام‬
‫فواكه)‪ .‬وعليه فإن املصفوفات السطرية التي متثل ك ً‬
‫ال من كلمتي التفاحة والربتقالة‬

‫‪-179-‬‬
‫سوف حتتوي عىل قيمة رقمية تبني نسبة التشابه والرتابط بني الكلمتني‪ .‬ومن فوائد هذه‬
‫الطريقة هو جتميع الكلامت ذات املعاين املتشاهبة يف جمموعات قريبة لبعضها البعض‬
‫داخل مصفوفات التمثيل‪ .‬وهذه العالقات التي يتم تشكيلها بني الكلامت املتشاهبة‬
‫عالقات خطية يمكن تتبعها بسهولة وإجراء العمليات احلسابية عليها‪ .‬فإذا انطلقنا‬
‫من مصفوفة التمثيل للمصفوفة السطرية لكلمة «ملك» ‪-‬مثالً‪ -‬ثم حتركنا باجتاه قيمة‬
‫مشاهبة الجتاه وقيمة املسافة بني كلمتي «رجل» و«امرأة» لوصلنا إىل كلمة «ملكة»‪.‬‬
‫وهذا يعني أن كلمتي «ملك» و»رجل» تتواجدان يف فضاء ريايض قريب لبعضهام‬
‫البعض ذات اجتاه موازي لكلمتي «ملكة» و«امرأة»‪ .‬كام أننا إذا طرحنا املصفوفة‬
‫السطرية لكلمة رجل من كلمة ملك يكون الناتج هو املصفوفة السطرية لكلمة ملكة‬
‫(ملك ‪ -‬رجل = ملكة)‪.‬‬
‫بعد أن تعرفنا عىل ماهية التعلم العميق وعىل بعض إمكانيات جمال حتليل ومعاجلة‬
‫اللغات الطبيعية والنصوص املتسلسلة باستخدام الشبكات العصبية املتكررة وعىل‬
‫بعض طرق متثيل اللغات الطبيعية‪ ،‬نرشح يف الفصل التايل دراسة عملية عن توليد نص‬
‫شعري عريب حر باستخدام التعلم العميق‪.‬‬
‫‪ -3‬شاعر بال مشاعر‪ :‬جتربة يف توليد الشعر العريب‬
‫نستعرض يف هذا الفصل جتربتنا الفريدة يف إنشاء الشعر العريب احلر باستخدام‬
‫خوارزميات التعلم العميق لتوليد النصوص‪ .‬حيث إننا عملنا عىل تطوير شاعر‬
‫إلكرتوين‪ ،‬أسميناه «شاعر بال مشاعر» (ألسباب واضحة) [‪ ،]100‬يقوم بتوليد‬
‫نصوص عربية حماكية ألشعار الشاعر الدمشقي نزار قباين (ننرش كثري ًا منها كتغريدات‬
‫يف شبكة التواصل االجتامعي «تويرت»)‪.‬‬
‫هندف يف هذا الفصل إىل تعريف القارئ باخلطوات واملهام الالزمة لتكرار وتطوير‬
‫هذه الدراسة (كام أننا نوفر املصدر املفتوح هلذا اخلوارزمية عىل الرابط التايل [‪)]101‬‬
‫ونشجع عىل تطوير أدوات أخرى تعمل عىل توليد النصوص العربية يف جماالت خمتلفة‪،‬‬
‫وذلك أن اخلوارزمية املستخدمة مفتوحة املصدر (‪ )Open Source‬ويمكن إعادة‬
‫استخدامها جمان ًا يف أكثر من جمال كتوليد الروايات‪ ،‬أو املواضيع التقنية‪ ،‬أو حتى تطوير‬
‫أنظمة للرد التلقائي عىل رسائل الربيد اإللكرتوين‪.‬‬

‫‪-180-‬‬
‫‪ 3.1‬جتميع وهتيئة البيانات‬
‫عملية جتميع وجتهيز البيانات واحدة من أصعب وأطول مراحل بناء نامذج تعلم‬
‫اآللة‪ ،‬إذ يصعب الوصول إىل بيانات جيدة ومفتوحة املصدر الستخدامها يف تدريب‬
‫هذه اخلوارزميات‪ .‬كام أنه ‪-‬حتى مع وجود بيانات مفتوحة املصدر‪ -‬ال بد من بذل‬
‫الوقت واجلهد يف هتيئة البيانات لتكون صاحلة لالستخدام من قبل خوارزميات التعلم‬
‫العميق‪ ،‬كعمليات تنظيف البيانات‪ ،‬ومتثيلها (حتويلها من نصوص إىل أرقام)‪ ،‬وتعبئة‬
‫البيانات الناقصة‪ ،‬وغريها من اخلطوات الالزمة قبل البدء يف عملية التدريب‪.‬‬
‫وقمنا بتجميع البيانات الالزمة (أشعار نزار قباين) يف جتربتنا هذه بالطريقتني‬
‫التاليتني‪:‬‬
‫Ÿ Ÿمن خالل استخدام حمرك البحث جوجل‪ .‬واعتمدنا هنا عىل البحث عن مواقع‬
‫حتوي أشعار ًا لنزار قباين ثم قمنا بنسخ ولصق هذا األشعار داخل ملفات نصية‬
‫‪-‬بعد التأكد من صالحية حقوق النرش هلذه األبيات الشعرية‪.‬‬
‫Ÿ Ÿمن خالل استخدام شبكة توتري للتواصل االجتامعي‪ .‬حيث عملنا عىل تطوير‬
‫برنامج بلغة «بايثون» ليقوم بالبحث التلقائي عن تغريدات شعرية لنزار قباين‬
‫[‪ ]102‬وحتميلها يف امللف النيص‪.‬‬
‫وبعد أن تكونت لدينا جمموعة مناسبة من النصوص (األبيات الشعرية) لعملية‬
‫التدريب‪ ،‬عملنا عىل استخدام وظائف معاجلة اللغات الطبيعية التي ذكرناها يف الفصل‬
‫السابق للتنسيق‪ ،‬والتسوية اإلمالئية‪ ،‬وإزالة الشوائب من النصوص‪ .‬وبشكل خاص‪،‬‬
‫عملنا عىل التأكد من خلو النصوص من الكلامت اإلنجليزية‪ ،‬والرموز التعبريية‪،‬‬
‫والدوال التصنيفية (‪ )Hashtag‬وذلك لعدم أمهية هذه األجزاء يف تدريب اآللة وإنام‬
‫تعترب شوائب جيب إزالتها‪ .‬ونوضح عمليات جتيهز النص يف اخلوارزمية‪.1‬‬

‫‪-181-‬‬
‫)‪Algorithm: PreprocessText(text‬‬
‫‪1:‬‬ ‫)‪words = split_text_by_space(text‬‬
‫‪2:‬‬ ‫‪for word in words:‬‬
‫‪3:‬‬ ‫‪if word.startWith(‘#’) || word.isEnglish() || word.isEmoji():‬‬
‫‪4:‬‬ ‫‪remove word‬‬
‫‪5:‬‬ ‫‪end if‬‬
‫‪6:‬‬ ‫)(‪word.removeExtras‬‬ ‫إزالة الشوائب النصية كالتطويــل ‪//‬‬
‫‪7:‬‬ ‫‪end for‬‬
‫‪8:‬‬ ‫‪return words‬‬

‫اخلوارزمية ‪ .1‬توضيح مبسط خلوارزمية جتهيز النص‬

‫وبعد إزالة الشوائب من النص‪ ،‬كان ال بد من إجياد طريقة مناسبة لتمثيل النص‪.‬‬
‫وعىل الرغم من وجود العديد من الطرق لتمثيل النصوص‪ ،‬كام رشحنا سابق ًا‪ ،‬إال‬
‫أننا اعتمدنا يف جتربتنا هذه عىل حتويل كل حرف ورمز من النص إىل رقم عرشي حمدد‬
‫لتسهيل عملية التدريب‪ .‬وقمنا بعمل ذلك من خالل إنشاء شعاع (مصفوفة سطرية)‬
‫من احلروف والرموز الفريدة يف النص وإعطاء كل منها رقم معني عشوائي بحسب أول‬
‫ظهور له يف النصوص‪ ،‬وبلغ طول الشعاع ‪ 41‬للحروف وعالمات الرتقيم والتشكيل‪.‬‬
‫ولترسيع عملية التدريب‪ ،‬قمنا بتحويل هذه األرقام إىل أرقام كرسية ما بني الصفر‬
‫والواحد‪ ،‬وذلك ألن عملية التعلم تتم من خالل رضب هذه األرقام بأوزان الشبكة‬
‫ومن ثم تطبق التحويالت الغري خطية عليها (راجع الشكل ‪ .)3‬وحتويل األرقام‬
‫العرشية إىل كرسية يصغر قيم النتائج فيرسع عمليات الرضب وبالتايل يقلص الوقت‬
‫الالزم لتدريب الشبكة العصبية‪.‬‬

‫‪ 3.2‬اختيار وحدة النموذج‬


‫بعد جتهيز البيانات‪ ،‬واجهنا احلاجة لالختيار بني طريقتني خمتلفتني لتدريب‬
‫النموذج‪ :‬إما تدريب النموذج ككلامت متتالية أو كحروف متتالية‪ .‬فتدريب النموذج‬
‫عىل الكلامت ‪-‬بدالً من احلروف‪ -‬يتفوق يف توليد نصوص ذات معنى مرتابط‪ ،‬حيث‬
‫إن النصوص املولدة ستحوي كلامت صحيحة دائ ًام‪ ،‬كام أن وقت التدريب أقل بكثري‬
‫مقارن ًة بتدريب النموذج عىل احلروف؛ ذلك ألن تدريب النموذج عىل الكلامت يعني‬

‫‪-182-‬‬
‫أن النموذج عىل دراية سابقة بالكلامت وإنام هيدف الستنباط سياق الكالم وقواعده‬
‫وكيفية توزيع الكلامت‪.‬‬
‫أما تدريب النموذج عىل احلروف فيحتاج لوقت أطول ولشبكات عصبية ذات‬
‫بنى عميقة جد ًا وذلك ألن الشبكة العصبية حتتاج لتعلم إنشاء الكلامت من احلروف‬
‫والقواعد اإلمالئية أوالً قبل تعلم استنباط سياق الكالم وكيفة توزيع الكلامت‪ .‬ولقد‬
‫اخرتنا توليد النصوص حرف ًا حرف ًا يف جتربتنا هذه لسببني أساسني‪:‬‬
‫Ÿ Ÿأننا أردنا أن نخترب إمكانية تدريب النموذج عىل عملية توليد النصوص مع‬
‫عالمات التشكيل‪ .‬حيث أن بعض األشعار التي استخدمناها يف عملية‬
‫التدريب كانت مشكلة‪ .‬وبالتايل فإن عملية تدريب النموذج حرف ًا حرف ًا سوف‬
‫تضمن تدريب النموذج عىل عالمات التشكيل باعتبارها حروف ًا‪.‬‬
‫Ÿ Ÿأننا أردنا‪-‬فعالً‪ -‬إبراز قدرة الشبكات العصبية عىل تعلم توليد كلامت عربية‬
‫صحيحة ذات معنى ودالالت مرتابطة من احلروف‪ ،‬بدالً من إعادة إنشاء‬
‫كلامت موجودة مسبق ًا داخل النص املستخدم يف عملية التدريب‪.‬‬

‫‪ 3.3‬تدريب النموذج‬
‫اخلطوة التالية متثلت يف تقسيم النص إىل أقسام متسلسلة موحدة الطول لتغذيتها‬
‫يف نموذج التعلم العميق‪ ،‬حيث قررنا استخدام سالسل نصية مكونة من ‪ ١٠٠‬حرف‬
‫لتغذي النظام بشكل دوري أثناء عملية التدريب (وذلك ألن هدفنا كان إنشاء شاعر‬
‫آيل يقوم بتغريد األشعار ‪-‬أو مايشابه األشعار‪ -‬عىل شبكة تويرت ‪ ،‬كام أن هذا الطول‬
‫مناسب لتدريب الشبكات العصبية بنا ًء عىل احلروف عموم ًا)‪ .‬وأخري ًا‪ ،‬قمنا بتمثيل‬
‫النص بطريقة ‪ One-Hot Encoding‬التي رشحناها سابق ًا‪.‬‬
‫ولتوضيح عملية التدريب‪ ،‬فإننا نزود النظام بمئة حرف يف كل دورة وندع له التنبؤ‬
‫باحلرف التايل حتى يتم تدريب اخلوارزمية عىل كافة النص‪ ،‬ونقوم بتكرار هذا العملية‬
‫عىل النص كام ً‬
‫ال مرات عديدة حتى تزداد كفاءة التنبؤ يف النموذج‪ .‬وعليه يمكننا اعتبار‬
‫عملية تدريب الشبكات العصبية عىل توليد النصوص بأهنا عملية تدريب النموذج عىل‬
‫التنبؤ باحلرف التايل يف سلسلة نص معينة‪.‬‬

‫‪-183-‬‬
‫فعىل سبيل املثال‪ ،‬إذا عملنا عىل تقسم النص إىل متسلسلة ذات طول أربعة حروف‬
‫يف العبارة التالية «سبحان اهلل»‪ ،‬فإن خطويت التدريب والتنبؤ سوف تعمالن عىل الشكل‬
‫التايل‪:‬‬
‫خطوة التنبؤ‬ ‫خطوة التدريب‬
‫ن‬ ‫سبحا‬
‫(مسافة)‬ ‫بحان‬
‫ا‬ ‫ح ا ن (مسافة)‬
‫ل‬ ‫ا ن (مسافة) ا‬
‫ل‬ ‫ن (مسافة) ا ل‬
‫ه‬ ‫(مسافة) ا ل ل‬

‫‪ 3.4‬اختيار بنية النموذج‬


‫من أجل توليد النصوص باستخدام التعلم العميق‪ ،‬يمكن استخدام الشبكات‬
‫العصبية املتكررة ‪ Recurrent Neural Network‬وبشكل خاص‪ ،‬بنية ‪Long Short-‬‬
‫‪ Term Memory‬لفعاليتها املعروفة يف حتليل البيانات املتسلسلة‪ .‬واعتمدنا يف إنشاء‬
‫شبكتنا العصبية عىل البنية التالية‪:‬‬
‫Ÿ Ÿطبقة املدخالت‪ :‬وحتوي ‪ 100‬وحدة عصبونية مهمتها إدخال السالسل النصية‬
‫التي قمنها بتجهيزها سابق ًا ومن ثم متريرها إىل الطبقة اخلفية األوىل‪.‬‬
‫Ÿ Ÿطبقتان خفيتان‪ :‬األوىل حتوي ‪ ٢٥٦‬وحدة عصبونية‪ ،‬والثانية حتوي ‪ 128‬وحدة‬
‫عصبونية (نصف األوىل)‪.‬‬
‫Ÿ Ÿطبقة املخرجات والتي تستقبل بيانات الطبقات اخلفية السابقة وحتوهلا إىل‬
‫حرف معني والذي يمثل نتيجة التنبؤ باحلرف التايل للمئة حرف املدخلة يف‬
‫الشبكة العصبية‪.‬‬
‫واختيارنا هلذه البنية كان بعد العديد من التجارب‪ ،‬حيث ال توجد ‪-‬حتى اآلن‪-‬‬
‫طريقة علمية معتمدة الختيار ال ُبنى املثىل لشبكات التعلم العميق بسبب عدم معرفة‬
‫كيفية توزيع األوزان داخل الطبقات اخلفية كام ذكرنا سابق ًا‪ .‬فعملية إجياد البنية املثىل‬

‫‪-184-‬‬
‫للشبكات العصبية (عدد الطبقات اخلفية والعصبونات يف كل منها) هي عملية بحث‬
‫تتم من خالل املحاولة والتكرار ومراقبة األخطاء والتعلم منها‪.‬‬

‫‪ 3.5‬تدريب وتقييم النموذج‬


‫بعد تطوير بنية نموذج التعلم العميق وجتهيز النص الستخدامه يف عملية التدريب‪،‬‬
‫قمنا بالبدء الفعيل بعملية تدريب النموذج عىل توليد النصوص‪ .‬حيث بدأت الشبكة‬
‫العصبية بتوليد نصوص مقروءة بعد الك َّرة (أو الدورة) ‪ Epoch‬العرشين (والك َّرة‬
‫هي عملية التدريب الواحدة عىل كافة النص املوجود)‪ .‬وأكملنا عملية التدريب حتى‬
‫الدورة اخلمسني حيث بدأت الشبكة العصبية بتوليد نصوص ذات نتائج عالية الدقة‬
‫وصلت حتى ‪ .٩٣%‬وهي نتيجة مقبولة جد ًا لو أخذنا بساطة البنية املستخدمة وعمليتي‬
‫التدريب وهتيئة البيانات باإلضافة إىل حجم نص التدريب لدينا بعني االعتبار مقارنة‬
‫بطرق توليد النصوص التقليدية‪.‬‬

‫‪ -4‬النتائج‬
‫نوضح يف الشكل ‪ 4‬أمثلة من التغريدات الشعرية التي تم توليدها ونرشها بواسطة‬
‫شاعر بال مشاعر‪ .‬ونالحظ من خالل هذه األمثلة أن بعض الكلامت حتوي تشكيالً‪،‬‬
‫وذلك ألن بيانات التدريب كانت حتوي التشكيل أيض ًا‪ .‬كام نالحظ أن معظم التغريدات‬
‫حتوي شطر ًا شعري ًا واحد ًا وذلك ألننا قمنا بتدريب النموذج عىل متسلسالت نصية‬
‫بطول ‪ 100‬حرف‪ .‬ويمكن تعديل ذلك بكل سهولة إلنشاء الشطور الشعرية بأشكال‬
‫خمتلفة‪ ،‬ولكننا اقترصنا عىل الشعر احلر هنا للسهولة ومناسبة منصة التواصل االجتامعي‬
‫وحمدودية عدد األحرف فيها‪ .‬كام نالحظ أن بعض التغريدات احتوت عىل كلامت غري‬
‫مناسبة أو ال معنى هلا (ككلمة «املِرسا» يف التغريدة األخرية يف الشكل ‪ 4‬مثال)‪ ،‬وهذا‬
‫متوقع حيث إن النموذج تم تدريبه عىل احلروف ال الكلامت‪.‬‬

‫‪-185-‬‬
‫الشكل (‪ :)٤‬بعض األمثلة للنصوص التي تم توليدها‬

‫وقد ال قت هذه األداة إعجاب بعض مستخدمي موقع التواصل تويرت وحصلت‬
‫عىل ‪ 103‬متابع‪ ،‬بمعدل ‪ 3‬إعجابات لكل تغريدة حتى تاريخ كتابة هذا البحث‪ .‬وندعو‬
‫املهتم إىل االطالع عىل هذه األداة [‪ ]100‬حتت اسم املستخدم ‪ @AI_Sha3er‬وإنشاء‬
‫أدوات مشاهبة كتوليد القصص والروايات‪.‬‬

‫‪-186-‬‬
‫‪ -5‬اخلامتة‬
‫قدمنا يف بحثنا هذا ملحة مبسطة عن معاجلة اللغات الطبيعية‪ ،‬واستعرضنا أهم‬
‫عرفنا بأهم الوظائف التي ينبغي اإلملام هبا للمهتم‬
‫تطبيقاهتا احلالية يف جماالت عدة‪ ،‬كام َّ‬
‫يف املجال وكيفية تطبيقها عىل النصوص للمساعدة يف جتميع ومتثيل وحتليل النصوص‬
‫وركزنا يف هذا البحث عىل التعلم العميق يف توليد اللغات الطبيعية‪.‬‬
‫املكتوبة واملنطوقة‪ًّ .‬‬
‫ففصلنا أوالً ماهية التعلم العميق وكيفية عمله‪ ،‬ثم عرضنا جتربتنا العملية‪ ،‬خطوة‬
‫بخطوة‪ ،‬يف توليد الشعر العريب باستخدام خوارزميات التعلم العميق‪.‬‬
‫إن اللغة العربية ثرية بالدالالت اللفظية والقواعد الرصفية والنحوية والتي جتعلها‬
‫واحدة من أروع اللغات عىل اإلطالق‪ .‬لذا‪ ،‬فال بد من التشجيع عىل اخلوض يف جمال‬
‫معاجلة اللغات الطبيعية—وبخاصة للغة العربية—خصوص ًا مع تطور خوارزميات‬
‫التعلم العميق التي تسهل معاجلة اللغات الطبيعية وتطبيقاهتا‪.‬‬

‫‪-187-‬‬
‫املراجع‬
[1] How many languages are there in the world? Linguistic Society
of America. [online] Available at: https://www.linguisticsociety.
org/content/how-many-languages-are-there-world [Accessed 20
May 2019].
[2] A. M. Turing. “Computing machinery and intelligence”. Mind.
pp. 433-460. 1950.
[3] Saygin. A.P.. Cicekli. I. and Akman. V.. 2000. Turing test: 50
years later. Minds and machines. 10(4). pp.463-518.
[4] Translator. IBM. [Online]. Available at: http://www-03.ibm.
com/ibm/history/exhib- its/701/701_translator.html. [Accessed
22 May 2019].
[5] Hutchins. J.. 2005. The first public demonstration of machine
translation: the Georgetown-IBM system. 7th January
1954. Publicación electrónica en: http://www. hutchinsweb. me.
uk/GUIBM-2005. pdf.
[6] Lehnert. W.. 1975. What makes SAM run? Script based
techniques for question answering. In Theoretical Issues in
Natural Language Processing: Supplement.
[7] McKeown. K.R.. 1980. Paraphrasing using given and new
information in a question-answer system. Technical Reports
(CIS). p.723.
[8] Karttunen. L.. 1969. Discourse referents. In INTERNATIONAL
CONFERENCE ON COMPUTATIONAL LINGUISTICS
COLING 1969: Preprint No. 70.
[9] Rivers. W.M.. 1972. Speaking in many tongues: Essays in
foreign-language teaching.

-188-
[10] Klein. S. and Simmons. R.F.. 1963. A computational approach
to grammatical coding of English words. Journal of the ACM
(JACM). 10(3). pp.334-347.
[11] Màrquez. L. and Rodríguez. H.. 1998. April. Part-of-speech
tagging using decision trees. In European Conference on
Machine Learning (pp. 25-36). Springer. Berlin. Heidelberg.
[12] Church. K.W.. 1989. May. A stochastic parts program and noun
phrase parser for unrestricted text. In International Conference
on Acoustics. Speech. and Signal Processing.(pp. 695-698).
IEEE.
[13] DeRose. S.J.. 1988. Grammatical category disambiguation by
statistical optimization. Computational linguistics. 14(1). pp.31-
39.
[14] Das. D. and Martins. A.F.. 2007. A survey on automatic text
summarization. Literature Survey for the Language and Statistics
II course at CMU. 4(192-195). p.57.
[15] Chowdhury. G.G.. 2010. Introduction to modern information
retrieval. Facet publishing.
[16] Chaovalit. P. and Zhou. L.. 2005. January. Movie review
mining: A comparison between supervised and unsupervised
classification approaches. In Proceedings of the 38th annual
Hawaii international conference on system sciences (pp.
112c-112c). IEEE.
[17] Pang. B.. Lee. L. and Vaithyanathan. S.. 2002. July. Thumbs
up?: sentiment classification using machine learning techniques.
In Proceedings of the ACL-02 conference on Empirical
methods in natural language processing-Volume 10(pp. 79-86).
Association for Computational Linguistics.

-189-
[18] Kotsiantis. S.B.. Zaharakis. I. and Pintelas. P.. 2007. Supervised
machine learning: A review of classification techniques. Emerging
artificial intelligence applications in computer engineering. 160.
pp.3-24.
[19] Khan. A.. Baharudin. B.. Lee. L.H. and Khan. K.. 2010.
A review of machine learning algorithms for text-
documents classification. Journal of advances in information
technology. 1(1). pp.4-20.
[20] Goldberg. D.E. and Holland. J.H.. 1988. Genetic algorithms and
machine learning. Machine learning. 3(2). pp.95-99.
[21] Badr. I.. Zbib. R. and Glass. J.. 2008. Segmentation for English-
to-Arabic statistical machine translation. Proceedings of ACL-
08: HLT. Short Papers. pp.153-156.
[22] Ghaffar. S.A.. Fakhr. M.W. and Sheraton. C.. 2011. English to
Arabic statistical machine translation system improvements
using preprocessing and Arabic morphology analysis. Recent
Researches in Mathematical Methods in Electrical Engineering
and Computer Science. pp.50-54.
[23] Badr. I.. Zbib. R. and Glass. J.. 2009. March. Syntactic phrase
reordering for English-to-Arabic statistical machine translation.
In Proceedings of the 12th Conference of the European Chapter
of the Association for Computational Linguistics (pp. 86-93).
Association for Computational Linguistics.
[24] Al-Haj. H. and Lavie. A.. 2012. The impact of Arabic
morphological segmentation on broad-coverage English-to-
Arabic statistical machine translation. Machine translation. 26(1-
2). pp.3-24.

-190-
[25] El Kholy. A. and Habash. N.. 2012. Orthographic and
morphological processing for English–Arabic statistical machine
translation. Machine Translation. 26(1-2). pp.25-45.
[26] Hasan. S.. El Isbihani. A. and Ney. H.. 2006. May. Creating a
Large-Scale Arabic to French Statistical MachineTranslation
System. In LREC (pp. 855-858).
[27] Schwenk. H. and Senellart. J.. 2009. Translation model
adaptation for an Arabic/French news translation system by
lightly-supervised training. In In MT Summit.
[28] Guidere. M.. 2002. Toward corpus-based machine translation for
standard Arabic. Translation Journal. 6(1).
[29] Green. S.. Heer. J. and Manning. C.D.. 2013. April. The efficacy
of human post-editing for language translation. In Proceedings
of the SIGCHI conference on human factors in computing
systems (pp. 439-448). ACM.
[30] Ehab. R.. Gadallah. M. and Amer. E.. 2019. English-Arabic
Hybrid Machine Translation System using EBMT and Translation
Memory. International Journal of Advanced Computer Science
and Applications. 10(1). pp.195-203.
[31] Marie-Sainte. S.L.. Alalyani. N.. Alotaibi. S.. Ghouzali. S. and
Abunadi. I.. 2019. Arabic natural language processing and
machine learning-based systems. IEEE Access. 7. pp.7011-7020.
[32] Menacer. M.A.. Langlois. D.. Jouvet. D.. Fohr. D.. Mella. O.
and Smaïli. K.. 2019. May. Machine Translation on a parallel
Code-Switched Corpus. In Canadian Conference on Artificial
Intelligence (pp. 426-432). Springer. Cham.
[33] Lodhi. H.. Saunders. C.. Shawe-Taylor. J.. Cristianini. N. and
Watkins. C.. 2002. Text classification using string kernels. Journal
of Machine Learning Research. 2(Feb). pp.419-444.

-191-
[34] Cavnar. W.B. and Trenkle. J.M.. 1994. April. N-gram-based
text categorization. In Proceedings of SDAIR-94. 3rd annual
symposium on document analysis and information retrieval(Vol.
161175).
[35] Joulin. A.. Grave. E.. Bojanowski. P. and Mikolov. T.. 2016.
Bag of tricks for efficient text classification. arXiv preprint
arXiv:1607.01759.
[36] McCallum. A. and Nigam. K.. 1998. July. A comparison of event
models for naive bayes text classification. In AAAI-98 workshop
on learning for text categorization (Vol. 752. No. 1. pp. 41-48).
[37] Forman. G.. 2003. An extensive empirical study of feature
selection metrics for text classification. Journal of machine
learning research. 3(Mar). pp.1289-1305.
[38] Zhang. X.. Zhao. J. and LeCun. Y.. 2015. Character-level
convolutional networks for text classification. In Advances in
neural information processing systems (pp. 649-657).
[39] Lai. S.. Xu. L.. Liu. K. and Zhao. J.. 2015. February. Recurrent
convolutional neural networks for text classification. In Twenty-
ninth AAAI conference on artificial intelligence.
[40] Conneau. A.. Schwenk. H.. Barrault. L. and Lecun. Y.. 2016.
Very deep convolutional networks for text classification. arXiv
preprint arXiv:1606.01781.
[41] Khreisat. L.. 2006. Arabic Text Classification Using N-Gram
Frequency Statistics A Comparative Study. DMIN. 2006. pp.78-
82.
[42] Al-Harbi. S.. Almuhareb. A.. Al-Thubaity. A.. Khorsheed. M.S.
and Al-Rajeh. A.. 2008. Automatic Arabic text classification.

-192-
[43] El-Halees. A.M.. 2007. Arabic text classification using
maximum entropy. Arabic Text Classification Using Maximum
Entropy. 15(1).
[44] Elarian. Y.. Ahmad. I.. Awaida. S.. Al-Khatib. W. and Zidouri.
A.. 2015. Arabic ligatures: analysis and application in text
recognition. In 13th International Conference on Document
Analysis and Recognition (ICDAR) (pp. 896-900). IEEE.
[45] Elarian. Y.. Ahmad. I.. Awaida. S.. Al-Khatib. W.G. and Zidouri.
A.. 2015. An Arabic handwriting synthesis system. Pattern
Recognition. 48(3). pp.849-861.
[46] Kanaan. G.. Al-Shalabi. R.. Ghwanmeh. S. and Al-Ma’adeed.
H.. 2009. A comparison of text-classification techniques applied
to Arabic text. Journal of the American society for information
science and technology. 60(9). pp.1836-1844.
[47] Wong. K.F.. Wu. M. and Li. W.. 2008. August. Extractive
summarization using supervised and semi-supervised learning.
In Proceedings of the 22nd International Conference on
Computational Linguistics-Volume 1 (pp. 985-992). Association
for Computational Linguistics.
[48] Murray. G.. Renals. S. and Carletta. J.. 2005. Extractive
summarization of meeting recordings.
[49] Paulus. R.. Xiong. C. and Socher. R.. 2017. A deep reinforced
model for abstractive summarization. arXiv preprint
arXiv:1705.04304.
[50] Ganesan. K.. Zhai. C. and Han. J.. 2010. August. Opinosis: A
graph based approach to abstractive summarization of highly
redundant opinions. In Proceedings of the 23rd International
Conference on Computational Linguistics (Coling 2010) (pp.
340-348).

-193-
[51] Oufaida. H.. Nouali. O. and Blache. P.. 2014. Multilingual
Summarization Experiments on English. Arabic and French
(Résumé Automatique Multilingue Expérimentations sur
l’Anglais. l’Arabe et le Français)[in French]. Proceedings of
TALN 2014 (Volume 2: Short Papers). 2. pp.543-549.
[52] Froud. H.. Lachkar. A. and Ouatik. S.A.. 2013. Arabic text
summarization based on latent semantic analysis to enhance
arabic documents clustering. arXiv preprint arXiv:1302.1612.
[53] Douzidia. F.S. and Lapalme. G.. 2004. Lakhas. an Arabic
summarization system. Proceedings of DUC2004.
[54] Al-Saleh. A.B. and Menai. M.E.B.. 2016. Automatic Arabic text
summarization: a survey. Artificial Intelligence Review. 45(2).
pp.203-234.
[55] Azmi. A. and Al-Thanyyan. S.. 2009. September. Ikhtasir—A
user selected compression ratio Arabic text summarization
system. In 2009 International Conference on Natural Language
Processing and Knowledge Engineering (pp. 1-7). IEEE.
[56] Azmi. A.M. and Al-Thanyyan. S.. 2012. A text summarizer for
Arabic. Computer Speech & Language. 26(4). pp.260-273.
[57] Wang. J.H.. Chung. E.S. and Jang. M.G.. Electronics and
Telecommunications Research Institute. 2008. Semi-automatic
construction method for knowledge base of encyclopedia
question answering system. U.S. Patent 7.428.487.
[58] Soricut. R. and Brill. E.. 2006. Automatic question answering
using the web: Beyond the factoid. Information Retrieval. 9(2).
pp.191-206.
[59] Green. C.C.. 1969. The application of theorem proving to
question-answering systems (No. CS-138). STANFORD UNIV
CALIF DEPT OF COMPUTER SCIENCE.

-194-
[60] Hammo. B.. Abu-Salem. H. and Lytinen. S.. 2002. July. QARAB:
A question answering system to support the Arabic language.
In Proceedings of the ACL-02 workshop on Computational
approaches to semitic languages (pp. 1-11). Association for
Computational Linguistics.
[61] Bekhti. S.. Rehman. A.. Al-Harbi. M. and Saba. T.. 2011.
AQUASYS: An Arabic Question-Answering System Based
on Extensive Question Analysis and Answer Relevance
Scoring. International Journal of Academic Research. 3(4).
[62] Abdelnasser. H.. Ragab. M.. Mohamed. R.. Mohamed. A.. Farouk.
B.. El-Makky. N. and Torki. M.. 2014. Al-Bayan: an Arabic
question answering system for the Holy Quran. In Proceedings
of the EMNLP 2014 Workshop on Arabic Natural Language
Processing (ANLP) (pp. 57-64).
[63] Abu-Jbara. A.. King. B.. Diab. M. and Radev. D.. 2013. Identifying
opinion subgroups in arabic online discussions. In Proceedings
of the 51st Annual Meeting of the Association for Computational
Linguistics (Volume 2: Short Papers) (Vol. 2. pp. 829-835).
[64] Abdul-Mageed. M.. Diab. M. and Kübler. S.. 2014. SAMAR:
Subjectivity and sentiment analysis for Arabic social
media. Computer Speech & Language. 28(1). pp.20-37.
[65] Al-Smadi. M.. Al-Ayyoub. M.. Jararweh. Y. and Qawasmeh.
O.. 2019. Enhancing aspect-based sentiment analysis of Arabic
hotels’ reviews using morphological. syntactic and semantic
features. Information Processing & Management. 56(2). pp.308-
319.
[66] Elhadad. M.K.. Li. K.F. and Gebali. F.. 2019. March. Sentiment
Analysis of Arabic and English Tweets. In Workshops of the
International Conference on Advanced Information Networking
and Applications (pp. 334-348). Springer. Cham.

-195-
[67] Al-Ayyoub. M.. Khamaiseh. A.A.. Jararweh. Y. and Al-Kabi.
M.N.. 2019. A comprehensive survey of Arabic sentiment
analysis. Information Processing & Management. 56(2). pp.320-
342.
[68] McKeown. K.R.. 1982. June. The TEXT system for natural
language generation: An overview. In Proceedings of the 20th
annual meeting on Association for Computational Linguistics(pp.
113-120). Association for Computational Linguistics.
[69] Mann. W.C.. 1983. June. An overview of the Nigel text
generation grammar. In Proceedings of the 21st annual meeting
on Association for Computational Linguistics (pp. 79-84).
Association for Computational Linguistics.
[70] Yan. F. and Mikolajczyk. K.. 2015. Deep correlation for matching
images and text. In Proceedings of the IEEE conference on
computer vision and pattern recognition (pp. 3441-3450).
[71] Tokui. S.. Oono. K.. Hido. S. and Clayton. J.. 2015. December.
Chainer: a next-generation open source framework for deep
learning. In Proceedings of workshop on machine learning
systems (LearningSys) in the twenty-ninth annual conference on
neural information processing systems (NIPS) (Vol. 5. pp. 1-6).
[72] Li. J.. Monroe. W.. Ritter. A.. Galley. M.. Gao. J. and Jurafsky. D..
2016. Deep reinforcement learning for dialogue generation. arXiv
preprint arXiv:1606.01541.
[73] Young. T.. Hazarika. D.. Poria. S. and Cambria. E.. 2018. Recent
trends in deep learning based natural language processing. ieee
Computational intelligenCe magazine. 13(3). pp.55-75.
[74] Zhu. Y.. Lu. S.. Zheng. L.. Guo. J.. Zhang. W.. Wang. J. and
Yu. Y.. 2018. June. Texygen: A benchmarking platform for
text generation models. In The 41st International ACM SIGIR

-196-
Conference on Research & Development in Information
Retrieval (pp. 1097-1100). ACM.
[75] Kaiser. L.M. and Vinyals. O.. Google LLC. 2019. Generating
parse trees of text segments using neural networks. U.S. Patent
Application 10/268.671.
[76] Lippi. M.. Montemurro. M.A.. Degli Esposti. M. and Cristadoro.
G.. 2019. Natural Language Statistical Features of LSTM-
Generated Texts. IEEE Transactions on Neural Networks and
Learning Systems.
[77] Guo. J.. Lu. S.. Cai. H.. Zhang. W.. Yu. Y. and Wang. J.. 2018.
April. Long text generation via adversarial training with leaked
information. In Thirty-Second AAAI Conference on Artificial
Intelligence.
[78] Souri. A.. El Maazouzi. Z.. Al Achhab. M. and El Mohajir. B.E..
2018. April. Arabic Text Generation Using Recurrent Neural
Networks. In International Conference on Big Data. Cloud and
Applications (pp. 523-533). Springer. Cham.
[79] Yousef Elarian (Editor). “‫( ”الحرف العربي والتقنية‬Arabic and
Technology). 2015. King Abdullah International Center for
Arabic Language (KAICAL). Riyadh. Saudi Arabia.
[80] Elarian. Y.. Idris. F.. 2011. A Lexicon of Connected Components
for Arabic Optical Text Recognition. In First International
Workshop on Frontiers in Arabic Handwriting Recognition.
Istanbul. Turkey.
[81] Taji. D.. Khalifa. S.. Obeid. O.. Eryani. F. and Habash. N.. 2018.
October. An Arabic Morphological Analyzer and Generator with
Copious Features. In Proceedings of the Fifteenth Workshop
on Computational Research in Phonetics. Phonology. and
Morphology (pp. 140-150).

-197-
[82] Ibrahim. W. and Hardie. A.. 2018. Accessible Corpus Annotation
for Arabic. Arabic Corpus Linguistics. p.56.
[83] Hull. D.A.. 1996. Stemming algorithms: A case study for detailed
evaluation. Journal of the American Society for Information
Science. 47(1). pp.70-84.
[84] Paice. C.D.. 1994. An evaluation method for stemming
algorithms. In SIGIR’94 (pp. 42-50). Springer. London.
[85] Willett. P.. 2006. The Porter stemming algorithm: then and
now. Program. 40(3). pp.219-223.
[86] Hull. D.A. and Grefenstette. G.. 1996. A detailed analysis
of English stemming algorithms. In Xerox Research and
Technology.
[87] Taghva. K.. Elkhoury. R. and Coombs. J.. 2005. April. Arabic
stemming without a root dictionary. In International Conference
on Information Technology: Coding and Computing (ITCC’05)-
Volume II (Vol. 1. pp. 152-157). IEEE.
[88] Hadni. M.. Ouatik. S.A. and Lachkar. A.. 2013. Effective
Arabic stemmer based hybrid approach for Arabic text
categorization. International Journal of Data Mining &
Knowledge Management Process. 3(4). p.1.
[89] Al-Kabi. M.N.. Kazakzeh. S.A.. Ata. B.M.A.. Al-Rababah.
S.A. and Alsmadi. I.M.. 2015. A novel root based Arabic
stemmer. Journal of King Saud University-Computer and
Information Sciences. 27(2). pp.94-103.
[90] Vergyri. D. and Kirchhoff. K.. 2004. August. Automatic
diacritization of Arabic for acoustic modeling in speech
recognition. In Proceedings of the workshop on computational
approaches to Arabic script-based languages (pp. 66-73).
Association for Computational Linguistics.

-198-
1 ‫تطبيقات الذكاء االصطناعي يف خدمة اللغة العربية‬
2 ‫مقدمة املحرر‬
4 ‫موضوعات الكتاب‬
5
[91] Fadel. A.. Tuffaha. I.. Al-Jawarneh. B. and Al-Ayyoub.6 M.. ‫ملخص‬2019.
Arabic Text Diacritization Using Deep Neural Networks. arXiv 7 ‫مقدمة‬ 1
preprint arXiv:1905.01965. 9 ‫ أقسام القارئات اآللية‬1.1
10 )‫ أهم حتديات التعرف اآليل عىل الكتابة العربية اليدوية (خط اليد العريب‬1.2
[92] Punyakanok. V.. Roth. D. and Yih. W.T.. 2008. The
13 ‫عمليات التعرف اآليل عىل الكتابة‬ 2
importance of syntactic parsing and inference in semantic role
14 ‫ عمليات املعاجلة املسبقة‬2.1
labeling. Computational Linguistics. 34(2). pp.257-287.
17 ‫ التقطيع‬2.2
[93] Chiang. D.. Diab. M.. Habash. N.. Rambow. 19 ‫املالمح‬O.‫استخراج‬ 2.3S..
and Shareef.
2006. Parsing arabic dialects. In 11th 21 Conference ‫التصنيف‬ 2.4
of the European
Chapter of the Association for Computational 23 ‫الالحقة‬ ‫ املعاجلة‬2.5
Linguistics.
[94] McDonald. 23 ‫بالتقطيع‬
R.. Pereira. ‫التصنيف‬F..‫عالقة‬ ‫الكتابة حسب‬
Ribarov. K. and ‫ عىل‬Hajič.
‫ التعرف‬J.. 2005.
3
October. Non-projective dependency 23 ‫التقطيع‬ ‫القائم عىل‬
parsing using ‫التعرف‬
spanning3.1tree
algorithms. In 24 Proceedings )‫حمارف‬of‫إىل‬ the‫التقطيع‬
conference ‫الكيل (دون‬ on Human‫التعرف‬Language
3.2
Technology and Empirical 25 ‫ضمني‬Methods ‫يتخلله تقطيع‬ in ‫الذي‬ ‫التعرف‬Language
Natural 3.3
‫املكتوبة بخط اليد‬Processing (pp.
‫عىل النصوص العربية‬523-530). ‫التعرف اآليل‬Association‫لبعض أشهر أنظمة‬ for ‫مقارنات‬
Computational4
Linguistics. 32
32 ‫ قواعد بيانات للكتابة العربية اليدوية‬4.1
[95] Nadeau. D. and Sekine. S.. 2007. A survey of named entity
37 ‫ مقارنة أهم بحوث املجال‬4.2
recognition and classification.
48 ‫التعرف اآليل عىل النصوص املكتوبة‬ Lingvisticae
‫النرش يف جمال‬ Investigationes.
‫ أبرز أوعية‬30(1). 5
pp.3-26. 49 ‫ أهم مؤمترات املجال الدولية‬5.1
53[96] ‫املجال‬
LeCun. ‫املقاالت يف‬ ‫تصلح لنرش‬Y.
Y.. Bengio. ‫ التي‬and‫املحكمة‬Hinton. ‫املجالت العلمية‬ G.. 2015.‫ أهم‬5.2 Deep
learning. nature. 521(7553). p.436. 55 ‫اخلامتة‬ 6
70[97]
‫الكريم‬Goodfellow.
‫وتطبيقاته يف القرآن‬ ‫ التعرف اآليل عىل الكالم العريب املنطوق‬:‫الباب الثاين‬
I.. Bengio. Y. and Courville. A.. 2016. Deep
learning. MIT press.
71 ‫ملخص‬
72 ‫مقدمة‬ 1
76[98] Mikolov. T.. Karafiát. M.. Burget.
‫بنية نظام التعرف اآليل عىل الوحدات الكالمية يف القرآن الكريم‬ L.. Černocký. J. 2and
Khudanpur.
83 S..Feature 2010. Recurrent
Vector Dimension neural network
Reduction ‫اخلصائص‬ ‫أبعاد متجه‬based ‫ تقليل‬language
2.2
model. In Eleventh annual 88 conference of the
Hierarchical Classification ‫اهلرمي‬ international
‫ التصنيف‬speech 2.3
communication association. 90 Classification ‫خوارزميات التصنيف‬ 3
[99] Mikolov. T.. Chen. K.. Corrado. 91 G. andNaïveDean. Bayes ‫بايز‬J..‫مصنف‬ 3.1
2013. Efficient
92 MLP)Multi-Layer
estimation Perceptron(representations
of word ‫ متعددة الطبقات‬in ‫العصبية‬
vector‫الشبكة‬ space. ‫مصنف‬ 3.2
arXiv preprint
arXiv:1301.3781. 94 K-Nearest Neighbor ‫ مصنف اجلار األقرب‬3.3
95 )Support Vector Machine (SVM ‫ مصنف آلة متجه الدعم‬3.4
97 ‫التجارب والنتائج‬ 4
-199- 98 ‫اخلامتة‬ 5
103 ‫ حتليل اآلراء العربية إلكرتوني ًا‬:‫الباب الثالث‬
[100] Arabic Poet. [Online]. Available at: https://twitter.com/AI_
Sha3er. [Accessed 25 May 2019].
[101] Generate Arabic Poems. [Online]. Available at: https://github.
com/Gharibw/Char-RNN-Arabic. [Accessed 25 May 2019].
[102] Tweets and Hashtag Harvester using Python. [Online]. Available
at: https://github.com/Gharibw/Tweets_Harvester. [Accessed 25
May 2019].

-200-
‫الصفحة‬ ‫املوضوع‬

‫‪٥‬‬ ‫هذا املرشوع‬

‫‪٧‬‬ ‫كلمة املركز‬

‫‪9‬‬ ‫مقدمة املحرر‬

‫‪١١‬‬ ‫موضوعات الكتاب‬

‫الباب األول‪ :‬القراءة اآللية لكتابة اليد العربية‬


‫‪١٣‬‬
‫د‪.‬يوسف سامل العريان و د‪.‬عرفان أمحـــــد‬

‫‪15‬‬ ‫ملخص‬

‫‪15‬‬ ‫‪ -1‬مقدمة‬

‫‪17‬‬ ‫‪ 1.1‬أقسام القارئات اآللية‬

‫‪-201-‬‬
‫‪ 1.2‬أهم حتديات التعرف اآليل عىل الكتابة العربية اليدوية (خط اليد‬
‫‪18‬‬
‫العريب)‬

‫‪21‬‬ ‫‪ -2‬عمليات التعرف اآليل عىل الكتابة‬

‫‪21‬‬ ‫‪ 2.1‬عمليات املعاجلة املسبقة‬

‫‪24‬‬ ‫‪ 2.2‬التقطيع‬

‫‪26‬‬ ‫‪ 2.3‬استخراج املالمح‬

‫‪27‬‬ ‫‪ 2.4‬التصنيف‬

‫‪28‬‬ ‫‪ 2.5‬املعاجلة الالحقة‬

‫‪28‬‬ ‫‪ - 3‬التعرف عىل الكتابة حسب عالقة التصنيف بالتقطيع‬

‫‪28‬‬ ‫‪ 3.1‬التعرف القائم عىل التقطيع‬

‫‪29‬‬ ‫‪ 3.2‬التعرف الكيل (دون التقطيع إىل حمارف)‬

‫‪30‬‬ ‫‪ 3.3‬التعرف الذي يتخلله تقطيع ضمني‬

‫‪31‬‬ ‫مواضع نوافذ سابقة‬

‫‪ -4‬مقارنات لبعض أشهر أنظمة التعرف اآليل عىل النصوص العربية‬


‫‪35‬‬
‫املكتوبة بخط اليد‬

‫‪35‬‬ ‫‪ 4.1‬قواعد بيانات للكتابة العربية اليدوية‬

‫‪39‬‬ ‫‪ 4.2‬مقارنة أهم بحوث املجال‬

‫‪56‬‬ ‫‪ -5‬أبرز أوعية النرش يف جمال التعرف اآليل عىل النصوص املكتوبة‬

‫‪57‬‬ ‫‪ 5.1‬أهم مؤمترات املجال الدولية‬

‫‪-202-‬‬
‫‪ 5.2‬أهم املجالت العلمية املحكمة التي تصلح لنرش املقاالت يف‬
‫‪59‬‬
‫املجال‬

‫‪61‬‬ ‫‪ -٦‬اخلامتة‬

‫‪62‬‬ ‫املراجع‬

‫الباب الثاين‪ :‬التعرف اآليل عىل الكالم العريب املنطوق وتطبيقاته يف القرآن‬
‫‪٧٥‬‬ ‫الكريم‬
‫د‪.‬أمحد محدي أبو عبسة‬

‫‪77‬‬ ‫ملخص‬

‫‪78‬‬ ‫‪ -1‬مقدمة‬

‫‪81‬‬ ‫‪ -٢‬بنية نظام التعرف اآليل عىل الوحدات الكالمية يف القرآن الكريم‬

‫‪82‬‬ ‫‪ 2.1‬احلصول عىل املقاطع الصوتية اخلاصة بالقرآن الكريم‬

‫‪82‬‬ ‫‪ 2.2‬استخراج اخلصائص املتعلقة باملقاطع الصوتية القرآنية‬

‫‪ ٢٫٣‬تقليل أبعاد متجه اخلصائص‬


‫‪86‬‬
‫‪Feature Vector Dimension Reduction‬‬

‫‪89‬‬ ‫‪ 2٫4‬التصنيف اهلرمي ‪Hierarchical Classification‬‬

‫‪91‬‬ ‫‪ -٣‬خوارزميات التصنيف ‪Classification‬‬

‫‪92‬‬ ‫‪ ٣٫١‬مصنف بايز ‪Naïve Bayes‬‬

‫‪ ٣٫٢‬مصنف الشبكة العصبية متعددة الطبقات‬


‫‪92‬‬
‫(‪Multi-Layer Perceptron (MLP‬‬

‫‪94‬‬ ‫‪ ٣٫٣‬مصنف اجلار األقرب ‪K-Nearest Neighbor‬‬

‫‪-203-‬‬
‫‪95‬‬ ‫‪ ٣٫٤‬مصنف آلة متجه الدعم (‪Support Vector Machine (SVM‬‬

‫‪96‬‬ ‫‪ -٤‬التجارب والنتائج‬

‫‪98‬‬ ‫‪ -٥‬اخلامتة‬

‫‪99‬‬ ‫املراجع‬

‫الباب الثالث‪ :‬حتليل اآلراء العربية إلكرتوني ًا‬


‫‪١٠٣‬‬
‫د‪.‬أجمد يوسف أبو جبارة‬

‫‪105‬‬ ‫امللخص‬

‫‪106‬‬ ‫نبذة تارخيية‬

‫‪108‬‬ ‫حتليل اآلراء العربية‬

‫‪109‬‬ ‫املهام الرئيسية يف حتليل اآلراء‬

‫‪117‬‬ ‫مهام متقدمة لتحليل املشاعر‬

‫‪119‬‬ ‫طرق حتليل اآلراء‬

‫‪120‬‬ ‫املعاجلة املسبقة للنصوص‬

‫‪123‬‬ ‫‪ -١‬الطرق املعتمدة عىل املعاجم القطبية ‪Sentiment Lexicons‬‬

‫‪ -٢‬الطرق املعتمدة عىل تقنيات تعلم اآللة التقليدية ‪Machine‬‬


‫‪124‬‬
‫‪Learning‬‬

‫‪126‬‬ ‫‪ -٣‬الطرق املعتمدة عىل التعلم العميق ‪Deep Learning‬‬

‫‪128‬‬ ‫مصادر وأدوات‬

‫‪128‬‬ ‫‪ .١‬أدوات املعاجلة املسبقة للنص‪:‬‬

‫‪-204-‬‬
‫‪129‬‬ ‫‪ .٢‬معاجم قطبية عربية‬

‫‪129‬‬ ‫‪ .٣‬مكتبات برجمية‪:‬‬

‫‪130‬‬ ‫‪ .٤‬مدونات لغوية ‪Corpora‬‬

‫‪131‬‬ ‫اخلالصة‬

‫‪131‬‬ ‫املراجع‬

‫الباب الرابع‪ :‬التعلم العميق وتطبيقاته املرتبطة باللغة العربية‬


‫‪١٤١‬‬
‫د‪.‬أمحــــــــــد احلايـــــك‬

‫‪١٤٣‬‬ ‫ملخص‬

‫‪144‬‬ ‫‪ -1‬مقدمة‬

‫‪145‬‬ ‫‪ -٢‬تعريف بعض املصطلحات املرتبطة بالتعلم العميق‬

‫‪146‬‬ ‫‪ ٢٫1‬الذكاء االصطناعي‬

‫‪147‬‬ ‫‪ 2.2‬تعلم اآللة‬

‫‪148‬‬ ‫‪ ٣٫1‬الشبكات العصبية االصطناعية‬

‫‪150‬‬ ‫‪ -٣‬التعلم العميق ورس نجاحه‬

‫‪152‬‬ ‫‪ -٤‬أبرز تقنيات التعلم العميق‬

‫‪152‬‬ ‫‪ ٤٫1‬الشبكات العصبية االلتفافية‬

‫‪153‬‬ ‫‪ ٤٫٢‬الشبكة العصبية املتكررة‬

‫‪154‬‬ ‫‪ ٤٫٣‬شبكات الذاكرة قصرية‪-‬املدى الطويلة‬

‫‪-205-‬‬
‫‪154‬‬ ‫‪ ٤٫٤‬شبكات اخلصومة التوليدية‬

‫‪155‬‬ ‫‪ ٤٫٥‬شبكة التشفري اآليل‬

‫‪156‬‬ ‫‪-٥‬أهم تطبيقات التعلم العميق يف خدمة اللغة العربية‬

‫‪157‬‬ ‫‪ ٥٫1‬تطبيقات التعلم العميق يف جمال حتليل اللغة العربية الطبيعية‬

‫‪ ٥٫٢‬تطبيقات التعلم العميق يف جمال التعرف عىل الكالم العريب‬


‫‪157‬‬
‫املنطوق‬

‫‪ ٥٫٣‬تطبيقات التعلم العميق يف جمال التعرف عىل احلروف العربية‬


‫‪158‬‬
‫املكتوبة‬

‫‪159‬‬ ‫‪ -٦‬اخلامتة‬

‫‪160‬‬ ‫املراجع‬

‫الباب اخلامس‪ :‬شاعر بال مشاعر‪ :‬جتربة يف الشعر العريب اآليل باستخدام‬
‫‪١٦٣‬‬ ‫التعلم العميق‬
‫أ‪.‬غريـب واجب غريـــــبي‬

‫‪165‬‬ ‫ملخص‬

‫‪166‬‬ ‫‪ -1‬مقدمة‬

‫‪166‬‬ ‫‪ 1.1‬التعريف ونبذة تارخيية‬

‫‪168‬‬ ‫‪ 1.2‬أهم تطبيقات معاجلة اللغات الطبيعية‬

‫‪172‬‬ ‫‪ 1.3‬أهم وظائف معاجلة اللغات الطبيعية‬

‫‪174‬‬ ‫‪-2‬التعلم العميق ومعاجلة اللغات الطبيعية‬

‫‪-206-‬‬
‫‪175‬‬ ‫‪ 2.1‬كيف تتعلم خوارزميات التعلم العميق‬

‫‪178‬‬ ‫‪ 2.2‬معاجلة اللغات الطبيعية باستخدام التعلم العميق‬

‫‪180‬‬ ‫‪ -3‬شاعر بال مشاعر‪ :‬جتربة يف توليد الشعر العريب‬

‫‪181‬‬ ‫‪ 3.1‬جتميع وهتيئة البيانات‬

‫‪182‬‬ ‫‪ 3.2‬اختيار وحدة النموذج‬

‫‪183‬‬ ‫‪ 3.3‬تدريب النموذج‬

‫‪184‬‬ ‫‪ 3.4‬اختيار بنية النموذج‬

‫‪185‬‬ ‫‪ 3.5‬تدريب وتقييم النموذج‬

‫‪185‬‬ ‫‪ -4‬النتائج‬

‫‪187‬‬ ‫‪ -5‬اخلامتة‬

‫‪188‬‬ ‫املراجع‬

‫‪-207-‬‬
-208-
‫مباحث لغوية ‪٦٠‬‬
‫تطبيقات الذكاء االصطناعي‬
‫في خـــــدمة اللغـــــة العربية‬
‫يُصدِ ر مركز امللك عبداهلل بن عبدالعزيز الدولي خلدمة اللغة العربية هذا الكتاب ضمن سلسلة‬
‫(مباحث لغوية)‪ ،‬وذلك وفق خطة عمل مقسمة إلى مراحل‪ ،‬ملوضوعات علمية رأى املركز حاجة املكتبة‬
‫اللغوية العربية إليها‪ ،‬أو إلى بدء النشاط البحثي فيها‪ ،‬واجتهد يف استكتاب نخبة من احملررين واملؤلفني‬
‫للنهوض بعنوانات هذه السلسلة على أكمل وجه‪.‬‬
‫ويهدف املركز من وراء ذلك إلى تنشيط العمل يف املجاالت التي تُـنَـ ّبه إليها هذه السلسلة‪ ،‬سواء أكان‬
‫العمل علميا بحثيا‪ ،‬أم عمليا تنفيذيا‪ ،‬ويدعو املركز الباحثني كافة من أنحاء العالم إلى املساهمة يف هذه‬
‫السلسلة‪.‬‬
‫وتو ّد األمانة العامة أن تشيد بجهد السادة املؤلفني‪ ،‬وجهد محرر الكتاب‪ ،‬على ما تفضلوا به من رؤى‬
‫وأفكار خلدمة العربية يف هذا السياق البحثي‪.‬‬
‫والشكر والتقدير الوافر ملعالي وزير التعليم املشرف العام على املركز‪ ،‬الذي يحث على كل ما من‬
‫شأنه تثبيت الهوية اللغوية العربية‪ ،‬ومتتينها‪ ،‬وفق رؤية استشرافية محققة لتوجيهات قيادتنا احلكيمة‪.‬‬
‫موجهة إلى جميع املختصني واملهتمني للتواصل مع املركز؛ لبناء املشروعات العلمية‪ ،‬وتكثيف‬
‫والدعوة ّ‬
‫اجلهود‪ ،‬والتكامل نحو متكني لغتنا العربية‪ ،‬وحتقيق وجودها السامي يف مجاالت احلياة‪.‬‬

‫األمني العام للمركز‬


‫د‪ .‬عبداهلل بن صالح الوشمي‬

Vous aimerez peut-être aussi