Académique Documents
Professionnel Documents
Culture Documents
Ep 180
Ep 180
تحرير:
تأليف:
د .أمجد يوسف أبوجبـــــــــــارة د .يوسف ســـــــــــــالم العريان
تأليف:
حترير:
د.يوسف ســـامل العريان
مرشوع تأليف سلسلة كتب يف جمال (حوسبة العربية) هيدف إىل بناء تراك ٍم معريف
يف جمال حيوي مهم ،هو جمال (حوسبة العربية) .ويعد هذا الكتاب واحدا من سلسلة
كتب صدرت يف املركز.
يقع هذا املرشوع ضمن سلسلة (مباحث لغوية) التي يرشف املركز عىل اختيار
عنواناهتا ،وتكليف املحررين واملؤلفني ،ومتابعة التأليف حتى إصدار الكتب .وهي
سلسلة جيتهد املركز أن تكون سداد ًا حلاجات بحثية وعلمية حتتاج إىل تنبيه الباحثني
عليها ،أو تكثيف البحث فيها.
ويعدّ هذا الكتاب واحد ًا من كتب ثالثة مرتابطة يف مرشوع علمي واحد متخصص
يف (الذكاء االصطناعي) :
1.1العربية والذكاء االصطناعي.
2.2تطبيقات الذكاء االصطناعي يف خدمة اللغة العربية.
3.3خوارزميات الذكاء االصطناعي يف حتليل النص العريب.
-5-
-6-
كلمة املركز
يعمل املركز يف جمال البحث العلمي ونرش الكتب مستهدف ًا الرتكيز عىل املجاالت
البحثية التي ما زالت بحاجة إىل تسليط الضوء عليها ،وتكثيف البحث فيها ،ولفت أنظار
الباحثني واجلهات األكاديمية إىل أمهية استثامرها بمختلف وجوه االستثامر ،وذلك مثل
جمال (التخطيط اللغوي) و (العربية يف العامل) و(األدلة واملعلومات) و (تعليم العربية
ألبنائها أو لغري الناطقني هبا) إىل غري ذلك من املجاالت ،وإن من أهم جماالت البحث
املستقبلية يف اللغة العربية جمال (العربية واحلوسبة ،والذكاء االصطناعي) حيث إن
اللغات احلية مرهونة حياهتا مستقبال بمدى جتاوهبا مع التطورات التقنية والعامل
االفرتايض ،وكثافة املحتوى اإللكرتوين املكتوب ،وهو ما يشكّل حتديا حقيقيا أمام
اللغات غري املنتجة للمعرفة أو للتقنية.
وقد عمل املركز عىل تسليط الضوء عىل هذا املجال التخصيص؛ مستعينا بالكفاءات
القادرة من املهتمني بالتخصص البيني (بني اللغة واحلاسوب) مقدّ را جهودهم ،وهادف ًا
إىل نرشها ،وتعميم مبادئها ،راغب ًا أن يكون هذا املسار العلمي مقررا يف اجلامعات يف
كلية العربية واحلاسوب ،وجماال بحثيا يقصده الباحثون األكديميون ،واجلهات البحثية
العربية.
-7-
وقد أصدر املركز سابقا ستة عرش كتاب ًا خمتصا يف (حوسبة العربية) ويف اإلفادة من
(املدونات اللغوية) يف األبحاث العربية ،وحيتفل بإصدار سبعة كتب جديدة خمتصة
يف (حوسبة العربية والذكاء االصطناعي) ،ويقدمها للقارئ العريب ،وللجهات
األكاديمية؛ لإلفادة منها واعتامد ما تراه منها مناسب ًا لتعليمه والبناء عليه ،وهذه الكتب
السبعة هي( :العربية والذكاء االصطناعي ،تطبيقات الذكاء االصطناعي يف خدمة اللغة
العربية ،خوارزميات الذكاء االصطناعي يف حتليل النص العريب ،مقدمة يف حوسبة
اللغة العربية ،املوارد اللغوية احلاسوبية ،املعاجلة اآللية للنصوص العربية ،تطبيقات
أساسية يف املعاجلة اآللية للغة العربية).
ويشكر املركز السادة مؤلفي الكتب ،وحمررهيا ،ملا تفضلوا به من عمل علمي
رصني ،وأدعو الباحثني واملؤلفني إىل التواصل مع املركز الستكامل املسرية ،وتفتيق
فضاءات املعرفة.
وفق اهلل اجلهود وسدد الرؤى.
األمني العام
أ .د .حممود إسامعيل صالح
-8-
تطبيقات الذكاء االصطناعي
يف خدمة اللغة العربية
(((
مقدمة املحرر
احلمد هلل ،علم اإلنسان ما مل يعلم :قلام ،وبيانا ،وقرآناَ ،
وخلقا .والصالة والسالم
عىل النبي األمي الذي ُأرسل للعاملني رساجا منريا .وبعد ،فالذكاء االصطناعي ُيتيح
َوك َْل بعض مهام البرش لآلالت ،ويف بؤرته :تأليل معاجلة اللغات .واللغة العربية
فذة ،هلا فلسفات عظمى يف رسمها ،ويف لفظها ،ويف رصفها وإعراهبا وبالغتها.
لذلك تظافرت أبحاث اللغويني واحلاسوبيني –عرب ًا وعج ًام -وتسابقت للغوص عن
وحكَمها ،ولكنهم -لألسف -قرصوا عن االنتهاء بجهودهم إىل تطبيقات مكنوناهتا ِ
عملية تصل ليد املستخدم العريب –أفرادا أو مؤسسات ،-إذ كانت أكثر اجلهود متفرقة،
واألهداف متشعثة.
-1د.يوسف سامل العريان باحث يف احلوسبة العربية ،حصل عىل درجة الدكتوراه يف علوم وهندسة احلاسب اآليل عن
رسالته يف «حتليل وتصنيع الكتابة العربية» من جامعة امللك فهد للبرتول واملعادن ،وعىل درجة املاجستري يف هندسة
احلاسب اآليل عن رسالته يف «إنتاج معجم لعملية التعرف اآليل عىل الكتابة العربية» من جامعة العلوم والتكنولوجيا
األردنية .حرر كتاب «احلرف العريب والتقنية» وله العديد من األبحاث وبراءات االخرتاع يف املجال .عمل حمارضا
مدرب تعلم وتدريس يف
َ يف جامعة امللك فهد للبرتول واملعادن أثناء دراسته ،ثم أستاذا مساعدا يف جامعة جازان ،ثم
املدينة املنورة .حائز عىل عدة جوائز للتميز يف التدريس األكاديمي والبحث العلمي.
-9-
لذا ،فقد ارتأينا ترتيب يشء من هذا النتاج الغزير وتركيزه يف بوتقة واحدة ،وجعلناها
عربية كي َيفيد منها اجلميع :اللغوي ،واحلاسويب ،وغريهم .وبذلنا -مجيعا -موسوعنا
يف تعريب املصطلحات وأسامء املخرتعات ،وتقريبها للقارئ العريب (مع إبقاء أصلها
ليسهل رجوع املهتم هلا يف مصادرها) ،وذلك بعد أن ملسنا -التقصري يف باإلنجليزية ْ
التعريب الرصني ونرشه ،وغرابة وقع بعض الرتمجات حتى عىل املختص.
جاء الكتاب يف مخسة أبواب ،تناولت قراءة الكتابة العربية آليا ،واالستامع ألحكام
التالوة القرآنية تلقائيا ،واستخراج اآلراء واملشاعر من النصوص إلكرتوني ًا .وقد
وجدنا الباحثني قد أمجعوا -عىل اختالف مشارهبم -عىل أمهية تقنية التعلم العميق
وعلو كعبها؛ فجاء الباب الرابع ليرشح هذه التقنية .وناسب هذا كله ختم الكتاب
بتطبيق لتوليد النصوص العربية الشعرية باستخدم تلكم التقنية.
فبدأ الكتاب بالتعرف والتحليل ،وانتهى باإلنشاء والتطبيق ،كأنه يصعد بالقارئ
من األساس إىل ذروة السنام ،نسأل اهلل أن ينفعنا -كاتبيه وقارئيه -به .ولعل املستقبل
يسفر عن كتاب يبدأ حيث انتهى هذا ،يتناول ما وصل إليه العلم يف تقليد لغة اإلنسان،
ٍ
وإنشاء وتلخيص ال نكاد نفرقه باخلط الشبيه باليدوي ،والنطق العريب الطبعي ،وحتليل
عن البرشي .كام أرجو أن تكون اجلهود املباركة -ولعل أمهها جهود مركز امللك عبداهلل
بن عبدالعزيز الدويل خلدمة اللغة العربية -سببا الستخالص التطبيقات العملية من
اجلهود العلمية ،وجني ثامرها يف الدارين ،واهلل العيل عىل كل يشء قدير.
وكتبه،
د .يوسف سامل العريان
ذو القعدة 1440هـ
-10-
عناوين أبواب الكتاب
الباب الثاين :التعرف اآليل عىل الكالم العريب املنطوق وتطبيقاته يف القرآن الكريم
د.أمحد محدي أبو عبسة 75
الباب اخلامس :شاعر بال مشاعر :جتربة يف الشعر العريب اآليل باستخدام التعلم العميق
أ.غريـب واجب غريبي 163
-11-
-12-
الباب األول
القراءة اآللية لكتابة اليد العربية
-13-
-14-
القراءة اآللية لكتابة اليد العربية
(((
د .يوسف العريان و د .عرفان أمحد
ملخص
هيدف هذا الباب لألخذ بيد القارئ من مقدمات القراءة اآللية إىل أحدث تطورات
جماهلا .فبعد التطرق ألهم خصائص الكتابة العربية ،يعرض الباب أهم عمليات
التعرف اآليل عىل الكتابة اليدوية من معاجلة مسبقة وتقطيع حلروف واستخراج مالمح
وتصنيف ومعاجلة الحقة ،مع الرتكيز عىل املقاربات املختلفة ملعضلة تقطيع النص
العريب إىل حمارفه تقطيعا رصحيا أو ضمنيا أو كليا.
يرشع املؤلفان بعد ذلك بتبيان أحدث البحوث -وخاصة ما يستعمل مصنفات
نامذج ماركوف اخلفية والتعلم العميق -ويعرضان نتائجها ويعقدان املقارنات بينها بعد
متهيد ذلك برشح أهم قواعد البيانات املشتهرة يف تقرير نسب نجاح التعرف اآليل عىل
فصل للتعريف بأبرز املجالت واملؤمترات ذاتالكتابة العربية اليدوية .ويف ختام الباب ٌ
العالقة ،لتساعد املهتم يف الرجوع إىل أمهات البحوث يف مظاهنا وليعرف أهم بواتق
النرش املتاحة.
-1مقدمة
البعض حتى قبل ظهور احلاسبات اآللية نفسها؛ والَ راود حلم «القارئ اآليل»
أدل عىل ذلك من تسجيل براءات اخرتاع لقارئات آلية ميكانيكية (كالتي يف شكل )1
وتصنيع بواكريها يف القرن التاسع عرش [ .]2،١هدفت هذه االخرتاعات يف البداية
ملساعدة ذوي االحتياجات اخلاصة برصي ًا ،ثم وجدت طريقها لتطبيقات أخرى كتوزيع
الربيد وإحصاء السكان [ ]2ورقمنة الكتب واملخطوطات [.]3
-1د.عرفان أمحد أستاذ مساعد يف قسم علوم احلاسب اآليل واملعلومات بجامعة امللك فهد للبرتول واملعادن .حصل عىل
درجة الدكتوراه يف التعرف عىل األنامط وتعلم اآللة من جامعة دورمتوند التقنية بأملانيا وعىل درجة املاجستري يف علوم
احلاسب اآليل من جامعة امللك فهد للبرتول واملعادن .نرش العديد من البحوث يف جمالت ومؤمترات مهمة ،كام نرش
بابا يف كتاب وله عدة براءات اخرتاع أمريكية.
-15-
(ب) (أ)
شكل (( :)1أ) جهاز األوبتوفون الذي حيول حروف الكتابة إىل نغامت و(ب) جزء من توصيف
«اآللة القارئة» يف براءة اخرتاع.
ومع ظهور احلاسبات اآللية ،بدأت حماوالت برجمتها للقراءة اآللية (أو التعرف
الضوئي\البرصي عىل النصوص)Optical Character Recognition؛ وذلك ألن
حتويل صور الكتابات إىل نصوص حاسوبية ( )Textيسهل معاجلاهتا كالبحث فيها
وحتريرها وختزينها ونقلها .شكل 2يعرض صورتني ونصيهام ويتيح املقارنة بني
مساحاهتم التخزينية ويربز إمكانية البحث والتحرير يف النصوص.
يتم نسخ هذه الصفحة لتجرب ضمن بحث الحق
لدراسة كيف نقوم بتمييز احلروف العربية آليا ،سواء
كانت مكتوبة أو مطبوعة طباعة .تتضمن هذه التجربة
كتابة النص من قبل عدد كبري من الناس مع رضورة
وجود بعض اإلختالف يف املستوى العلمي للمشاركني
مع يشء من التنوع يف األعامر ثم بعد ذلك يتم ادخال
صور هذه النصوص اىل برنامج أو نظام حاسويب
وظيفته مقارنتها مع نفس النص املحفوظ أصال يف
ذاكرة احلاسب ومن ثم استخراج واستنباط الصفات أو
املميزات التي تؤدي إىل متييز املقاطع واحلروف .يفرتض
يف هذا النص الوضوح وأن يشتمل عىل كل حروف
لغة الضاد وأن يظل صحيح اللغة .أرجو أن حتول
كتابة الكلامت التالية بالرغم من غرابتها :حممد ،احلج،
الكرك ،صاغ ،ضوؤه ،ارشاق ،تعبوي ،ثالث مثلثات،
االكتظاظ ،استنساخ ،اجليش ،يتألأل ،احلائط ،صائغ،
اخلباز ،بئر ،شآم ،يتأمل ،ال حتسب ما ييل!؟؟
«(( -9*)80-7+6( = )5\4÷)3-2+1س”
حجم امللف 12 :كيلو بايت ( 12.288بايت) حجم امللف 1.07 :ميغا بايت ( 1.126.400بايت)
امتداد امللفDOCX : امتداد امللف BMP :موحد اللون (أبيض وأسود)
-16-
بلغ حاج أن اخاه ظمآن بوادي عوف .طفق
يسعى إلحضار ثالث قرب زمزم تنجيه مع
سطوع وهيج الشمس .حث عوض الشيخ نوح
بصدد ذلك فأكرمه وصب وتكلف وقال لآلت
أعظم .ضبط سهيل وأشخاص لص احلي .غش
راجح غثامة لذا جن بغيظ وانقض .انتهت.
حجم امللف 211 :بايت حجم امللف 284 :كيلو بايت ( 290.816بايت)
امتداد امللفTXT : امتداد امللف TIF :ملون
والتعرف اآليل عىل الكتابة من جماالت الذكاء االصطناعي ،والتي هتدف -عموما-
ملحاكاة بعض قدرات البرش ،ومنها التعرف عىل األنامط ومتييز احلروف ،بيد إن جمال
القراءة اآللية أصبح يتضمن أيضا عمليات مصاحبة من جماالت كمعاجلة الصور
ولسانيات احلاسب اآليل ،كتحديد مواضع الكتابة يف الصور ،وحتسني جودة الصور
لتسهيل التعرف عىل كتابتها ،وتصحيح نتائج التعرف اآليل عىل الكتابة لغويا.
-17-
(ب) (أ)
شكل (( :)3أ) الكتابة اآلنية و(ب) متثيل البيانات الزمنية [.]6[]5
وقد تصنف املتعرفات اآللية أيضا حسب طبيعة الكتابة والصور التي تستهدفها،
كالتعرف عىل اخلط املطبوع (وال يكون إال عىل الرتاخي) وخط اليد (ويمكن أن يكون
عىل الرتاخي كام يمكن أن يكون آنيا) .كام قد تصنف املتعرفات عىل الرتاخي حسب
مصدر الصورة (من «املاسحات» ( ،)scannersأو من الصور الطبيعية (الناجتة من
آالت التصوير أو «الكامريات» ،أو حتى من املقاطع املرئية أو «الفيديو»).
ويمكن تقسيم املتعرفات التي تستهدف الكتابة املوصولة ()Cursive Writing
كالعربية إىل متعرفات تسعى لتقطيع النصوص إىل حروفها أوال ،أو للتعرف عىل
الكلامت كليا (دون تقطيعها مسبقا إىل حروف) ،أو فيام يسمى بالتقطيع الضمني.
كام يمكن تقسيم املتعرفات حسب تطبيقاهتا ،والتي منها :رقمنة املخطوطات [،]3
وقراءة لوحات السيارات ،ومعاجلة السندات املرصفية (الشيكات) [ ،]7وتوزيع طرود
الربيد ،وتفريغ االستبيانات آليا ،والتعرف عىل كلامت الالفتات يف الصور الطبيعية
[.]2،8
1.2أهم حتديات التعرف اآليل عىل الكتابة العربية اليدوية (خط اليد العريب)
ثمة حتديات قد تواجه املشتغلني يف التعرف عىل خط اليد -عموما ،-كتغري رسم
احلروف بني الكتّاب أو حتى للكاتب نفسه يف مواضع وأوقات خمتلفة ،وخاصة إذا
تغريت احلالة النفسية أو رسعة الكتابة أو وضعيتها ومكاهنا وسطحها وقلمها .فهذه
حتديات تظهر يف خط اليد للكتابات العربية والالتينية والصينية؛ غري أن لكل كتابة
حتديات خاصة هبا ،لذا سنذكر يف النقاط التالية بعض حتديات التعرف اآليل عىل الكتابة
العربية:
-18-
تغري شكل احلروف العربية املنفصلة عن تلك التي تأيت متصلة بام قبلها أو
بام بعدها أو هبام معا (قارن -مثال -أشكال حرف العني «ع» و«ـعـ» و«عـ»
و«ـع») .وسننصطلح عىل تسمية أشكال احلروف املختلفة حسب موضعها
بـ»املحارف» (.)Character-Shapes
استعامل النَّ ْقط لتمييز بعض احلروف املتشاهبة يف أصلها ،ومعرفة مواضع النُّ َقط
من احلروف وأعدادها .ويزيد األمر تعقيدا يف الكتابة اليدوية ،حيث قد ُيتساهل
برسمها قبيل أو بعيد احلرف وبتنوع زائد يف أشكاهلا بناء عىل اخلط الذي خيتاره
الكاتب (الحظ النقط يف شكل .)4
التشكيل وهو اختياري ،مما جيعل للكلمة الواحدة أشكاال كثرية صحيحة ،مما
قد يعقد عمل املتعرفات خاصة مع تشابه بعض النقط مع بعض التشكيل حجام
وموضعا ورسام.
إمكان الرتاكب الرأيس لكثري من احلروف العربية املتجاورة عوضا عن التوايل
األفقي [.]9
شكل ( :)4كلمة «ثم» (أ) بدون تشكيل وال تراكب و(ب) بتشكيلني و(جـ) بالرتاكب الرأيس
والنقط املتصل.
إنفصال رسم الكلامت عند ورود حروف ال تتصل بام بعدها (أي حروف
األلف والدال والذال والراء والزاي والواو ومهموزاهتا وممدوداهتا) أثناء
الكلمة ،فال الكلامت تأيت دائام متصلة وال احلروف تكون كلها منفصلة .ومن
ذلك أيضا االنفصال عند ورود اهلمزة املتطرفة عىل السطر بعد حرف ساكن كام
«دفء» ،و«يشء» ،إذا متنع قواعد اإلمالء اتصال احلرف قبل األخري هبا وإن
يف ْ
كان يف أصله يتصل بام بعده.
-19-
كثرة أشكال الكلامت العربية (إذا ما عرفت الكلمة بأهنا ما يفصل باملسافات
وعالمات الرتقيم) بسبب اللواصق السابقة (مثل «باء اجلر» ،و«الم التعريف»
التي تتصل بأول الكلمة أو مثل «واو العطف» و«ألف االستفهام» التي قد ترد
يف أوائل الكلامت لكن دون اتصال) واللواصق الالحقة (مثل «تاء التأنيث»
و«واو اجلامعة») والدواخل (كام يف مجوع التكسري) .فمثال ،كلمة «باب» يف
اللغة اإلنجليزية هي ( .)doorوهي نفسها تظهر يف عبارة (“)”and the door
بينام تظهر خمتلفة بسبب السوابق امللتصقة هبا يف عبارة («والباب») [.]10
ولكن يف املقابل ،فاللغة العربية تتمتع بخاصية قد تسهل قراءهتا (والتعرف عليها
آليا) ،وهي أن لوصل احلروف وفصلها قواعد ال جيوز احليد عنها ال طباعة وال خطا،
وهذا بخالف الكتابة الالتينية املعارصة -مثال -حيث ال يمكننا التنبؤ بام سيصله
الكاتب من حروفها وما لن يصله ،وهو مما قد يزيد التعرف عىل تلك الكتابات غموضا
وصعوبة عن العربية ،وهو ما توضحه أمثلة شكل .5
شكل ( :)٥مثاالن يوضحان (أ) توحد طرق اتصال احلروف يف الكلمة العربية و(ب) واختالفها يف
احلروف الالتينية [.]4[]11
ولعل هذا ما حدا ببعض الباحثني الغربيني ألن يقول :إن العربية أسهل وأوضح
اللغات يف العامل ،ومهام اقرتحت تسهيلها وتوضيحها مل يمكن ذلك .ولو استلمت أي
رسالة -مهام كانت مسطورة بخط يسء -فلن تواجه صعوبة يف قراءهتا [.]24
ونختم مقدمة الباب بذكر ترتيب فصوله الباقية ،حيث يتناول الفصل الثاين عمليات
فيفصل الطرق املختلفة هليكلة
التعرف اآليل عىل الكتابة -عموما .-أما الفصل الثالثّ ،
عمليتي تقطيع النصوص مع التعرف عليها ،فيام ُيصص الفصل الرابع للتعريف
-20-
بأشهر جتميعات الكتابة اليدوية العربية التي تستعمل يف اختبار املتعرفات اآللية وتقرير
نتائجها واملقارنة عربها بني نتائج أهم أبحاث املجال .بعدمها نتمم فائدة الباب بفصل
يرسد أهم أوعية النرش املعتمدة يف املجال ،ثم نختم الباب بخالصته فمراجعه.
-21-
عنرص صوري (عادة ما نرمز هلام بالصفر والواحد) ليمثل أحدمها ما يظهر داكنا
كاحلرب ويمثل اآلخر ما يظهر فاحتا كخلفية الصفحة.
وثمة العديد من تقنيات حتويل الصور إىل ثنائية ،حيدد يف بعضها لون العنرص (أبيض
بعضها بموجب
أم أسود) من قيمته هو فقط حسب حد فاصل (ثابت أو متأقلم) وحيدَّ د ُ
قيمة العنرص الصوري املراد تثنيته وقيم ما جياوره من عنارص صورية أيضا.
تصحيح انحراف الكتابة (سواء أحدث االنحراف عند الكتابة أو عند حتويل
الصفحة إىل صورة إلكرتونية) يوضحه شكل .6وتبدأ عملية تصحيح االنحراف
دور النص يف االجتاه املعاكس النحرافه
عادة بتقدير درجة االنحراف ،قبل أن ُي َّ
وبزاوية مساوية لزاوية االنحراف .ولتقدير زاوية االنحراف ،كثريا ما تستخدم
تقنيات مبنية عىل حساب اإلسقاطات (( )Projectionsأي جمموع العنارص ٌ
الصورية الغامقة يف كل من أعمدة أو أسطر الصورة) ،أو «حتليل املكونات
الرئيسية» ( )Principal Component Analysisأو هيكلة النصوص (Text
،)Skeletonizationأو حتليل الكونتورات املحيطة باحلروف والنصوص
( )Contoursأو حتويل هف ( )Hough Transformationلتحديد القطع
املستقيمة .شكل 6وشكل 7تعرض أمثلة صورية إليضاح بعض هذه التقنيات
املساندة لتصحيح انحراف الكتابة واستخراج املالمح ومعاجلة الصورة.
(ب) (أ)
شكل ( :)6حتويل هف (أ) قبل و(ب) بعد تطبيقه عىل نص التيني [ ]17وعريب [.]18
-22-
شكل ( :)7كتابة بخط اليد (أ) قبل و(ب) بعد هيكلة النصوص [ ]14وحتليل الكونتور [.]15،16
ثمة عملية معاجلة مسبقة أخرى تتعلق بميل أجزاء احلروف الصاعدة والنازلة
عن االجتاه الرأيس ،وذلك أن بعض احلروف قد تظهر يف بعض املواضع مائلة،
إما إلبرازها كام حيدث عند استعامل خاصية اخلط املائل ( )Italicأو بسبب
وضعية اليد عند الكتابة .وعادة ما يراد يف هذه احلالة تعديل زوايا األجزاء
الرأسية إىل زاوية موحدة (غالبا ما تكون الزاوية العامودية) للتخفيف من
االختالفات بني أشكال احلروف يف مواضعها املتعددة .تسمى هذه العملية
بتعديل امليل (.)Slant Correction
(ب) (أ)
شكل ( :)8كلمة «ليان» (أ) قبل تعديل امليل و(ب) بعد تعديل امليل [.]19
وأخريا يمكن السعي لتقليل التباين يف أحجام اخلطوط عرب ما يسمى بضبط
ً
حجم احلروف وتطبيعه ( ،)Size Normalizationمثل سعى بعض الطرق
[ ]20لتوحيد ارتفاعات األجزاء الصاعدة من احلروف وضبط أحجام بقية
احلروف بالتناسب مع ذلك .هذا ،وجيدر التأكيدُ عىل أن وجود -فضال عن
ترتيب -خطوات ما قبل املعاجلة ليس موحدا ،بل متباين من نظام آلخر.
-23-
2.2التقطيع
تقطيع صور النصوص ( )Segmentationعملية هتدف للحصول عىل صور
«مقاطع» أو أجزاء أساسية من النصوص (كاحلرف بالنسبة للكلمة مثال) [ .]21قد
جيري «التقطيع» عىل عدة مستويات ،كتقطيع صور النصوص إىل أسطر ،وتقطيع األسطر
إىل كلامت أو دون-الكلامت («( )Subwordsدون-الكلامت» هو ما يكتب متصال
يف العربية لعدم انتهاء الكلمة وعدم ورود حرف ال يتصل بام بعده ضمنها ،وتسمى
أيضا Pieces of Arabic Wordsأو Connected Componentsيف أحد معنييها).
بل إن عملية حتديد مناطق النصوص يف الصور (- )Text Localizationاملذكورة آنفا
ضمن عمليات املعالجة املسبقة -قد ينظر إليها عىل أهنا من مستويات تقطيع صور
الصفحات لقراءهتا آليا .بيد إن أشهر مستويات التقطيع وأمهها عىل اإلطالق واملراد
بمصطلح «التقطيع» إذا ُأطلق :هو تقطيع صور النصوص إىل حمارفها (Character
)Segmentationحيث إنه -إذا نجح -قد يسهل عمليات التعرف اآليل الالحقة.
يوضح شكل 9باأللوان نتائج التقطيع :إىل أسطر وكلامت ودون-الكلامت واملحارف.
شكل ( :)٩تقطيع صور النصوص إىل (أ) أسطر و(ب) كلامت و(جـ) دون-الكلامت و(د) حمارف [.]23[]22
فصورة النص إذا كانت حتوي عدة أسطر فقد يراد تقسيمها كل سطر عىل حدة .وهذه
اخلطوة قد تزداد صعوبة للفقرات املائلة أو التي يف جوانبها هوامش كام يف الكثري من
املخطوات األثرية [ . ]22لذلك ،قد يتوجب استعامل أساليب أكثر ذكاء يف هذه احلاالت
كي نتمكن من تقطيع األسطر كلها دون دمج مكونات عدة أسطر سويا (Under-
،)Segmentaionودون تقطيع سطر ما إىل عدة أسطر ()Over-Segmentation
ودون توزع مكونات السطر إىل أسطر جماورة ( .)Miss-Segmentationوهذه هي
األنواع الثالثة ألخطاء التقطيع عموما :عدم تقطيع ما حقه التقطيع ،واإلفراط يف
تقطيع ما ليس حقه التقطيع ،واخلطأ يف موضع التقطيع).
-24-
غالبا ما تُقطع األسطر إىل كلامت بناء عىل املسافات البيضاء بينها ،وإن كانت الكلامت
العربية قد توجد يف بعضها فراغات بيضاء أصغر بني أجزائها املتصلة ،مما قد يصعب
تقطيعها .ثمة متعرفات حتاول قراءة الكلامت كليا ( )Holisticبموجب بعض مالحمها
دون اللجوء للتقطيع احلريف الكامل هلا ،وهو كام حيدث عند استنتاج القارئ املتمرس
للكلامت رغم خطأ ترتيب بعض حروفها ،كام يف املثال الذي يف شكل .10
شكل ( :)10نص إنجليزي مقروء رغم خلط ترتيب حروف الكلامت الداخلية.
تتجىل معضلة كمعضلة «البيضة والدجاجة» بني عمليتي تقطيع النص العريب إىل
تعرف عليها ،بينام يصعب حمارفه والتعرف عليه ،إذ يصعب تقطيع املحارف دون ّ
التعرف عىل النصوص دون تقطيعها ملحارفها! لذا ،مل تنجح أكثر أنظمة القراءة اآللية
وتناوبام
ُ املعتمدة عىل تقطيع احلروف ،وظهرت أنظمة تداخل التقطيع مع التعرف
لتحاكي قراءة اإلنسان ،كام ظهرت أنظمة تدعو للتعرف عىل دون-الكلامت العربية.
يطلق مصطلح «اجلزء املتصل» يف سياق التعرف اآليل عىل الكتابة العربية بمعنيني:
ما يشمل النقاط والتشكيل ضمن حمارفه (وهو ُيرادف «دون-الكلامت») ،وأيضا ما
هو جمرد عن النقاط واهلمزات واملدة والتشكيل ،مع جعل النقاط واهلمزات واملدة
والتشكيل أجزاء متصلة مستقلة.
تتنوع أرضب التقطيع قبل التعرف اآليل يف اللغة العربية إىل أنواع ،أمهها :تقطيع
النص إىل حمارف ،وتقطيع النص إىل املكونات املتصلة ،وتقطيع النص إىل كلامت
للتعرف عليها كليا .ويمكن لكل من هذه األرضب التعرف عىل املقاطع دون النقاط
أوال ثم حتديد النتائج بالنقاط ،أو التعرف عليها بالنقاط منذ البداية.
-25-
2.3استخراج املالمح
تلجأ كثري من األنظمة إىل التعبري املخترص واملركز عن الصور املراد التعرف عليها
بأهم مالحمها ( )Featuresوذلك تصغريا حلجم البيانات وترسيعا لوقت املعاجلة من
جانب ،وتركيزا عىل ما هيم القارئ من املحارف وإمهاال ملا ال هيم القراءة كفروقات
اخلطوط الفردية ،من اجلانب اآلخر .ومع أن تصميم واختيار املالمح املناسبة فن سبيل
إتقانه هو كثري من اخلربة والتجارب ويشء من التفكر واإلهلام ،إال أن ثمة اتفاق عىل
اخلصائص العامة للمالمح املناسبة ،أمهها:
أن تتجاهل الفروق يف كتابة احلرف الواحد ( )Intra-Class Variabilityقدر
اإلمكان ،إذ ال بد من اختالف بني الكتّاب يف رسمهم للحرف؛ بل إن الكاتب
نفسه قد خيتلف رسمه للحرف من مرة ألخرى .فامللمح املناسب ّ
يقل تأثره هبذه
الفروقات الفردية.
أن تُظهر الفروق بني احلروف املتعددة ( )Inter-Class Variabilityفيعكس
اختالفات أشكال «السني» و«الشني» و«احلاء» -مثال.-
أال تتأثر املالمح -قدر اإلمكان -بحجم الكتابة وال بقليل من امليل وااللتفاف
فيها ( )Scale and Rotation Invariantوال بيسري التشويش.
اقتُبست كثري من املالمح املستعملة للعربية من أعامل وأبحاث للغات أخرى .ومن
أشهر هذه املالمح :كثافة العنارص الصورية [ ،]31–27وأعداد مرات االنتقال من بياض
لسواد والعكس[ ]29ومالمح التدرج ( ،]8،30[ )gradient featuresومقاييس
التقعرات [ ]29-8،27وترميزات اجتاهات الس ()Chain-Code Directions
[ ]31،32وتوصيفات فورير ( ]33[)Fourrier Descriptorsومرشحات «جابر»
( ]34[ )Gabor filtersواملالمح املعتمدة عىل النسب املئوية لعنارص الصورة []8
ومؤخرا قيم العنارص الصورية مبارشة للتعلم العميق [ .]27-25كام أن للمالمح
مشتقات قد تستعمل أحيانا مع املالمح الرئيسية لزيادة دقة التعرف [.]8،26،28،29
كام قد ُع ّرفت بعض املالمح للرتاكيب العربية أصالة حتلل نقاط النصوص وصواعد
ونوازل احلروف [.]29،35
-26-
2.4التصنيف
عملية التصنيف (ويطلق عليها جمازا «التعرف») هتدف ملعرفة رمز النص من مالحمه
بعد تعلمه من أمثلة .متر املصنفات بمرحلتني عىل األقل :مرحلة التدريب والنمذجة
( ،)Training and Modellingثم مرحلة التعرف والتصنيف الفعيل(Recognition
.)and Classificationكام قد متر بعض املصنفات بمرحلة حتقق ()Validation
لتحسني تدريبها ونمذجتها ،وبمرحلة اختبار ( )Testingلتقرير نسب نجاحها يف
البحوث العلمية واملسابقات.
التدريب
وسمة ( )Labeledبرموز املحارف أو يع َطى املصنف يف مرحلة التدريب أمثل ًة ُم ّ
الكلامت التي يف تلك األمثلة ،وذلك حتى «يتعلم» النظام -بإحدى خوارزميات
التعلم -أن يسم أمثلة مل تعرض عليه حسب مالحمها .ينتج عن مرحلة التدريب «نامذج»
يستعملها املصنف الحقا يف مرحلة التعرف.
التعرف
وهي املقصود النهائي للقارئات اآللية ،والوحيدة التي هتم املستخدم النهائيُ .يعطى
املصنف يف مرحلة التعرف املالمح املراد التعرف عىل نصوصها ،وهذه هي املرحلة
الوحيدة التي ال تستعمل فيها أوسام مسبقة للنصوص.
االختبار
تأيت مرحلة االختبار -بعد أن جيهز املتعرف -لقياس مدى نجاحه ،ف ُيعطى صور
ويتفظ باألوسمة للمقارنة هبا وتقرير نسب النجاح (التعرف املحارف دون أوسمتهاُ ،
تفصل نسب اخلطأ أحيانا إىل أخطاء إدراج ()Insertion Errors الصحيح) واخلطأّ .
وأخطاء إسقاط ( )Deletion Errorsوأخطاء تبديل (ُ .)Substitution Errorsترى
مرحلة االختبار عادة عىل قواعد بيانات مشهورة لتَت َي َّس املقارنة بني البحوث.
قد يعيد البعض استخدام جزء من صور التدريب يف االختبار ،بينام حيبذ آخرون
الفصل التام بني أمثلة التدريب وأمثلة االختبار للتقليل من احتاملية «احلفظ اجلامد»
دون تعلم ( .)Overfittingوقد ترجح هذه الطريقة أو تلك حسب حجم البيانات
املتوفرة ،وحسب اهلدف من التعرف (هل هو حمدود بخطوط كتّاب مع ّينني أو عام).
-27-
وبينام ال بد أن تشمل صور التدريب املوسومة مجيع أنواع املحارف وأشكاهلا ،ال يشرتط
ذلك لصور االختبار (وإن كان قد يفضل) .وخيتلف الباحثون يف نسب ما خيصصون من
البيانات للتدريب واالختبار ،وينصح أن تكون تلك النسب قريبة من %60للتدريب
و %40لالختبار [.]3
التحقق
نستطيع توضيح مفهوم التحقق بموجب مرحلة االختبار :فالتحقق ما هو إال
«اختبار جتريبي» هيدف لتاليف مواضع الضعف وحتسني أداء املصنف بناء عىل نتائج
مؤقتة ال ُيدف لنرشها .يساعد التحقق الصحيح يف جتنب بعض املحاذير مثل «احلفظ
اجلامد» (حيث ُي ِ
فرط املصنف يف «قولبة» الفروقات والتشاهبات التي مثلتها له مالمح
أمثلة التدريب) فينكشف ذلك عندما تعطى له أمثلة التحقق ،مما يسمح بتدارك األمر
وإعادة النمذجة .وخالفا ملرحلة االختبار ،فإن مرحلة التحقق يمكن أن تكرر مرارا.
2.5املعاجلة الالحقة
قد يستعان يف اخلطوات األخرية للتعرف اآليل بمعاجم ( )Lexiconsوقواعد
لغوية ( )Linguistic Rulesملا تقبله اللغة أو ترفضه ،أو بنامذج إحصائية (Statistical
)Modelsللشائع لغويا كـ»الورودات األقرب» ( ،)N-Gramsلرتجيح أو استبعاد
نتائج التعرف ،ال سيام عندما تكون الكلامت املراد التعرف عليها حمصورة يف جمال حمدد
كالطب أو اهلندسة أو أسامء مدن (.)Domain-Specific
-28-
وأكثر ما قد تنجع فيه هذه الطريقة للمطبوع من النصوص ،ال سيام إذا كان بخطوط
صممت خصيصا لذلك ،كاخلطوط التي تعطي مجيع املحارف نفس العرض أو التي
ترتك فراغا صغريا بني املحارف [.]24
عالوة عىل ذلك ،يتجه الكثري من الباحثني حلذف النقط واهلمزات واملدة من صور
النصوص ليشمل الرسم الواحد أكثر من كلمة ،فتدخل حتت صنف «كتب» عندئذ
كلامت مثل (ك ْثب ،كنب ،كبت ،كئب).
-29-
3.3التعرف الذي يتخلله تقطيع ضمني
التقطيع القائم عىل التعرف ،أو التقطيع الداخيل ( )Internal Segmentationأو
الضمني ( ،)Implicit Segmentationيستند إىل خوارزميات تقرتح أثناء التعرف
مواضع أولية البتداء وانتهاء املحارف ،ثم تكرر حماوالت التعرف إىل احلصول عىل
نتائج جيدة إحصائيا أو لغويا .شكل 14يوضح معامرية التقطيع القائم عىل التعرف.
ويمكن التجوز واعتبار أن التعرف الضمني جيعل التقطيع والتعرف حيدثان معا يف
نفس الوقت ،كأشبه ما يكون بقراءة اإلنسان.
وقد أخرنا الكالم عن هذا النوع ألمهيته حتى نتمكن من االستفاضة بطريقتي
«نامذج ماركوف اخلفية» وتقنيات «التعلم العميق» العاملتني بالتقطيع الضمني.
-30-
املالمح األشهر استعامال مع متعرفات نامذج ماركوف اخلفية
عادة ما تلجأ أنظمة التعرف القائمة عىل نامذج ماركوف اخلفية -بعد عمليات املعاجلة
املسبقة -إىل حساب املالمح عرب ما يعرف «بـالنافذة املنزلقة» ()Sliding Window
[]43-30،41؛ حيث حيدد جزء له نفس ارتفاع صورة السطر املراد التعرف عىل حمتواه
النيص بعرض مقارب لذلك االرتفاع ،فتحسب املالمح ذلك اجلزء من الصورة والذي
يعرف باسم «النافذة» .تُزلق النافذة (تزاح) من أول السطر (يمينه) حتى آخره (يساره)
وتكرر عملية حساب املالمح مع كل موضع من مواضع النافذة.
ثمة أسلوبان مشهوران إلزاحة النوافذ املنزلقة ،أحدمها :إزاحتها بمقدار عرض النافذة
بحيث ال حيصل تداخل بني مواضع النوافذ [ ،]27واآلخر :إزاحتها بعرض أقل من ذلك
فيحصل تداخل جزئي بني النوافذ [ ]30،43،44كام هو مبني يف شكل .]18[ 15
مواضع
نافذة حالية نوافذ سابقة
منطقة تداخل
شكل ( :)١٥النافذة املنزلقة ويرى فيها تداخل بني النافذة احلالية (املستطيل األخري) وبعض السابقة
(املستطيالت املنقطة) [.]18
عادة ما تكون النوافذ املنزلقة ذات عرض ثابت ،بيد إن بعض التجارب ُأجريت
جلعل عرض النافذة يتغري اعتامدا عىل خصائص الصورة -كأبعاد القيعان التي بينها قمم
يف إسقاطات عنارصها الصورية الرأسية ( -)Vertical Projectionوقد وجد هؤالء
الباحثون حتسنا يف النتائج جراء ذلك [ .]12كام أن ثمة جتارب استحدثت نوافذ منزلقة
مائلة (يمينا ويسارا) استعملت مع نامذج ماركوف اخلفية [ .]29،45وأخريا ،فعلينا أن
ننوه إىل عدة أبحاث سعت الستعامل نامذج ماركوف اخلفية جمردة عن أسلوب النوافذ
املنزلقة بالكلية [.]46،47
-31-
وحدات التعرف األشهر يف نامذج ماركوف اخلفية
أكثر نامذج ماركوف اخلفية تستهدف املحارف [ ]12،29،30،41،48ال احلروف
[ ]46وهذا -كام أسلفنا -ألن احلرف العريب له أكثر من شكل بحسب اتصاله بام
قبله وما بعده مما يصعب نمذجتها كلها بسلسلة موحدة؛ فأكثر املحارف استعامال
أشكال احلرف حسب املوضع («الشكل املنفصل» ،و«الشكل االبتدائي» ،و«الشكل
خيل من مساع لتجريب حمارف أخرى املتوسط» ،و«الشكل النهائي») ،ولكن األمر مل ُ
كنمذجة األجزاء الرئيسة واملكملة من احلروف إىل حمارف [ ،]47ونمذجة األجزاء
التي تشرتك فيها عدة حمارف [ ،]49،50ونمذجة حرفني أو عدة حروف معا (كام يف
سعينا لنمذجة املرتاكبات األشهر ملحرفني فأكثر معا [ .)]51وقد وجدت أيضا مسا ٍع
لنمذجة املحارف وأجزاء الكلامت جمردة من النقط واهلمزات والتشكيل ،ونمذجة تلك
النقاط واهلمزات والتشكيل عىل حدة [ ،]52وأخرى لنمذجة الفراغات البيضاء (بني
الكلامت) أو البينية (التي تقع بني أجزاء الكلمة املنفصلة) [ ]25،29بسالسل مستقلة.
(ب) (أ)
-32-
اخلوارزميات األشهر لتدريب نامذج ماركوف اخلفية
بعد نمذجة املحارف ،يكثر استعامل خوارزمية فيترييب ( ،)Viterbiوالتي
ظهرت ألول مرة يف منتصف الستينيات من القرن املايض ،لتحديد التسلسل األمثل
لنامذج ماركوف اعتامدا عىل الربجمة الديناميكية ()Dynamic Programming
[.]12،41،4،53،54
ولتحديد احتامالت االنتقال األنسب بني النامذج ،فكثريا ما تُستعمل خوارزمية
تدريب تعرف هي األخرى باسم خمرتعيها ،باوم وويلتش ()Baum-Weltch
[ .]8،30،32،43،46،55وللمزيد ،يمكن الرجوع لبحث « تقنيات التعرف اآليل
عىل الكالم املنطوق وتطبيقاهتا يف القرآن الكريم-واقع وطموح» يف كتابنا السابق
«احلرف العريب والتقنية» [.]56
النمذجة اللغوية
قد يستعان بعد التصنيف بنوع آخر من النامذج لرتجيح كفة املقبول والشائع
احتامليا ولغويا من الكلامت ،وهذه تسمى بالنامذج اللغوية .ونامذج ماركوف اخلفية
تتيح استعامل النامذج اللغوية (وخاصة «الورودات السابقة» )n-gramsبسالسة.
فقد استعملت هذه النامذج عىل مستوى احلرف واملحرف إىل 4ورودات سابقة
بعدما حسبت من «مدونات لغوية» حوت عرشات املاليني من الكلامت [.]57، 8
كام قد تستعمل أيضا أجزاء-الكلامت للنمذجة اللغوية [ ]58ضمن تنويعات أخرى
لوحدات النمذجة اللغوية.
-33-
املدى الطويلة ( Long Short-Term Memoryأو ،)LSTMتصبح ماهرة يف التقاط
السياقات املشرتكة -وإن تباعد ورودها ،-وهو ما جيعلها مفيدة يف جمال التعرف عىل
النصوص دون التقطيع املسبق [.]59
لذا ،فقد فتحت هذه التقنيات احلديثة الباب للتعرف عىل النصوص العربية املكتوبة
بالتقطيع الضمني كام يف [ .]26،59،64فالشبكات العصبية التكرارية للتعرف اآليل
عىل النصوص دون تقطيع يمكن أن تستخدم عىل النهج الذي قدمه Gravesو
Schmidhuberثم عاد فطوره Gravesالحقا ،بحيث تعالج العنارص الصورية يف
شبكات عصبية تكرارية متعددة األبعاد (Multi-Dimensional Recurrent Neural
Networkأو MDRNNاختصارا).
-34-
عليها مرحلة االختبار .لذا ،فقد أفردنا الفصل التايل للتعريف بأشهر قواعد بيانات
الكتابة العربية اليدوية التي تستعمل يف تدريب واختبار وتقرير نتائج املتعرفات اآللية
يف البحوث العلمية.
-4مقارنات لبعض أشهر أنظمة التعرف اآليل عىل النصوص العربية املكتوبة
بخط اليد
قبل املقارنة بني النتائج املنشورة ألي متعرفات ،جيدر بنا التعرف عىل قواعد البيانات
التي ُترى اختبارات كفاءة املتعرفات اآللية عليها .وفيام ييل ،نذكر أشهر هذه القواعد
مع ُن َب ٍذ عنها ،ثم بعد ذلك ،نقدم جداول ألشهر أنظمة التعرف اآليل عىل النصوص
املكتوبة بخط اليد ،مع إيراد نسب اخلطأ فيها ،واإلشارة إىل خصائصها وقواعد البيانات
التي ُقررت نتائجها عليها.
-35-
4.1.3قاعدة بيانات النص العريب املكتوب بخط اليد
تتضمن قاعدة بيانات النص العريب املكتوب بخط اليد (Database for Arabic
Handwritten textأو )AHDBالكلامت املستخدمة يف كتابة املبالغ عىل السندات
املرصفية كام اشتملت أيضا بعض صفحات الكتابة احلرة بخط 100كاتب [.]68
4.1.7قواعد بيانات مرشوع حتليل وترمجة وتصنيف املستندات متعددة اللغات آليا
مرشوع حتليل وترمجة وتصنيف املستندات متعددة اللغات آليا (Multilingual
Automatic Document Classification. Analysis and Translationأو
)MADCATترعاه الوكالة األمريكية ملشاريع األبحاث املتقدمة ( )DARPAهبدف
دعم اجليش األمريكي بقدرات عىل القراءة والرتمجة اآللية من عدة لغات ،من أمهها
ٍ
تدريب مكتوبة بخط اليد، نصوص
َ العربية [ .]71أنتج املرشوع يف مراحله األوىل
حيث تعاونت الوكالة مع احتاد البيانات اللغوية ( Linguistic Data Consortiumأو
)LDCإلنشاء قاعدة البيانات التي حوت 9693صفحة مكتوبة بخط اليد ،شملت
وثائق عربية أصلية (ر ّمزت وق ّطعت إىل أسطر ،ومسحت ضوئ ًيا بدقة 600نقطة يف
البوصة ،ووسمت أجزاؤها ،وترمجت نصوصها إىل اإلنجليزية).
-36-
مصادر الوثائق حوت -يف الغالب -من األخبار واملدونات اإللكرتونية .وقد
أقيمت مؤخرا مسابقات ( ]72[ )NIST-OpenHaRTللتعرف عىل أسطر نصية ،وقد
أتيحت جزئيا لبعض الباحثني ،ولكن ما تزال أكثر توزيعاهتا وأساليب مقارنة النتائج
رسية فيها [.]64،72،73
-37-
4.1.10جدول قواعد بيانات الكتابة العربية اليدوية
نلخص يف اجلدول أدناه وصف وعدد كتاب بعض قواعد البيانات املذكورة آنفا.
جدول ( :)١ملخص بعض قواعد بيانات الكتابة العربية.
وبعد تعرفنا عىل بيانات االختبار نستطيع تقديم مقارنات ألنظمة التعرف اآليل
عىل الكتابة اليدوية العربية األبرز يف البحوث العلمية ،وتقارير نتائجها حسب قواعد
البيانات التي اختُربت عليها.
-38-
4.2مقارنة أهم بحوث املجال
نلخص هنا أهم البحوث املنشورة يف جمال التعرف اآليل عىل النص العريب املكتوب
بخط اليد .وسنقسم مناقشتنا إىل ثالث جمموعات :األوىل ألهم بحوث التعرف عىل
األعداد واملحارف املنعزلة ،والتعرف الكيل عىل أجزاء الكلامت العربية ،وحماوالت
مبكرة للتعرف عىل الكلامت كليا أو التعرف القائم عىل التقطيع الرصيح .واملجموعة
الثانية ألهم البحوث التي اعتمدت يف تدريبها وتقييمها عىل قاعدة ]74[ IFN/ENIT
وذلك ملا تتسم به هذه القاعدة من أمهية وشعبية من جانب ،وألهنا حمدودة الكلامت ،مما
يمكن من التعامل معها بأسلوب خاص .واملجموعة الثالثة ألهم بحوث التعرف اآليل
عىل الصور النصية التي حتوي عدة كلامت ذات اخلصائص اللغوية املفتوحة (ليست
كلامت حمدودة كام يف قاعدة .)IFN/ENIT
-39-
وأما التعرف عىل الكلامت العربية -كليا أو بيشء من التقطيع -فال تكاد تنجح إال
عندما يكون جمال املفردات الكيل هلذه الكلامت حمدو ًدا ،كام يف مهام التعرف عىل أسامء
مدن أو قيم مكتوبة خطيا.
نعرض يف جدول 2بعض املساعي للتعرف عىل عىل األعداد ،واملحارف ،والكلامت،
وأجزاء الكلامت العربية املتصلة دون تقطيع يذكر.
جدول ( :)2بحوث يف التعرف عىل األعداد ،واملحارف ،والكلامت ،وأجزاء الكلامت العربية املتصلة.
-40-
سامت النظام هدف
قاعدة البيانات نتائج التعرف مرجع النظام
املخترصة النظام
تم استعامل صور أعداد نسبة اخلطأ التعرف Mahmoud
3أنواع من من قاعدة يف التصنيف عىل and Al-
املصنفات: CENPARMI %1.05عند األعداد Khateeb
-نامذج للشيكات العربية: استخدام (منفصلة) ]2010 [82
ماركوف 7.390-صورة مصنف SVM
اخلفية للتدريب نسبة اخلطأ
يف التصنيف
HMMs 3.035-صورة
%2.79عند
-آالت للتقييم
استخدم نامذج
متجهات
ماركوف اخلفية
الدعم SVM
نسبة اخلطأ
-اجلريان يف التصنيف
األقرب %1.25عند
k-NN
استخدام اجلار\
تم استخدام اجلريان األقرب
مالمح k-NN
مأخوذة من
مرشح «جابر»
اللوغاريمي
()Log Gabor
بمقاييس
وتوجهات
املختلفة
-41-
سامت النظام هدف
قاعدة البيانات نتائج التعرف مرجع النظام
املخترصة النظام
·نامذج ماركوف صور أجزاء كلامت نسبة اخلطأ يف التعرف Cheriet et
اخلفية املنفصلة معزولة من قاعدة التعرف عىل عىل al. 2007
-42-
سامت النظام هدف
قاعدة البيانات نتائج التعرف مرجع النظام
املخترصة النظام
نامذج ماركوف 4.700كلمة نسبة اخلطأ Alma’deedالتعرف
اخلفية املنفصلة مكتوبة بخط 100 التقريبية et al. 2002عىل
-سلسلة لكل كاتب للكلامت: الكلامت ][84
كلمة -عدد الكلامت ،%40تم كليا
املختلفة 47 استدراكها إىل
-أوائل املرحل
%31باملعاجلة
تصنف -ثلثان للتدريب
الالحقة
الكلامت إىل وثلث للتقييم
جمموعات
أولية
عدة نظم 4.800كلمة نسبة اخلطأ التعرف Farah et al.
تصنيف جتمع مكتوبة بخط 100 التقريبية عىل ]2006 [85
نتائجها إلصدار كاتب للكلامت%6 : الكلامت
احلكم النهائي: -عدد الكلامت كليا
-شبكات املختلفة 48
عصبية 1.200-
اصطناعية، للتدريب
-اجلريان 3.600-للتقييم
األقرب
-اجلريان
األقرب
الضبابية
املالمح هيكلية:
كصواعد
الكلامت
ونوازهلا
وحلقاهتا املغلقة
-43-
4.2.2أهم بحوث التعرف عىل قاعدة بياناتIFN/ENIT
يقدم جدول 3بيانات ألهم البحوث التي اعتمدت قاعدة بيانات .IFN/ENIT
ونالحظ أن استخدام املصنفات املستندة إىل نامذج ماركوف اخلفية HMMهي النهج
السائد هلذه الفئة .بجانب التحديات التقليدية للمعاجلة املسبقة ،وتطوير املالمح،
واالستخدام الفعال للمصنفات؛ جيب أن يقرر املتعامل مع كلامت قاعدة بيانات IFN/
ENITوحدات النمذجة التي سيعمل عليها (األحرف أو املحارف أو أجزاء املحارف،
أو الكلامت ،أو أجزاء الكلامت).
جدول ( :)٣بعض أهم بحوث التعرف عىل كلامت قاعدة بيانات .IFN/ENI
أجزاء القاعدة
نسبة اخلطأ
سامت النظام املستعملة
مالحظات يف التعرف مرجع النظام
املخترصة للتدريب-
الكلمي
والتقييم
نظام هجني من: Menasri et
-نامذج ماركوف ]al. 2007 [47
اخلفية
-والشبكات
12.6 abc–d
العصبية
االصطناعية
مبني عىل التقطيع
الرصيح
نامذج ماركوف اخلفية Benouareth
شبه-املتصلة et al. 2008
-سلسلة بعدد ثابت 9.80 abc–d ][12
من املراحل لكل
حمرف
النظام الفائز يف ثالث نامذج ماركوف 12.78 abcde–f Schambach
ICDAR2007 للتعرف عىل املحارف et al. 2008
][76 26.06 abcde–s ][44
-44-
أجزاء القاعدة
نسبة اخلطأ
سامت النظام املستعملة
مالحظات يف التعرف مرجع النظام
املخترصة للتدريب-
الكلمي
والتقييم
أصحاب النظام عدة نامذج ماركوف Al-Hajj et al.
الفائز آنفا يف متصلة للتعرف عىل ]2009 [29
ICDAR2005 املحارف والفراغات
][75
البيضاء 9.04 abc–d
تنفيذ فكرة النوافذ
املنزلقة املائلة إضافة
إىل العادية
·نامذج ماركوف 5.82 abc-d Dreuw et
متصلة للتعرف عىل al. 2008 and
املحارف والفراغات ]2009 [25][53
البيضاء
·متت االستعانة
بتحويرات صورية
لزيادة تنوع صور
التدريب
·إمكانية التأقلم عىل
خط معني متاحة
·املالمح مبنية عىل
11.22 abcd-e
رشائح الصور
·استخدام خوارزمية
«حتليل املكونات
الرئيسية» (Principal
component
))analysis (PCA
لتقليل عدد املالمح
-45-
أجزاء القاعدة
نسبة اخلطأ
سامت النظام املستعملة
مالحظات يف التعرف مرجع النظام
املخترصة للتدريب-
الكلمي
والتقييم
نامذج ماركوف 20.4 abcd–e Kessentini et
متعددة الروافد 17.91 abcde–f ]al. 2010 [31
مالمح كنتورية ومن
العنارص الصورية
كل ملمح يعرب يف 25.49 abcde–s
رافد مستقل
صاحب النظام الفائز شبكة عصبية متكررة 6.63 abcde–f 2012 Graves
يف مسابقة ICDAR (نواة تعلم عميق) ][60
·بنية ثنائية للذاكرة
]2009 [87
قصرية املدى طويلة 18.94 abcde–s
مالمح من العنارص
الصورية
-46-
أجزاء القاعدة
نسبة اخلطأ
سامت النظام املستعملة
مالحظات يف التعرف مرجع النظام
املخترصة للتدريب-
الكلمي
والتقييم
نظام هيكيل التدريب عىل Parvez and
مصنف اجلار األقرب حروف مقطعة
Mahmoud
املحارف ممثلة عرب ليست من
20.42 IFN/ENIT ]2013 [88
مقاربة املضلعات
الضبابية والتقييم عىل
abcd–e
عدة نامذج ماركوف 2.3 abc–d Azeem and
متصلة للتعرف عىل 6.56 abcd–e Ahmed 2013
املحارف والفراغات ][30
البيضاء بعد تطبيعه 6.9 abcde–f
عرضها
مالمح التدرج
والتقعر
إعادة تنفيذ فكرة 15.2 abcde–s
النوافذ املنزلقة املائلة
إضافة إىل العادية
][29
أصحاب النظام نامذج ماركوف اخلفية 4.7 abc–d Giménez et
الفائز ] [89يف البرينولية 6.1 abcd–e ]al. 2014 [90
ICFHR2010 املالمح :العنارص
][78 الصورية الثنائية 7.80 abcde–f
15.38 abcde–s
شبكة عصبية متكررة 1.04 abc–d Abandah et
(نواة تعلم عميق) 6.54 abcd–e ]al. 2014 [61
بنية ثنائية للذاكرة
قصرية املدى طويلة 7.54 abcde–f
تقطيع رصيح
عدة مالمح متنوعة 15.20 abcde–s
-47-
أجزاء القاعدة
نسبة اخلطأ
سامت النظام املستعملة
مالحظات يف التعرف مرجع النظام
املخترصة للتدريب-
الكلمي
والتقييم
عرضوا النظام الفائز شبكة عصبية متكررة 7.80 abcde–f Hamdani et
يف ICFHR مع نامذج ماركوف ]al. 2014 [79
اخلفية املتصلة ][26
[79] 2011
املالمح تضمنت
العنارص الصورية
الرمادية
·استخدام «حتليل
املكونات الرئيسية» 15.45 abcde–s
) )PCAلتقليل عدد
املالمح
·تم استخدام
خوارزمية Viterbi
جزئيا
نامذج ماركوف 2.44 abc–d Ahmad et al.
اخلفية املتصلة متعددة 5.55 abcd–e 2013. 2014
الروافد ][49،50
نامذج ألبعاض 6.40 abcde–f
املحارف (حتت-
املحرف أو sub-
)characters
12.14 abcde–s
وللفراغات البيضاء
وللتطويل بني
احلروف
نامذج ماركوف 1.92 abc–d Ahmad and
اخلفية املتصلة متعددة 5.07 abcd–e ]Fink [52
الروافد
فصل الكتابة عن 7.70 abcde–f
النقط والتشكيل 15.45 abcde–s
-48-
أجزاء القاعدة
نسبة اخلطأ
سامت النظام املستعملة
مالحظات يف التعرف مرجع النظام
املخترصة للتدريب-
الكلمي
والتقييم
اختلفت النتائج نامذج ماركوف اخلفية تبدأ من Stahlberg
abc–d
باختالف مع التعلم العميق 2.4وتزيد and Vogel
تكوينات املالمح للتدريب تبدأ من ]2015 [42
واسرتاتيجيات تقطيع ضمني abcd–e
6.1وتزيد
التدريب باستخدام نامذج
ماركوف اخلفية هتيئة تبدأ من
abcde–f
للتعلم العميق 6.8وتزيد
املالمح تضمنت
العنارص الصورية
الرمادية
استخدام «حتليل تبدأ من
املكونات الرئيسية» 11.5 abcde–s
( )PCAلتقليل عدد وتزيد
املالمح
أقلمة التدريب خلط
الكاتب املعني
-49-
جدول 4بعض أهم بحوث التعرف عىل الصور التي حتوي عدة كلامت حرة.
نسبة اخلطأ يف
سامت النظام املخترصة قاعدة البيانات املستعملة مرجع النظام
التعرف الكلمي
سالسل ماركوف املتصلة قاعدة مرشوع حتليل %30.0 Saleem et
العديد من املالمح ،وتم وترمجة وتصنيف al. 2009
تقليص عددها آليا املستندات متعددة اللغات ][91
اهلدف :التعرف عىل آليا لألحرف ،وتشمل:
املحارف ومن ثم 8.250وثيقة للتدريب
الكلامت 218وثيقة للتطوير
استخدمت نامذج لغوية 224وثيقة للتقيني
مداها 3أحرف قدرت
من مدونة نصية قوامها
90مليون كلمة عربية
( 92ألف كلمة بحذف
التكرار)
سالسل ماركوف املتصلة قاعدة «مرشوع حتليل %25.2 Natarajan
العديد من املالمح ،وتم وترمجة وتصنيف et al. 2012
تقليص عددها آليا املستندات متعددة اللغات ][8
اهلدف :التعرف عىل آليا» لألحرف ،وتشمل:
املحارف ومن ثم 37.608وثيقة
الكلامت للتدريب
إمكانية التأقلم عىل خط 868وثيقة للتطوير
كاتب معني 885وثيقة للتقييم
استخدمت نامذج لغوية
مداها 3أحرف قدرت
من مدونة نصية قوامها
217مليون كلمة عربية
( 120ألف كلمة بحذف
التكرار)
-50-
نسبة اخلطأ يف
سامت النظام املخترصة قاعدة البيانات املستعملة مرجع النظام
التعرف الكلمي
سالسل ماركوف املتصلة مرشوع حتليل وترمجة %34.1 Hamdani et
املالمح تضمنت العنارص وتصنيف املستندات للتعرف املقيد al. 2013
الصورية الرمادية متعددة اللغات آليا عىل 90ألف ][92
«حتليل املكونات كلمة بدون
42ألف صفحة
الرئيسية» ( )PCAلتقليل التكرار
للتدريب
عدد املالمح %25.9
و 470صفحة للتطوير
يستخدم التعرف املقيد للتعرف بدون
كلامت التدريب كنموذج قيود عىل 200
لغوي بينام يستخدم ألف كلمة بدون
التعرف غري املقيد مدونة التكرار
نصية من مليار كلمة قاعدة بيانات «خط» %32.5
تقريبا للتعرف املقيد
و 9.475سطرا
عىل 15ألف
للتدريب
كلمة بدون
و 1.902سطرا التكرار
للتطوير
و 1.997سطرا للتقييم %26.8
للتعرف بدون
قيود عىل 200
ألف كلمة بدون
التكرار
-51-
نسبة اخلطأ يف
سامت النظام املخترصة قاعدة البيانات املستعملة مرجع النظام
التعرف الكلمي
التعلم العميق (BLSTM قاعدة بيانات مرشوع %26.8 Hamdani et
مع )RNNsجنبا إىل حتليل وترمجة وتصنيف للتعرف املقيد al. 2014
جنب مع سالسل املستندات متعددة اللغات عىل 94ألف ][26
ماركوف املتصلة آليا كلمة بدون
املالمح تضمنت العنارص التكرار
42ألف صفحة
الصورية الرمادية للتدريب %17.0
«حتليل املكونات و 470صفحة للتطوير للتعرف غري
الرئيسية» ) )PCAلتقليل املقيد
عدد املالمح
يستخدم التعرف املقيد
كلامت التدريب كنموذج
لغوي بينام يستخدم
التعرف غري املقيد مدونة
نصية من مليار كلمة
تقريبا
إمكانية التأقلم عىل خط
معني
نظام هجني من التعلم قاعدة بيانات مرشوع %19.9 Hamdani et
العميق ونامذج ماركوف حتليل وترمجة وتصنيف al. 2014
اخلفية املستندات متعددة اللغات ][62
املالمح تضمنت العنارص آليا
الصورية الرمادية 42ألف صفحة
نموذج لغوي من 4 للتدريب
أحرف حمسوب من 400 و 470صفحة للتطوير
ألف كلمة (بدون التكرار
و 633صفحة للتقييم
حمسوبة من مدونة نصية
من مليار كلمة)
-52-
نسبة اخلطأ يف
سامت النظام املخترصة قاعدة البيانات املستعملة مرجع النظام
التعرف الكلمي
سالسل ماركوف املتصلة قاعدة بيانات مرشوع Cao et al.
عدة مالمح من ضمنها حتليل وترمجة وتصنيف ]2014 [34
مرشحات «جابر» املستندات متعددة اللغات
إمكانية التأقلم عىل خط آليا
معني جمموعةNIST %7.4
OpenHaRT 2013
هتجني عدة أنظمة
لتحسني النتائج
املجموعة i %22.1
نظام هجني من التعلم قاعدة بيانات مرشوع 20.1 Bluche et al.
العميق ونامذج ماركوف حتليل وترمجة وتصنيف للتعرف املقيد ]2014 [64
اخلفية للتعرف عىل املستندات متعددة اللغات 18.4
املحارف آليا للتعرف غري
املالمح هي العنارص املقيد
الصورية
يتم التعرف بعد 4
مسوحات من اجلهات
األربعة
التدريب عىل كلامت
منعزلة ثم عىل أسطر
نموذج لغوي من 3
أحرف حمسوب من 60
ألف كلمة
يستخدم التعرف املقيد
كلامت التدريب كنموذج
لغوي بينام يستخدم
التعرف غري املقيد مدونة
نصية من مليار كلمة
تقريبا ()GigaWord
-53-
نسبة اخلطأ يف
سامت النظام املخترصة قاعدة البيانات املستعملة مرجع النظام
التعرف الكلمي
نظام هجني من التعلم قاعدة بيانات مرشوع %29.5 Moysset et
العميق ونامذج ماركوف حتليل وترمجة وتصنيف al. 2014
اخلفية للتعرف عىل املستندات متعددة اللغات ][63
املحارف ،والكلامت، آليا من 9.729منطقة
وأجزاء الكلامت العربية نصية
املالمح هي العنارص 1.835منطقة نصية
الصورية للتدريب
يتم التعرف بعد 4 1.582منطقة نصية
مسوحات من اجلهات للتطوير
األربعة
التدريب بدأ بالكلامت
األدق ثم األقل دقة ثم
بتحويرات صورية عىل
الصور األصلية
تضمن تقطيعا ضمنيا
لألسطر
-54-
نسبة اخلطأ يف
سامت النظام املخترصة قاعدة البيانات املستعملة مرجع النظام
التعرف الكلمي
نظام هجني من التعلم قاعدة بيانات من مرشوع %30.9عند BenZeghiba
العميق ونامذج ماركوف حتليل وترمجة وتصنيف استعامل نامذج 2015 .et al
اخلفية املستندات متعددة اللغات لغوية من 4 ][58
نامذج لغوية ألشهر آليا أحرف ألجزاء
الكلامت ،وأجزاء الكلامت
13.496سطرا
الكلامت العربية للتدريب %33.2عند
1.125سطرا للتطوير استعامل نامذج
2.093سطرا للتقييم لغوية من 3
أحرف للكلامت
وأجزاء الكلامت
قاعدة بيانات خط %31.3عند
استعامل نامذج
4.428سطرا للتدريب
لغوية من 4
876سطرا للتطوير أحرف ألجزاء
959سطرا للتقييم الكلامت
%33.2عند
استعامل نامذج
لغوية من 3
أحرف للكلامت
وأجزاء الكلامت
-55-
نسبة اخلطأ يف
سامت النظام املخترصة قاعدة البيانات املستعملة مرجع النظام
التعرف الكلمي
التعلم العميق ونامذج قاعدة بيانات خط
بني %30.5 Stahlberg
ماركوف اخلفية و%31.6 and Vogel
9.462سطرا للتدريب
املالمح تضمنت العنارص حسب تعديالت ]2015 [42
1.899سطرا للتطوير النظام
الصورية الرمادية
1.996سطرا للتقييم
«حتليل املكونات
الرئيسية» ) )PCAلتقليل
عدد املالمح
إمكانية التأقلم عىل خط
كاتب معني
نموذج لغوي ثالثي
األحرف مستنتج من
بيانات التدريب يف قاعدة
بيانات «خط»
-56-
5.1أهم مؤمترات املجال الدولية
تنبع أمهية حضور املؤمترات املتخصصة والنرش فيها من كوهنا بيئة مكثفة لتالقح
األفكار وفرص النقاش والتعرف عىل أحدث النشاطات وأنشط الباحثني يف املجال.
كام أهنا قد تشكل مسارت نرش رسيعة لألفكار اجلديدة ،حيث ال حتتاج لنفس درجة
التمحيص واإلثباتات التي تشرتطها املجالت .لذا ،فقد ارتأينا إثراء الباب بنبذ عن
بعض أهم املؤمترات التي قد هتتم بمناقشة القراءة اآللية.
-57-
يوفر هذا املؤمتر منصة بارزة ملناقشة وتشجيع وتبادل اآلراء حول أحدث التطورات
يف حتليل املستندات وفهمها واسرتجاعها وتقييمها ،حيث يشمل مصطلح «املستندات»
عندهم أنواعا خمتلفة من الوثائق :ابتداء من أوراق الربدي التارخيية ،ومرورا باملستندات
الورقية ،إىل الصور امللتقطة بالكامريا حتى املستندات احلديثة متعددة الوسائط.
متت املصادقة عىل هذا املؤمتر من قبل اللجنة التقنية العارشة للرابطة الدولية للتعرف
عىل األنامط ( IAPRالتعرف عىل األشكال الرسومية) واللجنة التقنية احلادية عرشة
(أنظمة القراءة) ،وكان املؤمتر قد تأسس منذ ما يقرب من ثالثة عقود ،وهو يقام حاليا
مرة كل عامني .عقد مؤمتر ICDARاألخري عام 2017يف كيوتو باليابان .وسيعقد
القادم عام 2019يف سيدين بأسرتاليا -إن شاء اهلل تعاىل .-يتم نرش بحوث املؤمتر
وإصداراهتم بواسطة معهد مهنديس الكهرباء واإللكرتونيات (.)IEEE
-58-
والتعرف اآليل عليها
ّ 5.1.5الورشة الدولية لتحليل النصوص العربية ومشتقاهتا
والتعرف اآليل عليها
ّ الورشة الدولية لتحليل النصوص العربية ومشتقاهتا
(International Workshop on Arabic and Derived Script Analysis and
Recognitionأو )ASARبوتقة سنوية حديثة -نسبيا -متخصصة يف حتليل النصوص
والتعرف اآليل عليها.
ّ العربية ونصوص اللغات املشتقة من العربية
تنعقد ورشة العمل الثالثة عام 2019بالتزامن مع انعقاد ICDARللعام 2019
يف مدينة سيدين ،أسرتاليا؛ وقد كانت ورشة العمل الثانية عام 2018يف مدينة لندن،
اململكة املتحدة؛ واألوىل (عام )2017يف نانيس ،فرنسا.
وإضافة للمؤمترات وورشات العمل املذكورة ،تنعقد مؤمترات أخرى ربام تكون
ذات صلة ببعض مواضيع التعرف اآليل عىل الكتابة العربية ،مثل املؤمتر الدويل للتعرف
عىل األنامط وذكاء اآللة (International Conference on Pattern Recognition
and Machine Intelligenceأو )PReMIواملؤمتر الدويل لتحليل ومعاجلة الصور
( International Conference on Image Analysis and Processingأو ،)ICIAP
واملؤمتر الدويل لتحليل الصور واألنامط احلاسوبية (International Conference
on Computer Analysis of Images and Patternsأو )CAIPوحلقات العمل
الدولية املشرتكة مع IAPRحول التقنيات اإلحصائية للتعرف عىل األنامط (IAPR
Joint International Workshops on Statistical Techniques in Pattern
Recognitionأو )SPRوكذلك التعرف عىل األنامط اهليكلية والنحوية ( Structural
and Syntactic Pattern Recognitionأو ( .SSPRويمكن االطالع عىل قائمة
املؤمترات املعتمدة من IAPRيف صفحتهم عىل الشبكة العنكبوتية.
-59-
5.2.1املجلة الدولية لتحليل والتعرف عىل املستندات
تركز املجلة الدولية لتحليل والتعرف عىل املستندات (The International Journal
on Document Analysis and Recognitionأو )IJDARعىل نرش املقاالت العلمية
املحكمة املتخصصة يف حتليل الوثائق والتعرف عليها .يتضمن ذلك املسامهات التي
تتناول التعرف عىل املحارف واألرقام والنصوص واخلطوط والرسومات والصور
والكتابة اليدوية والتوقيعات ،باإلضافة إىل جمال حتليل هياكل الوثائق؛ كل ذلك
هبدف فهم حمتواها الداليل آليا .تنرش البحوث املقبوولة يف هذه املجلة بواسطة النارش
.Springer Verlag
-60-
5.2.4رسائل التعرف عىل األنامط
جملة «رسائل التعرف عىل األنامط» ( Pattern Recognition Lettersأو )PRL
املحكّمة تنرش مقاالت موجزة بوقت رسيع (نسبيا) بتغطية واسعة ألدبيات التعرف عىل
األنامط (وخصوصا املواضيع التي هتتم هبا كل من اللجان الفنية ملعهد الرابطة الدولية
للتعرف عىل األنامط) ،تقبل املجلة األوراق البحثية النظرية واملنهجية والتجريبية
والتطبيقية .معايري قبول املقاالت ترتكز يف أصالة البحث وجودته ووضوح طرحه .يتم
نرش املجلة شهر ًيا بواسطة .Elsevier Science B.V
-٦اخلامتة
قطعت القراءة اآللية أشواطا منذ ظهرت ،وما زالت معاجلة الكتابة العربية تتطور
يف هذا املضامر مع أساليب تعلم اآللة احلديثة ،خاصة ما ال يتطلب منها تقطيع الكلامت
فصل
إىل حروف ،كالتعرف الكيل والضمني يف نامذج ماركوف اخلفية والتعلم العميقّ .
هذا الباب يف رشح ومقارنة أحدث بحوث املجال ،ثم ُختم بثبت ألهم مظان املراجع
وأوعية النرش من جمالت ومؤمترات ،نسأل اهلل تعاىل أن ينفع به قارئه وكاتبيه ونارشه.
-61-
املراجع
-62-
Handwritten Text. in: V. Märgner. H. El Abed (Eds.). Guid. to
OCR Arab. Scripts. Springer London. London. 2012: pp. 485-
505. doi:10.1007/978-1-4471-4072-6_20.
[9] Y. Elarian. I. Ahmad. S. Awaida. W. Al-Khatib. A. Zidouri. Arabic
ligatures: Analysis and application in text recognition. in: Proc.
Int. Conf. Doc. Anal. Recognition. ICDAR. 2015. doi:10.1109/
ICDAR.2015.7333891.
[10] Y. Elarian. A Lexicon of Connected Components for Arabic
Optical Text Recognition. Jordan University of Science and
Technology. Irbid. Jordan. 2006.
[11] U. V. Marti. H. Bunke. The IAM-database: An English sentence
database for offline handwriting recognition. Int. J. Doc. Anal.
Recognit. 5 (2003) 39–46. doi:10.1007/s100320200071.
[12] A. Benouareth. A. Ennaji. M. Sellami. Semi-continuous HMMs
with explicit state duration for unconstrained Arabic word
modeling and recognition. Pattern Recognit. Lett. 29 (2008)
1742–1752.
[13] M. Pechwitz. V. Märgner. H. El Abed. Comparison of Two
Different Feature Sets for Offline Recognition of Handwritten
Arabic Words. Proc. Tenth Int. Work. Front. Handwrit. Recognit.
(IWFHR 2006). (2006). https://hal.archives-ouvertes.fr/
inria-00112643/ (accessed February 9. 2016).
[14] G.A. Abandah. F.T. Jamour. Recognizing handwritten Arabic
script through efficient skeleton-based grapheme segmentation
algorithm. in: 2010 10th Int. Conf. Intell. Syst. Des. Appl.. 2010:
pp. 977–982.
[15] A.M. Al-Shatnawi. K. Omar. A comparative study between
methods of Arabic baseline detection. in: Proc. Int. Conf.
Electr. Eng. Informatics. 2009: pp. 73–77. doi:10.1109/
ICEEI.2009.5254814.
-63-
[16] H. El Abed. V. Märgner. Comparison of Different Preprocessing
and Feature Extraction Methods for Offline Recognition of
Handwritten ArabicWords. in: Proc. Ninth Int. Conf. Doc. Anal.
Recognit. (ICDAR 2007). 2007: pp. 974-978. doi:10.1109/
ICDAR.2007.4377060.
[17] Text extraction from skew images opencv. (n.d.). https://
stackoverflow.com/questions/34022113/text-extraction-from-
skew-images-opencv.
[18] H. Akram. S. Khalid. others. Using features of local densities.
statistics and HMM toolkit (HTK) for offline Arabic handwriting
text recognition. J. Electr. Syst. Inf. Technol. 4 (2017) 387–396.
[19] A.M. Al-Shatnawi. A Preprocessing Model For Handwritten
Arabic Texts Based on Voronoi Diagrams. Int. J. Comput. Sci.
Inf. Technol. 7 (2015). doi:10.5121/ijcsit.2015.7601.
[20] M. Wienecke. G.A. Fink. G. Sagerer. Toward automatic video-
based whiteboard reading. Int. J. Doc. Anal. Recognit. 7 (2005)
188–200.
[21] Y. Elarian. Analysis of Some Arabic Scripting Units in
Computational-Linguistic Resources. in: 1st Saudi High. Educ.
Students Conf. Riyadh. 2010.
[22] Y.S. Elarian. S.A. Mahmoud. An Adaptive Line Segmentation
Algorithm (ALSA) for Arabic. in: Proc. Int. Conf. Comput. Vis.
Pattern Recognit.. 2008: pp. 735–739.
[23] Y. Elarian. A. Zidouri. W. Al-Khatib. Ground-Truth and Metric for
the Evaluation of Arabic Handwritten Character Segmentation.
in: 2014 14th Int. Conf. Front. Handwrit. Recognit.. 2014: pp.
766–770.
[24] I.S. Abuhaiba. A discrete Arabic script for better automatic
document understanding. Arab. J. Sci. Eng. 28 (2003) 77–94.
-64-
[25] P. Dreuw. S. Jonas. H. Ney. White-space models for offline
Arabic handwriting recognition. in: Proc. 19th Int. Conf. Pattern
Recognit. (ICPR 2008). 2008: pp. 1–4.
[26] M. Hamdani. P. Doetsch. M. Kozielski. A.E.-D. Mousa. H. Ney.
The RWTH Large Vocabulary Arabic Handwriting Recognition
System. in: Proc. 11th IAPR Int. Work. Doc. Anal. Syst. (DAS
2014). IEEE. 2014: pp. 111–115. doi:10.1109/DAS.2014.61.
[27] H. El Abed. V. Märgner. How to Improve a Handwriting
Recognition System. in: Proc. 10th Int. Conf. Doc. Anal. Recognit.
(ICDAR 2009). IEEE. 2009: pp. 1181-1185. doi:10.1109/
ICDAR.2009.11.
[28] R. El-Hajj. L. Likforman-Sulem. C. Mokbel. Arabic handwriting
recognition using baseline dependant features and hidden markov
modeling. in: Proc. Eighth Int. Conf. Doc. Anal. Recognit.
(ICDAR 2005). 2005: pp. 893–897.
[29] R. Al-Hajj Mohamad. L. Likforman-Sulem. C. Mokbel.
Combining slanted-frame classifiers for improved HMM-based
Arabic handwriting recognition. IEEE Trans. Pattern Anal.
Mach. Intell. 31 (2009) 1165–1177.
[30] S. Azeem. H. Ahmed. Effective technique for the recognition of
offline Arabic handwritten words using hidden Markov models.
Int. J. Doc. Anal. Recognit. 16 (2013) 399–412. doi:10.1007/
s10032-013-0201-8.
[31] Y. Kessentini. T. Paquet. A.M. Ben Hamadou. Off-line
handwritten word recognition using multi-stream hidden Markov
models. Pattern Recognit. Lett. 31 (2010) 60–70.
[32] M. Dehghan. K. Faez. M. Ahmadi. M. Shridhar. Handwritten
Farsi (Arabic) word recognition: a holistic approach using discrete
HMM. Pattern Recognit. 34 (2001) 1057–1065. doi:10.1016/
S0031-3203(00)00051-0.
-65-
[33] R. Safabakhsh. P. Adibi. Nastaaligh handwritten word recognition
using a continuous-density variable-duration HMM. Arab. J. Sci.
Eng. 30 (2005) 95–118.
[34] H. Cao. P. Natarajan. X. Peng. K. Subramanian. D. Belanger. N.
Li. Progress in the Raytheon BBN Arabic Offline Handwriting
Recognition System. in: Proc. Int. Conf. Front. Handwrit.
Recognit. (ICFHR 2014). IEEE. 2014: pp. 555–560. doi:10.1109/
ICFHR.2014.99.
[35] N. Azizi. N. Farah. M. Sellami. A. Ennaji. Using Diversity in
Classifier Set Selection for Arabic Handwritten Recognition. in:
N. Gayar. J. Kittler. F. Roli (Eds.). Proc. 9th Int. Work. Mult.
Classif. Syst.. Springer Berlin Heidelberg. Berlin. Heidelberg.
2010: pp. 235–244. doi:10.1007/978-3-642-12127-2_24.
[36] B. Yanikoglu. P.A. Sandon. Segmentation of off-line cursive
handwriting using linear programming. Pattern Recognit. 31
(1998) 1825–1833.
[37] Y. Elarian. F. Idris. A Lexicon of Connected Components for
Arabic Optical Character Recognition. in: Int. Work. Front.
Arab. Handwrit. Recognition. Istanbul. 2011.
[38] S. Alansary. M. Nagi. N. Adly. Processing Arabic Text Content:
The Encoding Component in an Interlingual System for Man-
Machine Communication in Natural Language”. in: Proc. 6th
Int. Conf. Lang. Eng.. 2006.
[39] S.A. Mahmoud. Recognition of writer-independent off-line
handwritten Arabic (Indian) numerals using hidden Markov
models. Signal Processing. 88 (2008) 844–857.
[40] S.M. Awaida. S.A. Mahmoud. A multiple feature/resolution
scheme to Arabic (Indian) numerals recognition using hidden
Markov models. Signal Processing. 89 (2009) 1176–1184.
-66-
[41] M. Pechwitz. H. El Abed. V. Märgner. Handwritten Arabic Word
Recognition Using the IFN/ENIT-database. in: V. Märgner. H.
El Abed (Eds.). Guid. to OCR Arab. Scripts. Springer London.
2012: pp. 297-313. doi:10.1007/978-1-4471-4072-6{_}8.
[42] F. Stahlberg. S. Vogel. The QCRI Recognition System for
Handwritten Arabic. in: V. Murino. E. Puppo (Eds.). Proc.
18th Int. Conf. Image Anal. Process. (ICIAP 2015). Springer
International Publishing. Genoa. Italy. 2015: pp. 276–286.
doi:10.1007/978-3-319-23234-8_26.
[43] E. Chammas. C. Mokbel. L. Likforman-Sulem. Arabic
handwritten document preprocessing and recognition. in: Proc.
13th Int. Conf. Doc. Anal. Recognit. (ICDAR 2015). 2015: pp.
451–455. doi:10.1109/ICDAR.2015.7333802.
[44] M.P. Schambach. J. Rottland. T. Alary. How to convert a Latin
handwriting recognition system to Arabic. in: Proc. 11th Int.
Conf. Front. Handwrit. Recognit. (ICFHR 2008). 2008: pp. 265–
270.
[45] R. Al-Hajj Mohamad. C. Mokbel. L. Likforman-Sulem.
Combination of hmm-based classifiers for the recognition of
arabic handwritten words. in: Proc. Ninth Int. Conf. Doc. Anal.
Recognit. (ICDAR 2007). 2007: pp. 959–963.
[46] M.S. Khorsheed. Recognising handwritten Arabic manuscripts
using a single hidden Markov model. Pattern Recognit. Lett. 24
(2003) 2235–2242.
[47] F. Menasri. N. Vincent. E. Augustin. M. Cheriet. Shape-based
alphabet for off-line Arabic handwriting recognition. in: Proc.
Ninth Int. Conf. Doc. Anal. Recognit. (ICDAR 2007). 2007: pp.
969–973.
-67-
[48] M. Hamdani. H. El Abed. M. Kherallah. A.M. Alimi. Combining
multiple HMMs using on-line and off-line features for off-line
arabic handwriting recognition. in: Proc. 10th Int. Conf. Doc.
Anal. Recognit. (ICDAR 2009). Ieee. 2009: pp. 201–205.
doi:10.1109/ICDAR.2009.40.
[49] I. Ahmad. L. Rothacker. G.A. Fink. S.A. Mahmoud. Novel sub-
character HMM models for arabic text recognition. in: Proc.
Int. Conf. Doc. Anal. Recognition. ICDAR. 2013. doi:10.1109/
ICDAR.2013.135.
[50] I. Ahmad. G.A. Fink. S.A. Mahmoud. Improvements in Sub-
character HMM Model Based Arabic Text Recognition. in: Proc.
14th Int. Conf. Front. Handwrit. Recognit. (ICFHR 2014). IEEE.
Crete. 2014: pp. 537–542. doi:10.1109/ICFHR.2014.96.
[51] Y.S. Elarian. I. Ahmad. S.M. Awaida. W.G. Al-Khatib. A. Zidouri.
Arabic Ligatures: Analysis and Application in Text Recognition.
in: Proc. 13th Int. Conf. Doc. Anal. Recognit. (ICDAR 2015).
IEEE. 2015: pp. 896–900.
[52] I. Ahmad. G.A. Fink. Multi-stage HMM based Arabic text
recognition with rescoring. in: Proc. 13th Int. Conf. Doc. Anal.
Recognit. (ICDAR 2015). IEEE. 2015: pp. 751–755. doi:10.1109/
ICDAR.2015.7333862.
[53] P. Dreuw. D. Rybach. C. Gollan. H. Ney. Writer Adaptive Training
and Writing Variant Model Refinement for Offline Arabic
Handwriting Recognition. in: Proc. 10th Int. Conf. Doc. Anal.
Recognit. (ICDAR 2009). IEEE. 2009: pp. 21–25. doi:10.1109/
ICDAR.2009.9.
[54] A. Benouareth. A. Ennaji. M. Sellami. HMMs with Explicit State
Duration Applied to Handwritten Arabic Word Recognition. in:
Proc. 18th Int. Conf. Pattern Recognit. (ICPR 2006). IEEE. 2006:
pp. 897–900. doi:10.1109/ICPR.2006.631.
-68-
[55] S. Alma’adeed. C. Higgins. D. Elliman. Recognition of off-line
handwritten Arabic words using hidden Markov model approach.
in: Proc. Object Recognit. Support. by User Interact. Serv.
Robot.. IEEE Comput. Soc. 2002: pp. 481–484. doi:10.1109/
ICPR.2002.1047981.
مركز امللك عبداهلل بن، احلرف العريب والتقنية،)[ يوسف العريان (حمررا56]
2015. ،عبدالعزيز الدويل خلدمة اللغة العربية
[57] P. Natarajan. D. Belanger. R. Prasad. M. Kamali. K. Subramanian.
P. Natarajan. Baseline Dependent Percentile Features for Offline
Arabic Handwriting Recognition. in: Proc. 11th Int. Conf. Doc.
Anal. Recognit. (ICDAR 2011). IEEE. 2011: pp. 329–333.
doi:10.1109/ICDAR.2011.74.
[58] M.F. BenZeghiba. J. Louradour. C. Kermorvant. Hybrid word/
Part-of-Arabic-Word Language Models for arabic text document
recognition. in: Proc. 13th Int. Conf. Doc. Anal. Recognit.
(ICDAR 2015). IEEE. 2015: pp. 671–675. doi:10.1109/
ICDAR.2015.7333846.
[59] A. Graves. J. Schmidhuber. Offline handwriting recognition with
multidimensional recurrent neural networks. in: Adv. Neural Inf.
Process. Syst.. 2009: pp. 545–552.
[60] A. Graves. Offline Arabic Handwriting Recognition with
Multidimensional Recurrent Neural Networks. in: V. Märgner.
H. El Abed (Eds.). Guid. to OCR Arab. Scripts. Springer London.
London. 2012: pp. 297-313. doi:10.1007/978-1-4471-4072-
6_12.
[61] G.A. Abandah. F.T. Jamour. E.A. Qaralleh. Recognizing
handwritten Arabic words using grapheme segmentation and
recurrent neural networks. Int. J. Doc. Anal. Recognit. 17 (2014)
275–291. doi:10.1007/s10032-014-0218-7.
-69-
[62] M. Hamdani. P. Doetsch. H. Ney. Improvement of Context
Dependent Modeling for Arabic Handwriting Recognition. in:
Proc. 14th Int. Conf. Front. Handwrit. Recognit. (ICFHR 2014).
IEEE. 2014: pp. 494–499. doi:10.1109/ICFHR.2014.89.
[63] B. Moysset. T. Bluche. M. Knibbe. M.F. Benzeghiba. R.
Messina. J. Louradour. C. Kermorvant. The A2iA Multi-lingual
Text Recognition System at the Second Maurdor Evaluation. in:
Proc. 14th Int. Conf. Front. Handwrit. Recognit. (ICFHR 2014).
IEEE. 2014: pp. 297–302. doi:10.1109/ICFHR.2014.57.
[64] T. Bluche. J. Louradour. M. Knibbe. B. Moysset. M.F.
Benzeghiba. C. Kermorvant. The A2iA Arabic Handwritten Text
Recognition System at the Open HaRT2013 Evaluation. in: Proc.
11th IAPR Int. Work. Doc. Anal. Syst. (DAS 2014). IEEE. 2014:
pp. 161–165. doi:10.1109/DAS.2014.40.
[65] O. Morillot. C. Oprean. L. Likforman-Sulem. C. Mokbel. E.
Chammas. E. Grosicki. The UOB-Telecom ParisTech Arabic
Handwriting Recognition and Translation Systems for the
OpenHart 2013 Competition. in: Proc. 12th Int. Conf. Doc. Anal.
Recognit. (ICDAR 2013). Washington DC. United States. 2013:
p. NIST. https://hal.archives-ouvertes.fr/hal-00948985.
[66] T. Bluche. H. Ney. C. Kermorvant. A Comparison of Sequence-
Trained Deep Neural Networks and Recurrent Neural Networks
Optical Modeling for Handwriting Recognition. in: L. Besacier.
A.-H. Dediu. C. Mart\’in-Vide (Eds.). Proc. Second Int. Conf.
Stat. Lang. Speech Process. SLSP2014. Springer International
Publishing. Grenoble. 2014: pp. 199–210. doi:10.1007/978-3-
319-11397-5_15.
[67] N. Kharma. M. Ahmed. R. Ward. A New Comprehensive
Database of Hadritten Arabic Words . Numbers . and Signatures
used for OCR Testing. Can. Conf. Electr. Comput. Eng. (1999)
766–768.
-70-
[68] S. Al-Maadeed. D. Elliman. C. Higgins. A data base for Arabic
handwritten text recognition research. in: Proc. Eighth Int. Work.
Front. Handwrit. Recognit. (IWFHR 2002). IEEE Comput. Soc.
2002: pp. 485–489. doi:10.1109/IWFHR.2002.1030957.
[69] H. Alamri. J. Sadri. C.Y. Suen. N. Nobile. A Novel Comprehensive
Database for Arabic Off-Line Handwriting Recognition Huda
Alamri. in: Elev. Int. Conf. Front. Handwrit. Recognit.. Montreal.
Canada. 2008.
[70] E. El-Sherif. S. Abdleazeem. A two-stage system for Arabic
handwritten digit recognition tested on a new large database. in:
Int. Conf. Artificial Intell. Pattern Recognit.. 2007: pp. 237–242.
[71] S.M. Strassel. Linguistic Resources for Arabic Handwriting
Recognition. in: MEDAR Second Int. Conf. Arab. Lang. Resour.
Tools. Cairo. Egypt. April 22-23. 2009: pp. 37–41.
[72] A. Tong. M. Przybocki. V. Märgner. H. El Abed. NIST 2013
Open Handwriting Recognition and Translation (Open HaRT-
13) Evaluation. in: Proc. 11th IAPR Int. Work. Doc. Anal. Syst.
(DAS 2014). IEEE. 2014: pp. 81-85. doi:10.1109/DAS.2014.43.
[73] NIST. OpenHaRT 2013 Information Page. (n.d.). http://www.
nist.gov/itl/iad/mig/hart2013.cfm (accessed February 25. 2016).
[74] M. Pechwitz. S.S. Maddouri. V. Märgner. N. Ellouze. H.
Amiri. IFN/ENIT - Database of Handwritten Arabic Words. in:
7th Colloq. Int. Francoph. Sur l-Ecrit Le Doc. . CIFED 2002.
Hammamet. Tunis. 2002: pp. 129--136.
[75] V. Märgner. M. Pechwitz. H. El Abed. ICDAR 2005 Arabic
handwriting recognition competition. in: Proc. Eighth Int. Conf.
Doc. Anal. Recognit. (ICDAR 2005). IEEE. 2005: pp. 70-74 Vol.
1. doi:10.1109/ICDAR.2005.52.
-71-
[76] V. Märgner. H. El Abed. Arabic Handwriting Recognition
Competition. in: Proc. Ninth Int. Conf. Doc. Anal. Recognit.
(ICDAR 2007) Vol 2. IEEE. 2007: pp. 1274-1278. doi:10.1109/
ICDAR.2007.4377120.
[77] H. El Abed. V. Märgner. ICDAR 2009-Arabic handwriting
recognition competition. Int. J. Doc. Anal. Recognit. 14 (2010)
3-13. doi:10.1007/s10032-010-0117-5.
[78] V. Märgner. H. El Abed. ICFHR 2010 - Arabic Handwriting
Recognition Competition. in: Proc. 12th Int. Conf. Front.
Handwrit. Recognit. (ICFHR 2010). IEEE. 2010: pp. 709-714.
doi:10.1109/ICFHR.2010.115.
[79] V. Märgner. H. El Abed. ICDAR 2011 - Arabic Handwriting
Recognition Competition. in: Proc. 11th Int. Conf. Doc.
Anal. Recognit. (ICDAR 2011). IEEE. 2011: pp. 1444-1448.
doi:10.1109/ICDAR.2011.287.
[80] S.A. Mahmoud. I. Ahmad. W.G. Al-Khatib. M. Alshayeb. M.
Tanvir Parvez. V. Märgner. G.A. Fink. KHATT: An open Arabic
offline handwritten text database. Pattern Recognit. 47 (2014)
1096-1112. doi:10.1016/j.patcog.2013.08.009.
[81] H. Alamri. C. He. C.Y. Suen. A New Approach for Segmentation
and Recognition of Arabic Handwritten Touching Numeral
Pairs. Comput. Anal. Images Patterns. 5702 (2009) 165–172.
doi:10.1007/978-3-642-03767-2.
[82] S.A. Mahmoud. W.G. Al-Khatib. Recognition of Arabic (Indian)
bank check digits using log-gabor filters. Appl. Intell. 35 (2010)
445–456. doi:10.1007/s10489-010-0235-2.
[83] M. Cheriet. Y. Al-Ohali. N. Ayat. C.Y. Suen. Arabic Cheque
Processing System: Issues and Future Trends. in: B.B. Chaudhuri
(Ed.). Digit. Doc. Process.. Springer London. London. 2007: pp.
213–234. doi:10.1007/978-1-84628-726-8.
-72-
[84] S. Alma’adeed. C. Higgins. D. Elliman. Off-line recognition
of handwritten Arabic words using multiple hidden Markov
models. Knowledge-Based Syst. 17 (2004) 75–79. doi:http://
dx.doi.org/10.1016/j.knosys.2004.03.002.
[85] N. Farah. L. Souici-Meslati. M. Sellami. Classifiers combination
and syntax analysis for Arabic literal amount recognition.
Eng. Appl. Artif. Intell. 19 (2006) 29–39. doi:10.1016/j.
engappai.2005.05.005.
[86] L. Rothacker. S. Vajda. G.A. Fink. Bag-of-Features
Representations for Offline Handwriting Recognition Applied
to Arabic Script. in: Proc. 13th Int. Conf. Front. Handwrit.
Recognit. (ICFHR 2012). 2012: pp. 149–154. doi:10.1109/
ICFHR.2012.185.
[87] S. Mozaffari. H. Soltanizadeh. ICDAR 2009 Handwritten Farsi/
Arabic Character Recognition Competition. in: Proc. 10th Int.
Conf. Doc. Anal. Recognit. (ICDAR 2009). 2009: pp. 1413–
1417. doi:10.1109/ICDAR.2009.283.
[88] M.T. Parvez. S.A. Mahmoud. Arabic handwriting recognition
using structural and syntactic pattern attributes. Pattern Recognit.
46 (2013) 141–154. doi:10.1016/j.patcog.2012.07.012.
[89] A. Giménez. I. Khoury. A. Juan. Windowed Bernoulli Mixture
HMMs for Arabic Handwritten Word Recognition. in: Proc. 12th
Int. Conf. Front. Handwrit. Recognit. (ICFHR 2010). IEEE.
2010: pp. 533-538. doi:10.1109/ICFHR.2010.88.
[90] A. Giménez. I. Khoury. J. Andrés-Ferrer. A. Juan. Handwriting
word recognition using windowed Bernoulli HMMs.
Pattern Recognit. Lett. 35 (2014) 149-156. doi:10.1016/j.
patrec.2012.09.002.
-73-
[91] S. Saleem. H. Cao. K. Subramanian. M. Kamali. R. Prasad. P.
Natarajan. Improvements in BBN’s HMM-Based Offline Arabic
Handwriting Recognition System. in: Proc. 10th Int. Conf. Doc.
Anal. Recognit. (ICDAR 2009). IEEE. 2009: pp. 773–777.
doi:10.1109/ICDAR.2009.282.
[92] M. Hamdani. A.E.-D. Mousa. H. Ney. Open Vocabulary Arabic
Handwriting Recognition Using Morphological Decomposition.
in: Proc. 12th Int. Conf. Doc. Anal. Recognit. (ICDAR 2013).
IEEE. 2013: pp. 280–284. doi:10.1109/ICDAR.2013.63.
-74-
الباب الثاني
التعرف اآللي على الكالم العربي املنطوق
وتطبيقاته يف القرآن الكرمي
-75-
-76-
التعرف اآللي على الكالم العربي املنطوق وتطبيقاته
يف القرآن الكرمي
(((
د .أمحد محدي أبو عبسة
ملخص
يعترب التعرف عىل الكالم العريب املنطوق من األبحاث اهلامة التي هلا دور كبري يف كثري
من جماالت احلياة مثل التعليم والصحة والصناعة وغريها من التطبيقات .يف هذا البحث
تم تطوير التعرف اآليل عىل الكالم العريب املنطوق باستخدام أنظمة الذكاء االصطناعي
وتطبيقه خلدمة القرآن الكريم .يف الطريقة التقليدية ملعاجلة الكالم ،يتم االعتامد عىل
تقسيم اجلملة الصوتية إىل جمموعة ثابتة من األُطر ،بينام يف هذا البحث تم االعتامد عىل
املقاطع الصوتية والتي تعرف عىل أهنا اجلزء األسايس األصغر يف اللغة واملكونة من
مقاطع ساكنة ومقاطع متحركة .استعرضنا يف هذا البحث أهم خوارزميات استخراج
خصائص املقاطع الصوتية ،والتي تعترب اخلطوة األوىل يف تصنيف املقاطع الصوتية .ثم،
لتحسني نتيجة التصنيف ،قلصنا حجم مصفوفة خصائص املقاطع الصوتية باستخدام
تقنية حتليل املكونات األساسية .كام تم استخدام نظام التشجري التصنيفي املبني عىل
قواعد التجويد ،حيث يتم تصنيف املقاطع الصوتية إىل ثالث مراحل :تصنيف هناية
املقطع الصويت ساكن أم متحرك ،وتصنيف احلرف الساكن من حيث التفخيم والغنة،
وحتديد زمن احلرف املتحرك يف املقطع الصويت .من خالل تطبيق هذا البحث ،وجدنا
أن إدخال قواعد التجويد القرآنية مع أنظمة التعرف اآليل عىل الكالم هلا دور مهم يف
حتسني دقة تصنيف البيانات القرآنية.
-1د.أمحد محدي أبو عبسة رئيس قسم هندسة الربجميات يف جامعة فلسطني .حصل د .أبو عبسة عىل درجة البكالوريوس
يف هندسة االتصاالت والتحكم من اجلامعة اإلسالمية بغزة وعىل درجة املاجستري يف علوم احلاسب اآليل من جامعة
شامل فرجينيا ثم عىل ماجستري آخر يف أنظمة االتصاالت من اجلامعة اإلسالمية بغزة .حصل عىل درجة الدكتوراة يف
معاجلة اإلشارة الرقمية من قسم اهلندسة الكهربائية يف جامعة امللك فهد للبرتول واملعادن ،وله العديد من األبحاث
واملشاريع يف جمال معاجلة الصوت والصورة بتقنيات الذكاء االصطناعي.
-77-
-1مقدمة
بدأ اهتامم خرباء احلاسب والباحثني يف جمال التعرف اآليل عىل الكالم منذ أكثر
من أربعة عقود ،وذلك لكي يصل اإلنسان إىل مرحلة جتعله قادرا عىل التخاطب
مع احلاسب اآليل وإعطائه األوامر بدون احلاجة إىل الكتابة مما من شأنه توفري اجلهد
والوقت وإمكانية التفاعل مع اآللة بشكل طبيعي أكثر والتي تؤدي إىل استخدامها يف
جماالت تطبيقية متعددة.
ومع تطور التقنيات التكنولوجية يف العرص احلديث ،اجته العامل إىل استخدام مفهوم
الذكاء االصطناعي ( Artificial Intelligenceأو )AIوتعلم اآللة (Machine
)Learningيف جماالت متعددة والتي من ضمنها التعرف اآليل عىل الكالم املنطوق
باللغة العربية ،وكذلك جماالت التعرف عىل أحكام التجويد يف تالوة القرآن الكريم.
يعرف مصطلح الذكاء االصطناعي عىل أنه قدرة اآللة عىل حماكاة العقل البرشي
التطور الذي شهده احلاسب اآليل يف منتصف ّ والتعلم من التجارب السابقة .ومنذ
القرن العرشين ،متكن العلامء من برجمة احلاسب اآليل وتطويره للقيام بمهام كثرية
ومعقدة تضاهي مستوى أداء اخلرباء واملحرتفني يف جماالت كالتشخيص الطبي ،أو يف
حمركات البحث أو يف تطبيقات التعرف عىل الصوت والكتابة اليدوية وغري ذلك [.]١
ويمكن تقسيم أهداف الذكاء االصطناعي وتعلم اآللة إىل ثالثة أقسام رئيسية عىل
النحو التايل:
.1التصنيف ( :)Classificationحيث تقوم اخلوارزمية بالتعلم وذلك
من خالل وجود جمموعة من األصناف Classesوكل صنف له
خصائص featuresمشرتكة ،حيث يقوم املصنف بربط اخلصائص بصنف
معني.
.2االرتباط ( :)Regressionوهو أسلوب إحصائي يستخدم يف قياس مدى
العالقة الداللية بني متغريين ،بحيث يكون أحد املتغريات (متغري تابع) واآلخر
(متغري مستقل أو م ِ
فس) وهو املتسبب يف تغري املتغري التابع ،وقد يستعمل للتنبؤ ُ
بقيم املتغري التابع بناء عىل املستقل.
-78-
.3التجميع ( :)Clusteringحيث تقوم اخلوارزمية بتقسيم البيانات إىل جمموعات
غري معروفة مسب ًقا وكل جمموعة يتم التعامل معها عىل أهنا صنف.
عرف التعرف التلقائي عىل الكالم (ASR)Automatic Speech Recognition
ُي ّ
بأنه عملية حتويل املوجات الصوتية (اإلشارات الصوتية للكالم) إىل كلامت أو وحدات
لغوية .]2[ Phonemesيظهر التعرف التلقائي عىل الكالم يف العديد من املجاالت
الصناعية واملدنية ،بام يف ذلك :التطبيقات التي تشجع االستغناء عن احتياج األيدي يف
التعامل معها ،والتفاعل مع األجهزة الذكية ،والرتمجة الشفوية التلقائية ،وأدوات دعم
املعاقني سمعيا ،واإلمالء التلقائي وغريها من التطبيقات.
وعند تطبيق نظام التعرف اآليل عىل الكالم الصويت يف احلاسب اآليل ،وجد أنه من
السهل التعرف عىل الكلامت املنفردة ،ولكن األصعب هو التعرف عىل الكالم املستمر.
وهذا كله يعتمد عىل عوامل من بينها اللغة املستهدفة وحجم وتنوع البيانات التي يقوم
النظام بالتدرب عليها ،باإلضافة إىل طبيعة البيئة التي ُسجل فيها الصوت وغري ذلك
[.]3[ ]2
تعتمد الطريقة التقليدية ملعاجلة الصوت عىل تقسيم اجلملة الصوتية إىل جمموعة
ثابتة من األطر fixed frameبحيث ال يزيد طول اإلطار عن 30ميليثانية وذلك لثبات
خصائص الكالم الصويت يف هذه الفرتة وعدم تغري خصائصه .ولكن هذه الطريقة قد
ال تالئم الوضع الطبيعي للكالم الصويت حيث أن الصوت البرشي يصدر عىل هيئة
مقاطع صوتية segment unitsخمتلفة األطوال ال أطر زمنية .]5[ frames
ُعرف املقاطع الصوتية segment unitsعىل أهنا اجلزء األسايس األصغر يف اللغةت ّ
واملكونة من مقاطع ساكنة )Consonants (Cومقاطع متحركة .)Vowels (Vويف
اللغة االعربية يتم تقسيم وحدات الكالم إىل مخسة أنواع أساسية :حرف متحرك CVمثل
( َم) ،حرف ممدود CVVمثل (ما) ،مقطع من متحرك فساكن CVCمثل ( َم ْل) ،
مقطع من ممدود فساكن CVVCمثل (مال) ،ومتحرك فساكنني CVCCمثل ( َع ْص).
وبالتايل فإن كل مقطع صويت Segment unitيف اللغة ستكون عبارة عن صنف ()class
وسيكون دور املصنف classifierالتعرف عىل هذه املقاطع الصوتية من جمموعة كبرية
من عدد األصناف classesاملوجودة يف اللغة يف وقت واحد ،وهذا األمر يعترب صع ًبا
-79-
كبريا من الناحية العملية خاص ًة عندما يكون عدد األصناف ً
كبريا والتشابه بينهم أيضا ً
[.]6
يف نظام تالوة القرآن الكريم ،يبلغ عدد مجيع املقاطع الصوتية segment unitsيف
اجلزء الثالثني من القرآن الكريم 4300مقطعا صوتيا تقريبا ،كام يبلغ إمجايل عدد
أصناف هذه املقاطع الصوتية 800صنفا خمتلفا تقريبا [ .]5وبالتايل يصعب تصنيف
هذا العدد الكبري من األصناف باستخدام اخلوارزميات التقليدية؛ لذلك ،فإننا نقرتح
يف هذا البحث اتباع تقنية من تقنيات الذكاء االصطناعي تسمى «التصنيف الشجري
اهلرمي» ( .)Hierarchical Tree Classificationحيث يتم جتميع عدد كبري من
الفئات يف جمموعات فرعية قبل تصنيفها هنائيا [.]2
ً
هيكل يشبه الشجرة ،حيث يمكن عبور العديد من يشكل نظام التصنيف اهلرمي
ً
وصول إىل األطراف (األوراق) عىل مبدأ «فرق واغز» «Divide املسارات من اجلذر
،»and Conquerحيث يتم تقسيم املشكلة الكبرية بشكل متكرر إىل مشاكل أصغر
وأسهل يمكن دمج حلوهلا إلجياد حل للمشكلة الشاملة [.]5[]4
يتميز نظام التصنيف اهلرمي عن املصنفات التقليدية بتقليل عدد األصناف إىل
أصناف أساسية والتي بدورها تقوم باالستغناء عن احلسابات غري الرضورية .كام
ُيظهر التصنيف اهلرمي مرونة يف اختيار جمموعات فرعية خمتلفة للفصول حسب قواعد
لالنتقال بني املراحل املختلفة يف الشجرة ،باإلضافة إىل إمكانية إجراء مفاضلة بني دقة
التعرف عىل الصنف يف أحد فروع الشجرة وكفاءة الفرتة الزمنية للحصول عىل النتيجة.
أما عيوب تصنيف التسلسل اهلرمي فمنها أن أي خطأ يف نظام التعرف عىل أفرع
األشجار الرئيسية يف املراحل األوىل ت َُو ّرث وتُنتَقل إىل املراحل الفرعية .وهنا تتجىل
إشكالية املفاضلة بني الدقة والكفاءة ،حيث يصعب حتسني كل من الدقة والكفاءة معا.
عالوة عىل ذلك ،فثمة صعوبات يف حتديد القواعد وعدد املراحل يف الشجرة األمثل يف
التطبيق ،وهذا بدوره يؤثر عىل نتيجة األداء باستخدام التصنيف اهلرمي [.]7[]6
يف هذا البحث نقوم بعرض نظام مقرتح لتصنيف الكلامت القرآنية باستخدام
أساليب وتقنيات املصنفات التقليدية واملصنف اهلرمي .سيتم تقسيم البحث إىل
-80-
ستة وحدات عىل النحو التايل :الوحدة الثانية عبارة عن وصف بنية نظام التعرف
عىل الكلامت القرآنية .ويف الوحدة الثالثة يتم توضيح كيفية استخراج اخلصائص
للصوت ( )Feature Extractionويف الوحدة الرابعة نبني كيفية تقليل حجم مصفوفة
اخلصائص املستخرجة Feature Extraction matrix Dimensionباستخدام تقنية
حتليل املكونات األساسية ( .Principle Component Analysis (PCAويف الوحدة
اخلامسة رشح أشهر املصنفات التقليدية والتي يتم استخدامها ملعاجلة الصوت يف
القرآن الكريم .ويف الوحدة السادسة رشح نظام تصنيف التسلسل اهلرمي وتطبيقه عىل
الوحدات الكالمية يف القرآن الكريم.
-81-
وسنقوم اآلن برشح تفصييل لكل خطوة من اخلطوات املوجودة يف شكل .1
املصنفات التقليدية اﻟﻤﺼﻨﻔﺎت اﻟﺘﻘﻠﯿﺪﯾﺔ
شكل ( :)١خمطط منهجية البحث يف استخدام الذكاء االصطناعي للتعرف عىل مقاطع القرآن الكريم
-82-
متقطع Discreteعن طريق تقطيع املقطع الصويت إىل عينات samplesبفرق زمني
ثابت ومن ثم يتم تطبيق املعادلة التالية [:]13
)............................................................(1
عينة )sample) n حيث متثل Eiالطاقة الكلية للمقطع الصويت iو متثل
يف املقطع الصويت iو Nهو العدد الكيل للعينات ( )samplesيف املقطع الصويت .ومثال
عىل ذلك فإن قيمة الطاقة يف اآلية ﴿كال سيعلمون﴾ تظهر بلون أمحر يف الشكل .2
حيث نالحظ أن قيمة احلرف املتحرك ( َك ) أكثر من احلرف الساكن ( ْل ).
تُعرف «حدة الصوت» عىل أهنا خاصية إدراكية تسمح برتتيب األصوات حسب
سلم مرتبط بالرتدد ،أي حسب عدد تكرار االهتزازات (الذبذبات) هريتز يف الثانية
للطبقات الصوتية أثناء التحدث [ .]14حيث يتم استخدام هذه اخلاصية ملعرفة الرتدد
األسايس للمقطع الصويت بنا ًء عىل االرتفاع واالنخفاض يف نغمة الصوت.
هناك طرق خمتلفة يمكن استخدامها لتقدير درجة الصوت من إشارة الكالم .سنرشح
فيام ييل طريقة «تقنية االرتباط التلقائي» Autocorrelation Techniqueبني كل إطار
واإلطار اآلخر من خالل استخدام املعادلة التالية:
)...........................................(٢
-83-
هو إطار اإلشارة k ،عامل اإلزاحة ،و حيث أن هو طول اإلطار،
هي دالة االرتباط التتقريبي التلقائي.
ُعرف خاصية ترددات صفة صوت الكالم عىل أهنا ترددات الرنني واالهتزاز يف ت َّ
األحبال الصوتية أثناء النطق وتكون ظاهرة بشكل كبري يف احلروف املجهورة (حروف
كلمة قطب جد) أكثر مـــن احلــــروف املهموسة (مثل حرف احلاء واهلاء) [.]15
ويمكن متثيل هذه الرتددات عن طــريق حســـاب القيم العظــــمى للرتددات
Peaks of The Frequency Responseمن خالل تقنية الرتميز التوقعــي اخلطي
( Linear Predictive Code (LPCوالتي متثل عىل النحو التايل]17[ :
)..............................................(٣
هي العينة املتوقعة عند الوقت ،nواملتغري pعبارة عن عدد العينات حيث
السابقة للوقت ،nو هي معامالت . LPC
)..............................................(٤
حيث fقيمة الرتدد يف هرتز .لتوضيح خطوات عمل MFCCموضحة يف
الشكل .3
-84-
اﻹﺷﺎرة اﻟﺼﻮﺗﯿﺔ Preprocessing Mel-Frequency
Warping
(أ)
(ب)
الشكل (( :) 3أ) خوارزمية ( MFCCب) مرشح ميل
-85-
تقليل أبعاد متجه اخلصائص Feature Vector Dimension Reduction ٢٫٣
إن استخـــدام اخلصائص التي تـــم احلديث عنهــا يف الفقرة السابقة يعــطي
نتائج جيدة ولكن ليست ممتازة وذلك بسبب احتاملية وجود بيانات كثرية مكررة أو
ليست ذات أمهية يف التمييز بني األصنــاف مما قد يؤدي إىل تعقد اعملية التصنيف.
ولكي نقوم بتحسني هذه النتائج يتم استخدام تقنية حتليل املكونات األساسية
( Principle Component Analysis (PCAلتقليص بيانات اخلصائص واختصارها،
حيث تقوم بتحويل العدد الكبري من املتغريات املرتابطة ضمنا -ولو بشكل جزئي -إىل
جمموعة أصغر من املتحوالت املستقلة التخيلية ،وهي تدعى عادة باملكونات الرئيسية
وحتسب أساسا من املتغريات األصلية بنسب ومقادير تزيد أو تنقص بحسب دور
وتأثري كل منها ،لتصف أكرب قدر ممكن من البيانات املوجودة يف خصائص األصناف.
إن الفكرة األساسية يف حتليل املكونات الرئيسية PCAهو تقليل حجم مصفوفة
استخراج اخلصائص إىل أكرب قدر ممكن والتي تسهم يف التمييز بني األصناف ،وذلك من
خالل عمل حماور ختيلية متعامدة والتي حتسب من خالل جمموع اخلصائص املستخرجة
للمقاطع الصوتية احلقيقية لكن بأوزان متفاوتة تعكس دور كل منها وأمهيته يف التفريق
ما بني األصناف .تعمل خطوات تنفيذ اخلوارزمية عىل حرص أكرب قدر ممكن من
التباينات ضمن توليفة اخلاصية التخيلية األوىل والتي عادة ما يطلق عليها تسمية املكون
األسايس األول ،PC1كام يتم حساب نسبة مؤوية هلذه اخلاصية التخيلية والتي تشري
احلصة الكل ّية من التباينات التي تم إلتقاطها والتعبري عنها يف هذه اخلاصية التخيلية.
إىل ّ
ثم بعد ذلك يأيت الدور يف تكوين املكون األسايس الثاين PC2والذي سيقوم بدوره
بمحاولة التعبري عن أكرب قدر ممكن من التباينات املتبقية والتي مل يستطع PC1التعبري
عنها ،ويستمر األمر بالنسبة لكل من PC3و PC4وصوال إىل العدد الكيل للخصائص
التي تم استخراجها للمقاطع الصوتية.
هبذه التقنية نستطيع التمييز بني اخلصائص التي ال تسهم يف التفريق ما بني األصناف
املختلفة يف جمموعة البيانات ويكون هلا أوزان صغرية تقرتب من الصفر ،وبني اخلصائص
التي هلا دورا هاما يف التفريق ما بني األصناف حيث يكون لتلك الصفات أوزان ذات
مقادير كبرية تقرتبفي قيمتها املطلقة من الواحد الصحيح [.]٢١
-86-
وحلساب PCAمن الناحية الرياضية نقوم يف البداية بتحليل القيمة الذاتية
eigenvaluesملصفوفة التباين التقريبي .estimated covarianceوهذا األمر يتم
من خالل إجياد الوسط احلسايب ملصفوفة البيانات اخلاصة بكل نوع من أنواع املقاطع
الصوتية .ويمكن إجياد مصفوفة التباين التقريبي من خالل العالقة التالية :
)...............................................................(٥
حيث Xهي مصفوفة اخلصائص املستخرجة من مجيع املقاطع الصوتية يف قاعدة
البيانات والتي أبعادها m nحيث أن mهي عدد اخلصائص الكلية التي تم
استخدامها ،و nهو عدد املالحظات observationsوالتي تعني هنا مجيع املقاطع
الصوتية ،واملتغري عبارة عن مصفوفة مربعة متامثلة أبعادها .m x mبحيث أن قطر
عبارة عن قيم التباينات التقديرية بني املتغريات .للحصول عىل حتويل املصفوفة
PCAنقوم بتطبيق املعادلة التالية:
)...................................................................(٦
حيث Yعبارة عن متثيل Xبناء عىل أساس املصفوفة اجلديدة ،Pحيث أن Pعبارة
عن مصفوفة حتول Xإىل نظام اإلحداثيات التخيلية اجلديدة وتكون فيها البيانات مرتبة
من األكرب إىل األصغر .وإلجياد مصفوفة تقدير التباينات بالنسبة للمصفوفة Yيتم
احتساهبا من خالل املعادالت التالية:
(...........................................................)٧
-87-
يمكن حتليلها باستخدام حتليل القيم الذاتية عىل كام أن مصفوفة تقدير التباينات
النحو التايل:
)....................................................................(٨
حيث أن Dعبارة عن مصفوفة قطرية تكون فيها البيانات مرتبة حسب القيم الذاتية
من األكرب إىل األصغر .واملصفوفة Uعبارة عن املتجهات الذاتية eigenvectorsحيث
أن كل عمود يف املصفوفة عبارة متجه ذايت والتي تتميز بأنه عندما يتم إجراء حتويل
= خطي عىل هذه املتجهات ال يتغري اجتاهها .وبام أن املصفوفة متامثلة فإن
وبالتايل يمكن كتابة عىل الشكل التايل:
)...............................................................(٩
( )10
يمكننا أن نرى أنه عندما يتم اختيار مصفوفة التحول عىل أساس
،فإن ناتج اخلصائص املتحولة (العنارص املوجودة يف املصفوفة )Yتصبح
غري مهمة بام أن مصفوفة التغاير يف النتائج قطرية .إن هذه الطريقة أدت إىل عمل ترتيب
القيم الذاتية واملتجهات الذاتية حسب األمهية وبالتايل يمكن تقليل أبعاد املصفوفة إىل
d x nحيث أن dعبارة عدد الصفوف املطلوبة من املصفوفة الكلية .وعادة يف األبحاث
يكون اختيار حجم املصفوفة بحيث يكون جمموع التباينات عىل األقل %80من جمموع
التباينات الكلية.
ولتوضيح أمهية وقوة ،PCAنوضح يف الشكل 5خمطط التشتت scatter plot
(خمطط يستخدم بياني ًا لتقديم وعرض العالقة بني متغريين) لكل من احلروف الساكنة
consonantsواحلروف املتحركة vowelsللمقاطع الصوتية بعد تطبيق نظام التحويل
.PCA
-88-
5.9 -9.8 0.4
consonant consonant consonant
5.8 vowel -9.9 vowel 0.3 vowel
5.7 0.2
-10
5.6 0.1
-10.1
-10.5 -0.4
5.1
الشكل ( :)٥خمطط التشتت للحروف الساكنة واملتحركة بعد تقليل أبعاد اخلصائص باستخدام حتويل .PCA
يف الشكل ،6يوضح الرسم البياين لكل من احلروف الساكنة واحلروف املتحركة بناء
عىل دالة التوزيع االحتاميل PDFعىل شكل توزيع جاوس .Gaussian distributionحيث
نالحظ أيضا أن صنف احلروف الساكنة منفصلة متاما عن صنف احلروف املتحركة وهذا
بدوره يؤدي إىل احلصول عىل نتائج ممتازة للتصنيف بني األصناف.
3 3 4
PCA+LDA Feat 1 for Cons PCA+LDA Feat 1 for Cons PCA+LDA Feat 1 for Cons
PDF PCA+LDA Feat 1 for Cons PDF PCA+LDA Feat 1 for Cons 3.5 PDF PCA+LDA Feat 1 for Cons
2.5 PCA+LDA Feat 1 for Vowel 2.5 PCA+LDA Feat 1 for Vowel PCA+LDA Feat 1 for Vowel
PDF PCA+LDA Feat 1 for Vowel PDF PCA+LDA Feat 1 for Vowel PDF PCA+LDA Feat 1 for Vowel
3
2 2
2.5
1.5
1 1
1
0.5 0.5
0.5
-89-
تعتمــد بنية HTCعــىل املعـــرفة املســبقة كيفـــية قراءة املقاطــع الصوتية بنا ًء
عىل قواعد التجويد املستخدمة يف تالوة القرآن الكريم .يف بداية التصنيف اهلرمي يف
الطبقة األوىل يتم التمييز يف جذر الشجرة بني املقاطع الصوتية من نوع CVأو CVC
وذلك عن طريق أخذ آخر ثالث إطارات framesمن املقطع الصويت ونقوم باستخدام
خاصية الطاقة energyللتعرف هل هناية املقطع هل هو حرف ساكن أم متحرك.
يف الطبقة الثانية يتم تصنيف كل فرع بناء عىل معيارين رئيسني :املعيار األول هل
احلرف الساكن مفخم أم ال ،واملعيار الثاين هل احلرف الساكن فيه غنة أم ال .بناء عىل
هاذين املعيارين فلقد تم جتزئة الفرع األول من الشجرة CVإىل أربعة أجزاء :اجلزء
األول حرف ساكن مفخم بغنة (مثل كلمة « ُقتل») ،واجلزء الثاين ساكن مفخم بدون
غنة (مثال ذلك كلمة « ُطبع») ،واجلزء الثالث ساكن غري مفخم بغنة (مثال ذلك
«سأل») .أماكلمة «كنتم») ،واجلزء الرابع ساكن غري مفخم بدون غنة (مثال ذلك كلمة َ
يف الطبقة الثالثة يف هذا الفرع فكان املعيار الرئييس كم زمن احلرف املتحرك ،حيث يف
القرآن الكريم يكون إما حركة أو حركتني أو أربع أو ست حركات بناء عىل قواعد
التجويد .بناء عىل معيار زمن احلرف املتحرك فسيكون إما حركة واحدة (( )Vمثال
ذلك الفتح َة) ،أو حركتني (( )V2مثال ذلك املد باأللف) .وبنفس هذه املعايري يف
الفــرع األول من الشجرة الرئيسية قمنا بتطبيقــها عىل الفرع الثاين من الشجرة
الرئيسية CVC.حيث تم تقسيم CVCكذلك إىل حرف ساكن مفخم بغنة (مثال
ذلك «من قال» ) ،وحرف ساكن مفخم بدون غنة (مثال ذلك كلمة «قال») ،وحرف
ساكن غري مفخم بغنة (مثال عىل ذلك كلمة «أنتم») ،وحرف ساكن غري مفخم بدون
غنة (مثال ذلك كلمة «قيل») .ثم ،ينقسم كل فرع إىل أربع أجزاء النوع األول متحرك
قصري (( )Vمثال عىل ذلك) ،حرف ممدود (( )V2عىل سبيل املثال َا ) ،حرف ممدود
بزمن أربع حركات (( )V4عىل سبيل املثال سائل) ،وحرف ممدود بزمن ست حركات
(( )V6مثال عىل ذلك سيعلمونعند الوقوف عليها يكون مد عارض للسكون بمقدار
6حركات) .نالحظ يف الشكل 7أن الفرع V4و V6ليست مدرجة يف فرع .CVحيث
هذا النوع ،V4حيدث عندما يتبع احلرف املتحرك حرف مهزة (ء) وهذا ال يكون إال إذا
كان املقطع من نوع .CVCكذلك الفرع من نوع V6حيدث عندما يكون بعد احلرف
املتحرك حر ًفا ساكنا عندما يتوقف القارئ عن قراءة اآلية .بناء عىل هذه األنواع يكون
-90-
لكل مقطع صويت نوع واحد فقط من هذا األفرع وبالتايل يسهل عملية التصنيف.
بناء عىل ما تم رشحه يف التصنيف اهلرمي ،فمن الواضح بأن HTCهلا ثالث طبقات:
الطبقة األوىل لدينا فئتني رئيسيتني CVsو .CVCsيف الطبقة الثانية لديناأربع تصنيفات
حتت كل فرع :مفخم بغنة ،مفخم بدون غنة ،غري مفخم بغنة ،و غري مفخم بدون
غنة .أما يف الطبقة الثالثة ،لدينا الفئات الفرعية Vو V2حتت فرع مقاطع CVوالفئات
الفرعية Vو V2و V4و V6حتت فرع .CVCsوبالتايل يبلغ إمجايل عدد التفريعات 22
تفريعة أي أنه تم تقليص عدد األصناف للمقاطع الصوتية من 800إىل 22صنفا.
-91-
٣٫١مصنف بايز Naïve Bayes
يستند هذا املصنف إىل نظرية بايز االحتاملية ( )Bayes’ theoremالقائمة عىل مبدأ
االحتامل الرشطي الذي يقوم بحساب احتامل وقوع أحد األحداث االحتاملية بناء عىل
وقوع حدث مستقل آخر أو أكثر وفق املعادلة التالية:
)Prob(B given A) = Prob(A and B) / Prob(A )(11
حيث:
( :Prob(B given Aاحتامل وقوع احلدث Bبناء عىل وقوع احلدث – Aوهو
االحتامل املطلوب
و( :Prob(A and Bاحتامل وقوع احلدثني Aو Bمع ًا أو ما يدعى ()pairwise
و( :Prob(Aاحتامل وقوع احلدث Aأو ما يدعى (.)singleton
إن احلدث ( )Bيبدو كحدث مرتبط بحدث مستقل وحيد ( ،)Aلكن يف احلقيقة
تقوم هذه اخلوارزمية أغلب األحيان بربط احلدث بعدة أحداث مستقلة.
يمتاز هذا التصنيف بالرسعة يف بناء النامذج كام أنه يمتاز بأنه قابل للتوسع ()scalable
مع ازدياد بيانات التدريب وبتنفيذ عملية بناء النامذج بشكل متوازي ()parallelized
ويمكن استخدامه لتصنيف بيانات ثنائية الفئات ( )binary classأو متعددة الفئات
(.)multi class
-92-
الشكل ( :)8أنواع الطبقات الثالث لتصنيف .MLP
لرشح آلية عمل هذه اخلوارزمية بصورة مبسطة البد من تعريف املتغريات التالية:
املدخالت ( )x1، x2، ….، xnذات األوزان (.)w1، w2، …. wn
الدالة uدالة تعرب عن احتاملية التنشيط (.)activation potential
دالة حد العتبة (.)threshold
-93-
دالة اخلرج (.)output
دالة التنشيط ()activation function
يعرف دالة احتاملية التنشيط باملعادلة:
)..........................................................(12
وباالعتامد عىل تعريف دالة اخلرج املبينة يف املعادلة:
)............................................................(13
املعادلة النهائية لتابع اخلرج تظهر يف املعادلة:
)...........................(14
يتم استخدام هذا التصنيف بشكل واسع يف عدة جماالت؛ كالتعرف اآليل عىل
الكالم ( ،)speech recognitionوالتعرف اآليل عىل الصور ()image recognition
إضافة لربامج الرتمجة اآللية (.)machine translation
-94-
الشكل ( :)10توزع البيانات ضمن املصنف .KNN
تنتمي النقطة ( )Xيف حالة ( )C1تنتمي إىل الصف السالب ،ويف حالة ( )C3إىل
الصف املوجب وذلك حسب نظام التصويت لألغلبية (،)Majority Voting Scheme
أما يف حالة ( )C3فإنه يتم اختيار الصف بناء عىل وحدة القياس ( )metricليتم تصنيف
النقطة عىل أساسه .يتم اختيار العدد ( )Kبشكل مناسب مع عدد البيانات بحيث يتم
التغلب عىل الرتاكب الناتج عن عملية التصنيف والتي تزداد مع ازدياد شذوذ البيانات
وعدم تناسقها.
-95-
جمموعة البيانات ثنائية الفئة ( )Binary Classذات بعدين ( ،)D=2يبني
الشكل ( )11مستقيم احلالة األمثل ( )Optimum Situationالتي تقسم
جمموعة البيانات إىل قسمني ويمكن تعميم هذه احلالة إىل جمموعة البيانات
متعددة الفئات ( )Multi Classمتعددة األبعاد (،)D>2
·تصنيف غري خطي :وذلك باختيار أفضل سطح أو منحني يستطيع فصل
البيانات ويكون أقرب ما يمكن جلميع هذه البيانات وهنا يمكن متييز حالتني
حسب فئات وأبعاد البيانات فيام إذا كانت مؤلفة من ثنائية الفئة فقط ()D=2
كام يظهر يف الشكل (-5ب) أو متعددة الفئات (.)D>2
(ب) (أ)
الشكل( :)11توضيح أسطح فصل البيانات ملصنف .SVM
-٤التجارب والنتائج
بناء عىل ما تم ذكره يف الفقرات السابقة ،سنقوم يف هذه الوحدة بتطبيق هذه املفاهيم
من الناحية العملية وعرض نتائج البحث .كام قلنا سابقا بأنه تم االعتامد عىل قاعدة
بيانات مدينة امللك عبد العزيز للعلوم والتقنية واحلصول املتكونة من 4300مقطعا
صوتيا [ .]5حيث أن هذه املقاطع الصوتية تم تصنيفها عىل صيغة CVوصيغة CVC
بناء عىل مبدأ التصنيف الشجري اهلرمي املبني عىل قواعد التجويد والتي حتتوي عىل
22صنفا رئيسيا .يف بداية األمر تم استخراج 281خاصية لكل مقطع صويت عىل
النحو التايل:
-96-
·خوارزمية الطاقة وتم استخراج خاصية الطاقة لكل مقطع صويت.
·خوارزمية درجة حدة الصوت وتم استخراج أربع خصائص وهي معدل
وتشتت وأعىل وأقل قيمة درجة حدة صوت املقطع الصويت.
·خوارزمية ترددات صفة صوت الكالم وتم استخراج ثالث خصائص وهي
معدل وتشتت وأعىل قيمة ترددات صفة صوت الكالم للمقطع الصويت.
·خوارزمية معامالت تردد ميل MFCCوتم استخراج عرشين خاصية عن
طريق إجياد املعدل والتشتت ألول عرش معامالت اخلوارزمية للمقطع الصويت.
·خوارزمية حتويل املوجيات املنفصلة للطبقات السبعة حيث تم استخراج 255
خاصية للمقطع الصويت.
بعد استخراج هذه اخلصائص للمقاطع الصوتية أصبح حجم مصفوفة استخراج
اخلصائص 4300x281عنرصا .ثم بعد ذلك تم استخدام تقنية حتليل املكونات
األساسية PCAبحيث تم تقليل حجم املصفوفة إىل 4300x50والتي حتتوي عىل
جمموع نسبة التشتت ما يقارب %90من نسبة التشتت للخصائص احلقيقية .ثم بعد
ذلك تم إدخال مصفوفة البيانات 4300x50إىل نظام تصنيف التشجري اهلرمي املبني
عىل قواعد جتويد القرآن الكريم لتصنيفها إىل CVو CVCكام تم توضيحه سابقا .ثم
بعد ذلك تم استخدام املصنفات التقليدية ( )MLP. KNN. SVM. NBحيث تم
تدريب هذه املصنفات عىل %80من البيانات وعمل فحص %20املتبقية من البيانات.
أعطى املصنف SVMأفضل النتائج حيث كانت نتيجة دقة البيانات ما يقارب %86
للمقاطع الصوتية من نوع CVو %90للمقاطع الصوتية من نوع .CVC
إن هذه النتيجة لو قارهنا بدون استخدام التصنيف اهلرمي حلصلنا عىل نتيجة .%49
مما يعني أنه باستخدام التصنيف الشجري املبني عىل قواعد التجديد يتم حتسني النتائج
بنسبة .%34
-97-
-٥اخلامتة
يف هذا البحث تم عمل دراسة عن التعرف اآليل عىل الكالم العريب املنطوق
وتطبيقاته يف القرآن الكريم باستخدام أنظمة الذكاء االصطناعي .حيث تم يف البداية
احلصول عىل املقاطع الصوتية القرآنية من خالل قاعدة بيانات مدينة امللك عبد العزيز
ومن ثم تم استخراج اخلصائص هلذه املقاطع الصوتية باستخدام خوارزميات مشهورة
يف جمال معاجلة الصوت .تبني أن حجم مصفوفة استخراج اخلصائص هلذه املقاطع
الصوتية كبرية وبالتايل تم استخدام تقنية حتليل املكونات األسلسية PCAلتقليل حجم
املصفوفة واستخدام خصائص ختيلية تقوم بإعطاء األوزان األعىل للخصائص احلقيقية
األهم وأوزان قليلة للخصائص احلقيقية الغري مهمة والتي بدورها أسهمت بشكل كبري
يف حتسني النتائج .ثم بعد ذلك تم استخدام خاصية التصنيف اهلرمي بناء عىل قواعد
التجويد القرآنية والتي بدورها قللت عدد األصناف من 800صنف إىل 22صنف.
ويف النهاية تم عرض أشهر املصنفات التي تسخدم يف معاجلة الصوت بشكل عام ويف
القرآن بشكل خاص.
-98-
املراجع
[1] S. J. Russell and P. Norvig. Artificial Intelligence. A Modern
Approach. 2010.
[2] X. He and L. Deng. “Discriminative learning for speech
recognition: Theory and practice.” vol. 4. 2008.
[3] M. K. Sharma. “Speech Recognition : A Review.” in Special
Conference Issue: National Conference on Cloud Computing &
Big Data. 2015.
[4] R. K. Aggarwal and M. Dave. “Implementing a Speech
Recognition System Interface for Indian Languages.” Proc.
IJCNLP-08 Work. NLP Less Privil. Lang.. no. January. pp. 105–
112. 2008.
[5] A. H. Abo. M. Deriche. M. Elshafie. Y. Elhadj. and B. Juang.
“Algorithm for Arabic Speech using Feature Fusion and a
Genetic Algorithm.” IEEE Access. 2018.
[6] P. A. A. Ali and I. T. Hwaidy. “Hierarchical Arabic Phoneme
Recognition Using Mfcc Analysis.” Iraq J. Electr. Electron. Eng..
vol. 3. no. 1. 2007.
[7] R. Polikar. “Ensemble based systems in decision making.”
Circuits Syst. Mag. IEEE. vol. 6. no. 3. pp. 21–45. 2006.
[8] and M. A. Yahya Ould Mohamed Elhadj. Mansour Alghamdi.
“Phoneme-Based Recognizer to Assist Reading the Holy Quran.”
Adv. Intell. Syst. Comput.. vol. 235. pp. 141–152. 2014.
[9] E. M. Essa. A. S. Tolba. and S. Elmougy. “A comparison of
combined classifier architectures for arabic speech recognition.”
2008 Int. Conf. Comput. Eng. Syst. ICCES 2008. pp. 149–153.
2008.
-99-
[10] N. N. Radio. “Neural Networks used for speech recognition.”
in NINETEENTH NATIONAL RADIO SCIENCE
CONFERENCE. ALEXANDRIA. 2002. vol. 2. no. 4. pp. 19–21.
[11] J. Hai and E. M. Joo. “Improved linear predictive coding method
for speech recognition.” Information. Commun. Signal Process.
2003 Fourth Pacific Rim Conf. Multimedia. Proc. 2003 Jt. Conf.
Fourth Int. Conf.. vol. 3. no. December. pp. 1614–1618 vol.3.
2003.
[12] F. O. F. Engineering. “Parametric Speech Emotion Recognition
Using Neural Network.” 2014.
[13] A. Lilia and R. Herrera. -Un Método para la Identificación
Automática del Lenguaje Hablado Basado en Características
Suprasegmentales Ana Lilia Reyes Herrera Doctor en Ciencias
en el área de Ciencias Computacionales.- 2007.
[14] D. G. M. John G.Proakis. Digital Signal Processing. Third. New
Jersey. USA: Pearson Education. 1996.
[15] F. Snell. Roy;Milinazzo. “Formant Location From LPC Analysis
Data.” IEEE Tansaction speech audio Process.. vol. 1. 1993.
[16] M. W. Bhatti. Y. Wang. and L. Guan. “A Neural Network
Approach for Human Emotion Recognition in Speech.” ISCAS.
pp. 0–3. 2006.
[17] S. M. Al-qaraawi and S. S. Mahmood. “Wavelet Transform Based
Features Vector Extraction in Isolated Words Speech Recognition
System.” Int. Symp. Commun. Syst. Networks Digit. Sign. pp.
847–850. 2014.
[18] A. L. Reyes-herrera. L. Villaseñor-pineda. M. Montes-y-gómez.
and L. E. Erro. -Automatic Language Identification using
Wavelets.- INTERSPEECH. 2006.
-100-
[19] S. R. Safavian and D. Landgrebe. “A Survey of Decision Tree
Classifier Methodology.” IEEE Trans. Syst. Man Cybern.. vol.
21. no. 3. pp. 660–674. 1991.
[20] T Kaddar. J Al- Daher. “Using Data Mining Tools For Human
Resource Management” Damascus University Journal for basic
Sciences. 2013.
تلخيص البيانات واختصارها عرب حتليل املكونات.)2019( .] أكاديمية حسوب21[
R. [online] Available at: https://academy. ) يف لغةPCA( الرئيسية
.]hsoub.com/programming/r-language/ [Accessed 12 Jun. 2019
-101-
-102-
الباب الثالث
حتليل اآلراء العربية إلكتروني ًا
-103-
-104-
حتليل اآلراء العربية إلكتروني ًا
د.أجمد يوسف أبو جبارة
امللخص
يتناول هذا الباب استعراض ًا استقصائي ًا ملوضوع التحليل اآليل لآلراء وتطبيقاته
يف اللغة العربية .يقدم الباب تعريف ًا تفصيلي ًا باملوضوع يتضمن رشح ًا للمهام املطلوبة
لتميكن احلاسب اآليل من فهم اآلراء ،واستعراض ًا للمقاربات البحثية املختلفة لتنفيذ
كل من هذه املهام مع مقارنتها واملفاضلة بينها كلام دعت احلاجة .كام يتضمن الباب
عرض ًا ألهم اخلوارزميات التي اقرتحها الباحثون للتنقيب عن اآلراء وتصنيفها مع
تسليط الضوء عىل ما استهدف اللغة العربية منها .يتطرق الباب كذلك إىل بعض
التطبيقات الرئيسية لتحليل اآلراء كتصنيف مراجعات املنتجات يف املتاجر اإللكرتونية،
ٍ
باستعراض موجز لبعض والتنقيب عن اآلراء يف الشبكات االجتامعية .وخيتتم الباب
املوارد املفيدة يف املجال من جمموعات نصية ،ومعاجم آراء ،ومكتبات برجمية.
-105-
ولعل أهم العوامل التي ساعدت يف نشأة وتطور هذا العلم هو تطبيقاته املهمة يف
جماالت التسويق ،وخدمة العمالء ،وتطوير املنتجات ،وقياس الرأي العام ،والعلوم
السياسية ،والدراسات االجتامعية ،وغريها الكثري .حتى أصبح حتليل اآلراء خدمة
مدفوعة تقدمها رشكات متخصصة وتستفيد منها جهات عديدة (من رشكات ومنظامت
وحكومات) معنية برصد وقياس آراء زبائنها أو مستخدمي منتجاهتا أو املستفيدين من
خدماهتا.
نبذة تارخيية
تعود أصول جمال حتليل اآلراء واملشاعر إىل علم الفلسفة ،وتستند الكثري من
الدراسات األوىل يف املوضوع إىل أفكار فريدريك نيتشه ونظرياته حول تعدد اآلراء
Perspectivismالتي تتلخص يف أن احلقيقة ممكن أن تكون ذات أوجه متعددة ،وأن
كثري من القضايا التي يتجادل حوهلا الناس ليس هلا حقيقة مطلقة بالرضورة []2[ ]1
[.]3
الفيلسوف األمريكي ريتشارد سكاشت درس أفكار نيتشه ،وأعاد صياغتها بحيث
فرق بني نوعني من األفكار :األفكار املرتبطة بحقائق ، Objectiveواألفكار التي تعرب
عن رأي .]4[ Subjectiveوتعترب هذه الدراسات هي األرضية التي ارتكزت عليها
الكثري من الدراسات احلديثة يف جمال حتليل اآلراء.
وملا كان الكالم املكتوب واملنطوق هو الوسيلة الرئيسية للتعبري عن األفكار
ومشاركتها مع اآلخرين ،فقد انصب كثري من اهتامم الباحثني يف هذا املجال عىل
دراسة العالقة بني طبيعة الكالم املستخدم يف احلديث واآلراء التي حيملها املتحدث
[ ،]7[ ]6[ ]5حتى ظهر جمال يف علم اللغويات متخصص بدراسة اللغويات النفسية
.]8[ Psycolinguisticsفعىل سبيل املثال درست الباحثة آن بانفيلد Ann Banfield
اجلمل التي تعرب عن احلالة النفسية للمتحدث من حيث كونه يرسد حقائق موضوعية
أو يعرب عن آراء ،وعالقة ذلك باختيار األلفاظ والتعبريات وتركيب اجلمل [ ،]9كام
ظهر ٌ
جمال أكثر ختصص ًا يتعلق باللغويات االجتامعية ،]10[ Sociolingisticsوهيتم
بدراسة الطرق املختلفة التي يستخدمها الناس للتعبري عن أفكارهم يف أوضاع التفاعل
االجتامعي املختلفة كحال االتفاق أو اإلعجاب أو املعارضة إلخ.
-106-
وقد مثلت كل هذه الدراسات املختلفة أساس ًا بنى عليه الباحثون املهتمون بمجال
معاجلة اللغات مقارباهتم approachesاملختلفة لبناء أنظمة حاسوبية قادرة عىل حتليل
اآلراء التي يتم التعبري عنها بطريق الكالم .ومن الرواد يف هذا املجال الباحثة جينيس
ويب Janyce Wiebeالتي استفادت من دراسة بانفيلد سابقة الذكر لتطوير خوارزمية
قادرة عىل اكتشاف أنامط الكالم التي تظهر بشكل متكرر مع احلاالت النفسية ويف
احلاالت االجتامعية املختلفة [ .]11ومن أمثلة الدراسات الريادية املهمة يف هذا
املجال كذلك ما قام به الباحث ستيفن جرين من تطوير خوارزميات قادرة عىل كشف
أنامط الكالم التي تعرب عن ميول وحتيزات ضمنية ال يتم التعبري عنها بشكل رصيح
يف الكالم ،وقد تضمن بحثه إجراء دراسات لغوية اجتامعية واقعية متعددة لتدعيم
استنتاجاته واختبار دقة خوارزميته [.]12
ومن أوائل التطبيقات العملية احلديثة التي انصب عليها تركيز باحثي لغويات
احلاسب اآليل فيام يتعلق بتحليل اآلراء :أنظمة إجابة األسئلة Question Answering
.Systemsوكانت بؤرة الرتكيز فيها هي تطوير هذه األنظمة بحيث تصبح -إىل جانب
قدرهتا عىل إجابة األسئلة املرتبطة بحقائق -قادرة كذلك عىل إجابة أسئلة الرأي التي
حتتمل أكثر من إجابة.
وكان من أهم اجلهود الريادية يف هذا املجال ما قامت به الباحثة جينيس ويب عام
2002عندما نظمت ورشة عمل استمرت شهرين مجعت فيها عدد ًا من الباحثني
لدراسة كيفية استخدام الناس للغة للتعبري عن اآلراء .وخرجت هذه الورشة
ٍ
بمجموعة من التعريفات املحددة التي متيز الكالم احلامل للرأي عن احلقائق ،ومعايري
تصنيف الكالم احلامل للرأي إىل كالم إجيايب أو سلبي أو حمايد .كام قام املشاركون يف
هذه الورشة بتطبيق هذه التعريفات واملعايري عىل مدونة نصية Text Corpusمأخوذة
من مقاالت إخبارية لتشكل هذه املجموعة ما يعرف اآلن بـ MPQAوالتي أصبحت
أحد أهم املجموعات النصية التي يستخدمها باحثو لغويات احلاسب اآليل لتدريب
واختبار خوارزميات حتليل اآلراء [.]13
ومع ظهور وانتشار مواقع التجارة اإللكرتونية وإقبال الناس املتزايد عىل رشاء
احتياجاهتم عرب اإلنرتنت ،ومع ما تقدمه هذه املواقع يف الغالب للمشرتين من إمكانية
-107-
التعليق عىل املنتجات التي قاموا برشائها وتبيان ما أعجبهم وما مل يعجبهم فيها ،انصب
اهتامم باحثي حتليل املشاعر واآلراء عىل دراسة هذه التعليقات واقرتاح خوارزميات
تسهل عىل الباعة واملصنعني معرفة مقدار إعجاب الناس بمنتجاهتم مع تلخيص
اجلوانب التي القت استحسان املشرتين واجلوانب التي طاهلا نقدهم []15[ ]14
[.]17[ ]16
ثم مع ظهور وانتشار مواقع اإلعالم االجتامعي والشبكات االجتامعية ،توفرت
ميادين واسعة ملستخدمي اإلنرتنت للتعبري عن آرائهم جتاه كل القضايا ،بل واخلوض يف
جداالت حول مواضيع االختالف سوا ًء كانت هذه املواضيع تقنية أو فكرية أو سياسية
احلملة لآلراء جهود ًا بحثي ًة كثري ًة
[ .]18استقطبت هذه الوفرة املهولة يف النصوص َّ
انصب ُج ُّل اهتاممها عىل حماولة فهم اللغة التي يستخدمها الناس للتعبري عن آرائهم عرب
وسائل التواصل االجتامعي ،واملفردات والتعبريات التي يستعملها الناس يف كالمهم
حال االتفاق أو االختالف ،وكيف يمكن استخدام تقنيات معاجلة اللغات لتحليل
النصوص احلاملة لآلراء هبدف تصنيفها آلي ًا وكشف عالقات االتفاق واالختالف بني
أصحاهبا [.]21[ ]20[ ]19
ومن تطبيقات حتليل اآلراء األخرى التي القت اهتامم ًا متزايد ًا يف السنوات األخرية
دراسة طرائق التعبري عن اآلراء يف السياق األكاديمي ،وحتديد ًا عندما يشري الباحثون إىل
أعامل باحثني آخرين ويتعرضون هلا بالنقد .حياول الباحثون يف هذا املجال إحداث نقلة
يف معايري تقييم املسامهات العلمية للباحثني بحيث ال يتم االكتفاء بتعداد اإلشارات
املرجعية التي يتلقاها العمل البحثي ،بل يتم النظر أيض ًا إىل طبيعة الرأي املصاحب
لإلشارة وهل هو رأي مؤيد أم معارض ملا جاء به البحث املشار إليه []24[ ]23[ ]22
[.]26[ ]25
-108-
مواءمة املقاربات املستخدمة لتحليل اآلراء يف اللغة اإلنجليزية واللغات األخرى
للغة العربية ،وتضمن هذا بناء موارد لغوية ختدم حتليل اآلراء العربية كمعاجم آراء
ومدونات لغوية Corporaمصنفة يدوي ًا ومكتبات برجمية لتحليل اآلراء []28[ ]27
[ .]30[ ]29انتقلت اجلهود البحثية يف هذا املجال بعد ذلك إىل التعامل مع التحديات
اخلاصة باللغة العربية كتعدد اللهجات العربية [ ،]33[ ]32[ ]31ودراسة أثر املعاجلة
املسبقة للنص العريب (كالتحليل الرصيف والتجذير والتجذيع) عىل دقة حتليل اآلراء.
نُرشت العديد من األبحاث االستقصائية يف السنوات األخرية حول حتليل اآلراء يف
اللغة العربية وخلصت اجلهود البحثية يف املجال عىل اختالف حماور تركيزها وتطبيقاهتا
والطرق التي استخدمتها والتحديات التي عاجلتها ،وندعو القارئ املهتم إىل الرجوع
إىل هذه الدراسات كقراءة مكملة ملا حيتويه هذا الباب []38[ ]37[ ]36[ ]35[ ]34
[.]40[ ]39
-109-
احلالة يعرب عن رأي صاحبه املتحمس للهاتف اجلديد وما به من خصائص يراها مميزة.
وغالب ًا ما جيرى هذا النوع من التحليل عىل مستوى اجلمل ،حيث يتم تصنيف كل
مجلة يف النص إىل مجلة موضوعية Objectiveأو مجلة معربة عن رأي Subjectiveاعتامد ًا
عىل ما حتويه اجلملة من ألفاظ [ .]42[ ]41فاجلمل احلاملة للرأي تتميز باحتوائها عىل
صفات (إجيابية أو سلبية) مثل «رائع» و»املميزة» كام يف املثال السابق ،يف حني أن اجلمل
املوضوعية حتتوي غالب ًا عىل أرقام أو تواريخ أو غريها من التعبريات التي يكثر اقرتاهنا
بنقل احلقائق أو توثيق األحداث.
وإذا لزم تصنيف موضوعية نص كامل فإن ذلك يتم بطريقة إحصائية يف الغالب من
خالل رصد موضوعية اجلمل املكونة للنص ،فكلام زادت نسبة اجلمل احلاملة للرأي يف
ال نحو كونه نص ًا معرب ًا عن رأي والعكس صحيح.النص ،اعترب النص يف جممله أكثر مي ً
حتديد قطبية الكالم
بعد حتديد الكالم احلامل للرأي تأيت املهمة التالية وهي التعرف عىل نوعية املشاعر
التي يعرب عنها النص .الغالبية الراجحة من الدراسات ركزت عىل تصنيف املشاعر إىل
مشاعر سلبية ومشاعر إجيابية مع إمكانية التمييز بني درجات خمتلفة من قوة أو ضعف
اإلجيابية أو السلبية .ويطلق عىل اخلاصية التي تصف الكالم من حيث كونه سلبي ًا أو
إجيابي ًا يف األوساط البحثية بـ «قطبية الكالم» ،Text Polarityوتعرف أيض ًا بـ»االنحياز
املعنوي» .Semantic Orientation
تطرقت أبحاث حتليل قطبية الكالم إىل دراسة القطبية عىل مستويات خمتلفة ابتدا ًء
من قطبية الكلامت وصوالً إىل قطبية النصوص الكاملة.
متييز قطبية الكلامت:
وهتدف هذه العملية إىل تصنيف الكلامت الواردة يف النص إىل كلامت إجيابية (مثل:
مجيل ،حسن ،رائع ،كريم ،إلخ) أو كلامت سلبية (مثل :يسء ،رديء ،هزيل ،بخيل،
بَ ،معِ ،كتابِ ،
شارع ،إلخ) .للوهلة األوىل قد تبدو إلخ) أو كلامت حمايدة (مثلَ :ذ َه َ
هذه العملية سهلة وأن الكلامت السلبية واإلجيابية يمكن حرصها يف معجم حرص ًا
يدوي ًا (وهو ما قام به العديد من الباحثني يف جمال اللغويات النفسية واالجتامعية بالفعل
-110-
[ ،)]45[ ]44[ ]43[ ]41ولكن هذه العملية يف احلقيقة حتيط هبا حتديات متعددة
جتعل املعاجم اليدوية غري قادرة عىل تلبية احتياجات معظم تطبيقات حتليل اآلراء:
َبت أحجامها ُّ
تظل عاجز ًة عن حرص كل الكلامت فاملعاجم اليدوية املتاحة مهام ك ُ َ
التي حتمل دالئل قطبية ،خاصة أن كثريا من تطبيقات حتليل اآلراء جتري عىل
نصوص منشورة عىل اإلنرتنت حيث تظهر مفردات جديدة باستمرار للتعبري
عن معاين سلبية أو إجيابية (مثل وصف األفكار بأهنا «داعشية» -وهو لفظ
مستحدث ال حتويه معاجم القطبية) ،ويغلب استعامل الكالم العامي ،ويكثر
استعامل االختصارات (مثل استعامل gr8كاختصار ل ،)greatواستعامل
الوجوه التعبريية ،وغريها.
كام أن معاجم القطبية متوفرة لعدد حمدود من اللغات فقط ،يف حني أن عدد كبري
من اللغات ال توجد هلا معاجم قطبية عىل اإلطالق أو أن ما هو متوفر منها يعاين
من حمدودية املحتوى وغياب االهتامم بتحديثه.
معان متعددة ،وخيتلف معناها بحسب ٍ كذلك توجد كلامت كثرية حتتمل
السياق ،وبنا ًء عىل املعنى املقصود قد تتن َّقل قطبيتها بني إجيابية وسلبية وحمايدة،
ال كلمة «أسد» يف معناها الغالب هي اسم حيوان مفرتس ،ولكن يف فمث ً
ٍ
جمازي ُيراد ٍ
استعامل سياقات معينة تكون هلا داللة إجيابية كقوهلم «أنت أسد» يف
منه التعبري عن صفات الشجاعة والقوة .تتجنب املعاجم القطبية إدراج هذه
الكلامت ألن الغالب عليها هو املعنى املحايد ،يف حني أن كثري من تطبيقات
حتليل اآلراء حتتاج إىل أن تكون قادرة عىل التعرف عىل املقصد القطبي هلذه
الكلامت.
أخري ًا ،ختتلف الكلامت القطبية يف مقدار قطبيتها ،فكلمة «ممتاز» -مثالً -تتعرب
أقوى يف داللتها اإلجيابية من كلمة مثل «جيد» .مثل هذا التقدير لدرجة اإلجيابية
أو السلبية غري متاح يف الغالبية العظمى من املعاجم القطبية ،وما هو موجود
منها يكتفي بتصنيف قطبية الكلامت إىل قوية وضعيفة فقط.
-111-
بسبب هذه التحديات وحمدودية املعاجم اليدوية انصب اهتامم كثري من الباحثني
األوائل يف جمال حتليل اآلراء عىل البناء اآليل للمعاجم أو اإلثراء اآليل للمعاجم اليدوية
املوجودة ،واستخدم الباحثون طرق ًا متعددة لتحقيق هذا اهلدف نستعرض بعض ًا منها
يف الفقرات التالية.
استندت كثري من هذ الطرق إىل فرضية أن الكلامت التي حتمل دالالت قطبية
ال إذا كان هناك نص يبدي رأي ًا جتاه منتج
متشاهبة تظهر غالب ًا يف مواضع متقاربة ،فمث ً
جديد ،وإذا كنا نعرف قطبية بعض الكلامت الواردة يف هذا النص ،فيمكن افرتاض
أن باقي الصفات الواردة يف النص من املمكن أن حتمل قطبية مماثلة ،وإذا أجرينا هذا
الرصد للظهور املتزامن لكلامت معروفة القطبية مع بقية الكلامت عىل كمية ضخمة
جد ًا من النصوص يصبح من املمكن رصد عالقات اقرتان إحصائية تقود إىل ختمني
ال الكلامت التي تتكرر عىل مقربة من كلامت قطبية الكلامت غري معروفة القطبية .فمث ً
معروفة اإلجيابية يمكن افرتاض أهنا إجيابية ،واألمر كذلك مع الكلامت التي تتكرر مع
كلامت سلبية ،أما الكلامت التي ترد بنفس مقدار التكرار مع كلامت إجيابية وكلامت
سلبية فيمكن افرتاض أهنا كلامت متعادلة القطبية [. ]46
حاولت مقاربات أخرى النظر إىل الطريقة التي ترتبط فيها الصفات التي تتجاور يف
النصوص وتفصلها حروف عطف أو حروف استدراك أو ما شابه ،وحماوالت استنتاج
ال إذاالقطبية للكلامت جمهولة القطبية بمساعدة الكلامت ذات القطبية املعروفة .فمث ً
احتوى نص عىل يشء من قبيل« :مجيل ورائع» وكانت قطبية «مجيل» معروفة مسبق ًا،
فإن حرف العطف «و» يوفر قرينة قوية بأن كلمة «رائع» حتمل نفس القطبية .أما إذا
احتوى نص عىل تعبري مثل« :مجيل لكنه مزعج» ،وكانت قطبية «مجيل» معروفة ،فإن
حرف االستدراك «لكن» يمنح قرينة قوية بأن كلمة «مزعج» هلا قطبية معاكسة [.]47
عمدت طرق أخرى إىل االستفادة من شبكات الكلامت ،Word Networksوهي
شبكات تكون كل نقطة nodeفيها عبارة عن كلمة ،وترتبط الكلامت ببعضها بروابط
edgesمتثل عالقات ترادف أو تضاد أو غريها من العالقات املعنوية Semantic
.Relationshipsالطرق التي تعتمد عىل هذه الشبكات تستخدم خوارزميات التعلم
اآليل شبه املوجه Semi-supervised learningللتعرف عىل قطبية الكلامت املختلفة
-112-
يف الشبكة انطالق ًا من عدد قليل -نسبيا -من الكلامت معروفة القطبية يتم اختيارها
يدوي ًا [. ]48
من هذه اخلوارزميات ما يعتمد عىل التنقل العشوائي يف الشبكة ،Random Walks
ولتحديد قطبية كلمة ما باستخدام هذه الطريقة فإن عملية التنقل العشوائي تنطلق
من تلك الكلمة وتستمر يف التنقل العشوائي عرب الشبكة حتى تصل إىل كلمة معروفة
القطبية ،ويتم تكرار هذه العملية مرات كثرية لكل كلمة ،ويف النهاية يتم تعيني قطبية
للكلمة بحسب القطبية التي غلبت عىل الكلامت ذات القطبية املعروفة التي توقفت
عندها عملية التنقل يف كل حماولة .أما يف حال تعذر إجياد أغلبية واضحة إلحدى
القطبيتني فيتم اعتبار أن الكلمة ذات قطبية متعادلة [.]49
حاولت مقاربات أخرى إثراء املعاجم القطبية للغات التي تعاين من فقر املعاجم
وفقر املوارد النصية التي تتيح بناء معاجم آلية هلا (كقلة املحتوى املكتوب بتلك اللغة
عرب اإلنرتنت مثالً) من خالل االستفادة من معاجم لغات أخرى تتميز بثراء معامجها،
ٍ
كلامت متعددة اللغات Multi-lingual ومن هذه الطرق مث ً
ال ما يعمد إىل بناء شبكات
Word Networksمن خالل استخدام القواميس وربط الكلامت برتمجاهتا من اللغات
املختلفة .يتبع ذلك استخدام خوارزميات كالتي عرضناها يف الفقرة املاضية الستنتاج
قطبية الكلامت غري معروفة القطبية يف اللغات املختلفة انطالق ًا من بعض كلامت معروفة
يتم اختيارها يدوي ًا ،كام هو مبني يف شكل .]50[ 1
شكل 1يوضح شبكتني WordNetللغتني خمتلفتني ،األوىل -يمني -حتتوي عىل كلامت معروفة القطبية،
والثانية -يسار -ختلو من هذه املعلومات ولكنها مرتبطة بالشبكة األخرى من خالل ترمجة الكلامت
-113-
التعرف عىل قطبية اجلمل والفقرات
املهمة التي حتدثنا عنها يف القسم السابق هتتم بدراسة قطبية الكلمة بشكل جمرد
معزول عن سياقها الذي وردت فيه .يف هذا القسم سنتحدث عن مهمة أكثر تعقيد ًا
وهي التي يؤخذ فيها السياق بعني االعتبار ،وهي خطوة مهمة ألن السياق له دور كبري
يف حتديد قطبية الكلمة ،ونستعرض فيام ييل بعض احلاالت التي يؤثر فيها السياق عىل
الكلامت مع ذكر أمثلة عىل كل منها.
بعض الكلامت حتتمل أكثر من معنى .فقد تستخدم الكلمة يف سياق فتحمل
معنى سلبي ًا أو تكون حمايدةً، ٍ
سياق آخر فتحمل معنى إجيابي ًا وقد تستخدم يف
ً ً
ومثال ذلك كلمة «أسد» كام أوردنا سابق ًا .مثال آخر كلمة «عني» ،فقد تأيت
ٍ
إجيايب بمعنى
ً بمعنى حمايد كام يف« :اشرتيت قطرة ٍ
عني لعالج االمحرار» ،أو ً
ً ً
عندما تستخدم استخداما جمازيا كام يف «ابني هو عيني وال غنى يل عنه» ،أو
سلبي كام يف «كان عين ًا لألعداء» أي «جاسوس ًا».
ٍ بمعنى
ً
إذا وردت الكلمة القطبية يف سياق ٍ
نفي فإن قطبيتها تنعكس .فمث ً
ال يف مجلة:
«ال أحب الباذنجان» األصل يف كلمة «أحب» أهنا موجبة القطبية ،ولكن ورود
حرف «ال» يف بداية اجلملة ،ووقوع كلمة «أحب» يف نطاق نفيها ،قلب قطبيتها
من موجبة إىل سالبة.
قد ترد الكلمة القطبية يف سياق نفي ولكن ال يؤدي النفي إىل عكس قطبيتها
بالرضورة ،ولكن يؤدي إىل التقليل من قوة قطبيته ا �Sentiment Intensi
ال يف مجلة «ال أحب الباذنجان كثري ًا» برغم أن كلمة «أحب» وردت ،tyفمث ً
يف سياق النفي ،إال أن تذييل اجلملة بـ»كثري ًا» قد جعل املنفي هو كثرة املحبة
وليس أصلها.
قد ترد الكلامت القطبية يف سياق السخرية ويكون مقصد قائلها معاكس ًا
ال قد يقول أحد لآلخر «يا ذكي» يف سياق من السخرية لقطبيتها الظاهرة .فمث ً
يكون مقصده فيه أن املوجه إليه الكالم قليل الذكاء وهو ما يعاكس ظاهر
املعنى .ويعترب التعامل مع حاالت السخرية يف الكالم من أصعب مشكالت
حتليل اآلراء ،وذلك ألن متييز الكالم اجلاد من الكالم الساخر حيتاج يف أغلب
-114-
األحيان إىل معرفة الثقافة اللغوية السائدة بني املتحدثني ،وهو ما يتجاوز كثري ًا
نطاق النص الذي جيري حتليله.
للتعامل مع هذه التحديات التي تستوجب إدراك السياق حاولت بعض طرق حتليل
ال يف حال وروداآلراء استخدام بعض اخلوارزميات املبنية عىل قواعد مصاغة يدوي ًا ،مث ً
كلمة نفي يف اجلملة يتم عكس قطبية كل الكلامت القطبية الواردة يف نفس اجلملة وعىل
بعد مسافة حمددة من أداة النفي وهكذا ،ولكن هذه الطرق تعاين من عدم مقدرهتا عىل
اكتشاف كل أنواع السياق املؤثرة يف قطبية الكالم .ولذلك فإن الكثري من طرق حتليل
اآلراء قد اعتمدت عىل تقنيات تعلم اآللة Machine Learningسوا ًء الطرق التقليدية
منها أو طرق التعلم العميق .Deep Learningيف حالة طرق تعلم اآللة التقليدية
ينصب جهد الباحثني عىل تعريف إشارات وخصائص Featuresممكن إجيادها يف
النص ويمكن أن يكون هلا أثر يف قطبية الكالم ،ومن أمثلة هذه اخلصائص ما ييل:
الكلامت املجاورة (الكلمة السابقة والتالية مثالً) للكلامت القطبية يف اجلملة.
وجود أداة نفي يف اجلملة ،واملسافة -مقاسة بالكلامت -بني أداة النفي والكلامت
القطبية يف اجلملة.
وجود كلامت تقوية Intensifiersأو تضعيف Downtonersمقرتنة بالكلمة
القطبية مثل« :بشدة»« ،بقوة»« ،كثري ًا»« ،جد ًا»« ،قليالً» ،إلخ.
العالقات اإلعرابية بني الكلامت يف اجلملة ،السيام بني الكلمة القطبية وغريها
من الكلامت كأدوات النفي أو كلامت التقوية والتضعيف وغريها.
احتواء اجلملة عىل وجوه تعبريية ،Emoticonsأو عالمات ترقيم (مثل
عالمة تعجب أو عالمة استفاهم) ،أو رموز تزينية ،أو وسوم تصنيفية
،Hashtagsأو التطويل لبعض احلروف يف بعض الكلامت كام يف
«عجيــــــــــــــــــــــــب» ،أو تكرار احلروف كام يف «راااااااااائع» ،إلخ.
هذه اخلصائص يتم تعريفها لكل مجلة أو فقرة يف النص ،وعند توفر كمية كافية
من اجلمل أو الفقرات معروفة القطبية ،يتم تدريب خوارزميات تعلم اآللة عىل هذه
األمثلة ،حتى تصبح قادرة عىل ختمني قطبية أي مجل أو فقرات أخرى.
-115-
مؤخر ًا -ومع الوفرة الكبرية للبينات املحملة باآلراء املنشورة عىل اإلنرتنت-
شهدت تقنيات حتليل اآلراء صعود الطرق املعتمدة عىل التعلم العميق ،وفيها ينرصف
تركيز الباحثني عن تعريف خصائص رصحية الكتشاف القطبية يف ضوء السياق إىل
الرتكيز عىل بنية النموذج العميق Model Architectureالذي يراد تدريبه .وسوف
نتحدث بقدر أكرب من التفصيل عن هذه الطرق الحق ًا يف هذا الباب.
التعرف عىل مصدر الرأي
كثري من تطبيقات حتليل اآلراء هتتم بتمييز اآلراء املنقولة عن آخرين .فمث ً
ال عند قول
أحدهم« :صديقي يكره منتجات رشكة آبل ،ولكني أحبها» ،نجد أن التعبري السلبي
«يكره» ليس مقرتن ًا باملتحدث صاحب النص ،وإنام هو ينقل مشاعر مصدرها خمتلف.
ولذلك فإن طرق حتليل الرأي يف مثل هذه التطبيقات حتتاج إىل ربط كل تعبري قطبي يف
النص بمصدره والتمييز بني كونه مقرتن ًا بالكاتب أم بمصدر آخر.
التعرف عىل املستهدف بالرأي
كثري من تطبيقات حتليل اآلراء هتتم أيض ًا برصد رأي صاحب النص جتاه منتج حمدد
أو خدمة حمددة ،ولذلك يلزم معرفة املستهدف بكل تعبري قطبي يف النص .فمث ً
ال إذا قال
أحدهم« :أنا أحب هواتف آبل ،ولكني أكره أجهزهتا اللوحية» ،حتتاج أكثر تطبيقات
إىل القدرة عىل متييز أن مشاعر املحبة موجهة للهواتف ،بينام مشاعر الكره موجهة نحو
اللوحيات وليس العكس.
كذلك فإن كثري من تطبيقات حتليل اآلراء تتطرق إىل رصد رأي الناس يف خدمات أو
منتجات متعددة اجلوانب ،ومن املمكن أن خيتلف تقييم الناس لكل من هذا اجلوانب،
فمث ً
ال عند قيام املستخدمني بتقديم تقييم نيص ألحد املطاعم فإن هذا التقييم قد يتطرق
إىل جودة الطعام ،ترتيب ونظافة مكان اجللوس ،لباقة النادل ،األسعار ،إلخ .فمث ً
ال يف
تعليق مثل« :الطعام لذيذ جد ًا ،وتعامل طاقم املطعم راق ،ولكن الضوضاء يف املكان
شديدة واإلضاءة ضعيفة» نجد خليطا من آراء إجيابية وسلبية .وحتتاج كثري من تطبيقات.
ونظر ًا ألمهية هذا الربط بني الرأي واجلانب املستهدف بالرأي ألكثر تطبيقات حتليل
اآلراء فقد ظهر جمال خاص يعرف بـ»حتليل اآلراء متعدد اجلوانبAspect-based ».
.Sentiment Analysis
-116-
وتعتمد الطرق التقليدية املهتمة بمعرفة مصدر ووجهة الرأي عىل حتليل العالقات
اإلعرابية يف اجلملة بني الكلامت القطبية والكلامت األخرى السيام اجلمل االسمية
Noun Phrasesوالكيانات املسامة .Named Entitiesأما طرق التعلم العميق
فتحاول كشف العالقات اإلعرابية بشكل ضمني من خالل بنية النموذج Model
Architectureالذي يتم تدريبه دون أن يتم إجراء عملية اإلعراب نفسها بالرضورة.
تلخيص اآلراء
كام ذكرنا سابق ًا فإن العديد من تطبيقات حتليل اآلراء تتعامل مع حاالت تتعدد فيها
اجلوانب التي يستهدفها الناس بآرائهم ،مثل تعليق الناس عىل أحد املنتجات كهاتف
ال ولكنهم يتضجرون من قرص عمر البطارية أو ال فيستحسنون جودة الكامريا مث ً مث ً
يعجبهم الشكل األنيق للهاتف ولكن يضايقهم تأخر استجابة شاشة اللمس وهكذا.
يف هذه التطبيقات ال يكفي وسم تعليق املستخدم بأنه إجيايب أو سلبي بمجمله بل
جيب تفصيل اجلوانب اإلجيابية واجلوانب السلبية من وجهة نظر كل مستخدم.
هتدف مهمة تلخيص اآلراء إىل تصنيف اآلراء املختلفة للمستخدمني من حيث
اجلوانب التي استهدفتها آراؤهم ،بحيث يتم وضع اآلراء اخلاصة بكل جانب يف جمموعة
واحدة ثم يتم تصنيفها إىل إجيابية وسلبية .ثم يتم تطبيق آليات تلخيص النصوص Text
Summarizationعىل جمموعة النصوص اخلاصة بكل منهام ،ويكون املخرج النهائي
هلذه العملية هو ملخص مفصل يعرض كل جانب عىل حدة وأهم اآلراء اإلجيابية
والسلبية التي استهدفت كل جانب.
-117-
تتبع تطور اآلراء
حياول الباحثون املهتمون هبذا النوع من حتليل اآلراء دراسة الطبيعة الديناميكية
لآلراء وتتبع تطورها وتغريها مع الوقت .ففي حالة حتليل آراء املستفيدين من خدمة ما
-مثالً ،-قد يكون من املفيد تتبع التغري الذي يطرأ عىل آرائهم بعد إجراء أي تغيريات
يف اخلدمة ،ومالحظة كيف متيل اآلراء نحو اإلجيابية أو السلبية كردة فعل من طرف
املستفيدين.
كذلك يف جمموعات النقاش عرب الشبكات االجتامعية ،هتتم العديد من الدراسات
االجتامعية برصد كيف يؤثر سري النقاش عىل آراء املشاركني فيه وإذا ما كان أحدهم
سيغري رأيه مع مرور الوقت ،وتأثري سري النقاش كذلك عىل الرأي املبدئي الذي يتبناه
من ينخرط يف النقاش متأخر ًا.
-118-
تستند كثري من هذه الدراسات إىل نظريات يف العلوم االجتامعية كنظرية التوازن
البنائي Structural Balance Theoryوالتي ترصد ظواهر اجتامعية متكررة تفرس
انقسام الناس حول اآلراء املختلفة مثل «صديق صديقي صديقي» و«عدو عدوي
صديقي» ،وهكذا.
-119-
§ §املعاجلة املسبقة للنصوص
هي خطوة مهمة جيب إجراؤها قبل البدء بتحليل اآلراء ،خاص ًة عند التعامل مع
اللغة العربية ،وقد بينت الدراسات أن هذا النوع من املعاجلة له أثر واضح يف دقة
عمليات حتليل اآلراء التي تتبعها [ .]51وتعود األمهية اخلاصة إلجراء هذه املعاجلة
لنصوص اللغة العربية ملا تتميز به من ثراء املفردات ،وكثرة أشكال الرصف ،وغياب
التشكيل من معظم النصوص العربية املكتوبة مع ما خيلقه هذا من غموض ملعاين بعض
الكلامت ،وتعدد اللهجات العربية ،وغريها .وتتضمن عمليات املعاجلة املطلوبة يف
اللغة العربية ما ييل:
-120-
وهذه العملية مهمة جد ًا لتحليل اآلراء ففي حال االعتامد عىل املعاجم القطبية
إلجراء عملية التحليل فإن املعاجم املتاحة ال حتوي كل أشكال الرصف للكلمة
ال قد حيتوي املعجم عىل كلمة «رائع» ولكنها لن حتوي ربام كلامت مثل القطبية ،فمث ً
ِ
«رائعة ،رائعان ،رائ َعني ،رائعون ،رائعني ،إلخ .وهلذا فإن عملية التحليل الرصيف تساعد
عمليات التحليل التالية يف إدراك أن كلمة مثل «رائعان» مرتبطة بكلمة «رائع» املوجودة
يف املعجم.
كذلك يف اللغة العربية قد تدخل الضامئر عىل الكلمة ،فمث ً
ال قد حيتوي نص ما عىل
كلمة مثل «حسناهتم» ،والتي هي مكونة من قسمني« :حسنات» وهي مجع «حسنة»
والضمري «هم» .فاملعاجم القطبية قد حتوي كلمة مثل «حسنة» ولكنها لن حتوي
األشكال الرصفية األخرى أو احلاالت التي يدخل فيها ضمري عىل الكلمة.
-121-
تصنيف أقسام الكالم Part of Speech Tagging
ويتم فيها تصنيف كل كلمة يف النص بحسب حالتها الرصفية وبحسب سياقها
اإلعرايب ،كتصنيف الكلمة من حيث كوهنا فعل أو اسم أو حرف ،ومتييز الفعل من
حيث كونه ماضيا أو مضارع ًا أو أمر ًا ،أو تصنيف االسم عىل أنه مفرد أو مثنى أو مجع،
ومتييز احلروف عىل أهنا أدوات عطف أو وصل أو تأكيد ،ومتييز األسامء إىل صفة أو
حال ،أو غري ذلك.
وهذه العملية مهمة حلاجة تطبيقات حتليل اآلراء إىل التعرف عىل الصفات .فكثري
من الكلامت القطبية صفات ،كام أن هذه العملية تسهم يف كشف الغموض الذي قد
يكتنف بعض الكلامت إذا ما عوملت منفصل ًة عن سياقها .مثال لذلك يف اللغة العربية
كلمة «ذهب» ففي بعض السياقات هي اسم معدن ثمني وتستخدم بشكل متكرر كصفة
ٍ
ماض للمفرد الغائب. إجيابية ،ويف سياقات أخرى هي ٌ
فعل
-122-
وطرق تعتمد عىل تقنيات تعلم اآللة التقليدية.
وطرق التعلم العميق.
وهذا التصنيف يمثل أيض ًا التطور الزمني الذي مرت به طرق حتليل اآلراء ،فالطرق
املعتمدة عىل اخلوارزميات اليدوية واملعاجم القطبية متثل املحاوالت األوىل لتحليل
اآلراء وقد عمد إليها الباحثون يف ظل ندرة النصوص املقرتنة بقطبية معروفة بشكل
يمكن استخدامه لتدريب خوارزميات تعلم اآللة ،ثم مع توفر مثل هذه البيانات بدأت
تربز الطرق املعتمدة عىل تعلم اآللة كبديل قوي حل حمل اخلوارزميات املصاغة بشكل
يدوي ،ثم مع اتساع نطاق اإلنرتنت وزخم البيانات الذي شهدته الشبكات االجتامعية
وتوفر كميات مهولة من البينات املصحوبة بآراء معروفة القطبية ،برزت تقنيات التعلم
العميق وأصبحت هي اآلن اخلوارزميات األساسية املستخدمة يف تطبيقات حتليل
اآلراء.
-123-
والقيمة العددية املرتبطة هبا ،وكذلك إذا تبعت كلمة قطبية إحدى الكلامت التي تؤثر يف
شدة قطبيتها يتم زيادة أو تقليل القيمة العددية لقطبيتها وفق ًا لذلك [.]59[ ]58[ ]57
ييل ذلك جتميع هذه القيم عىل مستوى اجلملة ثم عىل مستوى النص بكامله ،وبذلك
تكون القطبية النهائية للنص هي جمموع قطبية الكلامت املكونة له.
املشكلة يف هذه الطرق هو اعتامدها عىل توفر معاجم قطبية ثرية ،وتستلزم معرفة
قوية باللغة املستعملة يف النصوص بشكل عام ،وبطبيعة املوضوع الذي جيري حتليل
اآلراء فيه بشكل خاص ،وحتتاج إىل صياغة قواعد خاصة لكل من املواضيع املختلفة،
ال القواعد التي تصلح لتحليل التعليقات وهو ما يتطلب جهد ًا كبري ًا من الباحثني ،فمث ً
عىل املنتجات اإللكرتونية ال تصلح بالرضورة لتحليل اآلراء يف النقاشات التي تتناول
مواضيع فكرية .هذا باإلضافة إىل أن هذه الطرق هي األقل من حيث الدقة يف نتائجها،
ولذلك انرصف اهتامم الباحثني عنها إىل الطرق املعتمدة عىل تعلم اآللة.
-124-
،)quency (DFيف هذه احلالة يكون كل n-gramيف النص عبارة عن خاصية
.Featureهذا يعني أن عدد هذه اخلصائص قد يكون كبري ًا جد ًا ،وهنا تكون
تقنيات كالتجذير والتجذيع والتحليل الرصيف مهمة السيام يف حالة اللغة
العربية ألهنا تقلل من عدد هذه اخلصائص وجتعل خوارزمية التعلم اآليل أقدر
عىل التعلم.
بعض هذه اخلصائص ممكن أن تعتمد عىل املعاجم ،مثل حتديد عدد الكلامت القطبية
يف اجلملة ،وحتديد إذا ما كان النص حيتوي عىل أدوات نفي أو تقوية أو تضعيف ،إلخ.
ويف هذه احلالة ال يتم تعريف قواعد حمددة كام يف الطرق اليدوية السابقة وإنام يتم إدخال
هذه اخلصائص خلوارزمية تعلم اآللة ،ويرتك للخوارزمية أن تتعلم كيفية االستفادة من
هذه املعلومات لتصنيف القطبية.
خصائص بنائية :Structural Featuresوهي خصائص متعلقة برتكيب اجلملة
والكلامت املكونة هلا ،ومن أمثلتها طول النص ،املسافة بني الكلامت القطبية
وأداة النفي إن وجدت ،موضع ظهور الكلامت القطبية يف النص أو اجلملة،
إلخ.
خصائص نحوية :Syntactic Featuresوهي خصائص تتعلق بالبناء النحوي
للجملة والعالقات اإلعرابية التي تربط كلامهتا ،ومن أمثلتها تصنيف أقسام
الكلامت ،Part-of-Speechوتفيد هذه اخلصائص يف جعل عملية حتليل
ال بدالً من استخدام الكلمة فقط جمردة من الرأي أكثر إدراك ًا للسياق فمث ً
سياقها ،يصبح بواسطة هذه اخلاصية معروف ًا إذا ما كانت الكلمة استعملت
كصفة أو اسم أو فعل ،وإذا ما كانت للمفرد أو املثنى أو اجلمع ،أو إذا كانت
للمذكر أو املؤنث ،إلخ.
ومن أمثلة هذه اخلصائص أيض ًا العالقات النحوية التي تربط الكلامت مثل ارتباط
املبتدأ باخلرب يف اجلملة االسمية ،والفعل بالفاعل يف اجلملة الفعلية ،إلخ .ومثل هذا
اخلصائص تكون رضورية أكثر يف حالة احلاجة إىل ربط كل كلمة قطبية بمصدرها
وباجلانب الذي تستهدفه ،فبدون أن تكون هذه العالقات النحوية متاحة خلوارزميات
تعلم اآللة يكون من الصعب تعلم هذه العالقات بشكل مبارش من النص.
-125-
ُجربت العديد من خوارزميات تعلم اآللة لتعلم تصنيف قطبية اآلراء ،عىل
رأسها خوارزمية التصنيف املعتمدة عىل جمموعة النقاط الداعمة Support Vector
Machinesوهي ربام أكثر اخلوارزميات استخدام ًا يف هذا املجال وذلك لكفاءهتا يف
التعامل مع أعداد ضخمة من اخلصائص ،وخوارزمية بييز البدهية ،Naive Bayes
وخوارزمية التصنيف بحسب أقرب النقاط املجاورة ،K-NNواخلوارزميات التي
تستخدم جمموعات أشجار القرار .Tree Ensembles
-126-
بني الكلامت (أو احلروف يف بعض األحيان) وقطبية اآلراء .املثري يف هذه التقنيات أهنا
ال عىل التعلم من نصوص معروفة القطبية ،فبعض مراحل التعلم ال تعتمد اعتامد ًا كام ً
ال حتتاج سوى نصوص بدون رضورة ملعرفة تصنيفها ،Unsupervised Learning
وهتدف هذه املرحلة إىل تعلم متثيل معنوي للكلامت Word Embeddingوهو عبارة
عن جمموعة من األرقام التي يتم تعلمها بشكل آيل لكل كلمة بحيث تصبح هذه األرقام
بمثابة متثيل رقمي للمعنى الذي حتمله الكلمة و الذي يتم استنباطه من خالل رصد
مئات آالف السياقات التي وردت فيها الكلمة يف ماليني النصوص التي يتم تدريب
اخلوارزمية عليها ،ثم يتم استخدام هذه األرقام للنيابة عن الكلامت يف املراحل املتقدمة
من تعليم اخلوارزمية والتي يلزم فيها استخدام نصوص معروفة القطبية سوا ًء بشكل
كامل ،Supervised Learningأو بشكل جزئي أو ضعيف Weak Supervisionكأن
يفرتض أن احتواء النص عىل وجه تعبريي ضاحك دليل عىل أن النص حيمل قطبية
موجبة.
ومما يميز هذه التقنيات هو سهولة مواءمتها لتصبح قادرة عىل حتليل اآلراء يف
جماالت خمتلفة من خالل تقنيات ،Transfer Learningبحيث إذا تم تعليم اخلوارزمية
عىل حتليل اآلراء يف جمال معني مثل مراجعات األجهزة اإللكرتونية ،فإنه ال يلزم إعادة
تدريب اخلوارزمية من الصفر حتى تتمكن من حتليل اآلراء الفكرية يف الشبكات
االجتامعية مثالً .وذلك ألن هذه التقنيات تسمح باإلتيان بالنموذج التي تم تعلمه
للمجال األول ثم مواصلة تدريبه عىل مدونات نصية من املجال اجلديد يف عملية تسمى
أحيان ًا «مواءمة املجال» Domain Adaptationأو «املعايرة الدقيقة» .Fine-Tuning
ومن ميزاهتا أيض ًا سهولة إجراء التعلم املتزامن للمهام املختلفة Multi-task learning
وهو ما جيعل من املمكن تدريب اخلوارزمية لتصبح قادرة عىل إجراء أكثر من مهمة
بشكل متزامن مثل تدريب النموذج عىل حتليل قطبية مراجعات املنتجات ،ومراجعات
املطاعم ،واآلراء الفكرية يف آن واحد!
وقد أصبحت طرق التعلم العميق األكثر استخدام ًا بني الباحثني املهتمني بتحليل
اآلراء يف اللغات املختلفة ،والتي القت اهتامم ًا خاص ًا بني الباحثني يف اللغة العربية
املعرفة
وذلك ألن التعقيد الرصيف والنحوي للغة العربية جيعل االعتامد عىل اخلصائص ّ
-127-
يدوي ًا صعبا جد ًا وغري عميل .هذا التعقيد من شدته جعل تقنيات التعلم العميق يف
حتليل اآلراء العربية أقل نجاحا منها يف اللغة اإلنجليزية مثالً ،وقد وجد الباحثون أن
إجراء التحليل الرصيف وتقطيع الكالم بنا ًء عىل نتيجة هذا التحليل (بل وإجراء عمليات
معاجلة مثل التجذير والتجذيع) تعترب خطوات مهمة لتعظيم النجاح الذي حتققه هذه
التقنيات يف حتليل اآلراء العربية.
مصادر وأدوات
نستعرض يف هذا القسم جمموعة من املوارد التي نظن أهنا مفيدة يف جمال حتليل
اآلراء ،ويمكن أن يستفيد منها من حياول إجراء أبحاث يف املجال ،أو حياول أن يبنى
أنظمة لتحليل اآلراء .سيقترص العرض هنا عىل األدوات اخلاصة باللغة العربية.
-128-
.٢معاجم قطبية عربية
نستعرض هنا بعض املعاجم القطبية العربية ،ونعرض نوعني من هذه املعاجم .النوع
األول هو املعاجم املعدة بشكل يدوي ،والنوع اآلخر املعاجم املبنية بشكل آيل أو شبه آيل.
املعاجم املعدة يدوي ًا:
من أمثلتها معجم ]41[ ArabSentiويضم 3.982صفة تم استخراجها من
400مقال من بني املقاالت املوجودة يف ،]65[ Arabic Tree Bankوتم تصنيف هذه
الصفات إىل إجيابية وسلبية ومتعادلة عىل يد ثالثة من متحدثي اللغة العربية.
ومن األمثلة أيض ًا معجم ]66[ SIFATوتم بناؤه بطريقة مشاهبة وحيتوي عىل
3.325صفة.
ومن املعاجم القطبية املتاحة كذلك ،]43[ NileULexويتميز باحتوائه عىل
تعبريات متعددة الكلامت باإلضافة إىل الكلامت املفردة ،كام أنه يضمن كلامت وتعبريات
عامية باللهجة املرصية باإلضافة إىل الفصحى ،باملجمل حيتوي املعجم عىل 5.953
عبارة أو مفردة قطبية .وتتوفر نسخة مطورة من هذا املعجم WeightedNileULex
تضيف وزنا يمثل قوة قطبيته [.]44
املعاجم املعدة بشكل آيل أو شبه آيل:
ومنها ]67[ ArSenLوحيتوي عىل 29ألف جذر عريب مع أوزان حيدد قوة قطبية
كل منها .و ]68[ ArSELوفيه تم تصنيف الكلامت يف املعجم إىل 8أنواع من املشاعر
مع إعطاء وزن لكل منها.
ومن هذه املعاجم أيض ًا ]69[ SLSAالذي يضم قرابة 35ألف جذر عريب مع
تصنيف قطبية وشدة قطبية كل منها.
.٣مكتبات برجمية:
من أنظمة حتليل اآلراء املتاحة للغة العربية نظام ]70[ SAMARوهو نظام لتصنيف
موضوعية الكالم Subjectivity Analysisوكذلك لتصنيف القطبية Sentiment
.Analysisوهو غري متوفر للتحميل عرب اإلنرتنت ولكن يمكن احلصول عليه بطلبه
من أصحاب البحث.
-129-
ومن األنظمة كذلك نظام حتليل املشاعر العربية Arabic Sentiment Analyzer
[ ]71وهو متاح لالستخدام عرب اإلنرتنت ومن خالل املتصفح.
-130-
اخلالصة
معاجلة اآلراء واحدة من أكثر موضوعات لسانيات احلاسب اآليل نشاط ًا سوا ًء
يف الوسط البحثي أو الوسط العميل ،وتطبيقاهتا كثرية ومتشعبة وتالمس جوانب
عديدة من حياة الناس .تشتمل معاجلة اآلراء عىل جمموعة من املهام الفرعية األساسية
كالتعرف عىل موضوعية الكالم وقطبيته ومصدره واجلهة املستهدفة به ،ومهام متقدمة
حتتاجها بعض التطبيقات كتلخيص اآلراء وتتبع تطورها وكشف انقسام الناس حوهلا
إىل جمموعات .يمكن تصنيف املقاربات التي جلأ إليها الباحثون يف هذا املجال إىل ثالثة
أصناف :مقاربات تعتمد عىل املعاجم القطبية ،ومقاربات تعتمد عىل خوارزميات تعلم
اآللة التقليدية ،ومقاربات تعتمد عىل تقنية التعلم العميق احلديثة .حتليل اآلراء العربية
تواجهه حتديات خاصة نظر ًا للثراء الرصيف للغة العربية وتعدد هلجاهتا ،وغياب التشكيل
من معظم النصوص املكتوبة هبا .وهلذا السبب فإن للمعاجلة املسبقة للنص العريب قبل
إجراء عمليات حتليل اآلراء عليه هلا أمهية كبرية يف زيادة دقة حتليل اآلراء .ومن هذه
املعاجلات املفيدة التحليل الرصيف ،والتجذيع ،والتجذير ،واإلعراب ،وتصنيف أقسام
الكالم وغري ذلك .اجلهود البحثية يف حتليل اآلراء العربية أسفرت عن جمموعة غري
قليلة من األبحاث املنشورة واملدونات النصية واملكتبات الربجمية املفيدة يف إجراء
البحوث وبناء التطبيقات العملية هلا.
املراجع
][1 V. S. Poythress، Symphonic theology: The validity of multiple
perspectives in theology.، Zondervan، 1987.
-131-
[5] L. Doleezel.، Narrative modes in Czech literature.، University of
Toronto Press، 1973.
[6] B. A. Uspenskij، A Poetics of Composition: The Structure of the
Poetic Text and Typology of a Compositional Form، Univ of Cal-
ifornia Press، 1973.
[7] C. J. Fillmore، The case for case، UC Berkeley Linguistics، 1967.
[8] M. W. Crocker، Computational psycholinguistics، Department of
Computational Linguistics and Phonetics، 2009.
[9] A. Banfield، Unspeakable Sentences: Narration and Representa-
tion in the Language of Fiction، Routledge Revivals، 1982.
[10] J. W. Sedelow، Computational sociolinguistics، 1967.
[11] J. Wiebe، Tracking point of view in narrative، Computational
Linguistics، 1994.
[12] S. C. Greene، Spin: lexical semantics, transitivity, and the identi-
fication of implicit sentiment، ProQuest، 2007.
[13] J. Wiebe، E. Breck، C. Buckley، C. Cardie، P. Davis، B. Fraser،
D. Litman، D. Pierce، E. Riloff، T. Wilson، D. Day وM. Maybury
، Recognizing and Organizing Opinions Expressed in the World
Press، AAAI Spring Symposium on New Directions in Question
Answering، 2003.
[14] L. Zhuang، F. Jing، Zhu وXiao-Yan، Movie review mining and
summarization.، Proceedings of the 15th ACM international con-
ference on Information and knowledge management، 2006.
[15] McDonald، I. Titov وRyan، A joint model of text and aspect rat-
ings for sentiment summarization، Urbana، 2008.
[16] M. Hu وB. Liu، “Mining and summarizing customer reviews،»
تأليفProceedings of the tenth ACM SIGKDD international con-
ference on Knowledge discovery and data mining، New York,
NY, USA، 2004.
-132-
[17] N. Kobayashi، K. Inui وa. Y. Matsumoto، “Extracting aspect-
evaluation and aspect-of relations in opinion mining،» تأليفn
Proceedings of the 2007 Joint Conference on Empirical Methods
in Natural Language Processing and Computational Natural Lan-
guage Learning، 2007.
-133-
[24] A. Athar وS. Teufel، “Detection of implicit citations for senti-
ment detection،» تأليفProceedings of the Workshop on Detect-
ing Structure in Scholarly Discourse، 2012.
-134-
ference on Intelligent Text Processing and Computational Lin-
guistics، 2014.
-135-
[41] M. Abdul-Mageed، M. Diab وM. Korayem، “Subjectivity and
sentiment analysis of modern standard Arabic،» تأليفn Proceed-
ings of the 49th Annual Meeting of the Association for Compu-
tational Linguistics، 2011.
-136-
[49] A. Hassan، A. Abu-Jbara، W. Lu وD. Radev، “A random walk–
based model for identifying semantic orientation،» Computa-
tional Linguistics، 3 رقم،4 المجلد، pp. 539-562، 2014.
-137-
[57] M. Elhawary وM. Elfeky، “Mining Arabic business reviews،»
تأليفProceedings of the 2010 IEEE International Conference on
Data Mining Workshops (ICDMW’10)، 2010.
-138-
[65] M. Maamouri، A. Bies، T. Buckwalter وW. Mekki، “The penn
Arabic treebank: Building a large-scale annotated Arabic cor-
pus،» تأليفProceedings of the NEMLAR Conference on Arabic
Language Resources and Tools، 2004.
-139-
[73] M. Atiya، A. Aly وA. F.، “LABR: A large scale Arabic book re-
views dataset.،» تأليفProceedings of the Annual Meeting of the
Association of Computer Linguistics، 2013.
[74] A. Elnagar وO. Einea، “Brad 1.0: Book reviews in arabic data-
set،» تأليفProceedings of the 2016 IEEE/ACS 13th Internation-
al Conference of Computer Systems and Applications (AICC-
SA’16). IEEE، 2016.
-140-
الباب الرابع
التعلم العميق وتطبيقاته املرتبطة باللغة العربية
-141-
-142-
التعلم العميق وتطبيقاته املرتبطة باللغة العربية
(((
د .أمحد احلايك
ملخص
لقد استطاعت تقنية التعلم العميق ( )Deep learningأن حتقق نتائج رائعة يف
العديد من جماالت الذكاء االصطناعي وتعلم اآللة خالل األعوام األخرية .يرجع
هذا النجاح لعدة أسباب لعل من أمهها توفر وحدات معاجلة الرسوميات ()GPU
ذات القدرة احلسابية اهلائلة وتوفر جمموعات بيانات تدريبية كبرية جد ًا تصل إىل
ماليني النصوص أو الصور .ويعترب كل من جمال حتليل النصوص الطبيعية (Natural
)Language Processingوجمال متييز الكالم املنطوق ()Speech Recognition
وجمال التعرف الضوئي عىل احلروف ( Optical Character Recognitionأو )OCR
من أبرز املجاالت التي استطاعت تقنية التعلم العميق التفوق فيها عىل مجيع التقنيات
التقليدية .هذه املجاالت هلا أمهية بالغة نظر ًا لكثرة تطبيقاهتا احلالية واملتوقعة ،والتي
تشمل -عىل سبيل املثال -التخاطب مع اإلنسان اآليل باللغة الطبيعية ،والرتمجة اآللية.
وعىل الرغم من كثرة اإلنجازات التي استفادت مؤخر ًا من تقنية التعلم العميق خلدمة
اللغة اإلنجليزية وغريها ،إال أن اللغة العربية مل تستفد بعد من هذه التقنية بشكل كبري.
نقدم يف هذا البحث تعريفا لتقنية التعلم العميق وتارخيها وأسباب نجاحها الذي مل
يكن يتوقعه معظم اخلرباء يف جمال الذكاء االصطناعي .ثم نسلط الضوء بعد ذلك عىل
بعض األبحاث التي سخرت تقنية التعلم العميق خلدمة اللغة العربية من خالل تطوير
خوارزميات عالية الكفاءة يف املجاالت املذكورة وغريها ،ونأمل أن يكون هذا البحث
نقطة انطالق لالستفادة املثىل من تقنية التعلم العميق خلدمة لغة القرآن العظيم.
-1أستاذ مساعد يف كلية علوم احلاسب اآليل بجامعة األمري مقرن بن عبدالعزيز .حصل د .احلايك عىل درجة املاجستري
من جامعة سارالند عن خوارزميته لتتميم صور اخلاليا ثالثية األبعاد ،ثم حصل عىل درجة الدكتوراه يف تتبع حركة
اإلنسان يف البيئات غري املنضبطة باستخدام عدد حمدود من الكامريات التقليدية من معهد ماكس بالنك بالتعاون
مع جامعة سارالند .عمل باحثا يف معهد ماكس بالنك للمعلوماتية يف أملانيا وباحثا ومدرسا يف مركز األبحاث
األملاين للذكاء االصطناعي يف جامعة كايزرسالوترن ،وله العديد من البحوث املنشورة باسمه.
-143-
-1مقدمة
وBengio Yoshua
((( (((
وHinton Geoffrey (((
فاز كل من Yann LeCun
مؤخرا بجائزة تورنج (تشبه جائزة نوبل ولكنها متنح لعلامء الكمبيوتر) لعام 2018م
[ ]1بجدارة عن تطويرهم لتقنية التعلم العميق (وتسمى ايض ًا الشبكات العصبية
العميقة) التي غريت مسار البحث العلمي يف العديد من املجاالت وجعلت من
بعض األفكار -التي كان يتصور الكثريون أهنا بعيدة املنال -واقعا نعيشه اليوم .وألن
تطبيقات تقنية التعلم العميق يف حياتنا اليومية كثرية ونتائجها منقطعة النظري ،جيدر
تقديمها للقارئ العريب.
قريب ،كانت الشبكات العصبية االصطناعية مستبعدة من قبل جمتمع ٍ حتى ٍ
وقت
أبحاث الذكاء االصطناعي .فعىل الرغم من وجودها منذ األيام األوىل للذكاء
ِ
القليل جد ًا من النتائج املفيدة عملي ًا .ولعل أحد االصطناعي ،إال أهنا مل تُنتج سوى
أن هذه الشبكات مكلفة جد ًا حسابي ًا (أي إهنا حتتاجأسباب هذا الضعف يف األداء هو ّ
إىل إجراء مليارات العمليات احلسابية) .بل إن الشبكات العصبية األبسط منها كانت
ربام حتتاج إىل شهور إلمتام عملياهتا احلسابية عىل بعض احلاسبات اآللية األقدم .بالرغم
من هذا ،ظلت جمموع ُة من العلامء تبحث يف هذه التقنية (مثل Geoffrey Hintonو
Yann LeCunاللذان كانا يرأسان جمموعتني بحثيتني لتطوير هذه التقنية [.)]2
قامت جمموعة Geoffrey Hintonبمزامنة هذه الشبكات (أي تقسيمها إىل عدد
من املهام التي تنفذ يف نفس الوقت عىل حاسبات آلية متعددة ) إلثبات كفاءهتا .ويف
عام 1998م ،طورت جمموعة Yann LeCunالبحثية مفهوم الشبكات العصبية
االلتفافية ( )Convolutional Neural Networkوالتي مكنت من تقليل التكلفة
احلسابية للشبكات العصبية وبالتايل زيادة عمقها (راجع الفصل .)2.3
ويف عام 2012م ،استطاعت تقنية التعلم العميق أن تفرض نفسها بنتائجها اجليدة.
فعىل سبيل املثال متكنت رشكة DeepMindالتابعة لرشكة جوجل من استخدام تقنية
-144-
التعلم العميق يف تصميم برنامج AlphaGoالذي انتهى به املآل يف عام 2015م للتفوق
عىل الالعب الكوري املحرتف Lee Se-dolيف لعبة .]3[ Goكام تفوقت تقنية التعلم
العميق مؤخرا يف جمال تشخيص بعض األمراض كالرسطان رجمال التعرف عىل الصور
( )ImageNet challengeوغريها من املجاالت.
إن فهم فكرة التعلم العميق وأقسامه وتارخيه بشكل تفصييل يساعد يف تسخري هذه
التقنية الفعالة .وحتى نفهم املقصود هبذه التقنية ،فالبد من تعريف بعض املصطلحات
األساسية مثل :الذكاء االصطناعي ،وتع ُّلم اآللة ،الشبكات العصبية االصطناعية؛
لذلك سنفرد الفصل الثاين من الباب للتعرف عىل معاين هذه املصطلحات قبل أن
نسلط الضوء عىل التعلم العميق وأنواع التقنيات التي استحدثت مؤخرا فيه ،كام
أننا سنحاول إيضاح أهم أسباب نجاح تقنية التعلم العميق .نعرض بعد ذلك كوكبة
من األبحاث احلديثة التي سخرت هذه التقنية خلدمة اللغة العربية يف جماالت حتليل
النصوص الطبيعية ( ،)Natural language processingوالتعرف عىل الكالم املنطوق
( ،)Speech recognitionوالتعرف الضوئي عىل النصوص (Optical Character
)Recognition؛ وهي جهود مشجعة نأمل أن تتضاعف حتى نصل إىل تطبيقات
ناضجة ختدم اللغة العربية والقرآن الكريم.
-145-
رسم توضيحي ( :)١العالقة بني التعلم العميق واملصطلحات املرتبط به.
ٍ
طريقة لفهم العالقة بني الذكاء االصطناعي وتع ُّلم اآللة والشبكات ولعل أسهل
العصبية االصطناعية هو متثيلها كمجموعات متداخلة كام هو مبني يف الرسم
التوضيحي .1فالذكا ُء االصطناعي هو الدائرة األكرب؛ إذ خوارزمية تعلم اآللة تعترب
خوارزمية ذكاء اصطناعي والعكس غري صحيح .كام أن تعلم اآللة -بدوره -يشتمل
عىل العديد من اخلوارزميات مثل شعاع الدعم اآليل (ٍ)Support vector machine
والشبكات العصبية االصطناعية وغريمها .لذلك فإن الشبكات العصبية االصطناعية
تعترب جمموعة جزئية من تعلم اآللة .أما التع ُّلم العميق فهو أحد تقنيات الشبكات
العصبية االصطناعية.
٢٫1الذكاء االصطناعي
يعرف الذكاء االصطناعي عىل أنه علم هيتم بتصميم خوارزميات تستطيع أداء مهام
حمددة بنفس كفاءة البرش أو أفضل .بناء عىل هذا التعريف فإن أي خوارزمية حتاكي
سلوكا خيتص به اإلنسان تدخل حتت مظلة الذكاء االصطناعي .فعىل سبيل املثال،
اإلنسان يستطيع فهم الكالم ،فأي خوارزمية تستطيع عمل هذه املهمة تعترب خوارزمية
ذكاء اصطناعي .وكذلك خوارزميات التعرف عىل الوجوه يف الصور التي تستعمل يف
بعض جوانب الذكاء البرشي [.]2،8 برامج ُ Facebook
حتمل َ
-146-
تم اعتامد مصطلح «الذكاء االصطناعي» عام 1956م يف مؤمترات دارمتوث [ .]9يف
ٍ
معقدة ُ
متتلك حواسا ويمكنها ذلك الوقت كان حلم رواد الذكاء االصطناعي بناء ٍ
آالت َ
مثل البرش [ .]2،8وكام أن للبرش قدرة عىل التعلم مما يسمعونه ويدركونه التفكري َ
يشاهدونه ،كان تعلم اآللة أحد جماالت الذكاء االصطناعي التي رمي إىل حماكاة الذكاء
البرشي عربها ،ومن هنا ظهر جمال «تعلم اآللة».
2.2تعلم اآللة
تعلم اآللة ( )Machine Learningيعنى بتطوير خوارزميات قادرة عىل حتليل
معي أو تصنيف ٍ
يشء قرار َّ ٍ
البيانات والتعلم منها لتحسني أدائها يف مهمة حمددة ،كاختاذ ٍ
ما .وبعد بناء برامج تعلم اآللة ،فإهنا متر بمرحلة تدريب ) (Trainingعىل بيانات كثرية
مصنفة برشيا لتكسب خوارزمية تعلم األلة القدر َة عىل تع ُّل ِم تنفيذ نفس املهمة الحقا
عىل بيانات جديدة غري مصنفة .وهنا ،يبدأ الباحثون باختبار أداء األنظمة )(Testing
بعرض بعض املدخالت عىل اخلوارزمية املدربة ومقارنة النتيجة التي تعطيها هذه
اخلوارزمية بالتصنيف الصحيح هلا.
لتوضيح هذا التعريف دعونا نرضب مثاال خلوارزمية لدهيا القدرة عىل حتديد نوع
الفاكهة التي تظهر يف صورة ما .يف كل مرحلة ،تأخذ هذه اخلوارزمية صورة إلحدى
الفواكه كمدخل .يف املرحلة األوىل يتم بناء اخلوارزمية بحيث تكون قادرة عىل استقبال
صور وإعطاء أوسمة حمددة كمخرج .ثم تبدأ مرحلة التدريب ) (Trainingبحيث
تعطى هذه اخلوارزمية عددا كبريا من صور الفواكه ومع كل صورة تعطى اسم الفاكهة
التي تظهر يف تلك الصورة ،فتقوم اخلوارزمية بتحليل كل صورة من أجل إجياد عالقة
بني الصورة ونوع الفاكهة املرفق معها (كالشكل أو اللون أو احلجم) حتى تتمكن
اخلوارزمية من إجياد عالقة مطردة بني الصور وأسامئها أو أوسمتها .ثم تبدأ مرحلة
االختبار ) (Testingللخوارزمية بأن تعطى بعض الصور اجلديدة (أي صور مل تستخدم
يف مرحلة التدريب) لفواكه من نفس األنواع التي تم تدريب اخلوارزمية عليها؛ ومن
ثم ،يتم تقييم اخلوارزمية وحساب دقتها بتحديد نسبة التصنيفات الصحيحة يف جمموعة
الصور التي أعدت لالختبار ).(Testing set
-147-
لقد استطاعت خوارزميات تعلم االلة فتح آفاق واسعة لتطبيقات مل تكن ممكنة
بخوارزميات الرتميز اليدوي السابقة.كمحركات البحث ،وبعض التطبيقات الطبية،
والعسكرية ،واألمنية ،والتجارية ،وغريها [.]10
يوجد عدد كبري من خوارزميات تعلم اآللة التي تتبع مناهج خمتلفة ،مثل :شجرة القرار
( ،)Decision treeوبرجمة املنطق االستقرائي (،)Inductive logic programming
وخوارزميات املراكمة ( ،)Clusteringوالتعلم املعزز (،)Reinforcement learning
والشبكات البايزية ( ،)Bayesian networksوشعاع الدعم اآليل (Support vector
.)machineويمكن تصنيف هذه اخلوارزميات عموم ًا إىل جمموعتني رئيسيتني:
·التعلم حتت اإلرشاف (Supervised Learning) وفيه يتم تدريب خوارزمية
تعلم اآللة باستخدام بيانات تم وسمها وتصنيفها مسبق ًا كام يف مثال الفواكه
السابق:
-148-
الرسم التوضيحي ( :)٢الشبكة العصبية االصطناعية متعددة الطبقات .كل دائرة متثل خلية
عصبية واألسهم متثل الوصالت بني هذه اخلاليا.
الرسم التوضيحي ( :)٣الشبكة العصبية االصطناعية متعددة الطبقات .كل دائرة متثل خلية
عصبية واألسهم متثل الروابط بني هذه اخلاليا.
-149-
وتعترب الشبكات العصبية بالدخل األمامي ()Feed forward neural network
إحدى أشهر الشبكات العصبية االصطناعية وقد سميت هبذا االسم ألهنا تعتمد مبدأ
االنتشار األمامي حيث يكون خمرج كل طبقة هو املدخل للطبقة التي تليها فيكون خمرج
ال لكل عصبون يف الطبقة التي تليها .وبزيادة الطبقات مجيع عصبونات أي طبقة دخ ً
اخلفية وتطوير خوارزمياهتا ،ظهر ما يسمى بالتعلم العميق.
-150-
لذا ،فإن أحد أهم أسباب نجاح خوارزميات التعلم العميق أهنا ال تعتمد عىل
خصائص ثابتة وحمددة مسبق ًا كام هو احلال يف مجيع خوارزميات تعلم اآللة األخرى،
ولكنها تتعلم اخلصائص املهمة من البيانات أثناء مرحلة التدريب .غري أن نجاح
خوارزميات التعلم العميق يقوم بشكل أسايس عىل توفر قدر كبري جد ًا من بيانات
التدريب.
يرجع نجاح تقنية التعلم العميق لعدة عوامل منها تطور بعض تقنياهتا وخوارزمياهتا
احلالية مثل الشبكات العصبية االلتفافية ( )Convolutional Neural Networkالتي
ساعدت يف تقليل التكلفة احلسابية للشبكات العصبية االصطناعية كثريا؛ كام سنوضحه
قريب ًا.
كذلك من العوامل التي أسهمت يف هذا التطور بشكل كبري توافر وحدات معاجلة
الرسومات ( )Graphics processing unitsذات القدرات احلسابية اهلائلة ،والتي
وقت مىض.جعلت املعاجل َة املتوازي َة أرسع وأرخص وأكثر قو ًة من أي ٍ
َ َ َ
من أسباب نجاح التعلم العميق أيض ًا توفر كميات كبرية من البيانات ،فقد توفرت
مؤخر ًا كميات هائلة من البيانات وصار باإلمكان مجعها وختزينها بشكل أسهل
ِ
والتدفق اهلائل وأرخص بكثري من السابق .فهذا التطور اهلائل يف وحدات التخزين
حدب وصوب ،وبكل أنواعها (الصور والنصوص واملعامالت ٍ للبيانات من كل
واخلرائط ...إلخ) ،لعب دور ًا كبري ًا يف نجاح تقنية التعلم العميق حيث أن كفاءة التعلم
تزداد بشكل مستمر مع زيادة كمية البيانات املستخدمة يف مرحلة التدريب .كام جيليه
الرسم التوضيحي رقم .٤
-151-
الرسم التوضيحي ( :)٤مقارنة بني خوارزميات تعلم اآللة من حيث العالقة بني الكفاءة وكميات
بيانات التدريب [.]12
-152-
إن فكرة الطبقات االلتفافية مستوحاة من عملية الطي أو االلتفاف الرياضية
( )Convolutionوهي عميلة رياضية تستعمل يف حتوير دالة خمرجة من دالتني
مدخلتني وتستخدم هذه األداة الرياضية يف الكثري من تطبيقات معاجلة الصور .وتقوم
طبقة االلتفاف بتطبيق عملية االلتفاف الرياضية عىل عنارص الدخل (عصبونات الطبقة
السابقة أو املدخالت) حلساب قيمة الوحدة يف الطبقة التالية.
الرسم التوضيحي ( :)٥اتصال الطبقة االلتفافية (يمني) واالتصال الكامل (يسار) [.]14
-153-
الرسم التوضيحي ( :)٦ختطيط الشبكات العصبية املتكررة ومتثيل بسطها زمنيا [.]15
-154-
الرسم التوضيحي ( :)٧خمطط عمل شبكات اخلصومةلصور أرقام مكتوبة بخط اليد [.]17
-155-
الرسم التوضيحي ( :)٨توضيح طريقة عمل شبكة التشفري اآليل [.]19
إحدى فوائد هذه الشبكات أهنا تعمل عىل احلد من حجم املدخالت؛ أي أن حجم
التمثيل املضغوط يكون أقل بكثري من حجم البيانات األولية .فبدالً من استخدام
الصورة ذات احلجم الكبري يمكن استخدام التمثيل املضغوط الذي يقوم مقام هذه
الصورة يف الكثري من التطبيقات.
-156-
التقليدية التعامل معها ،أما تقنيات التعلم العميق فإهنا تتعامل مع البيانات
اخلام بشكل مبارش دون احلاجة لتحويلها إىل متثيل آخر .هذا األمر أدى إىل
سهولة استخدام تقنية التعلم العميق.
· نتائج التعلم العميق يف خدمة اللغة العربية وغريها أثبتت تفوقا عىل تقنيات
تعلم اآللة التقليدية .فعىل سبيل املثل يف جمال التعرف عىل األحرف العربية
املكتوبة بخط اليد ،استطاعت تقنية التعلم العميق حتقيق نتائج غري مسبوقة.
-157-
استخدم الباحثون الشبكات العصبية املتكررة مع نامذج لغوية وتقنيات أخرى .كام
شارك يف حتدي عام 2016م باحثون يف جامعة لومان بفرنسا ومتكنوا من تسخري تقنية
التعلم العميق للتعرف عىل النامذج الصوتية العربية وحتقق حتسني للدقة بنسبة ٪15.7
[.]25
-158-
اليد .كام أهنا تلخص التحديات التقنية الرئيسية املتعلقة بخصائص اللغة العربية .حياول
هذا البحث أيض ًا استقصاء البحوث املتعلقة بمجال التعرف الضوئي عىل احلروف
العربية املكتوبة باليد والتى نرشت يف عام 2015م وما قبله.
يف عام 2017قدم الباحث شوقي بوفنار وزمالؤه ] [28عم ً
ال استخدم فيه الشبكة
العصبية االلتفافية العميقة للتعرف عىل صور األحرف العربية املكتوبة بخط اليد.
أظهرت نتائج البحث دقة تصل إىل .]29[ ٪97.32
وعرض البحث ] [30نتائج ممتازة يف التعرف عىل حروف واحدة من جمموعات
البيانات املهمة واملعروف باسم ( )]31[ KHATTالتي حتتوى عىل أنامط متنوعة
من النص املكتوب بخط اليد ،وحقق أدا ًء متميز ًا من خالل تطبيق شبكات الذاكرة
قصرية-املدى الطويلة ( )LSTMمتعددة االجتاهات .لقد متكن باستعامل تقنية التعلم
العميق واملعاجلة املسبقة من حتسني النتائج من ٪46.13إىل .٪75.8
كام قام الباحث أمحد الصاوي وزمالؤه [ ]32ببناء شبكة عصبية التفافية وتطبيقها
للتعرف عىل احلروف العربية املكتوبة بخط اليد .استخدمت صور وبيانات 16800
حرف يف تدريب واختبار الشبكة لتتمكن من حتيقيق دقة تصل إىل .%94.9
-٦اخلامتة
عرض هذا البحث مقدمة مبسطة للتعريف بتقنية التعلم العميق وأهم ما يرتبط
هبا من العلوم واملصطلحات ،وعرض باختصار عددا من تقنيات التعلم العميق التي
حققت شهرة واسعة ونتائج مبهرة .كام سعى للحث عرب أمثلة تطبيقية ناجحة للتقنية
عىل استخدمها يف خدمة اللغة العربية .كام ُيرجى هلذا البحث أن يكون نقطة انطالق
للتأليف -بالعربية -يف جمال التعلم العميق هذا املجال اجلدير بالعديد من املؤلفات.
أظهرت تطبيقات التعلم العميق يف معاجلة اللغة العربية طبيعيا والتعرف عىل الكالم
املنطوق واملكتوب فاعلية رغم من أهنا مل تستغل -بعد -بالشكل املريض .نويص يف
ختام هذا البحث باالهتامم هبذه التقنية التي نتوقع هلا نجاحا يف الكثري من املجاالت
وعىل رأسها خدمة اللغات الطبيعية.
-159-
املراجع
[1] Association for computing machinery. Fathers of the Deep
Learning Revolution Receive ACM A.M. Turing Award. 2018.
Retrieved from: https://awards.acm.org/about/2018-turing
[Accessed 19 Jun. 2019].
[2] M. Copeland. What’s the Difference Between Artificial Intelligence.
Machine Learning. and Deep Learning?. Nvidia. 2016.
[3] DeepMind. The story of AlphaGo so far. 2015. Retrieved from:
https://deepmind.com/research/alphago/ [Accessed 19 Jun.
2019].
[4] Pytorch. An open source deep learning platform. Retrieved from:
https://pytorch.org/. [Accessed 6.6.2019]
[5] Berkeley AI Research. Deep learning framework. Retrieved
from: https://caffe.berkeleyvision.org/. [Accessed 6.6.2019]
[6] Tensorflow. An end-to-end open source machine learning
platform. Retrieved from: https://www.tensorflow.org/.
[Accessed 6.6.2019]
[7] Y. LeCun. C. Cortes. ‚MNIST handwritten digit database‘.
(2010) http://yann.lecun.com/exdb/mnist/
[8] H. AlQasir. B. Zeno. W. Dimashky. K. Alsakka. G. S. Saado. H.
Azzam. ما هو الفرق بني الذكاء االصطناعي وتعلم اآللة والتعلم العميق؟
الباحثون السوريون
[9] S. Knapp. Artificial Intelligence: Past. Present. and Future. Vox
of Dartmouth. 2006.
[10] F. Al-Qunaieer. “2017 .” مقدمة سريعة:تعلم اآللة. https://www.
nmthgiat.com.
[11] Memorypsych. The Science of Memory. October 29.
2015. Retrieved from . April 16. 2016. Retrieved from: https://
memorypsych.wordpress.com/2016/04/16/the-science-of-memory/
-160-
[12] A. Wasicek. Artificial Intelligence vs. Machine Learning vs.
Deep Learning: What’s the Difference?. sumo logic. 2018
[13] Y. Lecun. L. Bottou. Y. Bengio and P. Haffner. “Gradient-based
learning applied to document recognition.” in Proceedings of the
IEEE. vol. 86. no. 11. pp. 2278-2324. Nov. 1998.
[14] T. Hope. Y. S. Resheff. I. Lieder. Learning Tensorflow: A Guide
to Building Deep Learning Systems. O’Reilly Media. 2017.
[15] P. Radhakrishnan. Introduction to Recurrent Neural Network.
To Wards Data Science. 2017. https://towardsdatascience.com/
introduction-to-recurrent-neural-network-27202c3945f3
[16] F. Gers. Long Short-Term Memory in Recurrent Neural Networks.
PhD thesis. 2001
[17] T. Silva. An intuitive introduction to Generative Adversarial
Networks (GANs). Free Code Camp.2018. https://medium.
freecodecamp.org/an-intuitive-introduction-to-generative-
adversarial-networks-gans-7a2264a81394
[18] I. J. Goodfellow. J. Pouget-Abadie. M. Mirza. B. Xu. D.
Warde Farley. S. Ozair. A. C. Courville. Y. Bengio. Generative
Adversarial Nets. NIPS (2014).
[19] F. Chollet. Building Autoencoders in Keras. The Keras Blog.
2016 https://blog.keras.io/building-autoencoders-in-keras.html
[20] M. Al-Ayyoub. A. NUSEIR . K. Alsmearat. Deep learning for
Arabic NLP: survey. Journal of Computational Science. 2017.
[21] Y. Kim. Y. Jernite. D. Sontag. A.M. Rush. Character-aware neural
language models. AAAI (2016) 2741–2749.
[22] Y. Kim. Character-Aware Neural Language Models. github.
2016. https://github.com/yoonkim/lstm-char-cnn
[23] Y.A. Alotaibi. Spoken Arabic digits recognizer using recurrent
neural networks. Fourth IEEE International Symposium on Signal
Processing and Information Technology. 2004. pp.195–199.
-161-
[24] P. Smit. S. R. Gangireddy. S. Enarvi. S. Virpioja and M. Kurimo.
Aalto system for the 2017 Arabic multi-genre broadcast challenge.
IEEE Automatic Speech Recognition and Understanding
Workshop (ASRU). Okinawa. 2017. pp. 338-345.
[25] N. Tomashenko. K. Vythelingum. A. Rousseau. Y. Estéve.
LIUM ASR systems for the 2016 multi-genre broadcast Arabic
challenge. IEEE Spoken Language Technology Workshop (SLT).
2016. pp. 285–291.
[26] A. Durou. I. Aref. S. Al-Maadeed. A. Bouridane. E. Benkhelifa.
Writeridentification approach based on bag of words with OBI
features. Inf.Process. Manag. (2017).
[27] M. Shatnawi. Off-line Handwritten Arabic Character
Recognition: A Survey. International Conference on Image
Processing. Computer Vision (IPCV). 2015.
[28] C. Boufenar and M. Batouche. Investigation on deep learning for
off-line handwritten Arabic Character Recognition using Theano
research platform. Intelligent Systems and Computer Vision
(ISCV). Fez. 2017. pp. 1-6.
[29] C. Boufenar. M. Batouche. OIHACDB: A New Database for
Offline Isolated Handwritten Arabic Character Recognition.
COSI. 2016
[30] R. Ahmad. S. Naz. M. Z. Afzal. S. F. Rashid. M. Liwicki. A.
Dengel. DeepKHATT: A Deep Learning Benchmark on Arabic
Script. Advances in Neural Information Processing Systems.
2017.
[31] S. A. Mahmoud. I. Ahmad. W. G. Al-Khatib. M. Alshayeb. M. T.
Parvez. V. Märgner. G. A. Fink. KHATT: an open Arabic offline
handwritten text database. Pattern Recognition. 2014.
[32] A. El-Sawy. M. Loey. H. EL-Bakry. Arabic Handwritten
Characters Recognition Using Convolutional Neural Network.
WSEAS Transactions on Computer Research. 2017.
-162-
الباب اخلامس
شاعر بال مشاعر :جتربة يف الشعر العربي اآللي
باستخدام التعلم العميق
-163-
-164-
شاعر بال مشاعر :جتربة يف الشعر العربي اآللي
باستخدام التعلم العميق
(((
أ .غريب واجب غريبي
ملخص
هندف يف بحثنا هذا إىل تسليط الضوء عىل علم معاجلة اللغات الطبيعية Natural
Processing Languageأو NLPباعتباره أحد أهم جماالت الذكاء االصطناعي
،Artificial Intelligenceوسنركز بخاصة عىل استخدام خوارزميات التعلم العميق
Deep Learningفيه ملحاولة حماكاة نصوص الشاعر العريب نزار قباين.
ونستعرض يف هذا البحث ماهية علم معاجلة اللغات الطبيعية مع إعطاء نبذة
تارخيية عن نشأته ومراحل تطوره .ثم نعرج عىل أهم تطبيقات هذا العلم كالرتمجة
اآللية ،وحتليل املشاعر واآلراء ،وأنظمة اإلجابة التلقائية وغريها .كام نستقيص أهم
املوضوعات الفرعية املندرجة حتت مبحث معاجلة اللغات الطبيعية كتصنيف ،وتقطيع،
وإعراب ،وفهم ،وتوليد النصوص.
إضافة إىل ذلك ،فإننا نرشح أساسيات التعلم العميق وكيفية استخدامه يف جمال
معاجلة اللغات الطبيعية .ومن ثم نستعرض كيفية استخدام الشبكات العصبية املتكررة
Recurrent Neural Networksلتوليد نصوص عربية آلي ًا ،حيث نستخدم توليد
الشعر العريب احلر كدراسة عملية هلذا املوضوع ،فنرشح ذلك -خطوة خطوة -يف
الفصل األخري من البحث.
كام أننا نركز عىل تبيان األبحاث واألدوات مفتوحة املصدر ملعاجلة اللغة العربية
عموم ًا .وذلك من أجل تعريف القارئ بأهم التقنيات واخلوارزميات والطرق
املستحدثة جلمع ،ومتثيل ،وحتليل اللغات الطبيعية مع اإلشارة إىل بعض املراجع
للحصول عىل معلومات تفصيلية يف كل موضوع.
-1باحث مساعد يف مركز التعلم الكبري التابع ملؤسسة العلوم الوطنية األمريكية ،NSFوحمارض يف أمن وخصوصية تعلم
اآللة ،وطالب دكتوراه يف جامعة ميزوري بمدينة كانساس األمريكية .UMKCحصل م .غريبي عىل درجة املاجستري
مع مرتبة الرشف األوىل يف ختصص هندسة الربجميات من جامعة ميزوري بمدينة كانساس ،وهو ناشط شغوف يف
تطوير وإثراء املحتوى العريب للذكاء االصطناعي.
-165-
-1مقدمة
خلق اهلل اإلنسان وميزه عن باقي خملوقاته بالعقل ،وخلق -سبحانه وتعاىل -شعوب ًا
لكل منها عاداهتا وتقاليدها ولغتها التي متيزها عن غريها ،حيث بينت بعض وقبائل ٍ
الدراسات احلديثة [ ]١أن عدد اللغات الطبيعية (لغات البرش) حول العامل يتخطى
الستة آالف لغة .ومع التطور التقني اهلائل يف كافة جماالت وعلوم احلاسب اآليل
والتقنية ،ظهر علم معاجلة اللغات الطبيعية الذي يسعى لتمكني احلاسب من فهم
ومعاجلة وحتليل اللغات الطبيعية لتسهيل الكثري من املهام إلكرتوني ًا يف كافة جوانب
احلياة.
-1األمتتة ( :)Automationمصطلح ُمـ َع َّـرب يدل عىل حتويل العمليات التي تتطلب تدخل البرش إىل عمليات آلية ال
تتطلب تدخل البرش .ونعني هبا يف هذا السياق تطوير برجميات آلية ال تتطلب تدخل اخلرباء إلمتام املهمة.
-166-
مصممه العامل الشهري آلن تورينغ ،والذي توجه اهتاممه إىل إنشاء برجميات ذكية حتاكي
ذكاء اإلنسان .وبالفعل قام يف عام 1950م باقرتاح اختبار تيورنغ ]٣[ Turing Test
للحكم عىل ذكاء احلواسب من خالل قدرهتا عىل اإلجابة بلغة طبيعية عىل األسئلة دون
قدرة احلكم عىل متييز أهنا صادرة من حاسب.
ومع تزايد االهتامم يف معاجلة اللغات الطبيعية ،ظهرت إحدى أوىل تطبيقاهتا يف
جامعة جورج تاون لرتمجة عبارات بني اللغتني الروسية واإلنجليزية [ ،]٥-٤لتتواىل
بعد ذلك تطبيقات كأنظمة إجابة األسئلة [ ،]٧-٦وأنظمة تطوير وفهم احلوار [-٨
،]٩وأدوات تقطيع الكالم وحتديد أصنافه وإعراب اجلمل [ ،]١٣-١٠وتطبيقات
التلخيص اآليل [ ،]١٤وأنظمة اسرتجاع البيانات [ ،]١٥وموخر ًا ظهرت تطبيقات
فهم وحتليل املشاعر واآلراء والتي تزامن ظهورها مع انتشار مواقع تقييم املنتجات
واخلدمات عىل الشبكة العنكبوتية (اإلنرتنت) [.]١٧-١٦
وكانت أغلب هذه التطبيقات تعتمد عىل قوانني تصاغ يدوي ًا من قبل الباحثني ثم
ترتجم إىل إحدى لغات الربجمة وتعطى للحاسب من أجل تنفيذها .ولكن هذه الطريقة
كانت تتطلب فه ًام عميق ًا للغة وقواعدها ومعانيها باإلضافة إىل اجلهد الكبري لتغطية
احلاالت املختلفة؛ إىل أن ظهرت تقنيات تعلم اآللة يف أواسط الثامنينات [،]٢٠-١٨
حيث تراجعت الطرق اليدوية السابقة لصالح الطرق اإلحصائية التي ترتك للحاسب
عملية استنباط وتعلم قوانني اللغة بشكل آيل ،وذلك من خالل االطالع عىل كميات
هائلة من النصوص واستنباط العالقات املتكررة بينها إحصائي ًا .وأدت أمتتة هذه الطرق
إىل تركيز الباحثني عىل حتويل النصوص إىل صيغ إحصائية تتمثل فيها أهم خصائص
وأنامط اللغة املتكررة .كام ُوجدت طرق هجينة تعتمد عىل الطرق اليدوية لعمل أنظمة
خبرية ومن ثم تضمينها مع تقنيات تعلم اآللة مما أدى إىل تطور تقنيات معاجلة اللغات
الطبيعية.
ثم نشطت-مؤخر ًا -خوارزميات التعلم العميق والتي أثبتت قدرهتا عىل معاجلة
اللغات الطبيعية بشكل يفوق خوارزميات تعلم اآللة السابقة ،بام فيها اهلجينة ،وبدون
احلاجة لصياغة النص بشكل إحصائي؛ حيث تعتمد هذه اخلوارزميات عىل بناء شبكات
عصبية اصطناعية Artificial Neural Networksيمكنها استنباط القواعد واألنامط
-167-
بشكل آيل وبدقة عالية من خالل االطالع عىل كمية كبرية من النصوص دون الرجوع
لقواعد اللغة ،كام نبني ذلك يف الفصل الثاين.
ال ختفى أمهية املرتمجات اآللية يف حياتنا اليومية ،إذ هي من أهم -إن مل تكن أهم-
تطبيقات معاجلة اللغات الطبيعية .وكام ذكرنا يف مقدمة الباب ،فإن ترمجة النصوص
من اللغة اإلنجليزية إىل اللغة الروسية كانت أوىل خطوات املجال .ومن األمثلة األكثر
شيوع ًا للمرتمجات املستخدمة عىل اإلنرتنت حمرك الرتمجة Google Translateمن
رشكة قوقل وحمرك الرتمجة Bingمن رشكة مايكروسوفت .وأول ما بدأت ،كانت
خوارزميات الرتمجة اآللية تتطلب فه ًام عميق ًا للغات الطبيعية وجهد ًا كبري ًا لتحويلها إىل
برجميات حاسب آيل .وفوق ذلك ،فقد كانت دقة وفعالية هذه الربجميات ضعيفة جد ًا.
ولكن مع انتشار تعلم اآللة -وخاصة التعلم العميق مؤخر ًا -أصبحت خوارزميات
الرتمجة اآللية ذات فعالية أكرب وامتدت إىل لغات عديدة ،وأصبحت تستفيد من الكم
اهلائل من النصوص التي يتم إنتاجها بلغات عديدة يومي ًا عىل شبكة اإلنرتنت .وشهدت
الرتمجة من وإىل اللغة العربية مؤخر ًا اهتامم ًا واضح ًا كالرتمجة لإلنجليزية [،]٢٥-٢١
وللفرنسية [ .]٢٨-٢٦ويمكن االطالع عىل استقصاء للرتمجة اآللية من وإىل اللغة
العربية يف [.]٣٢-٢٩
-1الوظائف ( :)Tasksاملهام أو العمليات .فعىل سبيل املثال ،عملية إرجاع الكلمة إىل أصلها تعترب أحد وظائف معاجلة
اللغات الطبيعية.
-2التطبيقات ( :)Applicationsاالستخدامات .فعىل سبيل املثال ،حتليل املشاعر واآلراء يعد أحد أهم تطبيقات
اللغات الطبيعية.
-168-
1.2.2تصنيف النصوص Text Classification
أما التلخيص اخلاليص فيعمل عىل توليد نصوص ختترص حمتوى ومعنى النص
اإلمجايل باستخدام نص جديد صحيح لغوي ًا وإمالئي ًا .وبالطبع فإن التلخيص اخلاليص
-169-
حيتاج إىل خوارزميات متقدمة تستطيع فهم النص أوالً ومن ثم توليد نص صحيح
يلخص النص األسايس.
نصيب من الدراسات التي عملت عىل حماكاة
ٌ وللتلخيص اآليل يف اللغة العربية
طرق التلخيص يف اللغات األخرى مع األخذ بعني االعتبار خصائص اللغة العربية
وثرائها النحوي [.]٥٦-٥٢
تعترب خدمة اإلجابة التلقائية عىل أسئلة وطلبات الزبائن من أنشط املواضيع يف
جمال معاجلة اللغات الطبيعية []٥٩-٥٧؛ وذلك ألمهية هذا املجال يف سوق العمل،
وأسواق األموال ،والتجارة اإللكرتونية ،وغريها .حيث إن هذه اخلوارزميات يمكنها
أن تؤدي إىل تطوير برجميات قادرة عىل فهم سؤال الزبون ،سوا ًء املكتوب أو املنطوق،
ومن ثم البحث عن اإلجابة الصحيحة وإيصاهلا إما نص ًا أو نطق ًا.
والالفت للنظر يف هذا املجال هو جودة وكفاءة عمالء الرد اآليل للغة اإلنجليزية
حيث يصعب التفريق بينهم وبني العمالء البرش يف كثري من األحيان .ويظهر ذلك جلي ًا
يف خدمات الرد اآليل يف املتاجر اإللكرتونية ومواقع احلكومات اإللكرتونية املتطورة.
ومن األنظمة التي ُطورت للرد اآليل باللغة العربية نظام ]٦٠[ QARABوالذي
تم تدريبه عىل مقاالت الصحف العربية وذلك يف حماولة جلمع أكرب قدر ممكن من
املعلومات عن األحداث ،والتواريخ ،والشخصيات وغريها .وشبيه هبذا النظام نظام
]٦١[ AQUSYSللرد اآليل عىل األسئلة .أما نظام ]٦٢[ AL-Byanفهو نظام تم
تدريبه عىل نصوص القرآن الكريم لإلجابة عىل األسئلة الفقهية واملوضوعات الدينية.
مع التوسع التجاري اهلائل يف مجيع املجاالت ،وانتشار املنتجات واخلدمات املتنوعة
عىل شبكة اإلنرتنت ،ظهرت احلاجة إىل مواقع وخدمات إلكرتونية لتقييم املنتجات
واخلدمات بكافة أنواعها (كاملطاعم ،والفنادق ،واملدراس ،وحتى الدوائر احلكومية).
وتتيح هذه اخلدمات للمستخدمني كتابة آرائهم وجتربتهم واقرتاحاهتم للخدمات
املوجودة بحيث يستفيد منها اآلخرون بلغة حرة .لذا ،كان البد لصناع القرار ومقدمي
-170-
اخلدمات التي يتم تقييمها عىل شبكة اإلنرتنت من مراجعة هذه التقييامت واملقرتحات
لتحليلها ودراسة سلوك املستخدمني من أجل تطوير اخلدمات وتصحيح أخطائها .وهنا
تكمن أمهية خوارزميات حتليل املشاعر واآلراء ،حيث إنه يصعب عىل صناع القرار تتبع
مجيع التقييامت بشكل يدوي عىل شبكة اإلنرتنت ،وعليه فإن هذه اخلوارزميات تلعب
دور ًا هام ًا جد ًا يف حتليل وتلخيص التقييامت بشكل تلقائي وبرسعة فائقة.
تعتمد أغلب أنظمة حتليل اآلراء عىل استباط الكلامت والعبارات ذات دالالت
اإلعجاب أو الرفض ،مثل «املنتج رائع» أو «اخلدمة سيئة» ،باإلضافة إىل األخذ بعني
االعتبار الرموز Emojisاملستخدمة حالي ًا يف شبكات التواصل االجتامعي لداللتها عىل
اإلعجاب ،أو احلرية ،أو الغضب وغري ذلك.
وبالطبع ،فقد اهتم الكثري من الباحثني بتطوير خوارزميات وبرجميات لتسهيل جتميع
وحتليل اآلراء باللغة العربية .ومثال ذلك ،الدراسة [ ]٦٣والتي اهتمت بتحليل اآلراء
وتقسيم جمموعات النقاش عىل شبكة اإلنرتنت حسب آراء املشرتكني فيها وتوجهاهتم،
ونظام ]٦٤[ SAMARلتحليل اآلراء يف شبكات التواصل االجتامعي باللغة العربية،
ونظام [ ]٦٥لتحليل آراء مستخدمي الفنادق ،والدراسة [ ]٦٦التي سعت لتحليل
مشاعر مستخدمي شبكة تويرت للتواصل االجتامعي.
باإلضافة إىل ذلك ،عمل بعض الباحثني عىل استقصاء أهم الدراسات واألنظمة
لتحليل املشاعر واآلراء باللغة العربية [ ]٦٧والتي يمكن الرجوع إليها للمهتمني
بتطوير هذا املجال.
عملية توليد النصوص شغلت العديد من الباحثني ألوقات طويلة منذ بدايات
ظهور علم معاجلة اللغات الطبيعية .وكانت عملية توليد النصوص يف بداية األمر
بدائية جد ًا تعتمد عىل عمليات اإلحصاء واالحتامالت إلعادة توزيع النصوص املدخلة
مسبق ًا بشكل خمتلف [ .]٦٩-٦٨وكانت أغلب هذه الطرق تفتقر لوجود ترابط منطقي
وداليل يف النصوص التي تم توليدها من قبل احلاسب اآليل.
-171-
ومع التطور األخري يف خوارزميات التعلم العميق ،وخاصة خوارزميات الشبكات
العصبية املتكررة ،أصبح جمال توليد النصوص جماالً خصب ًا علمي ًا وعملي ًا يف كثري
من التطبيقات .حيث إن توليد النصوص يمكن توظيفة يف كتابة املقاالت وتلخيص
التقارير وعرض النتائج [.]٧٨-٧٠
وبسبب ثراء اللغة العربية وقواعدها ،يعترب جمال توليد النصوص العربية أحد أصعب
فروع معاجلة اللغة العربية .ولكن ومع التطور احلايل يف جماالت الذكاء االصطناعي،
وبخاصة التعلم العميق ،أصبحت عملية توليد النصوص أقل جهد ًا بكثري وال تتطلب
تعمق ًا يف قواعد اللغة بقدر ما تتطلب من خربات برجمية لبناء خوارزميات لدهيا القدرة
عىل استنباط قواعد وأنامط اللغة بشكل تلقائي .ونود اإلشارة هنا إىل أن جمال توليد
النصوص باللغة العربية يعد جماالً خصب ًا جد ًا للدراسة والبحث العلمي وتطوير
الربجميات التطبيقية.
وهتتم هذه العميلة بتجهيز النصوص للمعاجلة من خالل إزالة الشوائب الكتابية
والرموز التي ال تؤثر يف عملية معاجلة النص .فقد ال يكون لعالمات الرتقيم أو
التشكيل أي أمهية يف بعض التطبيقات ،وعليه يتم إزالتها .ومن األمثلة األخرى توحيد
األحرف التي يتم اخللط بينها كهمزات الوصل والقطع ،واأللف املقصورة والياء يف
آخر الكلمة ،والتاء املربوطة واهلاء يف آخر الكلمة ،وإزالة الـتــطول.
-172-
1.3.2التحليل اللفظي Lexical Analysis
و ُيعنى هذا الفرع بدراسة وتصنيف أجزاء الكالم حسب سياقها اإلعرايب ،كتصنيف
الكلامت إىل أسامء (فردية وزوجية ومجع) ،أو أفعال (املايض واحلارض واملستقبل) ،أو
حروف (كحروف العطف واجلر) ،وغريها من أقسام الكالم وتصنيفاته .وتكمن
صعوبة هذه العملية يف تصنيف أقسام الكالم بنا ًء عىل السياق ،فيمكن أن تصنف كلمة
«سعيد» عىل كوهنا اسم أو صفة حسب سياق الكالم.
1.3.4التجذيع Stemming
وهي عملية حذف الزوائد الداخلة عىل الكلمة إلرجاعها إىل جذعها (أو أقرب
ما يكون إىل أساس الكلمة) .فكل من املصطلحات التالية arguingوargument
و arguedمتتلك نفس اجلذع arguمع مالحظة أن هذا اجلذع ليس كلمة إنجليزية
صحيحة ولكنه اجلذع األقرب ألساس الكلمة .ولعملية التجذيع أمهية يف تطبيقات
اسرتجاع البيانات ،وفهرستها ،وجتميع النصوص ،وكشف النصوص املتشاهبة [-٨٣
.]٨٦واليزال هذا املجال خصب ًا للبحث العلمي والتطري يف اللغة العربية [.]٨٩-٨٧
-173-
يعود إىل ( computeأما جذع الكلمة فهو .)computوثمة اختالف آخر :إذ إن
التأصيل يمكن أن يرجع كلمة إىل أخرى خمتلفة يف اللفظ كتأصيل amو isو areإىل
فعل الكون .be
وباإلضافة إىل هذه الوظائف اهلامة ملعاجلة اللغات الطبيعية ،توجد العديد من
الوظائف األخرى التي يستطيع الدارسون االطالع عليها ،مثل وظائف التشكيل اآليل
[ ،]٩١-٩٠وحتليل البناء النحوي [ ،]٩٣-٩٢وحتليل عالقات الكالم [ ،]٩٤ومتييز
أسامء األعالم [ ]٩٥وغريها.
ونود اإلشارة هنا أنه بالرغم من وجود مصادر متعددة وأدوات مفتوحة املصدر
ملعاجلة اللغات الطبيعية ،إال أن جمال معاجلة اللغة العربية ال يزال يفتقر إىل الكثري من
األبحاث العلمية والعملية واألدوات مفتوحة املصدر للوصول إىل درجات متقدمة
متكننا من تطوير تطبيقات برجمية يف خمتلف املجاالت ،وبخاصة تلك التطبيقات التي
تعتمد عىل خوارزميات الذكاء االصطناعي املتقدمة.
-174-
السابقة وخوارزميات التعلم العميق :حيث يوضح الشكل أن خوارزميات تعلم اآللة
السابقة تتطلب تدخ ً
ال من قبل علامء البيانات وخمتيص املجال من أجل استخراج ميزات
البيانات قبل متريرها إىل خوارزميات تعلم اآللة ،أما خوارزميات التعلم العميق فتعمل
ذلك تلقائي ًا بدون تدخل البرش.
الشكل ( :)١مقارنة بني طريقتي عمل خوارزميات تعلم اآللة والتعلم العميق.
وعىل الرغم من نجاح خوارزميات تعلم اآللة سابق ًا يف حل الكثري من املشكالت ذات
البنى البسيطة ،إال أهنا مل تكن فعالة يف حل املشكالت ذات البنى املعقدة كاللغات الطبيعة
واملشاهد البرصية واإلشارات الصوتية .حيث إن هذه املشكالت تتطلب فه ًام عميق ًا
للبيانات وأنامطها وعمل حتويالت غري خطية عديدة ومعقدة من أجل حتويل البيانات
بشكلها الطبيعي ،كالصورة مثالً ،إىل املخرجات املطلوبة ،كوصف حمتوى الصورة.
-175-
وتشكل جمموعة الطبقات مايعرف بالشبكات العصبية االصطناعية Artificial
،Neural Networksلكوهنا مستوحاة من الشبكات العصبية يف دماغ اإلنسان.
وكذلك يطلق عليها مصطلح الشبكات العصبية العميقةDeep Neural Networks
بسبب عمق الطبقات فيها (كثرة عددها) وعليه تم تسمية جمموعة خوارزميات تعلم
اآللة التي تعتمد عىل الشبكات العصبية العميقة بالتعلم العميق.
وختتلف خوارزميات التعلم العميق باختالف بنية Architectureالشبكة العصبية،
والتي ترمز إىل عدد الطبقات ،وكيفية ارتباطها مع بعضها البعض ،وعدد العصبونات
يف كل طبقة .وبشكل عام ،يمكن تصنيف طبقات الشبكات العصبية إىل األنواع التالية
(انظر الشكل :)2
طبقة املدخالت :وهي املسؤولة عن إدخال البيانات إىل الشبكة العصبية .وعدد
ٍ
مساو لعدد ميزات البيانات املدخلة .Features العصبونات يف هذه الطبقة
الطبقات اخلفية (أو املخفية) :Hidden Layersوتقع جمموعة الطبقات
هذه ما بني طبقة املدخالت وطبقة املخرجات ،ووظيفتها األساسية حتويل
البيانات املدخلة إىل املخرجات املطلوبة .ويتم حتديد عدد هذه الطبقات وعدد
العصبونات داخل كل منها خالل عملية تدريب الشبكة العصبية.
طبقة املخرجات :وهي املسؤولة عن استقبال نتائج الطبقات اخلفية وإصدار
النتيجة النهائية للشبكة العصبية (نتيجة التنبؤ .)Prediction
الشكل ( :)٢بنية توضيحية للشبكات العصبية املستخدمة يف التعلم العميق (من اليسار إىل اليمني)
-176-
وعملية تدريب الشبكة العصبية—يف حالة التدريب حتت اإلرشاف—تتم بخطوتني
أساسيتني :االنتشار األمامي Forward Propagationو االنتشار اخللفي Back
.Propagationهتدف عملية التدريب لضبط أوزان الشبكة (واألوزان هي متغريات
موجودة عىل روابط الشبكة العصبية تستخدم يف حساب نتيجة التنبؤ) ،وهي تشمل
العمليات التالية يف كل من عصبونات الطبقات اخلفية ،كام يف الشكل :٣
، باألوزان املقابلة ( )1تُرضب كل قيمة من املدخالت
ويف بعض ( )2وثم ُتمع نتائج عمليات الرضب
األحيان يتم إضافة قيمة انحياز معينة للتحكم يف نتائج التنبؤ،
( )3تُطبق عملية غري خطية عىل نتيجة اجلمع من أجل كرس العالقات اخلطية
مابني البيانات املدخلة واملخرجات املطلوبة .وتعترب عملية ReLUإحدى
أكثر العمليات الغري خطية املستخدمة يف الشبكات العصبية .بعد ذلك ،يتم
مترير تلك النتيجة إىل عصبونات الطبقة التالية حيث يتم تكرار هذه العمليات
احلسابية يف كل وحدة عصبية وهكذا حتى طبقة املخرجات حيث يتم استخراج
القيمة النهائية (نتيجة التنبؤ) ،وهنا تنتهي عملية االنتشار األمامي.
( )4وبعد إجياد نتيجة التنبؤ يتم مقارنتها مع النتيجة الصحيحة (حيث إننا أثناء
ال ونتيجتهاعملية التدريب نعرف كل من البيانات املدخلة كالصورة مث ً
الصحيحة كتصنيف الصورة) بحساب الفرق بني هاتني القيمتني باستخدام
دالة خسارة معينة ،Loss Functionثم يتم إعادة ضبط أوزان الشبكة بناء عىل
قيمة اخلسارة بعملية االنتشار اخللفي Back Propagationمن أجل تقليص
قيمة اخلسارة بأكرب قدر ممكن .ويتم تكرار هاتني اخلطوتني (االنتشار األمامي
وثم ضبط أوزان الشبكة) مرات عديدة حتى يتم احلصول عىل أقل خسارة
ممكنة وذلك من خالل إجياد جمموعة األوزان املثىل التي يمكن استخدامها
لتحويل البيانات املدخلة إىل املخرجات املطلوبة بأكرب دقة ممكنة.
-177-
الشكل .3املبدأ األسايس لعمل الشبكات العصبية (من اليسار إىل اليمني).
-178-
تلك الكلمة (والتي يتم اختيارها بشكل عشوائي غري متكرر) حيث ُيوضع الرقم 1يف
اخلانة املقابلة لتلك الكلمة .فعىل سبيل املثال ،نتيجة متثيل مجلة «أكل الطفل التفاحة» قد
تتكون من املصفوفات السطرية التالية:
][1. 0. 0 أكل
][0. 1. 0 الطفل
][0. 0. 1 التفاحة
ٍ
مساو لعدد ونالحظ من املثال السابق أن عدد األعمدة يف املصفوفات السطرية
الكلامت يف النص .فلو كان لدينا نص يتألف من ألفي كلمة ،لكان حجم متثيل كل
كلمة هو مصفوفة سطرية حتوي ألفي عمود .وهذا بالتأكيد يؤدي إىل إنتاج مصفوفات
سطرية ذات حجم ضخم جد ًا يصعب إجراء العمليات احلسابية عليها ،بغض النظر أن
أغلب عنارص املصفوفة حتوي أصفار ًا.
كام نالحظ عدم ارتباط معنى الكلامت مع متثيلها .فعىل سبيل املثال ،كلمة «طبيب»
يمكن أن متُثل بـ
] ،[1. 0. 0. 0. 0بينام كلمة «دكتور» يمكن أن ُتثل بـ] [0. 0. 0. 0. 1رغم
احتامل قرهبام يف املعنى .وهذا بالطبع يفقد حتليل النص أمهية كبرية يف فهم وربط املعاين
واجلمل والتسلسل املنطقي والدالالت اللفظية وربط الضامئر وغريها.
ب) تضمني الكلامت :Word Embeddingsوهذه الطريقة تعتمد عىل متثيل
الكلامت باستخدام مصفوفات سطرية مع تضمني العالقات بني الكلامت املستخدمة
[ .]99ويتم إنشاء هذه املصفوفات السطرية لتمثيل الكلامت من خالل تدريبها عىل
شبكات عصبية بسيطة البنية .فعىل سبيل املثال ،يتم تدريب شبكة عصبية عىل التنبؤ
بالكلمة الناقصة يف العبارة التالية «أكل الطفل ....الناضجة» .وباالعتامد عىل التدريب
ال من كلمتي «التفاحة»باستخدام نصوص وفرية املعاين ذات عبارات مشاهبة ،فإن ك ً
و»الربتقالة» سوف متثل احتامالً عالي ًا ملئ الفراغ يف اجلملة السابقة .وهذا يعني أيض ًا
وجود ارتباط وتشابه بني هاتني الكلمتني (وبالفعل إن الكلمتني متشاهبتني يف كوهنام
فواكه) .وعليه فإن املصفوفات السطرية التي متثل ك ً
ال من كلمتي التفاحة والربتقالة
-179-
سوف حتتوي عىل قيمة رقمية تبني نسبة التشابه والرتابط بني الكلمتني .ومن فوائد هذه
الطريقة هو جتميع الكلامت ذات املعاين املتشاهبة يف جمموعات قريبة لبعضها البعض
داخل مصفوفات التمثيل .وهذه العالقات التي يتم تشكيلها بني الكلامت املتشاهبة
عالقات خطية يمكن تتبعها بسهولة وإجراء العمليات احلسابية عليها .فإذا انطلقنا
من مصفوفة التمثيل للمصفوفة السطرية لكلمة «ملك» -مثالً -ثم حتركنا باجتاه قيمة
مشاهبة الجتاه وقيمة املسافة بني كلمتي «رجل» و«امرأة» لوصلنا إىل كلمة «ملكة».
وهذا يعني أن كلمتي «ملك» و»رجل» تتواجدان يف فضاء ريايض قريب لبعضهام
البعض ذات اجتاه موازي لكلمتي «ملكة» و«امرأة» .كام أننا إذا طرحنا املصفوفة
السطرية لكلمة رجل من كلمة ملك يكون الناتج هو املصفوفة السطرية لكلمة ملكة
(ملك -رجل = ملكة).
بعد أن تعرفنا عىل ماهية التعلم العميق وعىل بعض إمكانيات جمال حتليل ومعاجلة
اللغات الطبيعية والنصوص املتسلسلة باستخدام الشبكات العصبية املتكررة وعىل
بعض طرق متثيل اللغات الطبيعية ،نرشح يف الفصل التايل دراسة عملية عن توليد نص
شعري عريب حر باستخدام التعلم العميق.
-3شاعر بال مشاعر :جتربة يف توليد الشعر العريب
نستعرض يف هذا الفصل جتربتنا الفريدة يف إنشاء الشعر العريب احلر باستخدام
خوارزميات التعلم العميق لتوليد النصوص .حيث إننا عملنا عىل تطوير شاعر
إلكرتوين ،أسميناه «شاعر بال مشاعر» (ألسباب واضحة) [ ،]100يقوم بتوليد
نصوص عربية حماكية ألشعار الشاعر الدمشقي نزار قباين (ننرش كثري ًا منها كتغريدات
يف شبكة التواصل االجتامعي «تويرت»).
هندف يف هذا الفصل إىل تعريف القارئ باخلطوات واملهام الالزمة لتكرار وتطوير
هذه الدراسة (كام أننا نوفر املصدر املفتوح هلذا اخلوارزمية عىل الرابط التايل [)]101
ونشجع عىل تطوير أدوات أخرى تعمل عىل توليد النصوص العربية يف جماالت خمتلفة،
وذلك أن اخلوارزمية املستخدمة مفتوحة املصدر ( )Open Sourceويمكن إعادة
استخدامها جمان ًا يف أكثر من جمال كتوليد الروايات ،أو املواضيع التقنية ،أو حتى تطوير
أنظمة للرد التلقائي عىل رسائل الربيد اإللكرتوين.
-180-
3.1جتميع وهتيئة البيانات
عملية جتميع وجتهيز البيانات واحدة من أصعب وأطول مراحل بناء نامذج تعلم
اآللة ،إذ يصعب الوصول إىل بيانات جيدة ومفتوحة املصدر الستخدامها يف تدريب
هذه اخلوارزميات .كام أنه -حتى مع وجود بيانات مفتوحة املصدر -ال بد من بذل
الوقت واجلهد يف هتيئة البيانات لتكون صاحلة لالستخدام من قبل خوارزميات التعلم
العميق ،كعمليات تنظيف البيانات ،ومتثيلها (حتويلها من نصوص إىل أرقام) ،وتعبئة
البيانات الناقصة ،وغريها من اخلطوات الالزمة قبل البدء يف عملية التدريب.
وقمنا بتجميع البيانات الالزمة (أشعار نزار قباين) يف جتربتنا هذه بالطريقتني
التاليتني:
من خالل استخدام حمرك البحث جوجل .واعتمدنا هنا عىل البحث عن مواقع
حتوي أشعار ًا لنزار قباين ثم قمنا بنسخ ولصق هذا األشعار داخل ملفات نصية
-بعد التأكد من صالحية حقوق النرش هلذه األبيات الشعرية.
من خالل استخدام شبكة توتري للتواصل االجتامعي .حيث عملنا عىل تطوير
برنامج بلغة «بايثون» ليقوم بالبحث التلقائي عن تغريدات شعرية لنزار قباين
[ ]102وحتميلها يف امللف النيص.
وبعد أن تكونت لدينا جمموعة مناسبة من النصوص (األبيات الشعرية) لعملية
التدريب ،عملنا عىل استخدام وظائف معاجلة اللغات الطبيعية التي ذكرناها يف الفصل
السابق للتنسيق ،والتسوية اإلمالئية ،وإزالة الشوائب من النصوص .وبشكل خاص،
عملنا عىل التأكد من خلو النصوص من الكلامت اإلنجليزية ،والرموز التعبريية،
والدوال التصنيفية ( )Hashtagوذلك لعدم أمهية هذه األجزاء يف تدريب اآللة وإنام
تعترب شوائب جيب إزالتها .ونوضح عمليات جتيهز النص يف اخلوارزمية.1
-181-
)Algorithm: PreprocessText(text
1: )words = split_text_by_space(text
2: for word in words:
3: if word.startWith(‘#’) || word.isEnglish() || word.isEmoji():
4: remove word
5: end if
6: )(word.removeExtras إزالة الشوائب النصية كالتطويــل //
7: end for
8: return words
وبعد إزالة الشوائب من النص ،كان ال بد من إجياد طريقة مناسبة لتمثيل النص.
وعىل الرغم من وجود العديد من الطرق لتمثيل النصوص ،كام رشحنا سابق ًا ،إال
أننا اعتمدنا يف جتربتنا هذه عىل حتويل كل حرف ورمز من النص إىل رقم عرشي حمدد
لتسهيل عملية التدريب .وقمنا بعمل ذلك من خالل إنشاء شعاع (مصفوفة سطرية)
من احلروف والرموز الفريدة يف النص وإعطاء كل منها رقم معني عشوائي بحسب أول
ظهور له يف النصوص ،وبلغ طول الشعاع 41للحروف وعالمات الرتقيم والتشكيل.
ولترسيع عملية التدريب ،قمنا بتحويل هذه األرقام إىل أرقام كرسية ما بني الصفر
والواحد ،وذلك ألن عملية التعلم تتم من خالل رضب هذه األرقام بأوزان الشبكة
ومن ثم تطبق التحويالت الغري خطية عليها (راجع الشكل .)3وحتويل األرقام
العرشية إىل كرسية يصغر قيم النتائج فيرسع عمليات الرضب وبالتايل يقلص الوقت
الالزم لتدريب الشبكة العصبية.
-182-
أن النموذج عىل دراية سابقة بالكلامت وإنام هيدف الستنباط سياق الكالم وقواعده
وكيفية توزيع الكلامت.
أما تدريب النموذج عىل احلروف فيحتاج لوقت أطول ولشبكات عصبية ذات
بنى عميقة جد ًا وذلك ألن الشبكة العصبية حتتاج لتعلم إنشاء الكلامت من احلروف
والقواعد اإلمالئية أوالً قبل تعلم استنباط سياق الكالم وكيفة توزيع الكلامت .ولقد
اخرتنا توليد النصوص حرف ًا حرف ًا يف جتربتنا هذه لسببني أساسني:
أننا أردنا أن نخترب إمكانية تدريب النموذج عىل عملية توليد النصوص مع
عالمات التشكيل .حيث أن بعض األشعار التي استخدمناها يف عملية
التدريب كانت مشكلة .وبالتايل فإن عملية تدريب النموذج حرف ًا حرف ًا سوف
تضمن تدريب النموذج عىل عالمات التشكيل باعتبارها حروف ًا.
أننا أردنا-فعالً -إبراز قدرة الشبكات العصبية عىل تعلم توليد كلامت عربية
صحيحة ذات معنى ودالالت مرتابطة من احلروف ،بدالً من إعادة إنشاء
كلامت موجودة مسبق ًا داخل النص املستخدم يف عملية التدريب.
3.3تدريب النموذج
اخلطوة التالية متثلت يف تقسيم النص إىل أقسام متسلسلة موحدة الطول لتغذيتها
يف نموذج التعلم العميق ،حيث قررنا استخدام سالسل نصية مكونة من ١٠٠حرف
لتغذي النظام بشكل دوري أثناء عملية التدريب (وذلك ألن هدفنا كان إنشاء شاعر
آيل يقوم بتغريد األشعار -أو مايشابه األشعار -عىل شبكة تويرت ،كام أن هذا الطول
مناسب لتدريب الشبكات العصبية بنا ًء عىل احلروف عموم ًا) .وأخري ًا ،قمنا بتمثيل
النص بطريقة One-Hot Encodingالتي رشحناها سابق ًا.
ولتوضيح عملية التدريب ،فإننا نزود النظام بمئة حرف يف كل دورة وندع له التنبؤ
باحلرف التايل حتى يتم تدريب اخلوارزمية عىل كافة النص ،ونقوم بتكرار هذا العملية
عىل النص كام ً
ال مرات عديدة حتى تزداد كفاءة التنبؤ يف النموذج .وعليه يمكننا اعتبار
عملية تدريب الشبكات العصبية عىل توليد النصوص بأهنا عملية تدريب النموذج عىل
التنبؤ باحلرف التايل يف سلسلة نص معينة.
-183-
فعىل سبيل املثال ،إذا عملنا عىل تقسم النص إىل متسلسلة ذات طول أربعة حروف
يف العبارة التالية «سبحان اهلل» ،فإن خطويت التدريب والتنبؤ سوف تعمالن عىل الشكل
التايل:
خطوة التنبؤ خطوة التدريب
ن سبحا
(مسافة) بحان
ا ح ا ن (مسافة)
ل ا ن (مسافة) ا
ل ن (مسافة) ا ل
ه (مسافة) ا ل ل
-184-
للشبكات العصبية (عدد الطبقات اخلفية والعصبونات يف كل منها) هي عملية بحث
تتم من خالل املحاولة والتكرار ومراقبة األخطاء والتعلم منها.
-4النتائج
نوضح يف الشكل 4أمثلة من التغريدات الشعرية التي تم توليدها ونرشها بواسطة
شاعر بال مشاعر .ونالحظ من خالل هذه األمثلة أن بعض الكلامت حتوي تشكيالً،
وذلك ألن بيانات التدريب كانت حتوي التشكيل أيض ًا .كام نالحظ أن معظم التغريدات
حتوي شطر ًا شعري ًا واحد ًا وذلك ألننا قمنا بتدريب النموذج عىل متسلسالت نصية
بطول 100حرف .ويمكن تعديل ذلك بكل سهولة إلنشاء الشطور الشعرية بأشكال
خمتلفة ،ولكننا اقترصنا عىل الشعر احلر هنا للسهولة ومناسبة منصة التواصل االجتامعي
وحمدودية عدد األحرف فيها .كام نالحظ أن بعض التغريدات احتوت عىل كلامت غري
مناسبة أو ال معنى هلا (ككلمة «املِرسا» يف التغريدة األخرية يف الشكل 4مثال) ،وهذا
متوقع حيث إن النموذج تم تدريبه عىل احلروف ال الكلامت.
-185-
الشكل ( :)٤بعض األمثلة للنصوص التي تم توليدها
وقد ال قت هذه األداة إعجاب بعض مستخدمي موقع التواصل تويرت وحصلت
عىل 103متابع ،بمعدل 3إعجابات لكل تغريدة حتى تاريخ كتابة هذا البحث .وندعو
املهتم إىل االطالع عىل هذه األداة [ ]100حتت اسم املستخدم @AI_Sha3erوإنشاء
أدوات مشاهبة كتوليد القصص والروايات.
-186-
-5اخلامتة
قدمنا يف بحثنا هذا ملحة مبسطة عن معاجلة اللغات الطبيعية ،واستعرضنا أهم
عرفنا بأهم الوظائف التي ينبغي اإلملام هبا للمهتم
تطبيقاهتا احلالية يف جماالت عدة ،كام َّ
يف املجال وكيفية تطبيقها عىل النصوص للمساعدة يف جتميع ومتثيل وحتليل النصوص
وركزنا يف هذا البحث عىل التعلم العميق يف توليد اللغات الطبيعية.
املكتوبة واملنطوقةًّ .
ففصلنا أوالً ماهية التعلم العميق وكيفية عمله ،ثم عرضنا جتربتنا العملية ،خطوة
بخطوة ،يف توليد الشعر العريب باستخدام خوارزميات التعلم العميق.
إن اللغة العربية ثرية بالدالالت اللفظية والقواعد الرصفية والنحوية والتي جتعلها
واحدة من أروع اللغات عىل اإلطالق .لذا ،فال بد من التشجيع عىل اخلوض يف جمال
معاجلة اللغات الطبيعية—وبخاصة للغة العربية—خصوص ًا مع تطور خوارزميات
التعلم العميق التي تسهل معاجلة اللغات الطبيعية وتطبيقاهتا.
-187-
املراجع
[1] How many languages are there in the world? Linguistic Society
of America. [online] Available at: https://www.linguisticsociety.
org/content/how-many-languages-are-there-world [Accessed 20
May 2019].
[2] A. M. Turing. “Computing machinery and intelligence”. Mind.
pp. 433-460. 1950.
[3] Saygin. A.P.. Cicekli. I. and Akman. V.. 2000. Turing test: 50
years later. Minds and machines. 10(4). pp.463-518.
[4] Translator. IBM. [Online]. Available at: http://www-03.ibm.
com/ibm/history/exhib- its/701/701_translator.html. [Accessed
22 May 2019].
[5] Hutchins. J.. 2005. The first public demonstration of machine
translation: the Georgetown-IBM system. 7th January
1954. Publicación electrónica en: http://www. hutchinsweb. me.
uk/GUIBM-2005. pdf.
[6] Lehnert. W.. 1975. What makes SAM run? Script based
techniques for question answering. In Theoretical Issues in
Natural Language Processing: Supplement.
[7] McKeown. K.R.. 1980. Paraphrasing using given and new
information in a question-answer system. Technical Reports
(CIS). p.723.
[8] Karttunen. L.. 1969. Discourse referents. In INTERNATIONAL
CONFERENCE ON COMPUTATIONAL LINGUISTICS
COLING 1969: Preprint No. 70.
[9] Rivers. W.M.. 1972. Speaking in many tongues: Essays in
foreign-language teaching.
-188-
[10] Klein. S. and Simmons. R.F.. 1963. A computational approach
to grammatical coding of English words. Journal of the ACM
(JACM). 10(3). pp.334-347.
[11] Màrquez. L. and Rodríguez. H.. 1998. April. Part-of-speech
tagging using decision trees. In European Conference on
Machine Learning (pp. 25-36). Springer. Berlin. Heidelberg.
[12] Church. K.W.. 1989. May. A stochastic parts program and noun
phrase parser for unrestricted text. In International Conference
on Acoustics. Speech. and Signal Processing.(pp. 695-698).
IEEE.
[13] DeRose. S.J.. 1988. Grammatical category disambiguation by
statistical optimization. Computational linguistics. 14(1). pp.31-
39.
[14] Das. D. and Martins. A.F.. 2007. A survey on automatic text
summarization. Literature Survey for the Language and Statistics
II course at CMU. 4(192-195). p.57.
[15] Chowdhury. G.G.. 2010. Introduction to modern information
retrieval. Facet publishing.
[16] Chaovalit. P. and Zhou. L.. 2005. January. Movie review
mining: A comparison between supervised and unsupervised
classification approaches. In Proceedings of the 38th annual
Hawaii international conference on system sciences (pp.
112c-112c). IEEE.
[17] Pang. B.. Lee. L. and Vaithyanathan. S.. 2002. July. Thumbs
up?: sentiment classification using machine learning techniques.
In Proceedings of the ACL-02 conference on Empirical
methods in natural language processing-Volume 10(pp. 79-86).
Association for Computational Linguistics.
-189-
[18] Kotsiantis. S.B.. Zaharakis. I. and Pintelas. P.. 2007. Supervised
machine learning: A review of classification techniques. Emerging
artificial intelligence applications in computer engineering. 160.
pp.3-24.
[19] Khan. A.. Baharudin. B.. Lee. L.H. and Khan. K.. 2010.
A review of machine learning algorithms for text-
documents classification. Journal of advances in information
technology. 1(1). pp.4-20.
[20] Goldberg. D.E. and Holland. J.H.. 1988. Genetic algorithms and
machine learning. Machine learning. 3(2). pp.95-99.
[21] Badr. I.. Zbib. R. and Glass. J.. 2008. Segmentation for English-
to-Arabic statistical machine translation. Proceedings of ACL-
08: HLT. Short Papers. pp.153-156.
[22] Ghaffar. S.A.. Fakhr. M.W. and Sheraton. C.. 2011. English to
Arabic statistical machine translation system improvements
using preprocessing and Arabic morphology analysis. Recent
Researches in Mathematical Methods in Electrical Engineering
and Computer Science. pp.50-54.
[23] Badr. I.. Zbib. R. and Glass. J.. 2009. March. Syntactic phrase
reordering for English-to-Arabic statistical machine translation.
In Proceedings of the 12th Conference of the European Chapter
of the Association for Computational Linguistics (pp. 86-93).
Association for Computational Linguistics.
[24] Al-Haj. H. and Lavie. A.. 2012. The impact of Arabic
morphological segmentation on broad-coverage English-to-
Arabic statistical machine translation. Machine translation. 26(1-
2). pp.3-24.
-190-
[25] El Kholy. A. and Habash. N.. 2012. Orthographic and
morphological processing for English–Arabic statistical machine
translation. Machine Translation. 26(1-2). pp.25-45.
[26] Hasan. S.. El Isbihani. A. and Ney. H.. 2006. May. Creating a
Large-Scale Arabic to French Statistical MachineTranslation
System. In LREC (pp. 855-858).
[27] Schwenk. H. and Senellart. J.. 2009. Translation model
adaptation for an Arabic/French news translation system by
lightly-supervised training. In In MT Summit.
[28] Guidere. M.. 2002. Toward corpus-based machine translation for
standard Arabic. Translation Journal. 6(1).
[29] Green. S.. Heer. J. and Manning. C.D.. 2013. April. The efficacy
of human post-editing for language translation. In Proceedings
of the SIGCHI conference on human factors in computing
systems (pp. 439-448). ACM.
[30] Ehab. R.. Gadallah. M. and Amer. E.. 2019. English-Arabic
Hybrid Machine Translation System using EBMT and Translation
Memory. International Journal of Advanced Computer Science
and Applications. 10(1). pp.195-203.
[31] Marie-Sainte. S.L.. Alalyani. N.. Alotaibi. S.. Ghouzali. S. and
Abunadi. I.. 2019. Arabic natural language processing and
machine learning-based systems. IEEE Access. 7. pp.7011-7020.
[32] Menacer. M.A.. Langlois. D.. Jouvet. D.. Fohr. D.. Mella. O.
and Smaïli. K.. 2019. May. Machine Translation on a parallel
Code-Switched Corpus. In Canadian Conference on Artificial
Intelligence (pp. 426-432). Springer. Cham.
[33] Lodhi. H.. Saunders. C.. Shawe-Taylor. J.. Cristianini. N. and
Watkins. C.. 2002. Text classification using string kernels. Journal
of Machine Learning Research. 2(Feb). pp.419-444.
-191-
[34] Cavnar. W.B. and Trenkle. J.M.. 1994. April. N-gram-based
text categorization. In Proceedings of SDAIR-94. 3rd annual
symposium on document analysis and information retrieval(Vol.
161175).
[35] Joulin. A.. Grave. E.. Bojanowski. P. and Mikolov. T.. 2016.
Bag of tricks for efficient text classification. arXiv preprint
arXiv:1607.01759.
[36] McCallum. A. and Nigam. K.. 1998. July. A comparison of event
models for naive bayes text classification. In AAAI-98 workshop
on learning for text categorization (Vol. 752. No. 1. pp. 41-48).
[37] Forman. G.. 2003. An extensive empirical study of feature
selection metrics for text classification. Journal of machine
learning research. 3(Mar). pp.1289-1305.
[38] Zhang. X.. Zhao. J. and LeCun. Y.. 2015. Character-level
convolutional networks for text classification. In Advances in
neural information processing systems (pp. 649-657).
[39] Lai. S.. Xu. L.. Liu. K. and Zhao. J.. 2015. February. Recurrent
convolutional neural networks for text classification. In Twenty-
ninth AAAI conference on artificial intelligence.
[40] Conneau. A.. Schwenk. H.. Barrault. L. and Lecun. Y.. 2016.
Very deep convolutional networks for text classification. arXiv
preprint arXiv:1606.01781.
[41] Khreisat. L.. 2006. Arabic Text Classification Using N-Gram
Frequency Statistics A Comparative Study. DMIN. 2006. pp.78-
82.
[42] Al-Harbi. S.. Almuhareb. A.. Al-Thubaity. A.. Khorsheed. M.S.
and Al-Rajeh. A.. 2008. Automatic Arabic text classification.
-192-
[43] El-Halees. A.M.. 2007. Arabic text classification using
maximum entropy. Arabic Text Classification Using Maximum
Entropy. 15(1).
[44] Elarian. Y.. Ahmad. I.. Awaida. S.. Al-Khatib. W. and Zidouri.
A.. 2015. Arabic ligatures: analysis and application in text
recognition. In 13th International Conference on Document
Analysis and Recognition (ICDAR) (pp. 896-900). IEEE.
[45] Elarian. Y.. Ahmad. I.. Awaida. S.. Al-Khatib. W.G. and Zidouri.
A.. 2015. An Arabic handwriting synthesis system. Pattern
Recognition. 48(3). pp.849-861.
[46] Kanaan. G.. Al-Shalabi. R.. Ghwanmeh. S. and Al-Ma’adeed.
H.. 2009. A comparison of text-classification techniques applied
to Arabic text. Journal of the American society for information
science and technology. 60(9). pp.1836-1844.
[47] Wong. K.F.. Wu. M. and Li. W.. 2008. August. Extractive
summarization using supervised and semi-supervised learning.
In Proceedings of the 22nd International Conference on
Computational Linguistics-Volume 1 (pp. 985-992). Association
for Computational Linguistics.
[48] Murray. G.. Renals. S. and Carletta. J.. 2005. Extractive
summarization of meeting recordings.
[49] Paulus. R.. Xiong. C. and Socher. R.. 2017. A deep reinforced
model for abstractive summarization. arXiv preprint
arXiv:1705.04304.
[50] Ganesan. K.. Zhai. C. and Han. J.. 2010. August. Opinosis: A
graph based approach to abstractive summarization of highly
redundant opinions. In Proceedings of the 23rd International
Conference on Computational Linguistics (Coling 2010) (pp.
340-348).
-193-
[51] Oufaida. H.. Nouali. O. and Blache. P.. 2014. Multilingual
Summarization Experiments on English. Arabic and French
(Résumé Automatique Multilingue Expérimentations sur
l’Anglais. l’Arabe et le Français)[in French]. Proceedings of
TALN 2014 (Volume 2: Short Papers). 2. pp.543-549.
[52] Froud. H.. Lachkar. A. and Ouatik. S.A.. 2013. Arabic text
summarization based on latent semantic analysis to enhance
arabic documents clustering. arXiv preprint arXiv:1302.1612.
[53] Douzidia. F.S. and Lapalme. G.. 2004. Lakhas. an Arabic
summarization system. Proceedings of DUC2004.
[54] Al-Saleh. A.B. and Menai. M.E.B.. 2016. Automatic Arabic text
summarization: a survey. Artificial Intelligence Review. 45(2).
pp.203-234.
[55] Azmi. A. and Al-Thanyyan. S.. 2009. September. Ikhtasir—A
user selected compression ratio Arabic text summarization
system. In 2009 International Conference on Natural Language
Processing and Knowledge Engineering (pp. 1-7). IEEE.
[56] Azmi. A.M. and Al-Thanyyan. S.. 2012. A text summarizer for
Arabic. Computer Speech & Language. 26(4). pp.260-273.
[57] Wang. J.H.. Chung. E.S. and Jang. M.G.. Electronics and
Telecommunications Research Institute. 2008. Semi-automatic
construction method for knowledge base of encyclopedia
question answering system. U.S. Patent 7.428.487.
[58] Soricut. R. and Brill. E.. 2006. Automatic question answering
using the web: Beyond the factoid. Information Retrieval. 9(2).
pp.191-206.
[59] Green. C.C.. 1969. The application of theorem proving to
question-answering systems (No. CS-138). STANFORD UNIV
CALIF DEPT OF COMPUTER SCIENCE.
-194-
[60] Hammo. B.. Abu-Salem. H. and Lytinen. S.. 2002. July. QARAB:
A question answering system to support the Arabic language.
In Proceedings of the ACL-02 workshop on Computational
approaches to semitic languages (pp. 1-11). Association for
Computational Linguistics.
[61] Bekhti. S.. Rehman. A.. Al-Harbi. M. and Saba. T.. 2011.
AQUASYS: An Arabic Question-Answering System Based
on Extensive Question Analysis and Answer Relevance
Scoring. International Journal of Academic Research. 3(4).
[62] Abdelnasser. H.. Ragab. M.. Mohamed. R.. Mohamed. A.. Farouk.
B.. El-Makky. N. and Torki. M.. 2014. Al-Bayan: an Arabic
question answering system for the Holy Quran. In Proceedings
of the EMNLP 2014 Workshop on Arabic Natural Language
Processing (ANLP) (pp. 57-64).
[63] Abu-Jbara. A.. King. B.. Diab. M. and Radev. D.. 2013. Identifying
opinion subgroups in arabic online discussions. In Proceedings
of the 51st Annual Meeting of the Association for Computational
Linguistics (Volume 2: Short Papers) (Vol. 2. pp. 829-835).
[64] Abdul-Mageed. M.. Diab. M. and Kübler. S.. 2014. SAMAR:
Subjectivity and sentiment analysis for Arabic social
media. Computer Speech & Language. 28(1). pp.20-37.
[65] Al-Smadi. M.. Al-Ayyoub. M.. Jararweh. Y. and Qawasmeh.
O.. 2019. Enhancing aspect-based sentiment analysis of Arabic
hotels’ reviews using morphological. syntactic and semantic
features. Information Processing & Management. 56(2). pp.308-
319.
[66] Elhadad. M.K.. Li. K.F. and Gebali. F.. 2019. March. Sentiment
Analysis of Arabic and English Tweets. In Workshops of the
International Conference on Advanced Information Networking
and Applications (pp. 334-348). Springer. Cham.
-195-
[67] Al-Ayyoub. M.. Khamaiseh. A.A.. Jararweh. Y. and Al-Kabi.
M.N.. 2019. A comprehensive survey of Arabic sentiment
analysis. Information Processing & Management. 56(2). pp.320-
342.
[68] McKeown. K.R.. 1982. June. The TEXT system for natural
language generation: An overview. In Proceedings of the 20th
annual meeting on Association for Computational Linguistics(pp.
113-120). Association for Computational Linguistics.
[69] Mann. W.C.. 1983. June. An overview of the Nigel text
generation grammar. In Proceedings of the 21st annual meeting
on Association for Computational Linguistics (pp. 79-84).
Association for Computational Linguistics.
[70] Yan. F. and Mikolajczyk. K.. 2015. Deep correlation for matching
images and text. In Proceedings of the IEEE conference on
computer vision and pattern recognition (pp. 3441-3450).
[71] Tokui. S.. Oono. K.. Hido. S. and Clayton. J.. 2015. December.
Chainer: a next-generation open source framework for deep
learning. In Proceedings of workshop on machine learning
systems (LearningSys) in the twenty-ninth annual conference on
neural information processing systems (NIPS) (Vol. 5. pp. 1-6).
[72] Li. J.. Monroe. W.. Ritter. A.. Galley. M.. Gao. J. and Jurafsky. D..
2016. Deep reinforcement learning for dialogue generation. arXiv
preprint arXiv:1606.01541.
[73] Young. T.. Hazarika. D.. Poria. S. and Cambria. E.. 2018. Recent
trends in deep learning based natural language processing. ieee
Computational intelligenCe magazine. 13(3). pp.55-75.
[74] Zhu. Y.. Lu. S.. Zheng. L.. Guo. J.. Zhang. W.. Wang. J. and
Yu. Y.. 2018. June. Texygen: A benchmarking platform for
text generation models. In The 41st International ACM SIGIR
-196-
Conference on Research & Development in Information
Retrieval (pp. 1097-1100). ACM.
[75] Kaiser. L.M. and Vinyals. O.. Google LLC. 2019. Generating
parse trees of text segments using neural networks. U.S. Patent
Application 10/268.671.
[76] Lippi. M.. Montemurro. M.A.. Degli Esposti. M. and Cristadoro.
G.. 2019. Natural Language Statistical Features of LSTM-
Generated Texts. IEEE Transactions on Neural Networks and
Learning Systems.
[77] Guo. J.. Lu. S.. Cai. H.. Zhang. W.. Yu. Y. and Wang. J.. 2018.
April. Long text generation via adversarial training with leaked
information. In Thirty-Second AAAI Conference on Artificial
Intelligence.
[78] Souri. A.. El Maazouzi. Z.. Al Achhab. M. and El Mohajir. B.E..
2018. April. Arabic Text Generation Using Recurrent Neural
Networks. In International Conference on Big Data. Cloud and
Applications (pp. 523-533). Springer. Cham.
[79] Yousef Elarian (Editor). “( ”الحرف العربي والتقنيةArabic and
Technology). 2015. King Abdullah International Center for
Arabic Language (KAICAL). Riyadh. Saudi Arabia.
[80] Elarian. Y.. Idris. F.. 2011. A Lexicon of Connected Components
for Arabic Optical Text Recognition. In First International
Workshop on Frontiers in Arabic Handwriting Recognition.
Istanbul. Turkey.
[81] Taji. D.. Khalifa. S.. Obeid. O.. Eryani. F. and Habash. N.. 2018.
October. An Arabic Morphological Analyzer and Generator with
Copious Features. In Proceedings of the Fifteenth Workshop
on Computational Research in Phonetics. Phonology. and
Morphology (pp. 140-150).
-197-
[82] Ibrahim. W. and Hardie. A.. 2018. Accessible Corpus Annotation
for Arabic. Arabic Corpus Linguistics. p.56.
[83] Hull. D.A.. 1996. Stemming algorithms: A case study for detailed
evaluation. Journal of the American Society for Information
Science. 47(1). pp.70-84.
[84] Paice. C.D.. 1994. An evaluation method for stemming
algorithms. In SIGIR’94 (pp. 42-50). Springer. London.
[85] Willett. P.. 2006. The Porter stemming algorithm: then and
now. Program. 40(3). pp.219-223.
[86] Hull. D.A. and Grefenstette. G.. 1996. A detailed analysis
of English stemming algorithms. In Xerox Research and
Technology.
[87] Taghva. K.. Elkhoury. R. and Coombs. J.. 2005. April. Arabic
stemming without a root dictionary. In International Conference
on Information Technology: Coding and Computing (ITCC’05)-
Volume II (Vol. 1. pp. 152-157). IEEE.
[88] Hadni. M.. Ouatik. S.A. and Lachkar. A.. 2013. Effective
Arabic stemmer based hybrid approach for Arabic text
categorization. International Journal of Data Mining &
Knowledge Management Process. 3(4). p.1.
[89] Al-Kabi. M.N.. Kazakzeh. S.A.. Ata. B.M.A.. Al-Rababah.
S.A. and Alsmadi. I.M.. 2015. A novel root based Arabic
stemmer. Journal of King Saud University-Computer and
Information Sciences. 27(2). pp.94-103.
[90] Vergyri. D. and Kirchhoff. K.. 2004. August. Automatic
diacritization of Arabic for acoustic modeling in speech
recognition. In Proceedings of the workshop on computational
approaches to Arabic script-based languages (pp. 66-73).
Association for Computational Linguistics.
-198-
1 تطبيقات الذكاء االصطناعي يف خدمة اللغة العربية
2 مقدمة املحرر
4 موضوعات الكتاب
5
[91] Fadel. A.. Tuffaha. I.. Al-Jawarneh. B. and Al-Ayyoub.6 M.. ملخص2019.
Arabic Text Diacritization Using Deep Neural Networks. arXiv 7 مقدمة 1
preprint arXiv:1905.01965. 9 أقسام القارئات اآللية1.1
10 ) أهم حتديات التعرف اآليل عىل الكتابة العربية اليدوية (خط اليد العريب1.2
[92] Punyakanok. V.. Roth. D. and Yih. W.T.. 2008. The
13 عمليات التعرف اآليل عىل الكتابة 2
importance of syntactic parsing and inference in semantic role
14 عمليات املعاجلة املسبقة2.1
labeling. Computational Linguistics. 34(2). pp.257-287.
17 التقطيع2.2
[93] Chiang. D.. Diab. M.. Habash. N.. Rambow. 19 املالمحO.استخراج 2.3S..
and Shareef.
2006. Parsing arabic dialects. In 11th 21 Conference التصنيف 2.4
of the European
Chapter of the Association for Computational 23 الالحقة املعاجلة2.5
Linguistics.
[94] McDonald. 23 بالتقطيع
R.. Pereira. التصنيفF..عالقة الكتابة حسب
Ribarov. K. and عىلHajič.
التعرفJ.. 2005.
3
October. Non-projective dependency 23 التقطيع القائم عىل
parsing using التعرف
spanning3.1tree
algorithms. In 24 Proceedings )حمارفofإىل theالتقطيع
conference الكيل (دون on HumanالتعرفLanguage
3.2
Technology and Empirical 25 ضمنيMethods يتخلله تقطيع in الذي التعرفLanguage
Natural 3.3
املكتوبة بخط اليدProcessing (pp.
عىل النصوص العربية523-530). التعرف اآليلAssociationلبعض أشهر أنظمة for مقارنات
Computational4
Linguistics. 32
32 قواعد بيانات للكتابة العربية اليدوية4.1
[95] Nadeau. D. and Sekine. S.. 2007. A survey of named entity
37 مقارنة أهم بحوث املجال4.2
recognition and classification.
48 التعرف اآليل عىل النصوص املكتوبة Lingvisticae
النرش يف جمال Investigationes.
أبرز أوعية30(1). 5
pp.3-26. 49 أهم مؤمترات املجال الدولية5.1
53[96] املجال
LeCun. املقاالت يف تصلح لنرشY.
Y.. Bengio. التيandاملحكمةHinton. املجالت العلمية G.. 2015. أهم5.2 Deep
learning. nature. 521(7553). p.436. 55 اخلامتة 6
70[97]
الكريمGoodfellow.
وتطبيقاته يف القرآن التعرف اآليل عىل الكالم العريب املنطوق:الباب الثاين
I.. Bengio. Y. and Courville. A.. 2016. Deep
learning. MIT press.
71 ملخص
72 مقدمة 1
76[98] Mikolov. T.. Karafiát. M.. Burget.
بنية نظام التعرف اآليل عىل الوحدات الكالمية يف القرآن الكريم L.. Černocký. J. 2and
Khudanpur.
83 S..Feature 2010. Recurrent
Vector Dimension neural network
Reduction اخلصائص أبعاد متجهbased تقليلlanguage
2.2
model. In Eleventh annual 88 conference of the
Hierarchical Classification اهلرمي international
التصنيفspeech 2.3
communication association. 90 Classification خوارزميات التصنيف 3
[99] Mikolov. T.. Chen. K.. Corrado. 91 G. andNaïveDean. Bayes بايزJ..مصنف 3.1
2013. Efficient
92 MLP)Multi-Layer
estimation Perceptron(representations
of word متعددة الطبقاتin العصبية
vectorالشبكة space. مصنف 3.2
arXiv preprint
arXiv:1301.3781. 94 K-Nearest Neighbor مصنف اجلار األقرب3.3
95 )Support Vector Machine (SVM مصنف آلة متجه الدعم3.4
97 التجارب والنتائج 4
-199- 98 اخلامتة 5
103 حتليل اآلراء العربية إلكرتوني ًا:الباب الثالث
[100] Arabic Poet. [Online]. Available at: https://twitter.com/AI_
Sha3er. [Accessed 25 May 2019].
[101] Generate Arabic Poems. [Online]. Available at: https://github.
com/Gharibw/Char-RNN-Arabic. [Accessed 25 May 2019].
[102] Tweets and Hashtag Harvester using Python. [Online]. Available
at: https://github.com/Gharibw/Tweets_Harvester. [Accessed 25
May 2019].
-200-
الصفحة املوضوع
15 ملخص
15 -1مقدمة
-201-
1.2أهم حتديات التعرف اآليل عىل الكتابة العربية اليدوية (خط اليد
18
العريب)
24 2.2التقطيع
27 2.4التصنيف
56 -5أبرز أوعية النرش يف جمال التعرف اآليل عىل النصوص املكتوبة
-202-
5.2أهم املجالت العلمية املحكمة التي تصلح لنرش املقاالت يف
59
املجال
61 -٦اخلامتة
62 املراجع
الباب الثاين :التعرف اآليل عىل الكالم العريب املنطوق وتطبيقاته يف القرآن
٧٥ الكريم
د.أمحد محدي أبو عبسة
77 ملخص
78 -1مقدمة
81 -٢بنية نظام التعرف اآليل عىل الوحدات الكالمية يف القرآن الكريم
-203-
95 ٣٫٤مصنف آلة متجه الدعم (Support Vector Machine (SVM
98 -٥اخلامتة
99 املراجع
105 امللخص
-204-
129 .٢معاجم قطبية عربية
131 اخلالصة
131 املراجع
١٤٣ ملخص
144 -1مقدمة
-205-
154 ٤٫٤شبكات اخلصومة التوليدية
159 -٦اخلامتة
160 املراجع
الباب اخلامس :شاعر بال مشاعر :جتربة يف الشعر العريب اآليل باستخدام
١٦٣ التعلم العميق
أ.غريـب واجب غريـــــبي
165 ملخص
166 -1مقدمة
-206-
175 2.1كيف تتعلم خوارزميات التعلم العميق
185 -4النتائج
187 -5اخلامتة
188 املراجع
-207-
-208-
مباحث لغوية ٦٠
تطبيقات الذكاء االصطناعي
في خـــــدمة اللغـــــة العربية
يُصدِ ر مركز امللك عبداهلل بن عبدالعزيز الدولي خلدمة اللغة العربية هذا الكتاب ضمن سلسلة
(مباحث لغوية) ،وذلك وفق خطة عمل مقسمة إلى مراحل ،ملوضوعات علمية رأى املركز حاجة املكتبة
اللغوية العربية إليها ،أو إلى بدء النشاط البحثي فيها ،واجتهد يف استكتاب نخبة من احملررين واملؤلفني
للنهوض بعنوانات هذه السلسلة على أكمل وجه.
ويهدف املركز من وراء ذلك إلى تنشيط العمل يف املجاالت التي تُـنَـ ّبه إليها هذه السلسلة ،سواء أكان
العمل علميا بحثيا ،أم عمليا تنفيذيا ،ويدعو املركز الباحثني كافة من أنحاء العالم إلى املساهمة يف هذه
السلسلة.
وتو ّد األمانة العامة أن تشيد بجهد السادة املؤلفني ،وجهد محرر الكتاب ،على ما تفضلوا به من رؤى
وأفكار خلدمة العربية يف هذا السياق البحثي.
والشكر والتقدير الوافر ملعالي وزير التعليم املشرف العام على املركز ،الذي يحث على كل ما من
شأنه تثبيت الهوية اللغوية العربية ،ومتتينها ،وفق رؤية استشرافية محققة لتوجيهات قيادتنا احلكيمة.
موجهة إلى جميع املختصني واملهتمني للتواصل مع املركز؛ لبناء املشروعات العلمية ،وتكثيف
والدعوة ّ
اجلهود ،والتكامل نحو متكني لغتنا العربية ،وحتقيق وجودها السامي يف مجاالت احلياة.