16
ﺍﻟﻤﺠﻠﺩ ﻭﺍﻟﺭﻴﺎﻀﻴﺎﺕ ﺍﻟﺤﺎﺴﺒﺎﺕ ﻟﻌﻠﻭﻡ ﺍﻟﺭﺍﻓﺩﻴﻥ ﻤﺠﻠﺔ) ٧ ( ﺍﻟﻌﺩﺩ) ٢ ( ٢٠١٠ ١٧٣ ﺍﻟﺨﻔﻲ ﻤﺎﺭﻜﻭﻑ ﻨﻤﻭﺫﺝ ﺒﺎﺴﺘﺨﺩﺍﻡ ﺍﻟﻤﻁﺒﻭﻉ ﺍﻟﻌﺭﺒﻲ ﺍﻟﻨﺹ ﻋﻠﻰ ﻟﺘﻌﺭﻑ ﻋﺒﺩ ﻏﻴﺩﺍﺀ ﺍﻟﻁﺎﻟﺏ ﺍﻟﻌﺯﻴﺯ ﺤﺴﻭﻥ ﻨﻌﻤﺎﻥ ﺍﺭﻤﺎﻨﻴﺴﺔ ﺍﻟﺤﺎﺴﻭﺏ ﻋﻠﻭﻡ ﻗﺴﻡ ﺍﻟﺤﺎﺴﻭﺏ ﻋﻠﻭﻡ ﺴﻡ ﺍﻟﻤﻭﺼل ﺠﺎﻤﻌﺔ ﺘﻜﺭﻴﺕ ﺠﺎﻤﻌﺔ ﺍﻟﺒﺤﺙ ﺍﺴﺘﻼﻡ ﺘﺎﺭﻴﺦ: ٢٦ / ٥ / ٢٠١٠ ﺍﻟﺒﺤﺙ ﻗﺒﻭل ﺘﺎﺭﻴﺦ: ٢٥ / ١٠ / ٢٠١٠ ABSTRACT Automatic recognition of printed text is of high importance in modern IT applications. Recognition of text for lateen scripted language is readily in use for a long time. For cursive script languages (such as Arabic language) recognition of text is not available as a robust one with a reliable performance. More improvements still exist to reduce average of incorrect words, rather then no constraints on the limit of words of a specific language. Numerous approaches were tried in recognition of text but recognition of Arabic text based on Hidden Markov model seems to be the most promising one because of its ability to discriminate cursive scripts. This paper provides an off-line system to recognize printed Arabic text by using hidden Markov model with the aid of the algorithm that segment the text lines into connected parts then into characters. By looking on the results given by the designed recognition system it is found that a recognition rate (94.9 %) can be achieved. Such rate is in the same order of rates of recognition researches viewed in previous studies. This rate can still be improved. The language used in building the system is Matlab V7.6 (R2008a). ﺍﻟﻤﻠﺨﺹ ﺍﻟﻨﺹ ﻋﻠﻰ ﺍﻵﻟﻲ ﺍﻟﺘﻌﺭﻑ ﺍﻟﺤﺩﻴﺜﺔ ﺍﻟﻤﻌﻠﻭﻤﺎﺕ ﺘﻜﻨﻭﻟﻭﺠﻴﺎ ﺘﻁﺒﻴﻘﺎﺕ ﻓﻲ ﻜﺒﻴﺭﺓ ﺃﻫﻤﻴﺔ ﻟﻪ ﺍﻟﻤﻁﺒﻭﻉ. ﻓﺎﻟﺘﻌﺭﻑ ﺍﻟﻤﻜﺘﻭﺏ ﺍﻟﻨﺹ ﻋﻠﻰ ﻁﻭﻴﻠﺔ ﻓﺘﺭﺓ ﻤﻨﺫ ﺍﺴﺘﺨﺩﺍﻤﻪ ﺘﻡ ﺍﻟﻼﺘﻴﻨﻴﺔ ﻟﻠﻐﺔ. ﻟﻠ ﺒﺎﻟﻨﺴﺒﺔ ﺃﻤﺎ ﻤﺘـﺼﻠﺔ ﺒﺄﺤﺭﻑ ﺍﻟﻤﻜﺘﻭﺒﺔ ﻐﺎﺕ) ﺍﻟﻌﺭﺒﻴﺔ ﻜﺎﻟﻠﻐﺔ( ﺍﻟﺘﻌﺭﻑ ﻨﻅﺎﻡ ﻓﺎﻥ ﺃﺩﺍﺌﻪ ﻓﻲ ﻤﻭﺜﻭﻕ ﻗﻭﻱ ﻜﻨﻅﺎﻡ ﻤﺘﻭﻓﺭ ﻏﻴﺭ ﺍﻟﻨﺹ ﻋﻠﻰ. ﻤﺘـﺴﻊ ﻫﻨﺎﻙ ﻴﺯﺍل ﻓﻤﺎ ﻤﻌﻴﻨﺔ ﻟﻐﻭﻴﺔ ﺒﺤﺼﻴﻠﺔ ﺍﻟﺘﻘﻴﺩ ﻋﺩﻡ ﻋﻥ ﻓﻀﻼ ﺍﻟﺨﺎﻁﺌﺔ، ﺍﻟﻜﻠﻤﺎﺕ ﻤﻌﺩل ﺒﺘﺨﻔﻴﺽ ﻴﺘﻌﻠﻕ ﻓﻴﻤﺎ ﻟﻠﺘﺤﺴﻴﻨﺎﺕ. ﻟﻘﺩ ﻭﻴﺒﺩﻭ ﺍﻟﻨﺹ، ﻋﻠﻰ ﺍﻟﺘﻌﺭﻑ ﻤﺠﺎل ﻓﻲ ﻤﻨﺎﻫﺞ ﻋﺩﺓ ﺃﻥ ﻋﻠﻰ ﺍﻟﻘﺎﺌﻡ ﺍﻟﻌﺭﺒﻲ ﺍﻟﻨﺹ ﻋﻠﻰ ﺍﻟﺘﻌﺭﻑ ﻤﺎﺭﻜﻭ ﻨﻤﻭﺫﺝ ﺍﻟﻤﺘﺼﻠﺔ ﺍﻟﻜﺘﺎﺒﺔ ﺘﻤﻴﻴﺯ ﻋﻠﻰ ﻗﺩﺭﺘﻪ ﺒﺴﺒﺏ ﻭﺫﻟﻙ ﻭﻋﺩﺍ ﺍﻷﻜﺜﺭ ﻫﻭ ﺍﻟﺨﻔﻲ. ﻨﻅﺎﻡ ﺍﻟﺒﺤﺙ ﻫﺫﺍ ﻓﻲ ﹸﻘﺩ ﺒﺄﺴﻠﻭﺏ ﻴﻌﻤلoff-line ﺒﺎﺴـﺘﺨﺩﺍﻡ ﺍﻟﻤﻁﺒـﻭﻉ ﺍﻟﻌﺭﺒـﻲ ﺍﻟﻨﺹ ﻋﻠﻰ ﻟﻠﺘﻌﺭﻑ ﺤﺭﻭﻑ ﺜﻡ ﻤﻘﺎﻁﻊ ﺇﻟﻰ ﺍﻟﻨﺼﻲ ﺍﻟﺴﻁﺭ ﺘﻘﻁﻴﻊ ﺒﺨﻭﺍﺭﺯﻤﻴﺔ ﺍﻻﺴﺘﻌﺎﻨﺔ ﻤﻊ ﺍﻟﺨﻔﻲ ﻤﺎﺭﻜﻭﻑ ﻨﻤﻭﺫﺝ. ﻨﺴﺒﺔ ﺍﻟﻤﻘﺘﺭﺡ ﺍﻟﻨﻅﺎﻡ ﺤﻘﻕ ﻗﺩﺭﻫﺎ ﺍﻨﺠﺎﺯ) 94.9 (% ﻭﺘﺒﻘﻰ ﺍﻟﻤﻨﺠﺯﺓ، ﺍﻟﺘﻌﺭﻑ ﺒﺤﻭﺙ ﻀﻤﻥ ﺘﻘﻊ ﻨﺴﺒﺔ ﻭﻫﻲ ﻟﻠﺘﺤﺴﻴﻥ ﻗﺎﺒﻠﺔ ﺍﻟﻨﺴﺒﺔ ﻫﺫﻩ. ﺍﺴﺘﺨﺩﻤﺕMatlab V7.6 (R2008a) ﺒﺭﻤﺠﻴﺔ ﻜﻠﻐﺔ ﺍﻟﻨﻅﺎﻡ ﺒﻨﺎﺀ ﻓﻲ ﺍﻟﻤﻘﺘﺭﺡ.

iasj

Embed Size (px)

Citation preview

Page 1: iasj

٢٠١٠)٢(العدد) ٧(مجلة الرافدين لعلوم الحاسبات والرياضيات المجلد

١٧٣

لتعرف على النص العربي المطبوع باستخدام نموذج ماركوف الخفيا

ارمانيسة نعمان حسون العزيز الطالب غيداء عبد سم علوم الحاسوب ق قسم علوم الحاسوب

جامعة تكريت جامعة الموصل

٢٥/١٠/٢٠١٠ : تاريخ قبول البحث ٢٦/٥/٢٠١٠ :تاريخ استالم البحث

ABSTRACT Automatic recognition of printed text is of high importance in modern IT

applications. Recognition of text for lateen scripted language is readily in use for a long time. For cursive script languages (such as Arabic language) recognition of text is not available as a robust one with a reliable performance. More improvements still exist to reduce average of incorrect words, rather then no constraints on the limit of words of a specific language.

Numerous approaches were tried in recognition of text but recognition of Arabic text based on Hidden Markov model seems to be the most promising one because of its ability to discriminate cursive scripts.

This paper provides an off-line system to recognize printed Arabic text by using hidden Markov model with the aid of the algorithm that segment the text lines into connected parts then into characters.

By looking on the results given by the designed recognition system it is found that a recognition rate (94.9 %) can be achieved. Such rate is in the same order of rates of recognition researches viewed in previous studies. This rate can still be improved. The language used in building the system is Matlab V7.6 (R2008a).

الملخص

فالتعرف .المطبوع له أهمية كبيرة في تطبيقات تكنولوجيا المعلومات الحديثةالتعرف اآللي على النص غات المكتوبة بأحرف متـصلة أما بالنسبة لل . للغة الالتينية تم استخدامه منذ فترة طويلة اعلى النص المكتوب ب

فما يزال هناك متـسع . على النص غير متوفر كنظام قوي موثوق في أدائه فان نظام التعرف ) كاللغة العربية ( .للتحسينات فيما يتعلق بتخفيض معدل الكلمات الخاطئة، فضال عن عدم التقيد بحصيلة لغوية معينة

التعرف على النص العربي القائم على أنجربت عدة مناهج في مجال التعرف على النص، ويبدو لقد .ف الخفي هو األكثر وعدا وذلك بسبب قدرته على تمييز الكتابة المتصلةنموذج ماركو

للتعرف على النص العربـي المطبـوع باسـتخدام off-line يعمل بأسلوب نقدم في هذا البحث نظام .نموذج ماركوف الخفي مع االستعانة بخوارزمية تقطيع السطر النصي إلى مقاطع ثم حروف

وهي نسبة تقع ضمن بحوث التعرف المنجزة، وتبقى %) 94.9(انجاز قدرها حقق النظام المقترح نسبة . هذه النسبة قابلة للتحسين

. المقترحفي بناء النظامكلغة برمجية Matlab V7.6 (R2008a)استخدمت

Page 2: iasj

ارمانيسة نعمان حسونو لعزيز الطالبا دب عغيداء

١٧٤

المقدمة -1

ـ ت يعد الذكاء االصطناعي من أهم المجاالت العلمية التطبيقية في علوم الحاسبات فقد تعددت وتنوعويعد . الخ... التطبيقات البرمجية في هذا المجال فشملت معالجة اللغات الطبيعية والترجمة اآللية وتمييز األنماط

[1]. احد التطبيقات البرمجية للذكاء االصطناعي(patterns)تمييز األنماطأنمـاط ترغـب كما أن تمييز األنماط هو دراسة كيف يمكن للمكائن أن تالحظ البيئة، فتتعلم إظهـار

[2].بتمييزها وتتخذ قرارها المعقول حول أصناف تلك األنماط .ا معينا النمط كنظير للفوضى، بأنه كيان معرف بشكل غير واضح ممكن أن يعطى اسمWatanbeرف وقد ع

[3] هذا أوائل رين ووبالرغم من التحسينات التدريجية في تطبيقات علم تمييز األنماط في العقد األخير من القرن العش

[4] .القرن، يبقى تمييز الحروف واحد من أهم مسائل تمييز األنماط ا ويتم فيهOptical Character Recognition -(OCR(ومن تلك التطبيقات تمييز الحروف بصريا

بعـدة OCRيمـر . الخ... قراءة العنوان البريدي على المظروف، أرشفة واسترجاع النص، ترقيم المكتبات راحل و آخر مرحلة فيه هي التمييز حيث توجد عدة طرق إلجرائها، وسوف نستخدم في هذا البحث نمـوذج م

فنموذج مـاركوف . في تمييز النص العربي المطبوع(Hidden Markov Model-HMM)ماركوف الخفي ة تصادفيه كعملي HMMويعرف [5]. ستخدمة في معالجة الكالم واللغات واحد من النماذج الم HMMالخفي

[6] .مزدوجة فيها حاالت مخفية يمكن مشاهدتها فقط من خالل مشاهدات معينة

النموذج العام لنظام تمييز الحروف -2

، حيـث 1 -يتكون نظام التمييز بصورة عامة من أربعة مراحل أساسية يوضحها المخطط في الشكل [7] .الوثيقة المدخلة لتي تحتوي على النص المراد تمييزه وتنتهي بتصنيف حروفتبدأ بإدخال الوثيقة ا

المخطط العام لنظام التمييز) 1-الشكل(

وقد ال يحتوي نظام التمييز على جميع هذه المراحل إذ يتم اختزال بعض المراحل بدون أن يؤثر ذلك أن يحتاج إلى مرحلة استخالص السمات، و يستخدم بـدال فمثال يقوم النظام بالتمييز دون . على عملية التمييز

.(Templates Matching)عنها مطابقة القوالب

Page 3: iasj

التعرف على النص العربي المطبوع باستخدام نموذج ماركوف الخفي

١٧٥

Markov Chains سالسل ماركوف -3

ومع ذلـك . (Stochastic) أو تصادفيه (Deterministic)النماذج الرياضية ممكن أن تكون محددة وهي ظواهر ذات سلوك غير قطعـي ال يمكـن (ادفيه فأن في عدة حاالت اجتماعية وحياتية هناك ظواهر تص

[8] .السيطرة عليها بشكل تام أو التنبؤ بسلوكها المستقبلي بشكل مؤكد ويطلق عليها مصطلح العمليات التصادفية . فيصبح النموذج التصادفي هو األكثر مالئمة لتمثيلها

فـي موصـوفة ية، كأن تكون يمكن أن توصف خالل أي فترة زمن2-المنظومة الموضحة في الشكل . (S1,S2,…,SN) (Discrete states) (N)واحدة من مجموعة الحاالت المتقطعة

حاالت مع انتقاالتها) 5(سلسلة ماركوف لـ )2-الشكل(

من الممكن الرجوع إلى الحالة (متقطعة، تخضع المنظومة إلى تغيرات في الحالة الزمنة تلك األوخالل، (…,t=1,2)ويرمز إلى الزمن المرتبط بتغير الحالة بـ. من االحتماالت المرتبطة بالحالةوفقا لمجموعة) نفسها

وصف االحتمالية بصورة كاملة للمنظومة أعاله يتطلـب ن إ. (Qt) بـ (t)ويرمز للحالة الحقيقية خالل الزمن ظر إلى سلسلة ماركوف كنوع فين [6] .، فضال عن كل الحاالت السابقة لها (t)وصف الحالة الحالية عند الزمن

وسلسلة . أو طريق لتمثيل الفرضيات االحتماليةProbabilistic Graphical Model)(من مخطط االحتماالت [5] :ماركوف محددة بالمكونات التالية

Q={q1,q2,…,qN {وتمثل بـ من الحاالت N مجموعة -1

وتمثل بـ A (transition probability matrix) المصفوفة االحتمالية االنتقالية -2

A=

NNN

N

aa

aa

......

.

.

.

.

.

....

1

111

: التالي بحيث تحقق الشرط j الى الحالةiتمثل احتمالية االنتقال من الحالة aijكل حيث أن ∑ =

=N

j 1 ij 1 a i∀

ـ qF وحالـة النهايـة q0 حاالت خاصة هي حالة البداية -3 ع أيـة مـشاهدات التـي ال تـرتبط م(Observations).

(Initial probability distribution) التوزيع االحتمالي االبتدائي على الحاالت -4Nππππ ,...,, 21= ;

Page 4: iasj

ارمانيسة نعمان حسونو لعزيز الطالبا دب عغيداء

١٧٦

∑ ==

N

i i11π وكذلك

فـي بعـض الحـاالت i التي تبدأ بها سلسلة ماركوف عند الحالة (probability)وتكون االحتمالية 0=iπ مكن أن تكون الحالة ابتدائيةيعني ال ي (initial state).

: وتعرف فرضية ماركوف بالعالقة التاليةP(qi\q1…qi-1)=P(qi\qi-1)

حيث أنP(qi\q1…qi-1) تمثل احتمالية حدوث الحالة qiد توفر الحاالت عنq1…qi-1

التي تسبقها فقط qi-1 عند توفر الحالة qi تمثل احتمالية حدوث الحالة P(qi\qi-1)و

Hidden Markov Model نموذج ماركوف الخفي -4

(finite state machine)عبارة عن نظام محطات اآللة المحدودة ) (HMMنموذج ماركوف الخفي التي تعتمد فقط على الحالة السابقة لها عند الزمن tحتمالية انتقال الحالة عند الزمن القادر على توليد مشاهدات با

t-1 . عطاة مجهوللذا، ففي نموذج ماركوف الخفي تكـون [9]. علما أن تسلسل الحالة التي تنتج المشاهدة الم تحكمهـا مجموعـة مـن الحالة ليست مرئية، لذلك سمي بنموذج ماركوف الخفي واالنتقاالت بين الحـاالت

االحتماالت يطلق عليها احتماالت االنتقال من حالة معينة والتي يمكن أن تنتج نتيجة أو مشاهدة وحسب توزيع واالختالف بين نموذج ماركوف الخفي ونموذج مـاركوف هـو وجـود [10] .االحتمالية المرتبط بتلك الحالة

فنمـوذج . [11] لنموذج ويرتبط بالمشاهدة الناتجة من كل حالةويمثل هذا الجزء الخفي ل . االحتماالت اإلضافية ولذلك فقد طبق في تمييز الصوت وتمييز . ماركوف الخفي هو نموذج تصادفي قادر على التصنيف اإلحصائي

كما طبـق . [12] الكتابة اليدوية بسبب قدرته على التكيف وتعددية االستخدام في معالجة اإلشارات المتسلسلة DNA. [13] إليجـاد سالسـل (Bioinformatics)وذج ماركوف الخفي في مجتمع المعلوماتية الحياتية نم

حيث تعنى أنظمة كشف التطفل بحماية الشبكات من (وكذلك طبق في تصميم أنظمة كشف التطفل على الشبكات [14] ).ءأو سرقة البيانات المهمة من قبل المستخدمين المخولين أو الغربا/الهجمات و

[6] : كالتالي(HMM)تعرف عناصر نموذج ماركوف الخفي N : للعديد من التطبيقات الطبيعية هناك في أن إال الحاالت مخفية أنعدد الحاالت في النموذج، فبالرغم من

(S)ة اغلب األحيان بعض األهمية المتعلقة بالحاالت أو بمجموعة الحاالت من النموذج ويمكن تمثيل فضاء الحال : كما يلي

S={S1,S2,…,SN} .(qt) بـ (t)حيث يرمز للحالة عند الزمن

• M :مكن تمثيل رموز المشاهدة الواحدة كما يلي. عدد رموز مشاهدات الحالة الواحدةوي : V={v1,v2,…,vM}

: (A)التوزيع االحتمالي للحالة االنتقالية •A={aij}

حيثaij=p[qt+1=Sj\qt=Si] , Nji ≤≤ ,1

jالتوزيع االحتمالي لرمز المشاهدة عند الحالة •B={bj(k)}

Page 5: iasj

التعرف على النص العربي المطبوع باستخدام نموذج ماركوف الخفي

١٧٧

حيثBj(k)=p[vk at t\qt=Sj] ,

MkNj

≤≤≤≤

11

:توزيع الحالة االبتدائية •}{ iππ =

حيث][ 1 ii Sqp ==π , Ni ≤≤1

يكون باإلمكان استخدام نموذج مـاركوف الخفـي ,π (N,M,A,B(وبإعطاء القيم المناسبة لكل من .Oكمولد لمتسلسلة المشاهدات

O=O1 O2 …OT

),,(ويمكن أن يمثل نموذج ماركوف الخفي بالمعلمة BAπλ =[15]

:حيث أنπمثل احتمالية الحالة االبتدائية ت. . تمثل مصفوفة احتمالية انتقال الحالةAو i. تمثل احتمالية مشاهدة الرمز عند الحالة Bو

النموذج المقترح لنظام تمييز النص العربي-5

يز يتكون نظام التمييز المقترح من مراحل أساسية تبدأ بإدخال النص المراد تمييزه وتنتهي بمرحلة التمي . يوضح مراحل تنفيذ النظام المقترح للتمييز3-والمخطط في الشكل. باستخدام نموذج ماركوف الخفي

Page 6: iasj

ارمانيسة نعمان حسونو لعزيز الطالبا دب عغيداء

١٧٨

مخطط نظام التمييز المقترح) 3-الشكل(

Connected parts connected

characters

Entered images الداخلة الصور

إلى مقاطعتقطيع السطر النصي Line segmentation

تقطيع المقاطع إلى حروف segmentation connected parts

into characters

Features extraction استخالص السمات

features vectorبناء متجه السماتconstruction

توليد متسلسلة المشاهدات generation observation sequence

Implementation Elements of HMM الخفيتمثيل عناصر نموذج ماركوف

نموذج ماركوف للحرف الخفي

االبتدائي

نموذج ماركوف للحرف الخفي

الوسطي

نموذج ماركوف للحرف الخفي

النهائي

نموذج ماركوف للحرف الخفي

المنفصل

االحتمالية واعتماد حساب قيمتها في عملية التمييز

الخوارزمية األمامية

حروف النص المدخل

Segmentationالتقطيع

Page 7: iasj

التعرف على النص العربي المطبوع باستخدام نموذج ماركوف الخفي

١٧٩

خطوات تنفيذ النظام المقترح -6

خدام نموذج ماركوف الخفـي تم في هذا البحث اقتراح خوارزمية لتمييز النص العربي المطبوع باست Hidden Markov Model .حيث تمت البرمجة باستخدام لغة )Matlab V7.6 (R2008a لعدة خطـوات

.(Recognition)نفذت بالتعاقب ألجراء عملية التمييز مرحلة التدريب 1-6

:بدأ عمل النظام بمرحلة تدريب نماذج ماركوف المصممة والتي تضمنت الخطوات التاليةي إدخال الصور 1-1-6

سطرا نصيا كل سطر تمت طباعته على حدا باستخدام خط من نـوع 28 تم في هذه الخطوة طباعة (simplified Arabic fixed) في برنامج معالج النصوص (18) بحجم (Word 2003) بحيث يتضمن كـل

.م إدخالها سطر نصي ت28 سطر واحد من4-ين الشكليب. سطر نصي حرف معين بجميع أشكاله

حرف الحاء بأشكاله األربعة) 4-الشكل (

تخزن البيانات في الـصورة . BMPبعد ذلك يخزن كل سطر نصي على شكل صورة ثنائية في ملف نوعه و 1 والنقطة البيضاء بالقيمـة 0إذ تمثل النقطة السوداء التي تكون جزءا من النمط بالقيمة ) 1,0(الثنائية بصيغة

قرأ الصورة وتخزن في مصفوفة ثنائية، ليتم بعدها إجراء العمليـات تبعدها . ون جزءا من أي نمط والتي ال تك .الالحقة عليها لغرض الحصول على النص المقابل للصورة

عملية تقليل الضوضاء بسبب عدم إدخال الصورة عن طريق أجهزة المسح البـصري مثـل لم نجر . التي تسبب وجود الضوضاء(penlight)لكتابة مثل القلم الضوئي و أجهزة اأ (scanner)الماسح الضوئي

مرحلة التقطيع 2-1-6

وتعد مرحلة التقطيع مرحلة مهمة ضمن مراحل نظام تمييز النص العربي بسبب طبيعة الكتابة العربية ـ . المتصلة التي تتطلب فصل تراكيب أنماط الحروف الواحدة عن األخرى فـي : وتينويتم التقطيع اآللي بخط

أو مقاطع وذلك باستخدام المدرج التكراري العمـودي، /الخطوة األولى يتم تقطيع السطر النصي إلى كلمات و : أو مقطع إلى الحروف المكونة لها، وفيما يلي شرح تقطيع المقاطع إلى حروف/بعدها يتم تقطيع كل كلمة و

:ال عن إيجادإن عملية استقطاع الحرف تتم بعد تحديد بدايته ونهايته فض . الذي يملك اكبر عدد من النقاط الضوئية السوداءlineيكون عند الخط : Base line خط األساس -1 . لكل عمود في المقطعTop line الخط العلوي -2 . لكل عمود في المقطعBottom line الخط السفلي -3

Page 8: iasj

ارمانيسة نعمان حسونو لعزيز الطالبا دب عغيداء

١٨٠

راري لكل عمود الذي تم إيجاده في خطوة يقابل اكبر قيمة مكررة في المدرج التك : Threshold حد العتبة -4 .التقطيع السابقة

.(1-0) أو(0-1) عدد االنتقاالت العمودية من-5عمود البداية للحرف يكون المدرج التكراري له اكبر من حد العتبة، بينما عمود النهاية يجب أن يحقق شروط

:هي .سالخط العلوي لهذا العمود يكون اقل أو يساوي خط األسا -أ

. الخط السفلي لهذا العمود يكون اكبر من أو يساوي خط األساس-ب .والخط العلوي يكون اقل أو يساوي حد العتبة الفرق بين الخط السفلي-ج . المدرج التكراري له اقل أو يساوي حد العتبة -ء . تساوي اثنين عدد االنتقاالت العمودية-ه . من الخط العلوي لعمود البداية الخط العلوي لهذا العمود يكون اكبر-و

استخالص السمات 3-1-6

كل حرف ومعرفة بدايته ونهايته والمساحة التي يشغلها الحرف، إلىتم في المرحلة السابقة الوصول وفي هذه المرحلة تجرى عملية استخالص السمات لغرض توليد متسلسلة المشاهدات، ثـم اسـتدعاء نمـوذج

موقع الحرف، لكي يتم بعدها حساب االحتمالية لمتسلسلة مـشاهدات الحـرف ماركوف الخفي المصمم حسب . وتكرر هذه الخطوات على بقية الحروف بالتتابع. وإخراج الحرف المميز

بناء متجه السمات 4-1-6

يتكون متجه السمات من ثمان متغيرات كل متغير يمثل سمة من السمات التي وجدناها سابقا ويكـون .5-ر متجه السمات كما في الشكلعناصترتيب

عناصر متجه السمات) 5-الشكل(

وبعد إيجاد متجه السمات لكل حرف وبجميع أشكاله تتكون أربعة جداول للسمات حسب موقع الحرف .في الكلمة

تمثيل عناصر نموذج ماركوف الخفي5-1-6

ابتدائي، وسطي، نهائي، (عربي المطبوع حسب موقع الحرف في الكلمة تم تصميم أربعة نماذج لتمييز النص ال ).أو منفصل

موقع الحرف

وجود الحلقة

اتجاه المنحني

وجود النقطة

عدد النقاط

عدد االنتقاالت (0-1) العمودية

عدد االنتقاالت (0-1) األفقية

عدد النقاط الضوئية السوداء فوق خط

األساس

Page 9: iasj

التعرف على النص العربي المطبوع باستخدام نموذج ماركوف الخفي

١٨١

الـذي (parallel left-to-right)اليمين المتـوازي -إلى- ونوع نموذج ماركوف المستخدم هو نموذج اليسار .وفيما يلي شرح عناصر كل نموذج. ينسجم مع هيكل النماذج المصممة للتمييز

ركوف الخفي المصمم للحرف االبتدائي عناصر نموذج ما6-1-6

.6-لقد تم تصميم النموذج بحيث يضم تسع حاالت يوضحها الشكل

تسع حاالت-نموذج ماركوف الخفي للحرف االبتدائي) 6-الشكل(

:وكانت عناصر نموذج ماركوف الخفي للحرف االبتدائي كما يلي. t=1 عند الزمن i=1,2,…9 عندما Siوهي احتمالية حدوث الحالة : االبتدائية احتمالية توزيع الحالة -1

. (N=9) تمثل عدد الحاالت N، حيث N*1 تكون أبعاده πوتوضع في متجه

0.1[=π 0 0 0 0 0 0 0 0] ، 9*9حسب النموذج المصمم كان حجمها و N*N حجمها A مصفوفة احتمالية االنتقال بين الحاالت -2

.A يوضح قيم المصفوفة 1-والجدول. تمثل عدد حاالت نموذج ماركوف المصممNحيث ان

احتمالية االنتقال بين الحاالت للحرف االبتدائي) 1-الجدول(

S9 S8 S7 S6 S5 S4 S3 S2 S1 State 0 0 0 0 0 0 0.6364 0.3636 0 S1 0 0 0 0 0.5 0.5 0 0 0 S2 0 0 0 0 0.3571 0.6429 0 0 0 S3 0 0 0 1.0 0 0 0 0 0 S4

0.5556 0.2222 0.2222 0 0 0 0 0 0 S5 0.6923 0.3077 0 0 0 0 0 0 0 S6

1.0 0 0 0 0 0 0 0 0 S7 1.0 0 0 0 0 0 0 0 0 S8 1.0 0 0 0 0 0 0 0 0 S9

حيث كانـت مـصفوفة . ف في مواقعها األخرى يليها حساب التوزيع االحتمالي لمسار رموز مشاهدات الحرو تمثل عدد N حيث ان 17*9وحسب بيانات التدريب ) N*Mحجمها (Bالتوزيع االحتمالي لرموز المشاهدات -المشاهدات المتوقعة عند كل حالة، كما في الجدول تمثل عدد رموزMحاالت نموذج ماركوف المصمم وان

.B حيث يوضح قيم المصفوفة 2

S1 البداية

S2

S3

a01

a12 S4

S5

S6

S7 S8

a13

a35

a46

a25 a57 a34

a68

a69

a59 a58

a89 S9

a24

Page 10: iasj

ارمانيسة نعمان حسونو لعزيز الطالبا دب عغيداء

١٨٢

الحرف االبتدائي-التوزيع االحتمالي لرموز المشاهدات) 2-لالجدو(

17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 S

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.0 S1

0 0 0 0 0 0 0 0 0 0 0 0 0 0.25 0.375 0.375 0 S2

0 0 0 0 0 0 0 0 0 0 0 0.0713 0.1429 0.1429 0.6429 0 0 S3

0 0 0 0 0 0 0 0 0 0.2308 0.7692 0 0 0 0 0 0 S4

0 0 0 0 0 0 0 0 1.0 0 0 0 0 0 0 0 0 S5

0 0 0 0 0 0.1538 0.2308 0.6154 0 0 0 0 0 0 0 0 0 S6 0 0 0 0.5 0.5 0 0 0 0 0 0 0 0 0 0 0 0 S7

0 0.5 0.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 S8 1.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 S9

بالطريقة نفسها تم تصميم نموذج ماركوف الخفي للحرف الوسطي والنهائي والمنفصل وحساب عناصر النموذج :وعناصر النموذج هي

احتمالية توزيع الحالة االبتدائية-1

Aمصفوفة احتمالية االنتقال بين الحاالت -2

Bومصفوفة التوزيع االحتمالي لرموز المشاهدات -3

حساب االحتمالية 7-1-6

بعد استخالص المشاهدات وتوليد متسلسلة المشاهدات لكل حرف حسب موقعه في الكلمة، تم تطبيـق لحساب احتمالية المشاهدات ، حيث تعمل الخوارزمية األماميـة (forward algorithm) الخوارزمية األمامية

ميع الحاالت الخفية التي بإمكانهـا أن تنـتج على حساب احتمالية المشاهدات وذلك بجمع احتماالت مسارات ج لكل الحروف عنـد Oوطبقت على بيانات التدريب لحساب احتمالية متسلسلة المشاهدات ‘ متسلسلة المشاهدات

وجود النماذج المصممة حسب موقع الحرف ضمن الكلمة فتكونت أربعة جداول خاصة باالحتمالية المحـسوبة .االبتدائي الخاص بالحرف 3-حسب موقعه في الكلمة، ندرج منها الجدوللمتسلسلة المشاهدات لكل حرف

نموذج من نتائج تطبيق الخوارزمية األمامية للحرف االبتدائي) 3-الجدول(

االحتمالية المحسوبة للحرف االبتدائي الحرف

0.007235288619995 بـ

0.05878829956054 تـ

0.03919219970703 ثـ

0.007235288619995 جـ

0.0230809432983398 حـ

0.024117469787598 خـ

0.07792207792208 سـ

كمتطلب للخوارزمية ) الوسطي، النهائي، والمنفصل( كما تم حساب الجدول أعاله للحرف بمواقعه األخرى .األمامية

مرحلة االختبار2-6

:تيةلغرض اختبار كفاءة النموذج المصمم في التمييز تطبق الخطوات اآل

Page 11: iasj

التعرف على النص العربي المطبوع باستخدام نموذج ماركوف الخفي

١٨٣

إدخال صورة السطر النصي 1-2-6

. كمثال لتطبيق نظام التمييز المقترح عليها7-تم اختيار صورة السطر النصي الموضحة في الشكل

صورة السطر النصي المدخل) 7-الشكل(

(Microsoft word 2003)عملية اإلدخـال تبدأ بطباعة سطر نصي في برنامج معالج النصوص ، ومن ثم خزنه على شكل صـورة ثنائيـة فـي 18 بحجم Simplified Arabic fixedوع استخدم خط من ن

Matlab V 7.6بعدها يقرأ السطر النصي في البرنامج المكتـوب بلغـة . BMP بملف نوعه paintبرنامج

R2008aويخزن في مصفوفة ثنائية .

تقطيع السطر النصي إلى مقاطع2-2-6

ة إلى المقاطع المكونة له، وبعد تحديد قيمة عمود البداية والنهايـة يقطع السطر النصي في هذه الخطو وناتج هذه الخطوة هـو الحـصول علـى . لكل مقطع يتم خزنها لالستفادة منها في خطوة التقطيع إلى حروف

الذي يوضح صورة السطر النصي بعد تقطيعه إلـى 8-المقاطع المكونة للسطر النصي المدخل كما في الشكل .مقاطع

صورة السطر النصي بعد تقطيعه إلى مقاطع) 8-الشكل(

تقطيع المقاطع إلى حروف 3-2-6

يتم تقطيع كل مقطع تم الحصول عليه من الخطوة السابقة إلى الحروف المكونة له بعد تحديد عمـود بيضاء إلىم تحويل نقطة سوداء واحدة حيث يت 9-وناتج هذه الخطوة يوضح في الشكل . بداية ونهاية كل حرف

.لتكوين فراغات تفصل بين الحروف المقطعة

مقطع مقطع مقطع

Page 12: iasj

ارمانيسة نعمان حسونو لعزيز الطالبا دب عغيداء

١٨٤

ناتج تقطيع السطر النصي إلى حروف) 9-الشكل(

استخالص السمات 4-2-6

والوصول إلى الحروف المكونة للسطر النصي تم تحديد (segmentation) إكمال عملية التقطيع وبعديتم إجراء هذه الخطوة والخطوات . نهاية لكل حرف، وبذلك تحددت مساحة العمل على الحرف عمود البداية وال

الالحقة على كل حرف في المقطع ومن اليمين إلى اليسار ولكل مقطع في السطر النصي، وهكذا يتم استخالص .سمات الحرف

بناء متجه السمات 5-2-6

سمات كل حرف في السطر النصي المدخل، وعند تطبيق خوارزميات استخالص السمات حصلنا على .حيث يتم خزن هذه السمات في متجه السمات الخاص بكل حرف

.4-وكانت قيم متجه السمات للسطر النصي المدخل موضحة في الجدول

السطر النصي المدخل لجزء من متجه السمات) 4-الجدول(

الحرف متـــــجه الســــــماتوداء عدد النقاط الضوئية الس فوق خط األساس

عدد االنتقاالت األفقية

عدد االنتقاالت العمودية

موقع الحرف وجود الحلقة اتجاه المنحني وجود النقطة عدد النقاط

ـلـ 2 0 1 0 0 2 1 20

ـهـ 2 1 0 0 0 1 2 10

ـم 3 0 1 0 0 1 1 6 ا 4 4 0 0 0 1 1 16

فـ 1 2 0 1 1 3 1 17 ــت 2 0 1 1 2 2 1 20

ـح 3 0 3 0 0 2 1 19 لـ 1 0 1 0 0 2 1 20

ـي 3 0 2 2 2 2 2 2

فراغات

Page 13: iasj

التعرف على النص العربي المطبوع باستخدام نموذج ماركوف الخفي

١٨٥

توليد متسلسلة المشاهدات 6-2-6

وذلك بتحويل السمات المستخلـصة إلـى . يتم في هذه الخطوة توليد متسلسلة المشاهدات لكل حرف ف في السطر النصي يتم استدعاء الدالة الخاصة بتوليد متسلسلة المشاهدات لكل حر ، حيث متسلسلة من الرموز

نموذج من متسلسلة المشاهدات لحروف السطر النصي المدخل 5-ويوضح الجدول. المدخل

متسلسلة المشاهدات لحروف السطر النصي المدخلنموذج من) 5-الجدول(

الحرف متسلسلة المشاهدات

ـلـ 1 3 9 13 -

ـهـ 1 2 9 14 15

ـم 1 3 9 14 -

ا 1 5 9 - -

فـ 1 3 7 10 -

ـتـ 1 3 7 11 -

ـح 1 5 9 14 - لـ 1 3 9 15 -

التمييز باستخدام نموذج ماركوف الخفي 7-2-6

بعد الحصول على متسلسلة المشاهدات للحرف يتم إدخالها إلى نموذج ماركوف الخفي المقابل لموقع forward)يـة األماميـة الحرف المدخل، وتستدعى الدالة الخاصة بحساب االحتماليـة بتطبيـق الخوارزم

algorithm) ,ـدخل يسيتم فيما يلي توض وخوارزميـة باسـتخدام ال ح نتائج التمييز لصورة السطر النصي الم .األمامية

الخوارزمية األمامية التمييز باستخدام

يتم استدعاء الدالة الخاصة بالخوارزمية األمامية لتحسب احتمالية متسلسلة مشاهدات الحرف المدخل فإذا حصل تطابق نطبع الحرف المقابل له أما إذا لم في مرحلة التدريب وتقارن مع االحتمالية المحسوبة مسبقا

نطبق هذه الخطوة على جميع الحـروف المكونـة للـنص . يحصل التطابق فيطبع عبارة حرف غير معروف .6-النصي المدخل توضح في الجدولبينما نتائج تطبيق الخوارزمية األمامية لبقية حروف السطر .المدخل

تطبيق الخوارزمية األمامية لحروف السطر المدخل عنداالحتمالية) 6-الجدول(

االحتمالية المحسوبة الحرف

0.0638542175229297 ـلـ

0.005050420761108 ـهـ

0.037048339843750 ـم

0.015872955322266 ا

0.156768798828125 فـ

0.054752349853516 ـتـ

0.031698226928711 ـح

Page 14: iasj

ارمانيسة نعمان حسونو لعزيز الطالبا دب عغيداء

١٨٦

.10-وناتج تمييز صورة النص المدخل بتطبيق الخوارزمية األمامية موضحا في الشكل

ناتج تمييز صورة النص المدخل بتطبيق الخوارزمية األمامية) 10-الشكل(

اللغة العربية سطرا نصيا تضمنت اغلب حروف 20 تمييز حروف في خالل متابعة نتائج النظام ومن للحروف ذات الحجم والنمط الخطي الواحد، مما يجعل منه أساس عمل أو لبنة %) 94.9(وقد بلغت دقة التمييز

.أولى لبناء نظام تمييز حروف مختلفة األنماط واألحجام

االستنتاجات-10

:يمكننا من خالل العمل الحالي استنتاج ما يليم على التعرف بسرعة محسوسة وأداء عاليين كما مبين من خالل قدرة نموذج ماركوف الخفي المصم -1

.متابعة أداء النظام في التعرف على السطر النصي المدخل الذي تم توضيحه في المقطع السابق قدرة الخوارزمية األمامية في التعرف على صورة الحرف المدخل بعد تحويله إلى متسلسلة مشاهدات -2

وإخـراج ) من بيانـات التـدريب (ليته ومقارنتها مع احتماالت محسوبة مسبقا من خالل حساب احتما .الحرف المقابلة احتماليته الحتمالية الحرف المدخل

األعمال المستقبلية-11

:هنالك عدة اقتراحات لتحسين أداء النظام وهي . تطوير النظام ليقوم بالتعرف على النص العربي المكتوب بخط اليد-1آ، (ع النظـام ليشمل التعرف على عالمات التشـكيل باإلضـافة إلى الحروف المتداخلة مثل توسـي-2

).ء، الءأ، ال، آل، ال . تطوير النظام ليطبق على أنماط مختلفة من الخطوط واألحجام-3 تطوير النظام ليتعامل مع صفحات تحتوي على أنواع الرسوم أو األشكال أو الصور ومن ثم فصل -4

. واألشكال عن النص والتعامل معه بصورة مستقلةالصور . التعرف بدون التقطيع إلى حروف وذلك لتجاوز األخطاء التي تسببها مرحلة التقطيع-5

Page 15: iasj

التعرف على النص العربي المطبوع باستخدام نموذج ماركوف الخفي

١٨٧

المصادر

، رسالة ماجستير "استخدام المنطق المضبب آلية لتمييز الحروف العربية"، ٢٠٠٤عجرش، آمال سفيح [1] .، كلية العلوم، جامعة البصرة، العراقغير منشورة، قسم علوم الحاسبات

[2] Sharma Amit Kumar and kishor Mr.R Rama, 2007, "pattern recognition: Different available approaches", proceeding of National conference on challenges & opportunities in information technology (COIT-2007) RIMT-IET, Mandi Gobindrh. www.rimtengg.com/coit 2007/.../coitindex.html

[3] Jain Anil K., Duin Robert P.W. and Mao Jain chang, 2000, "statistical pattern recognition: A review", IEEE Transaction pattern analysis and Machine intelligence, vol.22, No.1.

[4] Jannoud, Ismael Ahmed, 2007, "Automatic Arabic Handwritten Text Recognition System", American Journal of Applied sciences 4(11): 857-864, ISSN 1546-9239.

[5] Jurafsky Daniel and Martin James H., 2006, "speech and language processing: An introduction to natural language processing, computational linguistics and speech recognition", 2nd Ed., prentice-Hall 2000, ISBN: 0-13-095069-6.

[6] Rabiner Lawrence R., 1989, "A Tutorial on Hidden Markov Models and selected Applications in speech recognition", proceedings of the IEEE, vol.77, NO.2.

تصميم نظام لتمييز الحروف العربيـة باسـتخدام الخوارزميـات "، ٢٠٠٥الكيم، سلوان تحسين فالح [7] .لبصرة، العراق، رسالة ماجستير غير منشورة، قسم علوم الحاسبات، كلية العلوم، جامعة ا"الجينية

استخدام الشبكات العصبية في تقدير رتب سالسل ماركوف "، ٢٠٠٥الكسو، ابتهاج عبد الحميد محمد [8]، أطروحة دكتـوراه غيـر منـشورة، قـسم "مع التطبيق على سلسلة جبل بطمة في محافظة نينوى

. العراق جامعة الموصل،اإلحصاء، كلية علوم الحاسبات والرياضيات،

[9] Sofia, Fatin Basher Abdul Ahad 2003, "An Implementation of Arabic speech recognition", Unpublished Ph.d. Thesis, Department of mathematical science, college of computer and mathematical science, university of Mosul, IRAQ.

[10] Aazami, Farshideh Einsele 2008, "Recognition of ultra low resolution, Anti-aliased text with small font sizes", Unpublished Ph.d. thesis, Scientarium informaticarum, Faculty of science, University of Fribourg, Switzerland.

[11] Dunham, Margaret H., 2002, "Data Mining introductory and advanced Topics", prentice Hall.

[12] Li xiaolin, Parizeau Marc and plamondon Rejean, 2000, "Training Hidden Markov Models with multiple observations-A combinational Method", IEEE Transactions on PAMI, vol.PAMI-22, NO.4, pp.371-377.

Page 16: iasj

ارمانيسة نعمان حسونو لعزيز الطالبا دب عغيداء

١٨٨

[13] Attaluri, srilatha, 2007, "Detecting Meta Morphic Viruses using profile Hidden Markov Models", Unpublished M.Sc. thesis, computers science, the faculty of the department of computer science, university of San Jose State.

[14] Jecheva Vaselina, 2006, "A bout some Application of Hidden markov Model in intrusion detection system", International conference and computer systems and Technologies-compsys tech’06.

[15] Khorsheed M.S., 2003, "Recognizing handwritten Arabic Manuscripts using a single Hidden markov Model", Pattern Recognition letters 24.