116
חחחח חחחחחחחחח חחחחחחחח חחחחחחח חחחחחח חח חחחחחחח חחחחח חח חחחח חחח חחחחח חחחח חח חחחחחחח חחחחח חחחח חחחחחח חחחחחח חחחחח חחחחח חחחח חחח חחחח חחחח חחחחחחח חחחח חחחחחחחח חחחחחח

GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

הסתברותי מורפולוגי מנתחמנוקדים לא עבריים לטקסטים

מחקר על חיבורתואר לקבלת הדרישות של חלקי מילוי לשם

המחשב במדעי למדעים מגיסטר

סגל אראל

לישראל טכנולוגי מכון – הטכניון לסנט הוגש1999 אוקטובר חיפה ה'תש"ס חשון

המחשב. למדעי איתי, בפקולטה פרופ' אלון בהנחיית נעשה המחקרבהשתלמותי. הנדיבה הכספית התמיכה על לטכניון מודה אני

Page 2: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על
Page 3: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

העניינים תוכן4..................................................................................................תקציר

5............................................................הפתרון ודרך הבעיה : הגדרת1 פרק5..............................................................................................הבעיה א6....................................................................................העבודה מטרת ב6..................................................................מחרוזת מנתחים בני-אדם איך ג8............................................................מחרוזת מנתחת שלנו התוכנה איך ד10...................................................מחרוזת לנתח לומדת שלנו התוכנה איך ה

12..............................................................................ספרות : סקר2 פרק12................................................................................עבריים טקסטים א12...................................................בעברית צורני לניתוח שקשורות עבודות ב16..............................בעברית הנכון הצורני הניתוח למציאת שקשורות עבודות ג17.................................אחרות בשפות חלקי-דיבר למציאת שקשורות עבודות ד

18.........................................שונים צורניים לניתוחים הסתברויות : חישוב3 פרק19....................................................................................מתימטי מודל א20...............................................מחרוזת של ביותר הסביר הניתוח משמעות ב20.............................................................ניתוח כל של ההסתברות מציאת ג20............................מנותח טקסט-אימון בעזרת האמפירית ההסתברות חישוב ד23.................................................................................ותוצאות בדיקה ה24....................................................................................אחרונה הערה ו

24........................................................................ניתוחים של : זוגות4 פרק24..........................................................מועדפים" "זוגות בעזרת א. תיקונים26.........................................................."פקודות-תיקון" בעזרת ב. תיקונים

31..............................................מנותח קורפוס בעזרת פקודות-תיקון ג. לימוד35.........................................................הלימוד אלגוריתם לבדיקת ד. ניסויים

39.........................................................................שלמים : משפטים5 פרק39......................................................................... מדומה תחבירי מנתח א47..............................................................החלקי התחבירי בניתוח שימוש ב51.........................................................ביותר הטוב הצורני הניתוח מציאת ג53.................................................................................ותוצאות בדיקה ד

53.....................................................................נותרו? שגיאות : אילו6 פרק54.........................................................................................א מאמר א60..........................................................................................ח מאמר ב65...............................................................................................סיכום ג

67..........................................................................ומסקנות : סיכום7 פרק67.............................................................מהשלבים אחד כל של התרומה א68................................................................מהשלבים אחד כל של הקושי ב69........................................................................המחקר להמשך כיוונים ג

70.....................................................................................מקורות רשימת72........................קטנה הסתברות להערכת הדרוש הטקסט גודל א: חישוב נספח73......................................התחבירי המנתח של הצמצום חוקי ב: רשימת נספח

Page 4: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

והציורים הטבלאות רשימת31................... תיקונים ללמידת האלגוריתם לבדיקת הניסוי : תוצאות1מס' טבלה57............ הסופית הדיוק לרמת הניתוח משלבי אחד כל של : התרומה2מס' טבלה

תקציר באמצעות העברית בשפה )מורפולוגי( נכון צורני ניתוח מציאת עם מתמודדת זו עבודה

ניקוד. ללא בעברית נתון המחשב, לטקסטהמשפט: למשל, עבור

שלו הרוח קור על שומר שלו אדם

כי: לדעת צריך המחשב0יחיד, זכר שם-עצם " היאאדם" המחרוזת0יחיד, זכר תואר " )הראשונה( היאשלו" המחרוזת0יחיד, זכר בינוני פועל " היאשומר" המחרוזת0יחס, מילת " היאעל" המחרוזת0יחיד, זכר נסמך שם-עצם " היאקור" המחרוזת0נקבה מיודע שם-עצם + "רוח", כלומר "ה" הידיעה " היאהרוח" המחרוזת יחידה,

0יחיד לזכר כינוי-שייכות "של" עם מילת-יחס " )השניה( היאשלו" והמחרוזת נסתר.

עברי למדי. בכתיב מורכבת הינה הניתוח שמשימת זו פשוטה בדוגמה כבר לראות ניתן בהקשר תלוי שלהן הנכון הצורני רב-משמעיות, והניתוח הן מהמחרוזות גדול חלק לא-מנוקד

" מהדוגמה(.שלו" המחרוזת )כמו מופיעות הן שבו הניתוחים כל את מחשב בעזרת למצוא יחסית קל נתונה מחרוזת כל להדגיש, שעבור יש

הניתוח את למצוא " ניתוהגר" המחרוזת שלה. למשל, בהינתן האפשריים הצורניים עם כפועל-בינוני הניתוח , אתha-ger כשם-עצם-זכר-מיודע הניתוח , אתhagar כשם-פרטי-נקבה

מציאת היא יותר קשה שונים. בעיה חוקרים על-ידי נפתרה כבר זו , וכו'. בעיהha-gar זיקה כינוי " המחרוזתהביתה הלך הגרלמשל, במשפט: " מסויים. כך בהקשר הנכון הצורני הניתוח

"הביתה הלכה הגר" הכמעט-זהה במשפט (, אבלha-ger) שם-עצם-זכר-מיודע " היאהגר"(.hagar) שם-פרטי-נקבה " היאהגר" המחרוזת

לראות, ניקוד. קל או תרגום יותר, כגון מורכבות במשימות הבסיסי השלב הוא נכון צורני ניתוח "שלו" המחרוזת את נכונה בצורה לתרגם יוכל העמוד, שהמחשב מראש למשל, בדוגמה

הנכון הצורני הניתוח את יזהה אם נכון, רק אותה לנקד אחרת(, וגם שפה לכל או )לאנגליתשלה.

Page 5: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

)נקדן, תרגומון, אלו בעיות לפתור שנועדו מסחריות מערכות מספר פותחו האחרונות בשנים המערכת – מושלם אינו בהן הצורני צורני. הניתוח לניתוח יחידה כוללות אלו ועוד(. מערכות

פועלים אלו מערכות כולן. מפתחי את לא מהמלים, אך95%כ רק נכון לנתח מצליחהשלהם. המערכות של הדיוק אחוזי לשיפור בהתמדה נכתבה כך בעברית. לשם צורני לניתוח הסתברותיות שיטות של היעילות נבדקה זו בעבודה

בשלושה צורני ניתוח ולא-מנותחים, ומבצעת מנותחים עבריים טקסטים שקוראת תוכנהשלבים:

ביותר הסביר הניתוח את מחרוזת כל עבור מוצאת התוכנה זה המחרוזת: בשלב שלב.1 כ- זה שלב הנתונים. לאחר הטקסטים מופיעה, ע"פ היא שבו בהקשר תלות עבורה, ללא

שלהן. הנכון הניתוח את מקבלות מהמחרוזות83% מחרוזת כל של הניתוח את תיקון", שמתקנות "פקודות מוצאת התוכנה זה הזוג: בשלב שלב.2

נלמדות התיקון שאחריה. פקודות המחרוזת ושל שלפניה המחרוזת של הניתוחים ע"פ 94%כ- זה שלב קטן. לאחר מנותח בטקסט המשתמש אוטומטי, באלגוריתם באופן

שלהן. הנכון הניתוח את מקבלות מהמחרוזות בו המשפט, ונעזרת כל של שטחי תחבירי ניתוח מבצעת התוכנה זה המשפט: בשלב שלב.3

מהמחרוזות96.5%כ- זה שלב . לאחר2 בשלב שהושג הניתוח של הדיוק את לשפר כדישלהן. הנכון הניתוח את מקבלות

) בעברית הצורני הניתוח בעיית עבור כה עד שדווח המירבי מהדיוק יותר טוב הוא שהושג הדיוק בעיית – האנגלית בשפה המתאימה הבעיה עבור המקובל לדיוק מתקרב (, והוא95%

(.tagging( )97%) מציאת-חלקי-הדיבר מופעלים שלושתם כאשר השלבים: רק שלושת לכל חשיבות יש עולה, כי שביצענו מהבדיקות

הסתברותיות שיטות בין לשילוב מקום שיש מראות ביותר. התוצאות הגבוה הדיוק אחוז מתקבלהצורני. הניתוח תהליך של השונים בשלבים דקדוקיות שיטות לבין

הפתרון ודרך הבעיה : הגדרת1 פרק

הבעיה א באמצעות העברית בשפה )מורפולוגי( נכון צורני ניתוח מציאת עם מתמודדת זו עבודה

ניקוד. ללא בעברית נתון המחשב, לטקסטהמשפט: למשל, עבור

שלו הרוח קור על שומר שלו אדם

כי: לדעת צריך המחשב1יחיד, זכר שם-עצם " היאאדם" 1המחרוזת

1

Page 6: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

2יחיד זכר תואר " )הראשונה( היאשלו" המחרוזת $(alew,)3יחיד, זכר בינוני פועל " היאשומר" המחרוזת4יחס, מילת " היאעל" המחרוזת5יחיד, זכר נסמך שם-עצם " היאקור" המחרוזת6נקבה מיודע שם-עצם + "רוח", כלומר "ה" הידיעה " היאהרוח" המחרוזת יחידה,

07נסתר יחיד לזכר כינוי-שייכות "של" עם מילת-יחס " )השניה( היאשלו" המחרוזת $(

ello.) עברי למדי. בכתיב מורכבת הינה הניתוח שמשימת זו פשוטה בדוגמה כבר לראות ניתן

בהקשר תלוי שלהן הנכון הצורני רב-משמעיות, והניתוח הן מהמחרוזות גדול חלק לא-מנוקד" מהדוגמה(.שלו" המחרוזת )כמו מופיעות הן שבו הניתוחים כל את מחשב בעזרת למצוא יחסית קל נתונה מחרוזת כל להדגיש, שעבור יש

הניתוח את למצוא " ניתוהגר" המחרוזת שלה. למשל, בהינתן האפשריים הצורניים עם כפועל-בינוני הניתוח , אתha-ger כשם-עצם-זכר-מיודע הניתוח , אתhagar כשם-פרטי-נקבה

בו השתמשנו שאנו )הפתרון שונים חוקרים על-ידי נפתרה כבר זו , וכו'. בעיהha-gar זיקה כינוי הנכון הצורני הניתוח מציאת היא יותר קשה (. בעיה2 בסקר-הספרות, בפרק בפירוט מתואר

" היאהגר" " המחרוזתהביתה הלך הגרלמשל, במשפט: " מסויים. כך בהקשר " המחרוזתהביתה הלכה הגר" הכמעט-זהה במשפט (, אבלha-ger) שם-עצם-זכר-מיודע

(.hagar) שם-פרטי-נקבה " היאהגר" לראות, ניקוד. קל או תרגום יותר, כגון מורכבות במשימות הבסיסי השלב הוא נכון צורני ניתוח

"שלו" המחרוזת את נכונה בצורה לתרגם יוכל העמוד, שהמחשב מראש למשל, בדוגמה הנכון הצורני הניתוח את יזהה אם נכון, רק אותה לנקד אחרת(, וגם שפה לכל או )לאנגלית.2השניה " מהדוגמההגר" המחרוזת לגבי גם שלה. כך

)נקדן, תרגומון, אלו בעיות לפתור שנועדו מסחריות מערכות מספר פותחו האחרונות בשנים המערכת – מושלם אינו בהן הצורני צורני. הניתוח לניתוח יחידה כוללות אלו ועוד(. מערכות

פועלים אלו מערכות כולן. מפתחי את לא מהמלים, אך95%כ רק נכון לנתח מצליחהשלהם. המערכות של הדיוק אחוזי לשיפור בהתמדה

העבודה מטרת ב שיטות – צורני, ובפרט לניתוח מסויימות שיטות של היעילות את לבדוק היא זו עבודה מטרת

אוטומטי, באופן להפיק המחשב יכול מידע כמה לגלות ננסה העבודה סטטיסטיות. במהלך של היעילות את גם שלהם. נבדוק סטטיסטי ומניתוח גדולים עבריים טקסטים של מקריאה

תחביריות-ידניות. שיטות לבין סטטיסטיות-אוטומטיות שיטות בין שילוב

סימנים )או רווחים תווים, שיש של כרצף מוגדרת זו בעבודה'מחרוזת' נקרא זה רווחים. מושג כולל אינו עצמו הוא צדדיו, אך אחרים( משני מפרידים’.word token ‘באנגלית

והגישות לה בעברית, היקפה, הגורמים הצורנית העמימות בבעיית מפורט דיון 2[92 ]לוינגר לוינגר אצל מופיע לפתרונה השונות

Page 7: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

עבודות נציג2 פרקזאת. ב בעבודה אותנו שהנחו הכלליים העקרונות את נתאר הפרק בהמשך שלנו, על הפתרון את יותר רב בפירוט נתאר והלאה3 זה, ובפרקים בתחום שנעשו קודמותשלביו.

מחרוזת מנתחים בני-אדם איך ג צורנית, כלומר: יש מבחינה עמומות הן המחרוזות ממחצית למעלה – לא-מנוקד עברי בטקסט

להבין מצליחים עברית העמימות, דוברי [. למרות92 ]לוינגר אחד צורני מניתוח יותר להן הצורני הניתוח את למצוא יחסית להם שקל רבה, ומכאן בקלות מנוקדים לא עבריים טקסטים

למחקר נושא הוא הצורנית העמימות על מתגברים בני-אדם שבו . האופן3מחרוזת כל של הנכון להבין לנסות טעם שיש לנו זאת, נראה זו. למרות עבודה של להיקפה מעבר והוא בפסיכולוגיה

של הנכון הצורני הניתוח מהו מחליטים כשהם אנושיים קוראים משתמשים מידע באיזה נועדה מדעי, והיא בסיס בעלת להיות מתיימרת אינה הזה בפרק שמופיעה מחרוזת. הסקירה

המחקר. במהלך אותנו שהנחו הכלליים מהעקרונות כמה הקוראים בפני להציג כדי רק אנחנו שלה הנכון הצורני הניתוח את למצוא ומנסים מחרוזת )כבני-אדם( רואים כשאנחנו

שונות: מרמות מידע של בשילוב משתמשים

עבורה, גם ביותר הסביר שהוא ניתוח יש מחרוזת עצמה: לכל למחרוזת רק שקשור מידע.1 ". בקריאתשלו" המחרוזת את למשל אחרים. ניקח ניתוחים של רב מספר לה יש אם

מהקוראים כמילת-יחס. חלק ניתוחה על מייד הקוראים רוב יחשבו למשפט מחוץ המחרוזת איש כמעט "(. איןשלו מאיר)" כשם-פרטי ניתוחה על כתואר, או ניתוחה על בנוסף יחשבו"(.מהמים! דגים שלו)" בציווי כפועל הניתוח את בדעתו יעלה אשר

שאחריה. למשל: והמחרוזת שלפניה המחרוזת: המחרוזת של המיידי ההקשר לגבי מידע.2 ממין שם-עצם זאת, לאחר זכר. לעומת ממין תואר שיופיע סביר זכר ממין שם-עצם לאחר שהמחרוזת יותר " סבירשלו אדם" זכר. לפיכך, בצירוף ממין תואר שיופיע סביר לא נקבה

.4מילת-יחס " היאשלו" שהמחרוזת יותר " סבירשלו הרוח" שבצירוף תואר, בעוד " היאשלו" לרוב הקורא פעליים, ולכן משפטים הם בעברית המשפטים כולו: רוב למשפט שקשור מידע.3

אפשר שנתנו הראשונה המשפט. למשל: בדוגמה של הנשוא להיות שמתאים פועל מחפש לא והוא במשפט פועל יהיה לא כזה בניתוח " כשם-עצם, אבלשומר" המחרוזת את לנתחדקדוקית. מבחינה תקין יהיה

"בעץ נתקל יוסי" המשפט. למשל: במשפט מופיע שבו השלם למאמר שקשור מידע.4 מהו לדעת אפשרות בהווה, ואין פועל או בעבר פועל להיות " יכולהנתקל" המחרוזת

כולה. הפיסקה את לקרוא בלי שלה הנכון הניתוח הילד" במשפט את לדוגמה זה. ניקח את זה לסתור עלולים שונות מרמות המתקבלים הנתונים

יחס, אבל מילת כנראה " היאשלה" שהמחרוזת א' הוא מרמה המתקבל ". המידעדגים שלה כנראה " היאשלה" המחרוזת ולכן במשפט פועל להיות שצריך ג' הוא מרמה המתקבל המידע

של הנכון הצורני הניתוח את מוצאים שהם לכך מודעים אינם האנשים שרוב מובן 3 היו לא -- אחרת אותו יודעים הם מודע תת באופן הקריאה, אבל במהלך מחרוזת כל

הטקסט. את מבינים הזה "שלו": התואר התואר של המשמעות היא לכך העיקרית הסיבה הזה במקרה 4

המחרוזת את מתאר שהוא סביר דוממים, ולכן לעצמים ולא לבני-אדם בדרך-כלל מתייחס"רוח". המחרוזת את מתאר שהוא סביר "אדם" ולא-כל-כך

Page 8: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

'לשלות' ושם-העצם הפועל אחד חד-משמעי: מצד ב' אינו מרמה שמתקבל המידע פועל. גם הילד" הצירוף גם שני מצד פועל, אבל כנראה " היאשלה" המחרוזת ולכן ביחד 'דגים' הולכים

את למצוא הוא זאת בעבודה בפנינו שעומדים האתגרים למדי. אחד נפוץ צירוף " הואשלההשונות. מהרמות המידע בין לשלב הנכונה הדרך

א' וב': רמות לגבי לנו. נפרט ה'ניסיון' שיש כמות לפי נקבעת רמה בכל המידע של האיכות

ניתן – נראו כבר בעברית האפשריים האותיות צירופי כל הבודדת: כאשר המחרוזת ברמת.1 זאת, אם . לעומת5עבורו ביותר הסביר הניתוח אותיות, מהו של צירוף כל לדעת, עבור

מחרוזת יותר, למשל: ניתוח כללי במידע רק להשתמש נראו, ניתן טרם רבים אותיות צירופי יותר סביר הוא כפועל-עבר מחרוזת כתואר, וניתוח מניתוחה יותר סביר הוא כמילת-יחס

כפועל-ציווי. מניתוחה של רב מספר לזהות ניתן – נראו כבר מחרוזות של רבים זוגות המיידי: אם ההקשר ברמת.2

כשם-פרטי, כלל בדרך ", המופיעשלו מאיר" הזוג את לזהות שכיח. כך, ניתן שצירופם זוגות ", שהואאחד מצד" הזוג את לזהות " כמילת-יחס; ניתןשלו" המחרוזת את ננתח לא ולכן

המחרוזת את ננתח לא ..."(, ולכןmi-cadd ^exad... w-mi-cadd $eni)" תואר-פועל כלל בדרך גם ניתן – נראו טרם רבים וצירופים ביטויים זאת, אם "(. לעומתmcad)" " כשם-עצםמצד"

שם-פרטי עוד שיהיה סביר שם-פרטי יותר, למשל: אחרי כללי במידע רק להשתמש כאןשם-עצם-זכר. שיהיה סביר תואר-זכר )שם-משפחה(, ולפני

יש בימינו היא, שלמחשבים מחשב באמצעות בעברית צורני בניתוח העיקריות הבעיות אחת בו המחרוזות לכל אשר גדול עברי טקסט בימינו קיים זה: לא מעין 'ניסיון' בניתוח מאד מעט

מחרוזות,5300כ- בן מנותח עברי טקסט עם עבדנו זו . בעבודה6הנכון הצורני הניתוח מותאםממנו. להפיק שאפשר המידע את ביותר הטובה בצורה לנצל היה בפנינו שעמד והאתגר

מחרוזת מנתחת שלנו התוכנה איך דעיקריים: שלבים לשלושה הצורני הניתוח את חילקנו זאת בעבודה

0פרק) בהקשר תלות בנפרד, בלי מחרוזת לכל ביותר הסביר הניתוח המחרוזת: מציאת שלב 3.)

0פרק) שאחריה והמחרוזת שלפניה המחרוזת לפי מחרוזת כל של הניתוח הזוג: תיקון שלב 4.)

0(.5 פרק) המשפט כל של תחבירי ניתוח בעזרת המחרוזות של הניתוח המשפט: תיקון שלב למשפטים שקשור למידע התייחסנו לא – הבודד המשפט רמת עד רק הגענו זו בעבודה

מאמר(. באותו הסמוכים

אותיות: בהינתן צירוף כל בניתוח הסבירות מידת את לגלות קל המחשב באמצעות 5 כמה סופרים – רבות פעמים מופיע בעברית אפשרי צורני ניתוח כל שבו מנותח טקסט אחד כל מופיע מתוכן אחוז בטקסט, ובאיזה אותיות של צירוף כל מופיע פעמים

שעדיין בהמשך, כיוון שיתואר בפועל, כפי אפשרי אינו האפשריים. הדבר מהניתוחים האפשריים. לפיכך, לא הצורניים הניתוחים כל את שמכיל מנותח עברי טקסט בידינו איןזו. פשוטה בשיטה להשתמש כיום ניתן

מאד. גדולים מנותחים קורפוסים יש האנגלית, שבה לשפה בניגוד זאת 6

Page 9: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

וללא מופשט באופן "הארץ", ונתאר בעיתון מאמר מתוך משפט להלן נציג המחשה לשםהמשפט: שלו. להלן הנכון הצורני הניתוח את המחשב מוצא כיצד מדוייקים חישובים עצמו את שהעמיד הדמוקרטי הארקין, הסנאטור לטום התרמה נשף במהלך"

ארה"ב יכולה כיצד הנוכחים אחד באריכות לי חוזרת, הסביר לבחירה השבוע המשפט בית לפני העניין את תביא רק הפרסי, אם המפרץ סכסוך את ליישב

".בהאג. הבין-לאומי

הבא: הניתוח את המחשב הבודדת, הציע המחרוזת הראשון, שלב בשלב ]שם-עצם-נפרד[ התרמה]שם-עצם-נפרד[[ נשף]שם-עצם-נפרד-מיודעב-ה-מהלך"

]שם-עצם-מיודע[, ה-סנאטור]שם-פרטי[[ הארקין]שם-פרטיל-טום

]מילת-גוף[ עצמו]מילת-יחס[ את]פועל[ ש-העמיד]תואר-מיודע[ה-דמוקרטי

,]תואר[ חוזרת]שם-עצם-מיודע[ ל-ה-בחירה7[]תואר-פועלהשבוע ]מספר-נסמך[ אחד]שם-עצם-מיודע[ ב-ה(-אריכות]מילת-יחס[ לי]תואר-מיודע[ה-ס(ביר

]פועל-עזר-נקבה[ יכול(ה]מילת-שאלה[ כיצד]שם-עצם-רבים-מיודע[ה-נוכחים

]שם-עצם-נפרד[ סכסוך]מילת-יחס[ את]שם-פועל[ ליישב]שם-פרטי[ארה"ב

]מילית[ רק]מילת-חיבור[, אם]שם-עצם-מיודע[ ה-פרסי]שם-עצם-מיודע[ה-מפרץ

]מילת-יחס[ לפני]שם-עצם-מיודע[ ה-עניין]מילת-יחס[ את]פועל-עתיד-נסתרת[תביא

]תואר[ - לאומי]מילית[ ה-בין]שם-עצם-מיודע[ ה-משפט]שם-עצם-נסמך[בית

".]שם-פרטי[ב-האג

שלהם. בפרט: הנכון הניתוח את זה בשלב כבר קיבלו במשפט המחרוזות שרוב לראות ניתן יחס; שהמחרוזת מילות כלל בדרך " הןלפני" ו"את" הלימוד( שהמחרוזות )בשלב גילה המחשב

חיבור; וכו'. מילת כלל בדרך "אם" היא שלא "ש-ה-עמיד"(, למרות – תואר )ולא בעבר פועל " היאשהעמיד" שהמחרוזת גילה המחשב

תואר. ולא פועל "ש" יבוא התחילית אחרי שלרוב קודם, כיוון אותה ראה הניח הוא בלקסיקון( ולכן נמצאת לא "הארקין" )היא המחרוזת את קודם הכיר לא המחשב

שם-פרטי(. הינה בעיתון במאמר המופיעה מוכרת שאינה )לרוב, מחרוזת שם-פרטי שהיאבניתוח: בולטות שגיאות מספר היו זה עם יחד

0במקום " כשמות-עצם-נפרדיםסכסוך" ו"נשף", "במהלך" המחרוזות את ניתח המחשב יותר קרובות לעיתים מופיעים היא, ששמות-עצם לכך כשמות-עצם-נסמכים: הסיבה

המחשב " ניתחבית" המחרוזת את לציין, כי )יש הנסמך בצורת מאשר הנפרד בצורת ששימש המנותח שבטקסט יחסית, ומשום נפוצה זו שצורה כשם-עצם-נסמך, כיוון

",בית-ספר" בצירופים הנסמך, למשל בצורת רבות פעמים המחרוזת הופיעה לאימון" וכו'(.בית-משפט"

0כתואר-מיודעהסביר" המחרוזת את ניתח המחשב " (ha-sabirבמקום ) כפועל-עבר (hisbir.)

שלו עצמאי, שחלק-הדיבר מילוני כערך "השבוע" מוגדרת המחרוזת זו בעבודה 7 כשם-עצם המחרוזת את להגדיר יותר נכון היה טהורה דקדוקית תואר-פועל. מבחינה הוא

תאור. הוא זה במשפט שלו התחבירי מיודע, שהתפקיד

Page 10: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

0במקום " כשמות-עצם-מיודעיםלבחירה" ו"באריכות" המחרוזות את ניתח המחשב יותר. נפוץ ששם-עצם-מיודע כשמות-עצם-לא-מיודעים; זאת, כנראה, משום

0נפוץ שם-עצם – כתואר במקום " כשם-עצם-מיודעהפרסי" המחרוזת את ניתח המחשב מתואר. יותר

שגויים. היו מהניתוחים18.4% מחרוזות, כלומר38 מתוך שגיאות7 היו זה הכל, בשלב בסךהניתוח: את ששינו כללי-תיקון מספר המנתח הפעיל בשלב-הזוג

0שינה זאת שם-עצם-נפרד. בעקבות יופיע לא לרוב שם-עצם אומר, שלפני אחד כלל " משם-עצם-נפרדסכסוך" ו"נשף", "במהלך" המחרוזות של הניתוח את המחשב

כשם-עצם-נפרד הניתוח אחרי בסבירותו השני הניתוח לשם-עצם-נסמך, שהיה היה זה ניתוח עבר, אבל בזמן " כפועלנשף" המחרוזת את לנתח גם היה )אפשר

כשם-עצם-נסמך(. מהניתוח פחות הרבה סביר0של הניתוח את המחשב שינה תואר. לפיכך יופיע לרוב שם-עצם אומר, שאחרי אחר כלל

לתואר-מיודע. יחד "( משם-עצם-מיודעהפרסי המפרץ" " )בצירוףהפרסי" המחרוזת המחרוזת של הניתוח את המחשב לכלל, שינה לשיבושים. בהתאם הכלל גרם זה עם

לתואר-נפרד, כיוון "( ממספר-נסמךהנוכחים... אחד באריכות לי הסביר" )"...אחד".8"אריכות" שם-העצם אחרי מופיע שהוא

0ביידוע. להתאים צריכים הם – שם-עצם אחרי בא תואר אומר, שכאשר נוסף כלל לבחירה" " )בצירוףלבחירה" המחרוזת של הניתוח את המחשב שינה זאת בעקבות

הניתוח את המחשב לשם-עצם-לא-מיודע. בנוסף, תיקן "( משם-עצם-מיודעחוזרת שתתאים לשם-עצם-לא-מיודע, כדי " משם-עצם-מיודעבאריכות" המחרוזת של

המחרוזת בניתוח המחשב של מוזר: הטעות דבר קרה זה ". בניתוחאחד" לתואר ".באריכות" המחרוזת בניתוח הטעות את לתקן לו תואר, גרמה אינה ", שבכללאחד"

0ניתוח את שיבש זה שם-עצם. כלל יופיע לא תואר-נפרד שאחרי אומר רביעי כלל לתואר. משם-עצם אותו " והפךהנוכחים" המחרוזת

3 נשארו חדשות. בסה"כ שגיאות2 יצר שגיאות, אך6 המחשב תיקן הזה בשלב בסה"כ שגיאה.7.9% או שגיאות

בעיות. בכמה המשפט, ונתקל תחביר את לנתח המחשב ניסה בשלב-המשפטהניתוח: את שינה הוא בעקבותיהן

0לא ולכן פועל המחשב מצא "( לאכיצד" המחרוזת )לפני המשפט של הראשון בחלק "הסביר" המחרוזת ניתוח את שינה הוא כך כראוי. בשל אותו לנתח הצליח

.9לפועל-עבר מתואר-מיודע

" היאאריכות" שהמחרוזת לב שם היה המחשב אילו נמנעת היתה זו שגיאה 8 לא הוא במין. אבל מתאימים אינם תואר-זכר, ולכן " היאאחד" והמחרוזת שם-עצם-נקבה

במין להתאמה התייחס לא בשלב-הלימוד-האוטומטי למד שהוא כלל-התיקון לכך, כי לב שםובמספר.

"נשף" המחרוזת ניתוח את לשנות גם המחשב היה דומה, יכול באופן 9נושא. ללא פועל מתקבל היה אז לפועל-עבר, אבל משם-עצם-נסמך

Page 11: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

0תואר-לא-מיודע[ אחד]שם-עצם-לא-מיודע[ ב-אריכות]מילת-יחס[ לי]פועל[הסביר" במקטע[

"הנוכחים" ו"אחד" התארים את לקשר המחשב הצליח " לא]תואר-מיודע[ה-נוכחים " למספר-נסמךאחד" המחרוזת ניתוח את המחשב כלשהו. לפיכך, שינה לשם-עצם

" לשם-עצם-נפרד.הנוכחים" המחרוזת ניתוח ואתהנכון. הצורני הניתוח והתקבל השגיאות כל תוקנו בכך אינו שהמחשב שגיאות נשארות הנוכחית. לעיתים בדוגמה שהיה כפי טוב הסוף תמיד לא

חדשות. שגיאות יוצר התחבירי הניתוח דווקא תחבירי, ולעיתים ניתוח בעזרת גם לתקן מצליחהשלבים. שלושת כל ביצוע לאחר שנשארות השגיאות את בהרחבה נתאר6 פרקב

מחרוזת לנתח לומדת שלנו התוכנה איך ה את להפעיל לימוד: כדי של שלב-מקדים ושלב-הזוג( דורשים א' וב' )שלב-המחרוזת שלבים

כל של ביותר הסביר הניתוח מהו לחשב כדי גדול טקסט לקרוא המחשב צריך שלב-המחרוזת התיקון. יתבצע לפיהם אשר כללים ללמוד המחשב צריך שלב-הזוג את להפעיל מחרוזת, וכדי

שבהן הלימוד שיטות את להמחיש כדי מופשטות דוגמאות מספר כאן גם נראה המחשה לשםהשתמשנו.

(he&mid) בעבר ניתוחים: פועל שני לה ", אשרהעמיד" המחרוזת את לדוגמה ניקח ביותר. הסביר הניתוח הוא מהם איזה מגלה המחשב איך (, ונראהha-&amid) ושם-תואר-מיודע

שלכל זה בשלב מניחים ביותר" אנחנו הסביר "הניתוח למושג יותר מדוייקת משמעות לייחס כדי בטקסט. מקום בכל להופיע קבועה הסתברות " ישהעמיד" המחרוזת של מהניתוחים אחד הראשון זה, בשלב עם בהקשר. יחד תלויה לרוב ההסתברות כי נכונה אינה זו שהנחה מובן

את במדוייק לדעת דרך לנו קבועה. אין היא שההסתברות ונניח בהקשר מהתלות נתעלם יכולים בקירוב: אנחנו אותה לחשב יכולים אנחנו ניתוח, אבל כל של האמיתית ההסתברות

הניתוח. של האמיתית להסתברות קירוב " שתהיהאמפירית הסתברות" למצוא של רב מספר " מופיעההעמיד" המחרוזת גדול, בו מנותח טקסט עומד המחשב לרשות אם

הכמות את ולחשב מהניתוחים אחד כל של המופעים מספר את לספור יכול פעמים, הוא מהם. למשל, אם אחד כל של האמפירית ההסתברות את לחשב ניתוח, ולפיה כל של היחסית

כשם-תואר-מיודע מנותחת היא פעמים40 – פעמים, ומתוכן100 " מופיעההעמיד" המחרוזת , וההסתברות0.4 תהיה הראשון הניתוח של האמפירית ההסתברות כפועל, אז פעמים60ו

הגדולים" – ההסתברות המספרים "חוק . לפי0.6 תהיה השני הניתוח של האמפירית שההסתברויות מאד. כיוון גדול הדגימות מספר כאשר האמיתית להסתברות שואפת האמפירית קרובות יהיו שהן להניח (, אפשר100) דוגמאות של גדול מספר לפי חושבו האמפיריות

האמיתיות. להסתברויות פשוטה, כי ספירה על-ידי ההסתברויות את לקרב ניתן לא – דיו גדול אינו המנותח הטקסט אם

מהספירה שיתקבל מעטות, והמידע פעמים רק " תופיעהעמיד" שהמחרוזת ייתכן קטן בטקסט היא כפועל הניתוח של האמיתית שההסתברות סטטיסטית. למשל: נניח משמעות חסר יהיה "העמיד" שהמחרוזת ; ונניח0.4 היא כשם-תואר-מיודע הניתוח של האמיתית , וההסתברות0.6

) זניחה לא הסתברות קיימת זה שבמצב ולראות לחשב פעמים. ניתן3 רק בטקסט מופיעה כזה, כפועל. במקרה מאשר כשם-תואר-מיודע ניתוחים יותר יהיו ( שלמחרוזת35.2%

סביר כשם-תואר-מיודע שהניתוח – מעוותת תמונת-מצב תציג שתתקבל האמפירית ההסתברות

Page 12: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

בכלל, וגם יופיע לא הניתוחים משני שאחד גבוהה הסתברות גם כפועל. קיימת מהניתוח יותר גרוע אף המצב במציאות10!0 הסתברות יש הניתוח שלאותו – מעוותת תמונת-מצב תתקבל אז

לספור אפשרות כל בטקסט-האימון, ואין כלל מופיעות שאינן רבות מחרוזות שיש משום יותרמסוים. בניתוח הופעותיהן את

כללי. המחשב יותר במידע המחשב יחסית, ישתמש קטן שטקסט-האימון האמור, במקרה בשל "עמיד" )כולל המילוני לערך ששייכות מחרוזות בטקסט מופיעות פעמים יבדוק, למשל, כמה

פעמים שם-תואר-מיודע; כמה בטקסט מופיע פעמים "עמידים", "ועמידות", וכו'(; כמה גם (. ההסתברות3 פרק)ב בהמשך בפירוט שיתואר באופן ישוקלל זה פועל; וכו'. המידע מופיע

השקלול. תוצאות לפי תיקבע ניתוח כל של האמפירית ואילו בלבד כללי הוא כאן שמופיע פקודות-תיקון. )ההסבר של ללימוד דוגמה נראה כעת

בטקסט משתמש המחשב פקודות-תיקון ללמוד (. כדי4 פרקב יתואר המפורט האלגוריתם )כמו שלה ביותר הסביר הניתוח את מחרוזת כל עבור המחשב לאימון. ראשית, מוצא מנותח

הנכון. עבור הניתוח עם שהתקבל הניתוח את המחשב משווה מכן ב'שלב-המחרוזת'(. לאחר המחרוזת זו, לפי טעות לתקן שיכולות פקודות-התיקון אוסף את יוצר המחשב – טעות כל

לכלבה" המחרוזת הופיעה שבטקסט-האימון שאחריה. לדוגמה, נניח המחרוזת לפי או שלפניה " הואלכלבה" המחרוזת של ביותר הסביר הניתוח שלב-המחרוזת שלפי ", ונניחטובה

(. מספרl-kalba) לא-מיודע כשם-עצם הוא הנכון הניתוח (, אבלl-ha-kalba) כשם-עצם-מיודע –שאחריה המחרוזת " בעזרתלכלבה" המחרוזת של הניתוח את לתקן יכולות פקודות-תיקון

", כגון:טובה"

0"הניתוחלשם-עצם-לא-מיודע תואר-לא-מיודע לפני שם-עצם-מיודע תקן[ " l-ha-kalba זו פקודה נפעיל שאם , כךoba@ תואר-לא-מיודע לפני מופיע שם-עצם-מיודע, והוא הוא

[.l-kalbaל: הניתוח יתוקן– 0"לשם-עצם-לא-מיודע בנקבה תואר-לא-מיודע לפני בנקבה שם-עצם-מיודע תקן

".בנקבה0"טוב' הוא שלו המילוני שהערך תואר לפני שם-עצם-מיודע תקן'

".לשם-עצם-לא-מיודע הפקודה )כגון הגיוניות אלו, מקצתן פקודות נוספות. מבין אפשרויות של רב מספר יש

)כגון כלל הגיוניות אינן השניה(, ומקצתן הפקודה )כגון מדי ספציפיות הראשונה(, מקצתן האפשריות התיקון פקודות כל את לייצר סיים שהמחשב כך, לאחר השלישית(. משום הפקודה

אחת כל יריץ הוא כך ביותר. לשם הטובה היא מהן איזו לבדוק מהטעויות, עליו אחת כל עבור את יבחר הניתוח, ואז את משפרת היא בכמה ויבדוק האימון קורפוס כל על מהפקודות

להניח, שלמעלה: סביר ביותר. למשל, בדוגמה הרבה במידה הניתוח את ששיפרה הפקודה היא )כי שגיאות פחות תתקן השניה יחסית, הפקודה רבות שגיאות תתקן הראשונה שהפקודה

חדשות. שגיאות תיצור אף ואולי – שגיאות כלל תתקן לא השלישית ספציפית(, והפקודה יותר את המחשב יפעיל מכן הראשונה. לאחר הפקודה את המחשב התהליך, יבחר כך, בסוף את יבחן עצמו: המחשב על התהליך יחזור מכן טקסט-האימון. לאחר על שבחר הפקודה

פעמים, היתה100 בטקסט-האימון הופיעה המחרוזת שתואר, שבו הקודם במקרה גם 10 כללי, ככל זניחה. באופן היתה היא כאלה, אך קיצוניים למקרים חיובית הסתברות במידה השונות תוצאות שנקבל יותר, ההסתברות גדול המחרוזת של המופעים שמספר

יותר. קטנה היא מהמציאות משמעותית

Page 13: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

אחת לכל המתאימות פקודות-התיקון כל את ייצר ההרצה, שוב אחרי שנותרו השגיאות זו, אחר בזו פקודות-תיקון ליצור המחשב ימשיך חלילה. כך מהן, וחוזר אחת מהשגיאות, יבחר

בהרחבה יתואר פקודות-התיקון של הלימוד יתוקנו. תהליך בטקסט-האימון השגיאות שכל עד.4 פרקב

ספרות : סקר2 פרק

עבריים טקסטים א 'הארץ'. עיתון מערכת ע"י לרשותנו שהועמדו עבריים בטקסטים השתמשנו זו בעבודה

עוסקים והם שונים כתבים ע"י נכתבו ה'תשנ"א. הם 'הארץ' בשנת בעיתון פורסמו הטקסטיםשונים. בנושאים

מילים. 166258 גדול, ובו לא-מנותח בקורפוס השתמשנו מילים. 5374 ידני, ובו באופן שנותח בקורפוס בנוסף, השתמשנו

למצוא כתובים, ניתן הם שבו הפורמט לגבי מפורט הסבר – האלה, וכן הקורפוסים שני אתבכתובת:

http: //www.cs.technion.ac.il/~erelsgl/hmntx/tqstim/teud.html

בעברית צורני לניתוח שקשורות עבודות ב הניתוחים כל קבוצת את מילה כל עבור למצוא הוא טקסט של צורני בניתוח הראשון השלב

בשוק נמצאות זו משימה שמבצעות בהקשרה. תוכנות תלות עבורה, ללא האפשריים הצורניים הצורני במנתח השתמשנו זמין, ולכן אינו שלהם קוד-המקור [(, אך92 ]באשל )ע' למשל

להורדה ניתנים שלו ++( והתיעודC )בשפת המנתח של תשנ"ז[. קוד-המקור ב]סגל המתוארבכתובת:

http: //www.cs.technion.ac.il/~erelsgl/hmntx.zip

בכתובת: נמצאתJava בשפת המנתח של גרסהhttp: //www.cs.technion.ac.il/~erelsgl/javalib/hdgma.html

זה. מנתח של החשובות תכונותיו את בקצרה נתאר הסעיף בהמשךמילה של צורני מידע.1

לחלקי-דיבר רלבנטיים אינם מהפרטים )חלק הבאים הפרטים את כולל מילה של צורני מידעמסויימים(:

המילה. של המילוני הערךהמילה. של הדיבר חלקו' החיבור. צירוף

Page 14: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

ש.../ כש.../ לכש.../ שכש.../(. תחיליות-שעבוד(ב.../ כ.../ ל.../ מ...(. אותיות-יחס צירוף(מיודע/ לא-מיודע/ שניהם(. יידוע(זכר/ נקבה/ שניהם(. מין(יחיד/ רבים(. מספר(ושמות-תואר. שמות-עצם, שמות-מספר )נפרד/ נסמך( – עבור סמיכותמילת-גוף. של או פועל של גוףעבר/ הווה/ עתיד/ ציווי/ שם-פועל(. פועל של זמן(

סיומת: של שדות הניתוח, בנוסף, שלושה כולל מילות-יחס ועבור שמות-עצם עבור.מין-הסיומת.מספר-הסיומת.גוף-הסיומת

ספרי, ספרך, ספרו, ספרכם, ספרן(. )כגון כינוי-קניין היא הסיומת משמעות שם-עצם עבור לי, לך, לו, לכם, להן(. )כגון מילית-היחס של ההשלמה היא הסיומת משמעות מילת-יחס עבור

)כגון: ראיתני, ראיתיך, ראיתיו, ראיתיכם, לפועל שמצטרפים כינויי-מושא ניתחנו לא זו בעבודה מילים2 נספרו המנותח )בטקסט-האימון חדישה בעברית ביותר נדירים שאלה ראיתיהן(, כיוון

גם – לה"א-השאלה מתייחס אינו כן, הניתוח מילים(. כמו5000מ יותר מתוך כינוי-מושא עם ה' עם אחת מילה אף נמצאה לא המנותח )בטקסט-האימון כיום ביותר נדירה זו צורה

השאלה(.הצורני המנתח.2

לא-מנוקד(, ומחזירה )בכתיב בעברית מילה כקלט פונקציה, שמקבלת הוא הצורני המנתח מוגדר מילון על מסתמך הצורני שלה. הניתוח האפשריים הניתוחים כל קבוצת את כפלט

המילה: מראש. למשל, עבוראנשים

השאר( הניתוח: )בין יתקבלמדבר יחיד עתיד "הנשים", פועל

המילה: עבור אבלאלקיח

במילון. קיים " אינוהלקיח" הפועל בסיס לזה, כי דומה ניתוח יתקבל לא כל על הורץ [. המנתח92 ב]באשל המתואר הצורני במנתח השתמשנו המילון לבניית

170000כ )שבו הלא-מנותח טקסט-האימון על עבריות, וכן אותיות4 עד2 של הצירופיםלמילון. הוכנסו שלו בפלט שהתקבלו המילוניים הערכים מילים(, וכל

בכתובת: הקבצים את להוריד טקסט. ניתן קבצי בכמה נשמר המילוןhttp: //www.cs.technion.ac.il/~erelsgl/hmntx/milon/teud.html

המילון. קבצי של ומבניהם שמם את נפרט בהמשך

Page 15: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

המילון מבנה.3

חלקים: ממספר מורכב המילון כל שלהם. עבור היחיד בצורת שמות-העצם כל נמצאים זה : במילוןשמות-עצם מילון.1

הריבוי נטיית את המציין מספר )זכר, נקבה, זו"נ(, וכן שלו הדקדוקי המין מצויין שם-עצם שנטיית , שמציין1 מספר " יופיעילד" שם-העצם שם-העצם. לדוגמה: עבור של הנכונה , שמציין2 מספר " יופיעתאנה" שם-העצם "; עבורים" הוספת על-ידי מתקבלת הריבוי

נמצא שמות-העצם "; וכו'. מילוןים" " והוספתה" הורדת על-ידי מתקבלת הריבוי שנטייתכך: נראות זה בקובץ . הכניסותlex0e.ma בקובץ

ILD E1:Z TANH E2:N

זכר; הערך הדקדוקי , שמינו1מס' ריבוי נטיית עם שם-עצם 'ילד' הוא )כלומר: הערך את שמפרט נקבה(. הקובץ הדקדוקי , שמינו2מס' ריבוי נטיית עם שם-עצם 'תאנה' הוא

בהמשך. יתואר התבניות משמעות ",מיוחדים שמות-עצם" של נפרדת בטבלה נמצאים מיוחדת נטייה להם שיש שמות-עצם

.lexmi.ma בקובץ שנמצאת נסתר( שלהם. אין )עבר הבסיס בצורת הפעלים כל נמצאים זה : במילוןפעלים מילון.2

)ע' הצורני הניתוח לצורך חיוני אינו זה שמידע הפועל, כיוון של ולבניין לשורש התייחסות ".נשם" הערך תחת ולא בפני-עצמו כערך " יופיעהנשים" תשנ"ה[(.. לדוגמה, הפועל ]אורנן

פועל ". כלהנשים" הפועל של הסביל כצורת ולא בפני-עצמו כערך " יופיעהונשם" הפועל גם הפועל, והשני של הנכונה נטיית-הבינוני את מציין הראשון – מספרים שני באמצעות מסומן ושם-הפועל. העתיד, הציווי נטיות ליצירת שלו, שמשמשת הנכונה נטיית-המקור את מציין

היא הנכונה שנטיית-המקור , שמציין11 המספר " יופיעשמר" הפועל לדוגמה: עבור הפועל ". עבוראשמור, תשמור, תשמרי, ישמור, תשמור..." היא נטיית-העתיד ", ולכןשמור" היא העתיד נטיית ", ולכןלבש" היא המקור שנטיית , שמציין12 המספר " יופיעלבש" . הכניסותlex0p.ma בקובץ נמצא הפעלים ". מילוןאלבש, תלבש, תלבשי, ילבש, תלבש..."

כך: נראות זה בקובץ $MR P1:11 LB$ P1:12

'לבש' ; הערך11מס' מקור ונטיית1מס' בינוני נטיית עם פועל 'שמר' הוא )כלומר: הערך(. 12מס' מקור ונטיית1מס' בינוני נטיית עם פועל הוא

של נפרדת בטבלה נמצאים מנטיית-המקור ישיר באופן נגזרות אינן שלהם שהנטיות פעלים .lexmi.ma בקובץ ", שנמצאתמיוחדים פעלים"

בקובץ הוא גם נמצא זה שלו. מילון המין מצויין שם-פרטי כל : עבורשמות-פרטיים מילון. 3lex0p.maכך: נראות זה במילון . הכניסות

$LMH: pZ ABIBI: pB

זכר גם להיות שיכול שם-פרטי 'אביבי' הוא זכר, והערך שם-פרטי 'שלמה' הוא כלומר: הערךשם-משפחה(. זהו )כי נקבה וגם

Page 16: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

שמות-תואר בין להבחנה לשמש שיכול מספר מצויין שם-תואר כל : עבורשמות-תואר מילון. 4 בקובץ הוא גם נמצא זה בשימוש. מילון אינו זה מספר כרגע שונות, אולם נטיות עם

lex0p.maכך: נראות זה במילון . הכניסות RKRWKI: T1

שם-תואר. 'רכרוכי' הוא כלומר: הערך כל (: עבורתואר-הפועל, מילת-שאלה, מילת-חיבור, מילית) חלקי-הדיבר יתר עבור מילון. 5

זה במילון . הכניסותlex0p.ma בקובץ הוא גם נמצא זה שלה. מילון הדיבר חלק מצויין מילהכך: נראות

$MA: x $WB: t @RWM: m

'טרום-' הוא והערך תואר-פועל 'שוב' הוא מילת-חיבור, הערך 'שמא' הוא כלומר: הערך 'היום' מוגדרת במחלוקת. למשל: המילה שנויים הינם זה במילון מחלקי-הדיבר מילית. כמה

דקדוקית תואר-פועל. מבחינה הוא שלו שחלק-הדיבר עצמאי מילוני כערך זה במילון המזל, 'יום'. למרבה שם-העצם של נטייה כאל רק זו למילה להתייחס יותר נכון טהורה, היה

של שונות להגדרות אותו ולהתאים אותו לשנות מאד טקסט, קל קובץ הוא שהמילון מכיוון'היום' כתואר-פועל. המילה מוגדרת שבה השורה את למחוק צריך חלקי-דיבר: פשוט

הנטיות כל נמצאות זה : במילוןופעלי-עזר מילות-יחס, שמות-גוף, שמות-מספר מילון. 5 ",לי" הערכים יופיעו מלא. למשל: במילון ניתוח מנותחות כשהן אלו מילים של האפשריות

האפשריות הנטיות לכל במילון "... השימוששתיהן", "שניכם", "שניים"... וגם: "לכם", "לך" . lex10.ma בקובץ נמצא זה אלו. מילון מילים לניתוח מפורטים כללים כתיבת לחסוך נועד

למעלה: שנזכר במסמך מוסבר הניתוחים כתובים שבו הפורמטhttp://www.cs.technion.ac.il/~erelsgl/hmntx/tqstim/readme.doc

לנתח הצליח לא מחרוזות, שהמנתח20כ הוכנסו זו לטבלהיוצאות-דופן: מחרוזות טבלת. 6 האפשריים הניתוחים כל זו בטבלה נשמרים מחרוזת כל . עבור11שונות מסיבות נכונה אותן

.lexyd.ma בקובץ נמצאת עבורה. הטבלההצורניות התבניות.4

לתבנית: דוגמה צורניות. הנה תבניות של באוסף גם הצורני המנתח המילון, משתמש מלבד? למדבר שייכות-כינוי עם עצם-שם=< ?, י

מילה לכל " מתאימה?י" התבנית אותיות. לכן של רצף כל שמייצג תו-כללי " הוא?" התו להיות יכולה י באות שמסתיימת היא, שמילה התבנית של י. המשמעות באות שמסתיימת

י. האות הסרת על-ידי מתקבל המתאים המילוני למדבר, והערך כינוי-שייכות עם שם-עצםלמשל:

למדבר שייכות-כינוי עם עצם-שם, ספר=< ספרי .

ופועל-עזר זכר כפועל-עזר: פועל-עזר ניתוחים שני "רוצה" יש למשל, למחרוזת 11 כפועל-עזר, ולכן אחד ניתוח רק מחרוזת לכל להתאים מאפשר פעלי-העזר נקבה. מילון

זו. מחרוזת עבור האפשריים הניתוחים כל את למצוא יצליח לא המנתח

Page 17: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

שייכות, למשל כינוי עם שם-עצם אכן היא כי בהכרח מעידה אינה זו לתבנית מילה התאמת אינו הצורני תואר. לפיכך, המנתח אלא שם-עצם אינה אך י באות " מסתיימתיהודי" המילה במילון מופיע אכן המתקבל המילוני שהערך בודק גם בלבד, אלא לתבנית מילים מתאים

מופיע "יהוד", שאינו יהיה התבנית מהפעלת שיתקבל המילוני הזה, הערך המתאים. במקרהכינוי-קניין. עם כשם-עצם הניתוח את יקבל לא המנתח שמות-העצם, ולכן במילוןהיא: לתבנית נוספת דוגמה

נסתר עתיד פועל, 321 =< 3ו21י

מתאימה, למשל, למילה: זו כלשהן. תבנית אותיות מייצגים3, 2, 1 המספריםנסתר עתיד פועל, שמר=< ישמור

",ילבוש" במילון. המילה מופיע אכן המתקבל המילוני שהערך לבדוק מספיק לא זה במקרה המילה במילון, אבל " מופיעלבש" המתקבל המילוני לתבנית, והערך למשל, מתאימה

לפי – בנוסף הצורני המנתח יבדוק זה כך, במקרה חוקית. בשל מילה " אינהילבוש" שהופעלה. עבור לתבנית מתאימה אכן המתקבל הפועל של העתיד שנטיית – מילון-הפעלים

הפועל עבור ", אבלישמור" המילה את יקבל המנתח ולכן מתאימה אכן " הנטייהשמר" הפועלהתבנית: – אחרת לתבנית מתאימה " הנטייהלבש"

נסתר עתיד פועל, 321 =< 321י

של תבניות-ריבוי עבור מתבצעת דומה ". בדיקהילבוש" המילה את יקבל לא המנתח ולכן פעלים. ושם-הפועל( של עתיד, ציווי )כולל ונטיות-מקור פעלים של שמות-עצם, נטיות-בינוני

לפיה. לנטות שעשויים המילוניים הערכים כל לבין בינה מספר, שמקשר יש כזאת תבנית לכל ניתן התבניות על יותר מלא . הסברtavniot.ma בקובץ נמצאת הצורניות התבניות רשימתהצורני. המנתח של בתיעוד למצוא

בעברית הנכון הצורני הניתוח למציאת שקשורות עבודות ג מלים שלו, עבור שונים בעברית, וביישומים צורני בניתוח שעוסקות עבודות מספר קיימות

אורנן, לכתיבת פרופ' עוזי ע"י שיטה, שפותחה הוא הפונמי הכתבהפונמי. כתבב הכתובות בכתב מופיע שאינו הלשוני מהמידע גדול חלק שכולל לטיניות, באופן באותיות עברי טקסט

שאינו מידע מהמילה, וכו'(, ואף השימוש אותיות תנועות, מכפלים, הפרדת )כגון הלא-מנוקדלתקן לאחרונה התקבלה זו חזק(. שיטה לדגש קל דגש בין הבחנה )כגון המנוקד בכתב מופיע

ISOבעברית פונמית לכתיבה תקנית כשיטה [ISO 99בכתב .] הן המילים רוב פונמי בכתב טקסטים על לשוניים יישומים לבנות יותר הרבה קל צורנית, ולכן מבחינה חד-משמעיות על אינדקסים לבניית מערכת מתוארת [, שםOK 94] ב מובאת כזה ליישום פונמי. דוגמה

פונמי. בכתב טקסטים רגיל עברי בכתב אלא פונמי בכתב כתובים אינם העבריים הטקסטים שרוב היא הבעיה

OK] שלהם. ב הנכון הצורני הניתוח את למצוא יש פונמי לכתב אותם לתרגם )לא-מנוקד(, וכדי תחביריים כללים פונמי, בעזרת לכתב לא-מנוקד עברי מכתב לתרגום שיטה [ מתוארת94

התרגום. של הדיוק מידת לגבי נתונים שם אין ידני, אך באופן שנוסחו

Page 18: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

המילה. של הסמנטי המיידי ההקשר על שמסתמכת שיטה [ הציעוCL 85] וס' לוסיגנן י' שוויקה רוב שעבור מפני מועילה בטקסט. השיטה זוגות-המילים כל את ידני באופן מנתחים זו בשיטה

. בהתאם12מופע בכל זהה יהיה שלהן הצורני הניתוח זוג-מילים על חזרה יש בהם המקרים כמעט היא השניה והמילה שם-עצם-נסמך היא הראשונה הקפה" המילה "בית לזאת, בצירוף

מידע של מאד גדולה כמות לזכור מהמחשב דורשת זו )"ה-קפה"(. שיטה שם-עצם-מיודע תמיד שלהרבה כיוון במעט אך מועילה והיא – בקורפוס שמופיעים השונים זוגות-המילים כמספר–

.13בלבד אחד מופע זוגות של תחבירי ניתוח במהלך הצורני הניתוח בעיית את לפתור תשמ"ד[ ניסה ]כהן כהן דניאל

התחביר( ברמת והן המילה ברמת )הן העמימות עם התמודדה שלו כולו. העבודה המשפט במילון השתמשה הזאת שהעבודה לציין ידני. יש באופן העדפה" שנכתבו "כללי בעזרת

במציאות. מהעמימות קטנה היתה הצורנית העמימות כך ובשל יחסית מצומצם של תחבירי ניתוח במהלך הצורני הניתוח בעית את לפתור [ ניסתה92 ]אלבק אלבק אורלי גם

כל עבור יחיד ניתוח הבוחר בורר', כלומר: דקדוק 'דקדוק בנתה היא כך כולו. לשם המשפט ידני באופן ניסחה אנושיים. היא קוראים של הפעולה לאופן קריאתה, בדומה עם מייד מילה את שלב בכל לבחור הדקדוק את להנחות האמורים שונים, כללים סבירות" מסוגים "כללי

הנכון. הניתוח

משלבת זו [. עבודה92 ]לוינגר לוינגר משה של עבודתו היא זה בנושא ביותר המקיפה העבודה אלגוריתם נכתב המילה המיידי. ברמת ההקשר ורמת המילה רמת – רמות משתי מידע

מנותח. ברמת לא קורפוס-אימון מתוך מילה כל של הניתוח הסתברות את ללמוד שמאפשר ניתוחים לפסול ניתן שבעזרתם תחביריים אילוצים16 ידני באופן נכתבו – המיידי ההקשר

אוטומטית מערכת הניב השיטות שתי הניתוח. שילוב של הדיוק את לשפר ובכך בלתי-אפשריים 94%לכ- הנכון הצורני הניתוח את למצוא בעברית, שמצליחה צורנית עמימות להפגת

בטקסט. מהמילים המרכז ה"נקדן" של מסחריות, כגון מערכות מספר בשוק אלו, קיימות לשיטות נוסף

גבוה בדיוק צורני ניתוח מבצעות כאלו "תרגומונים" למיניהם. מערכות וכן חינוכיות לטכנולוגיות לצרכי לשימוש ניתן ואינו בעליהן אצל שמור שלהן הצורני המנתח (, אבל95%)כ- יחסית

מחקר.

אחרות בשפות חלקי-דיבר למציאת שקשורות עבודות ד האנגלית האנגלית. בשפה השפה עבור נכתבו חישובית בלשנות של בתחום העבודות רוב

לשפה יחסית מאד פשוטה זו שפה של שהמורפולוגיה משום שולית היא צורני ניתוח של הבעיה של חלק-הדיבר מציאת – דומה בנושא שעוסקות רבות עבודות זה, קיימות עם העברית. יחד

להיות " יכולהcan" המילה )למשל שונים כחלקי-דיבר לנתחן ושניתן משמעיות רב שהן מיליםבקופסת-שימורים'(. 'לשים פועל-רגיל 'קופסת-שימורים', או שם-עצם 'יכול', או פועל-עזר

מהמקרים.98%מ- ביותר מתקיימת זו לטענתם, הנחה 12 60%כ- חוסכת שהשיטה היו צרפתי, התוצאות בטקסט אלה חוקרים שערכו בניסוי 13

מילים150000כ- של עברי בטקסט שערכתי טקסט. בבדיקה של ידני בניתוח מהעבודה בלבד, כלומר אחת פעם מופיעים מזוגות-המילים60%התברר, שכ- הארץ עיתון מתוך(.40%כ- היותר )לכל יותר קטן הוא החיסכון עברי בטקסט

Page 19: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

מיידי: הקשר על , שמסתמכתn-gramה- שיטת היא זו בעיה לפתרון ביותר הנפוצה השיטה כלל )בדרך חלקי-דיברn של אפשרי רצף לכל האמפירית ההסתברות את מוצאים זו בשיטה

3=nרצפים ספירת על-ידי מחושבת האמפירית מנותח. ההסתברות קורפוס-אימון (, בעזרת חדשים. עבודות משפטים לניתוח משמשות אלו בקורפוס-האימון. הסתברויות סוג מכל

[ (.Merialdo 91[ ,]CHJP 93] )ע' למשל הצלחה97% עד משיגות זאת בשיטה שמשתמשותסיבות: מכמה העברית לשפה מתאימה אינה זו שיטה

אינם חלקי-דיבר של רבים רצפים מספיק, ולכן גדול מנותח קורפוס-אימון קיים לא בעברית בקורפוס-האימון. כלל מופיעים

תכונות מילה )לכל חלק-דיבר רק לא – חשובות תכונות מספר יש מילה לכל בעברית מבוטלת(. אפשר בלתי חשיבות יש האלו התכונות וכו'..., ולכל חלק-דיבר, מין, מספר, גוף

'חלק-דיבר-מורחב' )למשל: כאל תכונות של צירוף לכל להתייחס רב מספר מתקבל אז שם-עצם-נקבה-יחידה-נפרד, שם-עצם-זכר-רבים-נסמך, וכו'(, אבל

שונים רצפים יותר מזה, יש זה השונים חלקי-דיבר יותר שיש 'חלקי-דיבר-מורחבים'. ככל של מאד. מבחינה קטנה שלהם שההסתברות חלקי-דיבר של רצפים יותר חלקי-דיבר, ויש של

א' יש לרצף מהימן. למשל: אם באופן מאד קטנות הסתברויות להעריך ניתן סטטיסטית, לא להעריך כדי רצפים מיליון11 לפחות שבו אימון טקסט דרוש מיליונית, אז של הסתברותא(. בנספח מופיע )החישוב מהימן באופן זו הסתברות

השיטה היא מהן מנותח. אחת לא בטקסט-אימון שמשתמשות השיטות הן פחות נפוצות שיטות כלומר – מרקובי תהליך הוא בטקסט המילים מניחים, שרצף חבוי', לפיה מרקוב 'מודל של

תלוי מילה של חלק-דיבר – שלנו )במקרה הקודם במצב רק תלוי מצב כל שבו אקראי תהליך 'מתאמן', כלומר המחשב הראשון לפניו(. בשלב שהופיעו חלקי-דיבר של סופי במספר רק

את משנה גבעה": הוא על "טיפוס בסגנון המודל, באלגוריתם של הפרמטרים את לומד מנותח( )הלא לטקסט ביותר גבוהה הסתברות שיתנו פרמטרים לקבל במטרה הפרמטרים

טקסטים לנתח כדי שנלמדו בפרמטרים משתמש המחשב השני מתאמן. בשלב הוא שעליו [Merialdo 91יחסית. ] נמוכים לפיה הדיוק ואחוזי ללימוד רב זמן דורשת זו חדשים. שיטה

דיוק.86%כ- על מדווח על שמסתמכות פקודות-תיקון לבין ברמת-המילה מידע בין [ משלבתBrill 92] אחרת שיטה

ביותר הנפוץ חלק-הדיבר את בטקסט מילה לכל תחילה זו, מתאימים המיידי. בשיטה ההקשר את פקודות-תיקון, שמתקנות הטקסט על מפעילים בהקשר(, ואז תלות )ללא שלה

או לפניה שנמצאות המילים של לחלקי-הדיבר בהתאם המנותחת המילה של חלק-הדיבר המשתמשות למערכות זו, בדומה אוטומטי. מערכת באופן נלמדות אחריה. פקודות-התיקון

את לחשב נדרשת שאינה משום יעילה יותר היא דיוק, אך97% , משיגהn-gram ה בשיטת יחסית קטן מספר רק לזכור נדרשת זו חלקי-דיבר. מערכת של אפשרי רצף לכל ההסתברות

שפותח לאלגוריתם הבסיס את היוותה זו )שיטה פקודות200מ- פחות – פקודות-תיקון של(. 4 פרקע' ב – זו בעבודה

לכתיב היפני, בניגוד היפנית. בכתיב בשפה [ שעוסקתMMW 93] של העבודה את נזכיר לסיום הטקסט את לחלק היא הבעיות המילים, ואחת בין מפרידים רווחים והלטיני, אין העברי

אוטומטי באופן שנלמדים ידניים, חוקי-תיקון תחביריים חוקים משלבת למילים. העבודה

Page 20: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

כ- משיגה חלקי-דיבר. היא למציאת הסתברותי מנותח(, ואלגוריתם קורפוס-אימון )בעזרתחלקי-הדיבר. במציאת דיוק96%למילים, וכ- בחלוקה דיוק92%

שונים צורניים לניתוחים הסתברויות : חישוב3 פרק עבורה. הנכון הצורני הניתוח את בטקסט מחרוזת לכל למצוא היא זו עבודה כאמור, מטרת

בודדות, מחרוזות של הסתברותי צורני לניתוח הקשורים בסיסיים מושגים מספר נתאר זה בפרקבהקשרן. תלות ללא

14מתימטי מודל א

באופן להגדיר נתון. כדי למשפט ביותר הסביר הניתוח את למצוא היא שלנו הכללית המטרה אקראי, משתנה כאל מחרוזת אל ביותר" נתייחס סביר "ניתוח של המשמעות את יותר מדוייק של סדרה הוא העברית. משפט בשפה החוקיות מהמחרוזות אחת כל כערך לקבל שיכול

כאלה: אקראיים משתניםW[1..n]=W[1]W[2]W[3]...W[n]

אחד כל כערך לקבל אקראי, שיכול משתנה הוא מחרוזת של צורני דומה, ניתוח באופן של סדרה הוא משפט של צורני בעברית. ניתוח למחרוזות האפשריים הצורניים מהניתוחים

שלו: המחרוזות של צורניים ניתוחיםT[1..n]=T[1]T[2]T[3]...T[n]

T[i]ה- המחרוזת של הניתוח את מייצגi. .w[1..n]המשפט: את המייצגים האקראיים למשתנים ערכים של סדרה הוא לבעיה הקלט

מסומנים המשתנים שמקבלים גדולות, והערכים באותיות מסומנים האקראיים )המשתנים המייצגים האקראיים למשתנים ערכים של סדרה הוא לבעיה הדרוש קטנות(. הפלט באותיות

. t[1..n]הניתוחים: את הנתונה בסדרה כתלות ביותר הגבוהה ההסתברות בעלתt[1..n] הסדרה היא הדרושה הסדרהw[1..n]:כלומר ,

(.t[1..n]) למשפט האפשריים הצורניים הניתוחים כל על מתבצע המקסימום כאשר בכל תלוי להיות יכול אחת מחרוזת של שניתוח מניחה ביותר: היא כללית הינה זו נוסחה

עצמה במחרוזת רק תלוי מחרוזת כל של שהניתוח נניח זה סעיף במשפט. לצורך המחרוזות ניתן זו להנחה החישובים. בהתאם את מאד מקלה זו במשפט. הנחה המחרוזות בשאר ולא

הבאה: לנוסחה תהפוך לעיל [( שהנוסחהCHJP 93)ע' ] להראות

[.CHJP 93] על מבוסס זה בסעיף התיאור 14

Page 21: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

עבורה: ביותר הסביר הניתוח את לבחור ישw[i] מחרוזת כל כלומר: עבור

: w מחרוזת כל שעבור אומר בייס, זה נוסחת ע"פ

מחרוזת. לאותה הניתוחים כל עבור זהה הוא כי המכנה את להשמיט אפשר לכל אחת למחרוזת להתאים יכול ניתוח כל המילוני. לכן הערך את כולל מחרוזת של ניתוח

שלה, מתקיים:t ניתוח וכל w מחרוזת כל היותר. לכן, עבורP(t,w) = P(t)

ולכן:

מחרוזת של ביותר הסביר הניתוח משמעות ב מידת את לבחון ניתן – אחד ניתוח מאשר יותר להן אשר מחרוזות הוא, שעבור הכללי הרעיון

את מאד. ניקח, למשל נדירים ניתוחים מאד, ויש סבירים ניתוחים ניתוח: יש כל של סבירותואפשריים: ניתוחים חמישה לה אשר שלו המחרוזת

.elloמילת-יחס: $.1.alewתואר: $.2שלו(. )מאירalewשם-פרטי: $.3מהמים(. דגים שלו )הםaluבעבר: $ פועל.4מהמים!( דגים )שלוluבציווי: $ פועל.5 סבירים הם4 ו- 3 , 2 מספר מאד, ניתוחים סביר הוא הראשון אלה, הניתוח ניתוחים מבין

צירוף את רואים הם הקוראים, כאשר סביר. רוב אינו5 מספר מסויימים, וניתוח בהקשרים.5 מספר ניתוח את דעתם על יעלו לא וכלל הראשון הניתוח על מייד , יחשבושלו האותיות

ניתוח כל של ההסתברות מציאת גהניתוח: לצורך הדרושה המותנית ההסתברות את נחשב כעת

P(t)

לנתח. למשל, יש שאותו במאמר מחרוזת כל של חוקי ניתוח כל עבור זו הסתברות למצוא צריךהניתוחים: שני של ההסתברויות את למצוא צריך , אזשקמתי המחרוזת מופיעה במאמר אם

P(ש-אני-קמתי) – בעבר כפועל לניתוחP(ה-שקמה-שלי) – כינוי-קניין עם כשם-עצם לניתוח

Page 22: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

הסתברותי מודל לנו שאין משום תיאורטי באופן האמיתית ההסתברות את לחשב יכולים איננו קירוב , שתהיהאמפירית הסתברות לחשב זה, אפשר עם העברית. יחד השפה של שלם

האמיתית. להסתברות

מנותח טקסט-אימון בעזרת האמפירית ההסתברות חישוב דספירה: על-ידי מתקבל הדרושה להסתברות ביותר הפשוט הקירוב

המחרוזות מספר הואNהאימון, ו בטקסט מופיעt שהניתוח הפעמים מספר הואC(t) כאשרהאימון. בטקסט שההסתברות האימון, למרות בטקסט מופיעים שאינם לניתוחים0 הסתברות מייחסת זו נוסחה

חישוב בכל שקיימת -- בעיה הדליל המידע בעיית חיובית. זוהי להיות עשויה כאלה ניתוחים של 5300כ- הכיל שברשותנו האימון טקסט במיוחד, כי חריפה היתה הבעיה זו סטטיסטי. בעבודה

שהסתברותם למרות האימון בטקסט הופיעו שלא רבים ניתוחים היו . לכן15בלבד מחרוזות.0מ- גדולה

משלימות. גישות בשתי משתמשים אנו הבעיה לפתרון דיבר מילוני, חלק תכונות: ערך כמה כולל ניתוח לתכונותיו. כל ניתוח כל מפצלים ראשית, אנו

את להכפיל בנפרד, ואז תכונה לכל ההסתברות את לחשב נוספות. ניתן צורניות ותכונות בלתי שהתכונות הכולל, בהנחה הניתוח של להסתברות שווה תהיה ההסתברויות. המכפלה

בלבד. קירוב תהווה המכפלה במציאות, ולכן נכונה אינה זו שהנחה סטטיסטית. כמובן תלויותהוא: בו שהשתמשנו הקירוב

היאP (ttc), ו- t הניתוח של המילוני הערך את שנראה ההסתברות היאP (tem)כאשר: התכונות את פיצלנו לא זו )בעבודהt הניתוח של הצורניות התכונות את שנראה ההסתברות

עצמן(. הצורניותנקבל: שקמתי המחרוזת של ה-שקמה-שלי הניתוח למעלה, עבור לדוגמה נחזור אם

P (ה-שקמה-שלי) = P (שקמה) P (שם-עצם-עם-כינוי-שייכות-למדבר)

P (ש-אני-קמתי) = P (קם) P (ש+פועל-עבר-מדבר)

הוא המילוני שהערך להסתברות בקירוב שווה ה-שקמה-שלי הניתוח של כלומר: ההסתברות.שם-עצם-עם-כינוי-שייכות-למדבר היא שהצורה ההסתברות כפול שקמה

ספירה: על-ידי לקרב גם-כן ניתן האלו ההסתברויות שתי אתP (שקמה) = C(שקמה)/N

P (שם-עצם-עם-כינוי-שייכות-למדבר) = C(שם-עצם-עם-כינוי-שייכות-למדבר)/N

משתמשים האנגלית בשפה שנעשו חלקי-הדיבר מציאת של השוואה: בעבודות לשם 15מילים! מיליוני של בגודל מנותחים בטקסטים

Page 23: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

שלה הנכון מחרוזת, שהניתוח בטקסט-האימון שהופיעה הפעמים מספר הואC(שקמה) כאשר הפעמים מספר הוא Cשם-עצם-עם-כינוי-שייכות-למדבר(; ו- )שקמה המילוני לערך שייך

שייכות כינוי עם כשם-עצם הוא שלה הנכון מחרוזת, שהניתוח בטקסט-האימון שהופיעהלמדבר.

ששייכים רבים ניתוחים יש מילוני ערך כל שלמים: עבור ניתוחים מאשר מילוניים ערכים פחות יש של צירופים לגבי נכון הדבר יתאפס. אותו המונה שעבורם מילוניים ערכים פחות יהיו אליו. לכן

הדליל. המידע בעיית את מעט ממתן לתכונותיהם ניתוחים של הפיצול צורניות. לכן תכונותהבעייה. את לחלוטין פותר לא עדיין הוא אולם האימון. לקורפוס לנתח שיש המאמר את מוסיפים נוסף: אנו בשיפור משתמשים אנו לפיכך אחידה: אם הסתברות שלה אפשרי ניתוח לכל מייחסים זה, אנו במאמר מחרוזת כל עבור

מחרוזת כל . עבורk/1 הסתברות שלה ניתוח לכל נייחס – אפשריים ניתוחיםk יש למחרוזת שלה הניתוחים שאר ולכל1 הסתברות שלה הנכון לניתוח מייחסים האימון, אנו בקורפוס

. 0 הסתברות במאמר מחרוזת כל עבור האפשריים הניתוחים כל מופיעים שבו קורפוס בידינו יש זה בשלב

ההסתברות: מוגדרת ניתוח ובטקסט-האימון. לכלPi(t)

. t הוא בקורפוסiה- המחרוזת של הנכון שהניתוח ההסתברות שהיאאלו: הסתברויות סיכום ע"י יתבצעו ההסתברויות חישובי לצורך הדרושות הספירות כעת, כל

החדש. בקורפוס המילים מספר הואN כאשר ,קם המחרוזת פעמים5 , ועודשקמתי המחרוזת פעמים20 מופיעה נניח, למשל, שבמאמר

המחרוזת פעמים8 מופיעה המנותח שבקורפוס גם . נניחקומי המחרוזת פעמים10 ועוד ההסתברויות (. לפיה-שקמה-שלי) כשם-עצם מנותחת היא מתוכן פעמים6, וב- שקמתי

0.5 הסתברות יש – במאמר שקמתי המחרוזת של מופע כל שקבענו, עבור ההתחלתיות הניתוחים עבור הסכומים . לכןה-שקמה-שלי לניתוח0.5 והסתברות ש-אני-קמתי לניתוח

יהיו: המלאיםC(ה-שקמה-שלי) = 16 = 1 * 6 + 0.5 * 20C(ש-אני-קמתי) = 12 = 1 * 2 + 0.5 * 20

ערך לאותו ששייכים הניתוחים לכל להתייחס יש מסויים מילוני ערך עבור הסכום את לחשב כדי כפועל קם המחרוזת של לניתוח גם להתייחס יש קם המילוני הערך מילוני. למשל, עבור

שלה לניתוח חד-משמעית, ולכן היא קם כציווי. המחרוזת קומי המחרוזת של בעבר, ולניתוח כציווי(, ולכל ואחד כתואר )אחד ניתוחים שני יש קומי . למחרוזת1 הסתברות יש בעבר כפועל

יהיה: קם המילוני הערך של הכללי המונה . לכן0.5 הסתברות יש מהם אחדC(קם) =

שקמתי המחרוזת עבור 1*2 + 0.5 * 20

Page 24: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

קם המחרוזת עבור 1 * 5 +

קומי המחרוזת עבור 0.5 * 10 +

= 22

צורניות. תכונות של הצירופים כל ועבור המילוניים הערכים כל עבור המונים יחושבו אופן באותומהם, למשל: אחד כל עבור המקורבות ההסתברויות יחושבו מכן לאחר

P(קם) = C(קם) / N

המלאים, למשל: הניתוחים עבור ההסתברויות יחושבו ולבסוףP (ש-אני-קמתי) = P (קם) P (ש+פועל-עבר-מדבר)

בטקסט-האימון כלל הופיעו שלא ניתוחים עבור גם מקורבות הסתברויות לחשב ניתן זו בשיטה מנותח. לא טקסט-אימון מתוך הסתברויות ללימוד זו בשיטה להשתמש המנותח. למעשה, ניתן

הוא, מאחוריה שעומד העברית. הרעיון השפה של העשירה המורפולוגיה את מנצלת זו שיטה בצורות פעמים כמה במאמר יופיע שהוא סביר אז – בשפה נפוץ הוא מסויים ערך-מילוני שאם

יחסית. גדול יהיה עבורו שיתקבל ההסתברויות שונות. כך, סכום שיטה פיתח שונה: לוינגר בדרך [, אך92 ]לוינגר לוינגר של מעבודתו מתקבלת דומה תוצאה כל מגדירים, עבור שלו לא-מנותח. בשיטה טקסט בעזרת ניתוחים של הסתברויות לחישוב

שונות צורניות תכונות אך מילוני ערך אותו בעלי דומים' – ניתוחים 'ניתוחים של ניתוח, קבוצה מחדש מחושבת למעלה, ואז כמוסברk/1 ל מאותחלת ניתוח כל של במקצת. ההסתברות

להתכנסותו עד איטרטיבי באופן מתבצע הדומים. התהליך הניתוחים של ההסתברויות בעזרת בין עיקריים הבדלים שני ובבעיותיה(. יש בשיטה, בהצלחותיה מפורט [ לדיון92 )ע' ]לוינגר

השיטות:

אותו בעלי הניתוחים כל שרירותי, ואצלנו באופן הדומים הניתוחים קבוצות את הגדיר לוינגר.1 הסתברותית, מבחינה אותה לנמק יותר קל כי זו בשיטה 'דומים'. בחרנו נחשבים מילוני ערך קבוצת את ליצור צורך )אין חדשות מילים עבור אוטומטי באופן אותה לממש יותר וקל

ידני(. הדומות' באופן 'המילים אחת, איטרציה רק יש להתכנסות, ואצלנו עד איטרטיבי באופן פועל לוינגר של האלגוריתם.2

מקצינות רק אלא הדיוק את משפרות אינן נוספות שאיטרציות התברר שערכנו בניסויים כיהראשונה. האיטרציה של טעויות

לחשב דומה, שמאפשרת גישה קיימת האנגלית בשפה מציאת-חלקי-דיבר של בבעייה גם Maximum נקראת מנותח. הגישה לא טקסט בעזרת דיבר חלקי של רצפים של הסתברויות

Likelihood Estimationאלגוריתם בעזרת ממומשת , והיא Forward-Backward( FB[ 'ע – Merialdo_91מרקוב. מאתחלים מודל ע"י נוצר האימון שטקסט מניחים זה [(. באלגוריתם

ולכל חלק-דיבר לכל ההסתברויות את )שמבטאים המודל של הפרמטרים את אקראי באופן האימון. לאחר טקסט שיתקבל ההסתברות את המודל בעזרת חלקי-דיבר(, ומחשבים של רצף שההסתברות עד נמשך ההסתברות. התהליך את להגדיל במטרה הפרמטרים את משנים מכן

שלנו: לגישה הזאת הגישה בין הבדלים שני מתכנסת. יש

למעלה. אחת, כמוסבר איטרציה רק יש ואצלנו איטרטיבי הואFBאלגוריתם.1

Page 25: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

חלקי של רצפים של הסתברויות גם לחשב מאפשר הוא – יותר כללי הואFB אלגוריתם.2 חישבנו לא זו 'ניתוחים' )כלומר: חלקי-דיבר( לתכונותיהם. בעבודה מפצל אינו דיבר, והוא יותר, כפי וחסכונית יעילה בשיטה לרצפים התייחסנו ניתוחים, כי רצפי של הסתברויות

הבא. בפרק שיתואר

ותוצאות בדיקה ה גודל הואN )כאשרO(N) וזיכרוןO(N) זמן דרוש ניתוח כל עבור ההסתברויות את לחשב כדי

עבור מוני-הסתברויות ולשמור האימון קורפוס על אחת פעם לעבור צריך האימון(, כי קורפוס כל של אפשרי ניתוח כל עבור ההסתברות את שמחשבים בו. לאחר שמופיעה מחרוזת כל

עבור בוחרים בהקשר: פשוט תלות ללא מאמר לנתח כדי זה במידע להשתמש מחרוזת, ניתן n )כאשרO(n)זמן ודורש יחסית יעיל הוא זה שלה. תהליך ביותר הסביר הניתוח את מחרוזת כל

לנתח(. שיש המאמר גודל הוא מחרוזות(468 )באורך אחד מאמר יעילותו, הסרנו ואת זו בשיטה הניתוח דיוק את לבדוק כדי

כמה בו מחרוזות(, וביצענו5374 היה הכולל )שאורכו לרשותנו שעמד המנותח מהטקסט.133 פנטיום מחשב על נערכו ניסויים. הניסויים

נותחו מהמחרוזות64% שניות, ו- 10כ- דרש מחרוזת: הניתוח לכל אקראי ניתוח בחירת.1נכון.

הסביר הניתוח מחרוזות, ובחירת166258 בגודל לא-מנותח טקסט מתוך הסתברויות לימוד.2 שניות, ו-10כ- דרש דקות, הניתוח26 דרש זו בשיטה במאמר: הלימוד מחרוזת לכל ביותר לאחר – אחת פעם רק לבצע צריך הלימוד שלב שאת לציין )יש נכון נותחו מהמחרוזות75%

אחר(. מאמר כל בעזרתן ולנתח התוצאות את לשמור אפשר מכן ביותר הסביר הניתוח מחרוזות, ובחירת4906 בגודל מנותח טקסט מתוך הסתברויות לימוד.3

שניות, ו-10כ- דרש דקות, הניתוח1.5 דרש זו בשיטה במאמר: הלימוד מחרוזת לכלנכון. נותחו מהמחרוזות83%

יכולנו לא ולכן מנותח אינו )הטקסט דקות15 דרש מחרוזות166258 בגודל טקסט ניתוח.4הדיוק(. מידת את לבדוק

בהקשר( שיתוארו )התלויים יותר המתקדמים באלגוריתמים הראשון השלב הוא זה ניתוחהבאים. בפרקים

אחרונה הערה ו לציבור לשימוש ניתן , והואJava לשפת בהקשר( תורגם תלוי )שאינו הפשוט הצורני המנתח

הבא: הרשת באתר המנתח של המקור קוד את להוריד הרחב. ניתןhttp://www.cs.technion.ac.il/~erelsgl/morph.html

Page 26: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

ניתוחים של : זוגות4 פרק את מחרוזת לכל ולהתאים טקסט לקרוא יכולים אנו בו למצב הגענו הקודם הפרק בסיום

מחרוזת כל עבור שמצאנו כך על-ידי – בהקשר. זאת תלות ללא – שלה ביותר הסביר הניתוח הראו, שמידת ניתוח. ניסויים לכל מקורבת הסתברות האפשריים, וייחסנו הניתוחים כל את

את לשפר ניתן כיצד נראה הבאים )בממוצע(. בפרקים83% היא זו שיטה לפי בניתוח הדיוק בעזרת הניתוחים את לתקן ניתן שבאמצעותן דרכים מספר הניתוח. נתאר של הדיוק מידתהמחרוזת. של הקשרה על מידע

על-פי המחרוזת ניתוח על משפיעים אלה ביותר. תיקונים הפשוטים בתיקונים נתמקד זה בפרק דרכים שתי נבדקו זו שאחריה. בעבודה והמחרוזת שלפניה המחרוזת – לה הסמוכות המחרוזות

זה. מסוג תיקונים להגדיר בהרחבה נתאר הבאים שנבדקה. בסעיפים הראשונה הדרך את בקצרה נתאר הראשון בסעיף

יותר. כיעילה שהתגלתה – השניה הדרך את

מועדפים" "זוגות בעזרת תיקוניםא. זוג נמצא בה פעם תבניות-ניתוחים. בכל מועדפים" של "זוגות ידני באופן מגדירים זו בדרך

ניתוח יש בזוג, ולשניה הראשונה לתבנית המתאים ניתוח יש סמוכות, שלראשונה מחרוזות שתי עבור האלה הניתוחים שני של ההסתברות את מגדילים – בזוג השניה לתבנית המתאים

האלו. המחרוזותמועדף" בעברית: ל"זוג דוגמה הנה

לשם-הפרטי מתאים הפועל תחיליות[ , כאשר ללא נסתר יחיד ]שם-פרטי[ ]פועלבמין.

הוא הפרטי שהשם גבוהה הסתברות יש – אלה ניתוחים שבסמיכות מועדף, משום זוג זהוהמחרוזות: שתי מופיעות שבקלט הפועל. נניח של הנושא

ראה... ...חיים

שונים, למשל: אפשריים ניתוחים כמה 'חיים' יש למחרוזת

יפים"(, )"חיים ברבים שם-עצם.1חיים"(, עכשיו )"הם בינוני פועל.2זכר. שם-פרטי.3

שונים, למשל: אפשריים ניתוחים כמה 'ראה' יש למחרוזת גם

דורס(, עוף של סוג – )ראה שם-עצם.1נסתר, בעבר פועל.2)"אתה, ראה!"(. בציווי פועל.3

Page 27: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

('ראה' של2 וניתוח'חיים' של3 )ניתוח ניתוחים שני האלה, יש הניתוחים קבוצות מבין של ההסתברות את יגדיל המועדף". לפיכך, האלגוריתם ה"זוג של הדוגמה לתבנית מתאימים

'ראה' של2 ניתוח של ההסתברות 'חיים'( ואת של הניתוחים שאר 'חיים' )לעומת של3 ניתוח הואראה' חיים' שהצירוף ההסתברות תעלה הכל 'ראה'(, ובסך של הניתוחים שאר )לעומת

+ פועל. שם-פרטי של צירוף יש בו במקרה המוחלט מועדף" לתיקון כ"זוג הניתוח את הופך אינו זה להדגיש, שתיקון יש

הניתוחים. של ההתחלתיות בהסתברויות עוד תלוי הסופי אחרים. הניתוח אפשריים ניתוחים היתה'ראה' של2 ניתוח עבור או'חיים' של3 ניתוח עבור ההתחלתית ההסתברות לכן, אם

יגדיל שהתיקון שייבחרו. ייתכן הניתוחים את לשנות כלל יצליח לא שהתיקון ייתכן – נמוכה מאדשינוי. ליצירת המספיקה במידה לא אבל אלה ניתוחים של ההסתברויות את

מועדפים זוגות של משקלים.1

את נגדיל חד-משמעית. אם תשובה אין זו ההסתברויות? לשאלה את להגדיל צריך בדיוק בכמה ההסתברויות את נגדיל הניתוחים, ואם את לתקן נצליח לא – מדי קטנה במידה ההסתברויות

הצירוף: חדשות. ניקח, למשל, את שגיאות ליצור עלולים אנחנו – מדי גדולה במידהחלש אור

היא'חלש' והמחרוזת שם-עצם היא'אור' הוא, שהמחרוזת ביותר הסביר שהניתוח ברור בנפרד. מחרוזת כל עבור ביותר הסביר הניתוח מבחירת שיתקבל הניתוח גם שזהו תואר. נראה

בעבר פועל גם להיות יכולה'חלש' שם-פרטי, והמחרוזת גם להיות יכולה'אור' המחרוזת אבל ניתוחים של ההסתברות – מהדוגמה הזוג-המועדף בעזרת התיקון את נסתר. לפיכך, כשנפעיל

ייווצרו – האמיתיים הניתוחים של ההסתברות מעל תעלה היא תעלה. אם האחרונים אלהחדשות. שגיאות

התוספת לחישוב 'משקל', המשמש זוג-מועדף לכל זו, הוגדר בעיה עם להתמודד כדי הניתוחים להסתברות שמוסיפים התוספת גדלה – גדול יותר שהמשקל להסתברויות. ככל

לזוג-המועדף. המתאימיםמועדפים זוגות של משקלים לימוד.2

ללמידת פשוט אלגוריתם נכתב מכן לאחר ידני, אך באופן המשקלים נקבעו ראשון בשלבאחד: זוג-מועדף של משקל ללמידת האלגוריתם מנותח. הנה קורפוס-אימון בעזרת המשקלים: }המנותח בקורפוס מחרוזות של הסמוכים הזוגות כל על עבור

– המועדף-הזוג של לתבנית מתאים הזוג אם

הזוג למונה 1 הוסף

– בתיקון הראשונה למחרוזת מתאימה בזוג הראשונה המחרוזת אם

הראשונה המחרוזת למונה 1 הוסף

– בתיקון השניה למחרוזת מתאימה בזוג השניה המחרוזת אם

השניה המחרוזת למונה 1 הוסף

}

Page 28: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

הראשונה-המחרוזת-מונה\ הזוג-מונה:היחס את חשב

השניה-המחרוזת-מונה\ הזוג-מונה:היחס ואת

–גדול יותר הראשון שהיחס האלה: ככל היחסים לשני מתכונתי יהיה הזוג-המועדף של המשקל –גדול יותר השני שהיחס בזוג, וככל הראשון הניתוח של ההסתברות את יותר להגדיל כדאיבזוג. השני הניתוח של ההסתברות את יותר להגדיל כדאי

ותוצאות בדיקה.3

ל-83%)מ- הניתוח של הדיוק במידת ניכר לשיפור מועדפים" הביאו "זוגות באמצעות תיקונים משום ידני מועדפים" באופן "זוגות להגדיר בצורך הוא זו שיטה של בממוצע(. החיסרון93%

יותר שקל תיקונים אתאר הבא מנותח. בסעיף מקורפוס אוטומטי באופן אותם ללמוד שקשהאוטומטי. באופן אותם ללמוד

"פקודות-תיקון" בעזרת תיקוניםב. )מהצורה מחרוזות של זוגות על הצורני, שעובדות "פקודות-תיקון" למנתח מגדירים זו בדרך

(, למשל:מחרוזת-ב מחרוזת-א:עצם-שם היא ב-ומחרוזת פרטי-שם היא א-שמחרוזת חושב אתה אם

א-למחרוזת במין שמתאים פועל הוא ב-מחרוזת של שהניתוח ההסתברות את הגדל

חישובי ". נניח, שלפיראה חיים" הקודם מהסעיף המחרוזות בצירוף כדוגמה נשתמש שם-פרטי, " היאחיים" שהמחרוזת למסקנה המנתח מגיע – בנפרד מחרוזת לכל ההסתברויות

כך פקודת-התיקון. בשל של לרישא מתאים זה ניתוחים שם-עצם. צירוף " היאראה" והמחרוזת –הפקודה, כלומר של לסיפא ( שיתאים'ראה') השניה המחרוזת עבור ניתוח המנתח יחפש את המנתח יגדיל – קיים אכן כזה שניתוח זכר(. מכיוון )פועל לשם-הפרטי במין שמתאים פועל

.'ראה' למחרוזת האחרים הניתוחים של להסתברויות יחסית שלו ההסתברות האנגלית. גם בשפה דיבר חלקי מציאת של לבעייה [ בקשרBrill 91] ע"י נחקרה דומה דרך

עבורה, ואז ביותר הסביר חלק-הדיבר את מילה לכל מייחס שהוא בכך מתחיל שלו המנתח חלק-הדיבר את לתקן אוטומטי( כדי באופן לכן קודם )שנלמדו פקודות-תיקון של שורה מפעיל

הקשר על מידע לייצוג אחרות דרכים על עדיפה זו שדרך הראה הקשרה. הוא לפי מילה כל שלסיבות: מכמה מרקוב(, וזאת מודלי )כגון

זיכרון שחוסך דבר – הניתוח דיוק שיפור לצורך הרלבנטי המידע את רק שומרים זו בדרך.1יעילים. לימוד אלגוריתמי לפתח ומאפשר מחשב

יחסית. קטן אימון טקסט מתוך רב-ערך מידע ללמוד ניתן זו בדרך.2 אוטומטי, אלא באופן ניתוחים משנות לא התיקון בריל, פקודות של לעבודה זו, בניגוד בעבודה

מעבר גדלה שלו ההסתברות אם רק משתנה ניתוחים: הניתוח של הסתברויות מגדילות רק ההסתברותי במידע יותר יעיל באופן להשתמש ניתן ביותר. כך הסביר הניתוח של להסתברות

לא התיקון פקודת – מאד גדולה הסתברות יש מסויים לניתוח המחרוזת: אם בשלב שהתקבלאותו. תשנה

Page 29: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

כללית פקודת-תיקון של מבנה.1

הוא: פקודת-תיקון-כללית של המבנה תוספת-ב(( תבנית-חדשה-ב)+תוספת-אתבנית-חדשה-א)+ תבנית-ב תבנית-א

(מחרוזת-ב מחרוזת-אהזוג: )עבור היא זאת מעין פקודה של המשמעות:ב-תבניתל מתאימה ב-ומחרוזת א-תבניתל מתאימה א-שמחרוזת חושב אתה אם

;א-חדשה-תבניתל מתאימה א-מחרוזתש להסתברות פרומיל א-תוספת הוסף

.ב-חדשה-תבניתל מתאימה ב-מחרוזתש להסתברות פרומיל ב-תוספת הוסף

כך: ‰(. מסומן אלף. פרומיל חלקי בפרומחרוזות, כלומר הסתברויות מדדנו זו )בעבודה(:500=תוספת-בש )בהנחה תירשם למעלה כדוגמה ששימשה למשל, פקודת-התיקון

( 500+( פועל-מתאים-במין)+ 0שם-פרטי) שם-עצם שם-פרטי

את (, ואילו0 היא )התוספת הראשונה המחרוזת על כלל חל לא היא, שהתיקון המשמעות לניתוח‰500 תוספת לפועל, על-ידי אפשר( משם-עצם )אם לתקן מנסים השניה המחרוזת

כך השניה המחרוזת ניתוחי של ההסתברויות את מנרמחרוזות התוספת המתאים. לאחר.‰1000 יהיה ההסתברויות שסכום

זה: למחרוזת )במקרה לתקן שמנסים המחרוזת עבור החדשה לתבנית המתאים ניתוח אין אם תעשה לא פקודת-התיקון הפרטי(, אז לשם במין המתאים פועל שהוא ניתוח אף אין השניהדבר.

אם שאפילו )כך מדי נמוכה שלו ההסתברות המחרוזת, אבל עבור מתאים ניתוח יש אם גם תעשה לא פקודת-התיקון אז ביותר(, גם הסביר הניתוח יהיה לא הוא התוספת את לה נוסיף שינוי כל יהיה לא – בניתוח לשינוי גורמת אינה אך ישימה הפקודה )כלומר: אם דבר

בהסתברויות(. היא בעבר פועל "ראה" היא שהמחרוזת ראה" ההסתברות "חיים בצירוף למעלה: אם בדוגמא

דבר, כי תעשה לא הנתונה הפקודה , אז‰800 היא שם-עצם שהיא , וההסתברות‰200 רק לא זה ניתוח של הכוללת – ההסתברות‰500 כפועל-עבר המחרוזת לניתוח נוסיף אם אף

עצם. כשם המחרוזת ניתוח הסתברות את תעבור

לפקודות-תיקון נוספות דוגמאות.2

גם להגדיר בזוג. ניתן השניה המחרוזת את רק שמתקנת פקודת-תיקון ראינו הקודם בסעיףהמחרוזות, למשל: שתי את שמתקנות פקודות

שם-עצם שם-עצם-נסמך+( 70+( תואר-מתאים-במין-מספר-ויידוע)30 שם-עצם-נפרד)

ניתוח יש למחרוזת-ב כשם-עצם-נפרד, וגם ניתוח יש למחרוזת-א אם רק תפעל זו פקודה )כך דיין גדולות החלופיים הניתוחים של ההסתברויות ויידוע, וגם מספר במין לו שמתאים כתואר

ביותר(. הסבירים הניתוחים להיות אלה ניתוחים יהפכו בהתאמה70 \ 30 להן נוסיף שאם

Page 30: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

של לניתוח70כשם-עצם-נפרד, ו- מחרוזת-א של לניתוח30 תוסיף הפקודה זה במקרה שסכום כך המחרוזות שתי של הניתוחים הסתברויות את תנרמל כתואר, ואז מחרוזת-ב

.‰1000 יהיה מחרוזת כל עבור הניתוחים הסתברויות

הבאה: הפקודה יותר, כגון כלליות פקודת-תיקון להגדיר ניתן עוד+(0+( פועל)700פועל-עזר) פועל לא-פועל-עזר

ניתוח יש ולמחרוזת-א פועל היא מחרוזת-ב בו מקרה בכל לפעולה תיכנס זו פקודת-תיקון הוא700 ‰ לו נוסיף שאם )כך גבוהה מספיק הסתברות יש הזה שלניתוח כפועל-עזר, בתנאי

ביותר(. הסביר הניתוח להיות יהפוך

כזו: לפקודה דוגמה שלילית. הנה פקודת-תיקון גם להגדיר ניתן דומה באופן+(0+( שם-עצם)400לא-שם-עצם-נפרד) שם-עצם שם-עצם-נפרד

הבא: באופן לפעול המנתח על פוקדת זו פקודה,עצם-שם היא ב-ומחרוזת נפרד-עצם-שם היא א-שמחרוזת חושב אתה אם

.נפרד-עצם-שם-למעט-דבר-כל היא א-שמחרוזת להסתברות ‰400 הוסף

כך . בשל16שם-עצם לפני שם-עצם-נפרד למצוא סביר לא הוא, שבעברית זו בפקודה ההיגיוןשם-עצם-נפרד. למעט אחר ניתוח לכל מחרוזת-א של הניתוח את לשנות יש

מחרוזות, למשל: של המילוני לערך שמתייחסות פקודות-תיקון להגדיר ניתן+(500+( פועל)0'הוא') 'הוא' שם-עצם

היא: הפקודה משמעות,עצם-שם היא ב-ומחרוזת' הוא' המילוני לערך שייכת א-שמחרוזת חושב אתה אם

.פועל היא ב-שמחרוזת להסתברות ‰500 הוסף

המילוני לערך ששייכת מחרוזת לכך, שאחרי ההסתברות את להגדיל יש זו לפקודה בהתאם להזיק, אחרת, עלולה פקודה זו, ככל )פקודה פועל "( יופיעהן", "הם", "היא", "הוא )"'הוא'

המחרוזת ניתוח את לשנות עלולה " הפקודההטכניון דובר הוא יוסי" השמני במשפט למשל נדירים הם כאלה שמניים משפטים "(. אבלדובר)" "( לפועל-עברדובר)" משם-עצםדובר' '

תזיק(. מאשר יותר תועיל שהפקודה להניח ניתן בעברית, ולכן למדי הגיוניות. פחות וחלקן הגיוניות חלקן – תיקון פקודות100כ- עוד מופיעות הבאה ברשימה

הבא: בסעיף שיתואר האלגוריתם על-ידי אוטומטי באופן נוצרו הפקודות( שם-עצם106שם-עצם-נפרד)+ ==< לא שם-עצם שם-עצם-נפרדשם-עצם ( לא120שם-עצם-נסמך)+ ==< לא שם-עצם לא שם-עצם-נסמך(260מספר()+ מין יידוע ב )מתאים ( תואר123==< שם-עצם-נפרד)+ שם-עצם שם-עצם-נסמך

כזה ניתוח שם-עצם, כי לפני כשם-עצם-נפרד ניתוח לחלוטין לפסול ניתן לא 16". א פלוגה" כגון בצירופים " אופיצה האיש קנה אתמול" כגון אפשרי, במשפטים

Page 31: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

( שם-עצם502==< מספר-נסמך)+ שם-עצם מספר-נסמך לא( שם-פרטי129==< שם-עצם-נסמך)+ שם-פרטי שם-עצם-נסמך לא

יידוע( ב )מתאים ( תואר237==< שם-עצם-נפרד)+ תואר שם-עצם-נפרד ( לא591שם-עצם-נפרד-עם-סיומת)+ ==< לא מילת-יחס לא שם-עצם-נפרד-עם-סיומת

מילת-יחס( פועל621==< פועל-עזר)+ פועל פועל-עזר לא(83( שם-עצם)+177==< שם-עצם-נסמך)+ תואר שם-עצם-נסמך לא

(215( תואר)+296==< שם-עצם-נפרד)+ תואר לא שם-עצם-נפרד(187( שם-עצם)+123==< שם-עצם-נסמך)+ שם-עצם לא שם-עצם-נפרד

(91( שם-עצם)+252==< מילת-יחס)+ שם-עצם מילת-יחס לא(189פועל)+ ==< מילת-גוף פועל לא מילת-גוף

( מילת-חיבור547==< מילת-גוף)+ מילת-חיבור מילת-גוף לא( בכלמ+שם-עצם200==< פועל)+ בכלמ+שם-עצם פועל לא

( מילת-גוף20==< מספר-נסמך)+ מילת-גוף מספר-נפרד(70מילית)+ ==< מילת-חיבור מילת-יחס מילת-חיבור

(551תואר-פועל)+ ==< פועל תואר-פועל לא פועליידוע( ב )מתאים ( מילת-גוף107==< שם-עצם-נפרד)+ מילת-גוף שם-עצם-נפרד

( מילת-חיבור181==< מילית)+ מילת-חיבור מילית לא( תואר32==< מספר-נסמך)+ תואר מספר-נסמך לא

(239שם-עצם)+ ==< מילת-יחס שם-עצם לא מילת-יחס( שם-פרטי114==< שם-פרטי)+ שם-פרטי שם-פרטי לא

( מילת-חיבור72פועל)+ ==< לא מילת-חיבור פועל(120ש+פועל)+ ==< תואר-נפרד ש+פועל לא תואר-נפרד

(171שם-עצם)+ לא ==< שם-פרטי שם-עצם שם-פרטי(129בכלמ+תואר)+ לא מילת-גוף ==< לא בכלמ+תואר מילת-גוף לא

( שם-עצם286==< שם-עצם-נסמך)+ שם-עצם שם-עצם-נפרד(366יידוע()+ ב )מתאים ( תואר13==< שם-עצם-נפרד)+ תואר שם-עצם-נסמך

(155ו-מילת-חיבור)+ ==< מילת-חיבור ו-מילת-יחס מילת-חיבור(153שם-עצם)+ ==< שם-עצם-נסמך שם-עצם לא שם-עצם-נסמךמספר( יידוע ב )מתאים ( תואר385==< שם-עצם-נפרד)+ תואר שם-עצם-נפרד(45מין()+ ב )מתאים ( פועל115==< שם-עצם-נפרד)+ שם-עצם שם-עצם-נסמך(383מספר()+ מין ב )מתאים ( תואר115==< שם-עצם-נפרד)+ שם-עצם שם-עצם-נסמך

(179תואר-פועל)+ ==< פועל תואר-פועל לא פועל(227פועל)+ ==< מילת-יחס-עם-סיומת שם-עצם מילת-יחס-עם-סיומת

מילת-חיבור ( לא157==< מילת-יחס)+ מילת-חיבור לא תואר-נסמךמספר( ב )מתאים ( שם-עצם320==< פועל)+ שם-עצם פועל

(203פועל)+ ==< מילת-יחס-עם-סיומת תואר מילת-יחס-עם-סיומת(23שם-עצם)+ לא ==< תואר-נפרד שם-עצם תואר-נפרד

( מילת-חיבור209==< מילת-יחס)+ מילת-חיבור מילת-יחס לא(327ו-תואר)+ לא ==< שם-עצם-נפרד ו-תואר שם-עצם-נפרד

Page 32: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

(231פועל)+ ==< תואר-נפרד שם-עצם תואר-נפרד(435מספר)+ ==< שם-עצם-נסמך מספר לא שם-עצם-נסמך( מילת-יחס202שם-עצם-נסמך)+ ==< לא מילת-יחס שם-עצם-נסמך

(591מילת-יחס)+ ==< פועל שם-עצם פועל(33( מילת-יחס)+90==< פועל)+ פועל תואר-נפרד

( מילת-יחס211==< פועל)+ מילת-יחס שם-עצם-נפרד( שם-עצם28==< תואר-פועל)+ שם-עצם שם-עצם-נסמך

(299( מילת-חיבור)+80==< תואר-פועל)+ בכלמ+מילת-גוף תואר-נפרד(35מילת-גוף)+ ==< מילת-חיבור פועל מילת-חיבור(87בכלמ+שם-עצם)+ ==< מילת-חיבור שם-עצם מילת-חיבור( שם-עצם181תואר-נפרד)+ ==< לא שם-עצם תואר-נפרד

( תואר-פועל169==< תואר-פועל)+ תואר-פועל שם-עצם-נפרד(308פועל)+ ==< מספר-נפרד-עם-סיומת פועל לא מספר-נפרד-עם-סיומת

(239ו-תואר-פועל)+ ==< תואר-פועל ו-שם-עצם תואר-פועל(153תואר)+ לא ==< שם-פרטי תואר שם-פרטי

(259ש+פועל)+ ==< מילת-חיבור שם-עצם מילת-חיבור(192פועל)+ ==< מילת-חיבור שם-עצם מילת-חיבור

( שם-עצם161==< שם-עצם-נסמך)+ שם-עצם פועל(14( ו-שם-עצם)+1005==< שם-עצם-נפרד-עם-סיומת)+ ו-פועל פועל

( שם-עצם252==< שם-עצם-נסמך)+ שם-עצם שם-פרטי(273מילת-שאלה)+ ==< מילת-חיבור שם-עצם מילת-חיבור

( תואר-פועל405==< תואר-נפרד)+ תואר-פועל שם-עצם-נסמך(455ש+פועל)+ ==< מילת-גוף שם-עצם מילת-גוף

(10מספר()+ מין ב )מתאים ( תואר145==< שם-עצם-נפרד)+ שם-עצם שם-עצם-נסמך( שם-עצם365==< פועל)+ שם-עצם שם-פרטי

מין( ב )מתאים ( שם-עצם216==< תואר-נפרד)+ שם-עצם תואר-נסמך(67( שם-עצם)+255==< שם-עצם-נסמך)+ מילית תואר-נפרד

(349ש+פועל)+ ==< שם-עצם-נפרד שם-עצם שם-עצם-נפרד(471'בחירות']שם-עצם[)+ 'בחירה']שם-עצם[ ==< שם-עצם-נסמך שם-עצם-נסמך

( ,107, ==< תואר-נפרד)+ מילת-יחס(258'בא']פועל[)+ 'בא']תואר[ ==< תואר-נפרד תואר-נפרד

( .28. ==< מילת-יחס-עם-סיומת)+ מילת-יחס-עם-סיומת לא( ל457תואר-נפרד)+ ==< לא ל תואר-נפרד

( בכלמ+'עלות']שם-עצם[)+125'מעלה']שם-עצם[ ==< שם-עצם-נפרד)+ שם-עצם-נסמך258)

(201'פי']מילית[)+ 'פה']שם-עצם[ ==< מילת-יחס מילת-יחס( 'איש']שם-עצם[297פועל)+ 'איש']שם-עצם[ ==< לא פועל

(459( 'ניהל']פועל[)+121'מנהל']שם-עצם[ ==< שם-עצם-נפרד)+ שם-עצם-נסמך(205( 'מדיניות']שם-עצם[)+476'מדיני']תואר[ ==< שם-עצם-נסמך)+ שם-עצם-נפרד

(772ש+'זה']מילת-גוף[)+ לא שם-עצם-נפרד ש+'זה']מילת-גוף[ ==< לא שם-עצם-נפרד לא

Page 33: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

שם-עצם ( לא158'בקרב']מילת-יחס[)+ ==< לא שם-עצם 'בקרב']מילת-יחס[ לא(258==< 'קרן']שם-עצם-נפרד[ פועל)+ פועל 'קרן']שם-עצם-נפרד[ לא

( בכלמ+שם-עצם45==< 'צפי']פועל[)+ 'ציפי']פועל[ בכלמ+שם-עצם(211==< , פועל)+ , שם-עצם

(22==< 'היי']פועל[ תואר)+ 'היי']פועל[ שם-עצם(179==< , שם-עצם)+ , תואר

( מילת-חיבור169==< 'השנה']תואר-פועל[)+ 'שנה']שם-עצם-נפרד[ מילת-חיבור(369==< . שם-עצם)+ . תואר

( מספר10==< 'משך']שם-עצם-נסמך[)+ 'משך']שם-עצם-נפרד[ מספר(93==< . שם-עצם)+ . פועל

(547==< - מילת-גוף)+ - תואר-פועל

מנותח קורפוס בעזרת פקודות-תיקון לימודג. פקודות-תיקון. ללימוד שמשמש האלגוריתם את נתאר זה בסעיף

מבני-הנתונים.1

הבאים: במבני-הנתונים השתמשנו האלגוריתם לצורך

שלה, עם האפשריים הניתוחים כל בקורפוס, את מחרוזת כל שמכיל, עבור מבנה-נתונים.1הקודם(. בפרק בפירוט תוארה הזה המבנה יצירת )דרך ניתוח לכל המקורבת ההסתברות

הנקודות )כולל הפיסוק הסדר. סימני לפי בקורפוס המחרוזות כל את שמכיל מבנה-נתונים.2נפרדות. למחרוזות המשפט( נחשבים שבסוף

שלה. הנכון הניתוח בקורפוס, את מחרוזת כל שמכיל, עבור מבנה-נתונים.3 הזאת, שלנו" למחרוזת "הניתוח בקורפוס, את מחרוזת כל שמכיל, עבור מבנה-נתונים.4

לכל שמתאימים בכך מאותחל זה זה. מבנה בשלב נכון לנו שנראה הניתוח את כלומר שבו הראשון(. הניתוחים מבנה-הנתונים )מתוך שלה ביותר הסביר הניתוח את מחרוזתחדשות. פקודות-תיקון של הלימוד במהלך משתנים

כללי תאור.2

בניתוח שגיאות ומחפש המנותח בקורפוס המחרוזות כל על עובר כללי, האלגוריתם באופן האפשריות פקודות-התיקון כל את ליצור מנסה שגיאה, הוא מגלה שהוא פעם שלנו. בכל

על-ידי שיצר פקודות-התיקון כל של יעילותן מידת את בודק זו. האלגוריתם שגיאה שיתקנו הניתוח. לכל של הדיוק מידת על השפעתן ובחינת במלואו הטקסט על מהן אחת כל יישום

בעלת בפקודת-התיקון יבחר יעילותה. האלגוריתם לרמת "ציון" בהתאם ניתן תיקון פקודתהשגיאות. חיפוש משלב החל התהליך על ויחזור אותה ביותר, יפעיל הטוב הציון

באלגוריתם. שלב כל בפירוט נסביר בהמשך

Page 34: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

מסויימת? שגיאה שיתקנו פקודות-תיקון יוצרים איך.3

" הוא:מצד" המחרוזת של הנכון ". הניתוחאחד... מצד" בזוג-המחרוזות נתבונן ההסבר לצורך תואר. " הואאחד" המחרוזת של הנכון )מ+צד(, והניתוח שם-עצם-נפרד שאחריה אות-יחס

שלנו )מצד(, והניתוח תחיליות ללא שם-עצם-נסמך " הואמצד" למחרוזת שלנו נניח, שהניתוח הניתוח של עוד, שההסתברות אחד(. ונניח של שם-עצם-נפרד. )מצד " הואאחד" למחרוזת

",מצד" למחרוזת הנכון הניתוח של מההסתברות‰100ב- " גדולהמצד" למחרוזת שלנו הניתוח של מההסתברות‰200ב- " גדולהאחד" למחרוזת שלנו הניתוח של וההסתברות

הבא: התיקון יהיה שייווצר הראשון התיקון זה ". במקרהמצד" למחרוזת הנכון+(210+( תואר-ללא-תחיליות)110ע-נפרד)”ש ע-ללא-תחיליות”ש ע-נסמך”ש

בין שמקשרות מחרוזת, ולתכונות כל של לחלק-הדיבר שהתייחסנו מכך נוצר זה תיקון מצב-הסמיכות חשוב הראשונה המחרוזת )לגבי השניה המחרוזת לבין הראשונה המחרוזת

היא מחרוזת לכל שניתנת שלה(. התוספת התחיליות חשובות השניה המחרוזת שלה, ולגבי שהסתברותו . זאת, כדי‰10 הנכון, בתוספת הניתוח לבין הראשוני הניתוח בין ההפרש בדיוק

)השגוי(. שלנו הניתוח של מהסתברותו במקצת גבוהה תהיה הנכון הניתוח של ידרשו שהם הראשון, בכך מהתיקון ספציפיים יותר תיקונים, שיהיו כמה עוד ייווצרו מכן לאחר

בזוג, למשל: המחרוזות שתי בין התאמהבמין +(, מתאים210+( תואר-ללא-תחיליות)110ע-נפרד)”ש ע-ללא-תחיליות”ש ע-נסמך”ש

במספר +(, מתאים210+( תואר-ללא-תחיליות)110ע-נפרד)”ש ע-ללא-תחיליות”ש ע-נסמך”ש

ביידוע +(, מתאים210+( תואר-ללא-תחיליות)110ע-נפרד)”ש ע-ללא-תחיליות”ש ע-נסמך”ש

ע-ללא-תחיליות”ש ע-נסמך”ש

ובמספר במין +(, מתאים210+( תואר-ללא-תחיליות)110ע-נפרד)”ש

ע-ללא-תחיליות”ש ע-נסמך”ש

וביידוע במין +(, מתאים210+( תואר-ללא-תחיליות)110ע-נפרד)”ש

וכו'...

",אחד מצד" בצירוף בה שנתקלנו השגיאה לתיקון המידה באותה מתאימים אלה תיקונים וגם במספר במין, גם גם שלהן( מתאימות הנכון " )בניתוחאחד" ו"צד" שהמחרוזות משום

המנותח. בזוג המחרוזות התאמת של האפשריים הצירופים8 כל את לבדוק ביידוע. לפיכך, יש מאחת לחלוטין יתעלמו שהם יותר, בכך כלליים שיהיו נוספים תיקונים ייווצרו הבא בשלב

המחרוזות, למשל:+(210+( תואר-ללא-תחיליות)110ע-נפרד)”ש ע-ללא-תחיליות”ש ע-נפרד”לא-ש

+(210+( תואר-ללא-תחיליות)110ע-נפרד)”ש לא-תואר-ללא-תחיליות ע-נסמך”ש

וכו'...

ההתאמה לפי – גירסאות8 ייווצרו אלה מתיקונים אחד כל עבור הראשון, גם לתיקון בדומהוביידוע. במין, במספר רק או הראשונה המחרוזת את רק לתקן האפשרות תיבדק אלה מתיקונים אחד כמו-כן, בכל

בזוג, למשל: השניה המחרוזת את

Page 35: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

+(210+( תואר-ללא-תחיליות)0ע-נפרד)”ש ע-ללא-תחיליות”ש ע-נסמך”ש

+(0+( תואר-ללא-תחיליות)110ע-נפרד)”ש ע-ללא-תחיליות”ש ע-נסמך”ש

+(210+( תואר-ללא-תחיליות)0ע-נפרד)”לא-ש ע-ללא-תחיליות”ש ע-נפרד”לא-ש

+(0+( תואר-ללא-תחיליות)110ע-נפרד)”ש ע-ללא-תחיליות”ש ע-נפרד”לא-ש

וכו'...

של המחרוזות. התהליך של המילוני לערך כלל התייחסו לא כאן עד שתוארו התיקון פקודות כשהפקודות – השניה פעמים: בפעם3 עוד במלואו יתבצע אלו מעין פקודות-תיקון יצירת

א, למשל: מחרוזת של המילוני לערך יתייחסו שיווצרו+(210+( תואר-ללא-תחיליות)110ע-נפרד)”'צד'=ש ע-ללא-תחיליות”ש ע-נסמך”'מצד'=ש

למעלה; בדוגמה שתוארו הגרסאות כל גם נוספות זה מובן, שלתיקוןב, למשל: מחרוזת של המילוני לערך יתייחסו שיווצרו כשהפקודות – השלישית בפעם

ע-ללא-תחיליות”'אחד'=ש ע-נסמך”ש

+(210+( 'אחד'=תואר-ללא-תחיליות)110ע-נפרד)”ש

המחרוזות, למשל: שתי של המילוניים לערכים יתייחסו שיווצרו כשהפקודות – הרביעית ובפעם ע-ללא-תחיליות”'אחד'=ש ע-נסמך”'מצד'=ש

+(210+( 'אחד'=תואר-ללא-תחיליות)110ע-נפרד)”'צד'=ש

חדשים בטקסטים שלהם התועלת כך, לרוב מאד. בשל ספציפיים הם האחרון מהסוג התיקונים מצד" שהצירוף משום להועיל יכול זה מסוג תיקון הנדונה בדוגמה יחסית. אולם קטנה תהיה

".אחד... מ-צד" יהיה שלו הנכון הניתוח מופעיו יחסית, וברוב נפוץ " הואאחד...

לפקודות-תיקון? ציון נותנים איך.4

את משפרת היא בכמה שלנו, ולבחון הניתוח על אותה לנסות אפשר פקודת-תיקון להעריך כדי לבין התיקון הפעלת לפני השגיאות מספר בין ההפרש הניתוח, כלומר: מה של הדיוק מידת

גורמת פקודת-התיקון שלילי, אם להיות יכול זה הפעלתה. הפרש אחרי השגיאות מספרלפקודת-התיקון. שמיוחס הציון הוא שנמדד חדשות. ההפרש שגיאות להיווצרות

נותנים שלנו, אנו שבניתוח השגיאות כל עבור האפשריות פקודות-התיקון כל את שייצרנו לאחר ביותר הגבוה הציון בעלת פקודת-התיקון את ובוחרים אלו מפקודות-תיקון אחת לכל ציון

מביניהן.חדשים? תיקונים לחפש מפסיקים מתי.5

חיובי שלו הציון שלו: אם הציון את ביותר, בודקים הגבוה הציון עם התיקון את שבוחרים לאחר השגיאות שמספר קטן. כיוון שלנו בניתוח השגיאות ומספר שלנו הניתוח על אותו מפעילים–

פחות. זהו או0 הוא ביותר הגבוה שהציון למצב נגיע איטרציות של סופי מספר סופי, לאחר לחפש להמשיך טעם אין זה שלנו. במצב בניתוח שגיאות לתקן שיכול תיקון אף אין בו מצב

מסתיים. והאלגוריתם תיקונים

Page 36: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

פחות. או1 הוא המירבי הציון זה, כאשר למצב קודם עוד החיפוש את להפסיק ניתן למעשה אחת שגיאה רק מתקן הוא – ביותר ספציפי תיקון הוא1 ציון עם היא, שתיקון לכך הסיבה

בטקסטים יועיל זה שתיקון נוצר(, והסיכוי הוא שממנה )השגיאה האימון בקורפוס מסויימתתיקונים. לחפש להמשיך טעם אין כבר זה מאד. לפיכך, במצב קטן חדשים

בשלמותו: אלגוריתם-הלימוד.6

(: אתחול. )א

האימון לקורפוס שלנו הניתוח את אתחל

(.עבורה ביותר הסביר הניתוח את בנפרד מחרוזת לכל התאם כלומר)

(:תיקונים יצירת. )ב

: w1, w2 17סמוכות מחרוזות של זוג לכל. בקורפוס המחרוזות כל על עבור

, w1-ל הנכון לניתוח w1-ל שלנו הניתוח את השווה

.w2-ל הנכון לניתוח w2-ל שלנו הניתוח ואת

:הנכון מהניתוח שונה שלנו מהניתוחים אחד לפחות אם

"w1 w2" הזוג על אותם נפעיל שאם, התיקונים כל את צור

(.למעלה כנזכר) שלנו מהשגיאות אחת לפחות תתוקן

.גדול בשק התיקונים כל את שמור

(:ביותר הטוב התיקון בחירת. )ג

: תיקון לכל. הקודם מהשלב בשק שנמצאים התיקונים כל על עבור

(.למעלה כנזכר) זה תיקון של הציון את חשב

אחד בחר – מאחד יותר יש אם(. ]tב אותו נסמן) ביותר הטוב הציון עם התיקון את מצא[. מהם

(.למעלה כמוסבר) סיים – פחות או 1 הוא t התיקון של הציון אם

.ב לשלב וחזור שלנו הניתוח את לתקן כדי t בתיקון השתמש

שני כל שבין משפטים, כיוון של לגבולות מיוחד באופן להתייחס צורך אין 17 המחרוזת תהיה w1 המשפט בסוף נפרדת, ולכן למחרוזת )"."( שנחשבת נקודה יש משפטים המחרוזת תהיהw2"." ו- תהיה w1 הבא המשפט ".", ובתחילת תהיהw2ו- האחרונההראשונה.

Page 37: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

הלימוד: אלגוריתם סיבוכיות.7

הפקודה אם ולבדוק בקורפוס השגיאות כל על לעבור יש פקודת-תיקון עבור ציון לחשב כדי בטקסט המחרוזות יתרת על לעבור מתקנת, יש אכן היא חלקן. אם את לפחות לתקן מצליחה

O(N) היא הגרוע במקרה נכונים. לפיכך, הסיבוכיות ניתוחים משבשת הפקודה אם לבדוק כדי(Nבקורפוס המחרוזות = מספר .)הלימוד

שגיאה כל ב' )על בשלב שנמצאוe השגיאות למספר ישר ביחס עומד פקודות-התיקון מספר.O(Ne) היא אחת איטרציה של הסיבוכיות . לכןO(e) תיקונים(: 20 בממוצע יוצרים יחסית ליניארי באופן עולה האיטרציות ה' למטה( נמצא, שמספר )ע' סעיף שנעשה בניסוי

.O(N2e) היא הסיבוכיות בסך-הכל האימון, ולכן בקורפוס המחרוזות למספר הוא הביצוע )בתחילת בקורפוס המחרוזות למספר ישר ביחס הוא גם עומד השגיאות מספר.O(N3) היא הסיבוכיות שבסך-הכל (, כך7% בערך הוא ובסוףN של15% בערך

הלימוד אלגוריתם לבדיקת ניסוייםד. והתוצאות הניסויים.1

5374 שבו בקורפוס-אימון השתמשנו הקודמים בסעיפים שתואר האלגוריתם את לבדוק כדי לבדיקת שימש אחר התיקונים, וחלק ללימוד מהקורפוס אחד חלק שימש מחרוזות. בכל-פעם

שנלמדו. בתיקונים משתמש הצורני המנתח כאשר בניתוח מידת-הדיוק טקסט-הבדיקה: בניתוח מידת-הדיוק על קורפוס-הלימוד גודל השפעת את בדקנו בניסויים

אחר. בגודל קורפוס-לימוד על פעם פעמים, בכל12 בוצע הניסויהפרק. בסוף בגרפים מסוכמות התוצאות

מהתוצאות המסקנות.2

)פחות קבוע בקצב עולה הלימוד בתהליך המופקות פקודות-התיקון מספר נמצא, כי בניסויים מחרוזות יותר שיש עולה, כלומר: ככל בקורפוס-הלימוד יותר( כשמספר-המחרוזות או

עולה לא הדיוק אחוז על התיקונים השפעת תיקון. אולם פקודות יותר נוצרות כך בקורפוס גדול מחרוזות. בקורפוס2000 עד1000 ל- 0 שבין בתחום היא העיקרית קצב: העליה באותו

יחסית. מעטה במידה הדיוק את מגדילה הקורפוס מזה, הגדלת.93%כ- של דיוק מחרוזות( התקבל4900)כ- שנבדק ביותר הגדול הקורפוס עבור

9 , היה133 פנטיום מחשב זה, על קורפוס על התיקונים לימוד אלגוריתם של זמן-הריצה ניתן פקודות-התיקון שנלמדו חד-פעמית: לאחר הינה זו שהשקעה לציין דקות. יש20ו- שעות

חדש. מאמר כל לניתוח בהן להשתמש (confidence interval) מרווח-וודאות מקרי, נחשב אינו שהתקבל הגבוה שהדיוק לוודא כדי

לקבוצה האלגוריתם שיצר הניתוחים )מקבוצתX מקרי משתנה נגדיר כך . לשם18הדיוק עבור שגוי. הניתוח אם0הנכון, ו- הניתוח הוא האלגוריתם שיצר הניתוח אם1 יהיה {(, שערכו0,1}

האלגוריתם, כלומר: של הדיוק אתpב- נסמן

19[ עמ' DI 94] מ נלקח החישוב 18

Page 38: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

p = Pr[X=1]

בניסוי: שמצאנו הדיוק אחוז הואp עבור המשערך

:n=1200 – המנותח במאמר המחרוזות במספר גם תלויה המשערך של השונות

הוא:95% של ודאות עבור מרווח-הוודאות

הינו0.05 )המספר סטטיסטיות בטבלאות למצוא שניתן מקדם-וודאות הוא Z0.05 הגורם(.1-0.95 הזה הדרושה, במקרה הוודאות של המשלים לפחות יהיה שלנו השיטה לפי בניתוח הדיוק95% של הנה, שבהסתברות זו תוצאה משמעות91.8%.

Page 39: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

תיקונים ללמידת האלגוריתם לבדיקת הניסוי : תוצאות1מס' טבלהTable No. 1: Results of an experiment testing the algorithm for learning correction-commands

Page 40: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

שלמים משפטים: 5 פרק מחרוזות של ניתוחים בין קשרים על רק שהסתמכו הצורני לניתוח תיקונים תוארו הקודם בפרק

השלם. לצורך במשפט המחרוזת הקשר על שמבוססים תיקונים יתוארו זה סמוכות. בפרקזו. למטרה במיוחד שנבנה במנתח-תחבירי-מדומה השתמשנו כאלה תיקונים הפקת

מדומה תחבירי מנתח א"מדומה"[. נקרא הזה התחבירי המנתח למה נסביר ]בהמשך לכל משפט, ואשר להוות שאמורות מחרוזות של רצף כקלט מקבל שלנו התחבירי המנתח

במשפט המחרוזות את לצמצם מנסה התחבירי . המנתח19יחיד צורני ניתוח מותאם מהן אחת המנתח. פעולת את תסביר אשר דוגמה נתונים. הנה צמצום לחוקי האפשר, בהתאם במידת

הבא: המשפט נתוןישראל אל מתאילנד אתמול הגיעו זרים עובדים עשרות

הם: במשפט למחרוזות הנכונים הניתוחים]שם-מספר-זו"נ-רבים-נסמך[ עשרות]שם-עצם-זכר-רבים-נפרד[ עובדים

]תואר-זכר-רבים-נפרד[ זרים]פועל-זכר-רבים-נסתר-עבר[ הגיעו

]תה"פ[ אתמול]שם-פרטי-נקבה[ מ-תאילנד

]מילת-יחס[ אל]שם-פרטי-נקבה[ ישראל

אותו שמתאר התואר ואת שם-עצם הבא: 'צמצם הצמצום חוק את מפעילים אנו ראשון בשלב אותו שמתאר התואר ואתעובדים" " שם-העצם את לצמצם מאפשר זה לשם-עצם'. חוק

הבא: המשפט את נקבל הצמצום ". לאחרעובדים" – אחת " למחרוזתזרים"ישראל. אל מ-תאילנד אתמול הגיעו עובדים עשרות

לצמצם ניתן לשם-עצם'. כך צירוף-סמיכות נוסף: 'צמצם צמצום חוק מפעילים אנו הבא בשלב ".עובדים" – אחת " למחרוזתעובדים" שאחריו שם-העצם " ואתעשרות" הנסמך המספר את

המשפט: מתקבלישראל. אל מ-תאילנד אתמול הגיעו עובדים

לכל בהם במשפטים לטפל מורחבת, שמאפשרת יכולת בעל דומה מנתח נתאר בהמשך 19אחד. אפשרי צורני מניתוח יותר יש מחרוזת

Page 41: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

שהוא הפועל ואת תואר-פועל הבא: 'צמצם הצמצום חוק את מפעילים אנו השלישי בשלב "הגיעו" מתאר שהוא הפועל " ואתאתמול" תואר-הפועל את לצמצם ניתן לפועל'. כך מתואר

". קיבלנו:הגיעו" – אחת למחרוזתישראל. אל מתאילנד הגיעו עובדים

שאחריהן, ונקבל: השמות " עםאל" ו"מ" היחס מיליות את לצמצם ניתן הבאים בשלביםמ... אל.... הגיעו עובדים

המופעל )חוק-הצמצום אליו שקשורות היחס מיליות עם הפועל את לצמצם ניתן מכן לאחר במילית-יחס, לפועל'(, ומתקבל שלו, שמתחילה ההשלמה ואת פועל הנו: 'צמצם כאן

המשפט:הגיעו עובדים

לפועל לו שמתאים פועל עם שם-עצם 'צמצם הצמצום חוק את מפעילים אנו האחרון ובשלבאחת: מחרוזת "(, ותתקבלהגיעו)" הנשוא "( עםעובדים)" הנושא את לצמצם ניתן +נושא'. כך

O-הגיעו

נושא(. יש שלפועל רומזO )העיגול

נושאים. בכמה אמיתיים תחביריים ממנתחים נבדל שלנו התחבירי המנתח הבסיסיים, והמשפטים הדיבר חלקי של במונחים מנוסחים הצמצום חוקי ראשית, כל שהמשפט )בהנחה בעברית תקינים משפטים הם הצמצום חוקי של מהפעלתם המתקבלים

הניתוח. במנתחים תהליך הבנת מפשטת, לדעתי, את זאת פעולה תקין(. דרך היה המקורי שהוזכר הראשון הצמצום למשל, חוק.(Phrase) צירוףה במושג משתמשים מקובלים תחביריים

ותואר שם-עצם כ: "צמצם הרגילים במושגים לשם-עצם" ייכתב ותואר שם-עצם "צמצם– באנגלית: לצירוף-שמני", או

Noun-Phrase Noun Adjective

ההפוך בכיוון גם בו להשתמש כמובן אפשר גזירה, אך כחוק מתואר )החוקצמצום(. כחוק–

את כזה חוק כל עבור [( מגדיריםSW 99)ע' ] מקובלת תחבירית בתיאוריה שקובע החוק, הגורם של הימני בצדו העיקרי הגורם החוק, שהוא של ראשה למעלה, חוק שהובא כולו. בחוק הביטוי של הדקדוקיות תכונותיו את

תכונותיו שם-העצם, כי הוא החוק שמני, ראש צירוף של גזירה שם-עצם של דקדוקיות לתכונות דומות כזה שמני צירוף של הדקדוקיות

בניגוד אך שם-עצם משפט, כמו של נושא להיות עשוי שמני )למשל: צירוף HPSG – Head-driven Phrase Structure נקראת זאת לתואר(. תיאוריה

Grammar.

של לראשו צירוף כל מצמצמים שלנו הצמצום זו, חוקי לתיאוריה בהתאםשם-עצם. היא הצמצום תוצאת הנ"ל הצמצום בחוק הצירוף. לכן

Page 42: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

פועל עם שם-עצם הדוגמה, "צמצם במשפט שהופעל האחרון חוק-הצמצום גם המתאים הגזירה זו. חוק לתיאוריה לפועל+נושא", מתאים לו המתאיםהוא: זה למקרה

Sentence Noun-Phrase Verb-Phrase

זו לקביעה דקדוקיים הפועלי. נימוקים הצירוף הוא זה חוק של הראש הצמצום תוצאת שלנו הצמצום בחוק גם . לכן4 [, פרקSW 99ב] מובאיםכפועל. מוגדרת

של עץ-גזירה יוצר אינו כלל הוא, שהמנתח אמיתיים למנתחים שלנו המנתח בין נוסף הבדל של הקישור השאר, בבעיית מתבטא, בין זה אותו. הבדל מצמצם רק אלא המשפט

צירופי-היחס. למשל, במשפט: במכנסיים הילד את הלבשתי

)מושא-עקיף( של השלמה " היאבמכנסיים" המחרוזת כי לזהות אמור אמיתי תחבירי מנתחבמשפט: ", אבלהלבשתי" הפועלהאדומים במכנסיים הילד על חלמתי

המנתח ". אולםהילד" שם-העצם )לוואי( של השלמה " הואהאדומים במכנסיים" הצירוף האם רק בודק צירוף-היחס; הוא שייך לאן להחליט כלל מנסה אינו שלנו המדומה התחבירי

חוקים שקיימים המשפט, משום את לצמצם אפשר הנתון המשפט. במקרה את לצמצם אפשר וצירוף-יחס. שם-עצם לצמצם המאפשרים חוקים וצירוף-יחס, וגם פועל לצמצם המאפשרים יחיד פועל עם מצומצם משפט התהליך בסוף יתקבל מלמעלה הדוגמה משפטי לפיכך, בשני

"(.חלמתי" " אוהלבשתי)"גוף. למשל, במשפט: כינויי של השיוך בבעיית מתבטא נוסף הבדללמים נפל והוא בסירה הארון את שמתי

במשפט: ", אבלהארון" למחרוזת " רומזהוא" שהכינוי לזהות אמור אמיתי תחבירי מנתחהתהפכה והיא בסירה הארון את שמתי

בכלל מתייחס לא שלנו המדומה התחבירי ". שוב, המנתחהסירה" למחרוזת " רומזהיא" הכינוי מהחלקים אחד כל מחוברים, ומצמצם משפטים כאל אלה למשפטים מתייחס זו; הוא לשאלה מצומצם משפט התהליך בסוף יתקבל מלמעלה הדוגמה משפטי בנפרד. לפיכך, בשני שלהם

הבא: דומה, המשפט ". באופן-התהפכהOו- שמתי" " או-נפלOו- שמתידומה: "למים נפל והוא בסירה הארונית את * שמתי

משתי תקני פחות נראה שהמשפט ", למרות-נפלOו- שמתילמשפט: " הוא גם יצומצם.20הקודמות הגרסאות

המשפט לצמצום המשמש שהאלגוריתם תחבירי, כיוון במנתח אלו, מדובר בעיות למרות-bottom-up chart) למעלה מלמטה תחבירי בניתוח בו שמשתמשים אלגוריתם על מבוססparsing[ 'ע :)Allen 95עמוד ,] לפניכם. מתואר אותנו ששימש . האלגוריתם53

שמתי מסיפור, שבו חלק מהווה שהוא שייתכן בלתי-חוקי, משום אינו זה משפט 20למים... נפל הארונית על שישב הילד ואז בסירה הארונית את

Page 43: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

וקשתות-פעילות רכיבים.1

בסדר הצמצומים את "( הצגנוזרים... עובדים עשרות)" זה בפרק שהבאנו הראשונה בדוגמה כזה, מובנה סידור אין התחבירי נכון. במציאות, למנתח תחבירי לניתוח מייד מובנה, שהוביל

בצמצום השלבים סדר את לשנות היה האפשריים. כך, ניתן הצמצומים כל את לבחון ועליו ".עובדים" שלו הסומך שם-העצם " עםעשרות" הנסמך המספר בצמצום המשפט, ולהתחיל

המשפט: הראשון בשלב מתקבל היה כךישראל. אל מ-תאילנד אתמול הגיעו זרים עובדים

"זרים". התואר מילת " עםעובדים" שם-העצם את השני בשלב לצמצם היה דומה, ניתן באופןהבא: המשפט השני בשלב מתקבל היה כך

ישראל. אל מ-תאילנד אתמול הגיעו עובדים

משתמש יעיל באופן זאת לעשות הקיימות. כדי האפשרויות כל את לבחון התחבירי המנתח עלפעילות": "רכיבים" ו"קשתות נשמרים בטבלה, שבה המנתח

במשפט אחת מחרוזת המקורי, או במשפט אחת מחרוזת להיות ( יכולConstituent" )רכיב" אחת. למחרוזת צומצמו המקורי, אשר מהמשפט מחרוזות מספר של רצף המייצגת המצומצם

מייצג. המקורי, שהוא המשפט מן המחרוזות רצף את גם מסמן המצומצם במשפט רכיב כלהבא: במספרים, באופן המקורי במשפט המקומות את מסמנים נוחות לשם

8 ישראל7 אל6 מתאילנד5 אתמול4 הגיעו3 זרים2 עובדים1 עשרות0

מיקומו. הנה על-ידי מסומן רכיב שונים. כל רכיבים8 יש המקורי זה, במשפט לסימון בהתאםבמשפט: הראשונים הרכיבים שלושה של סימוניהם

1 0 עשרות

2 1 עובדים 3 2 זרים

בשלב מצמצמים חדשים. למשל, אם רכיבים המשפט, מתקבלים את מצמצמים כאשרחדש: רכיב ", מתקבלזרים" התואר " עםעובדים" שם-העצם את הראשון

3 1 עובדים

ולא המקורי מהמשפט מחרוזות שתי מייצג שהוא הקודמים, משום מהרכיבים שונה רכיב זהואחת.

"עובדים" שם-העצם " עםעשרות" המספר את הראשון בשלב מצמצמים זאת, אם לעומתשונה: רכיב מקבלים

. 2 0 עובדים

הרכיבים: למשל צמצום. כך שלבי המייצגים רכיבים גם לצמצם ניתן 3 1 עובדים, 1 0 עשרות

Page 44: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

חדש: לרכיב לצמצום ניתנים 3 0 עובדים

הרכיבים: את מצמצמים היינו אם זה חדש לרכיב מגיעים דומה, היינו באופן. 3 2 זרים, 2 0 עובדים

פעילה חוק-צמצום. קשת של תבנית שמבטא מבנה ( היאActiveArc" )פעילה קשת" שאיננו התבנית, למרות לתחילת שמתאים רכיב רואים אנו קריאה במהלך מופעלת, כאשר

הבא: החוק את שלנו ההדגמה משפט על התבנית. ניישם לסוף המתאים הרכיב מהו יודעיםשם-עצם[. שם-עצם-בלי-תחיליות ]מספר-נסמך

זה. בהתאם חוק של לתחילתו , מתאים 1 0 המקורי, עשרות במשפט הראשון הרכיבכך: נראית , והיא1 למקום במשפט0 ממקום פעילה קשת יוצרים לזה, אנחנו

1 0שם-עצם[ "עשרות..." שם-עצם-בלי-תחיליות ]מספר-נסמך

המבנה: של הגרפי מהתיאור "קשת" בא השם

חדש רכיב קבוע באופן מחפשת הקשת, אשר של התכונה את "פעילה" מבטא התואר נמצא בה פעם שם-עצם-בלי-תחיליות(. בכל – זה )במקרה שבתבנית הריק למקום להתאים

חדש רכיב פועלת, ונוצר היא לפיו חוק-הצמצום הקשת, מופעל לתבנית המתאים רכיב משלים, 2 1 עובדיםשלנו, הרכיב: שם-עצם(. בדוגמה – זה )במקרה זה לחוק בהתאם

. 2 0 עובדיםהרכיב: ייווצר המופעל לחוק הקשת, ובהתאם תבנית את

מתאים זה רכיב כי נגלה, 3 1 עובדים הרכיב על תיבחן היא פעילה, וכאשר נשארת הקשת. 3 0 עובדיםהרכיב: ייווצר המופעל לחוק ובהתאם לתבנית הוא גם

פעילות קשתות ליצירת והן קיימות פעילות קשתות להשלמת הן לשמש יכול חדש רכיב כלהפעילות: הקשתות ליצירת גם לשמש יכול 2 1 עובדיםחדשות. למשל, הרכיב:

2 1 "עובדים..."שם-עצם[ תואר-שמתאים-לו ]שם-עצם-נפרד

2 1"עובדים..." פועל-עם-נושא[ פועל-נסתר ]שם-עצם-נפרד

הרכיב יהיה הקשת )תוצר 3 2 זריםהרכיב: את כשנראה תושלם הראשונה הפעילה הקשת רכיב ליצור נצליח שלא תושלם, כיוון לא השניה הפעילה זאת, הקשת (. לעומת 3 1 עובדים

פועל-נסתר. הוא שלו ושהניתוח במשפט2מס' ממקום שמתחיל

מחרוזות, למשל: משתי יותר המכילים חוקים יש שלנו בדקדוק

Page 45: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

שם-עצם-מיודע[ 'או' שם-עצם-מיודע ]שם-עצם-מיודע שמכתיבה לצעדים בהדרגה, בהתאם מתרחבות זה מעין לחוק המתאימות פעילות קשתות

הקשת. למשל, במקטע:5 הקטן4 האיש3 או2 הגדול1 האיש0

הפעילה: הקשת את ניצור 2 0 האישהרכיב: את נראה כאשר 2 0"האיש..." שם-עצם-מיודע[ 'או' שם-עצם-מיודע ]שם-עצם-מיודע

הבא: לצעד הקשת את נרחיב, 3 2 אוהרכיב: את מכן, כשנראה לאחר 3 0או..." "האיששם-עצם-מיודע[ 'או' שם-עצם-מיודע ]שם-עצם-מיודע

הרכיב: את הקשת, ונקבל את נשלים 5 3 האישהרכיב: את נראה לבסוף, כאשר 5 0 האיש

כאן. למשל, צויינו שלא נוספים רבים וקשתות יווצרו, כמובן, רכיבים זה מקטע ניתוח במהלךוהקשת: 1 0 האישהרכיב:

1 0"האיש..." שם-עצם-מיודע[ 'או' שם-עצם-מיודע ]שם-עצם-מיודע

רכיב אין במשפט1מס' שבמקום משום הבא לצעד להרחיב נוכל לא הזאת הקשת את אבל'או'. במחרוזת המתחיל

א' שלב – האלגוריתם.2

משתמש תחבירי. האלגוריתם לניתוח חלקי אלגוריתם לכתוב כבר ניתן זה בשלבהבאים: במבני-הנתונים

מצטרפים הם חדשים רכיבים )כשנוצרים הופעתם סדר לפי המסודרים – רכיבים של תור.1התור(. לסוף

מסתיימת שבו במשפט המקום יעילות, לפי ממויין, לשם )האוסף פעילות קשתות של אוסף.2 רכיב ע"י להרחבה שניתנות הפעילות הקשתות כל את בקלות למצוא ניתן הקשת; כך

מסויים(.ריקים. המבנים שני האלגוריתם בתחילת

: }w מחרוזת לכל. שלהן הסדר לפי במשפט המחרוזות כל על עבור

.הרכיבים-בתור אותו ושים, בלבד w-מ המורכב, חדש רכיב צור

: }הרכיבים-בתור רכיבים יש עוד-כל

.r, בתור הראשון הרכיב את קח

ההרחבה אם. r בעזרת אותן להרחיב ונסה הפעילות הקשתות כל על עבור.הרכיבים-לתור אותם הוסף – חדשים רכיבים ליצירת מביאה

צמצום-חוק מכל חדשה פעילה-קשת ויצר, הצמצום-חוקי כל על עבור לאוסף הקשת את הוסף. שלו הראשונה למחרוזת מתאים r שהרכיב.הפעילות הקשתות

Page 46: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

}

}

א' שלב סיבוכיות.3

נקודה לכל נקודה מכל – האפשריים הרכיבים כל את ייצר האלגוריתם ביותר הגרוע במקרה בוחנים רכיב כל במשפט(. עבור המחרוזות = מספרn) רכיביםO(n2במשפט, כלומר: )

הקשתות אותן. מספר להרחיב עשוי זה שרכיב הפעילות הקשתות כל הפנימית( את )בלולאה בסך-הכל מתחיל(. לכן הרכיב שבה לנקודה עד במשפט נקודה )מכלO(n) הוא האלו

.O(n3) היא הסיבוכיותב' שלב – האלגוריתם.4

זו? טבלה עם עושים . מה21רבים רכיבים המכילה טבלה נוצרת האלגוריתם א' של שלב בסיום יש אם בודק המשפט, היה של עץ-הגזירה את למצוא היא "אמיתי", שמטרתו תחבירי מנתחמהצורה: רכיב מחרוזות(, כלומרn )בעל המשפט כל את לייצג שיוכל רכיב

n 0 משפט-שלם

בכל לטפל מתיימר משפטים, אינו מנתחים אנו המדומה, באמצעותו התחבירי המנתח כזה, אלא רכיב ליצור נצליח לא המקרים ברוב כך העברית. בשל בשפה התחביריות התופעות

להגיע היא הצמצום מהמשפט. מטרת חלק רק מייצג מהם אחד כל רבים, אשר רכיבים נקבל נצליח שלא למשפט דוגמה המקורי. הנה המשפט את שייצגו רכיבים של ביותר הנמוך למספרבודד: לרכיב לצמצמו6 כמתנדבים5 נרשמים4 כשהם3 מגיעים2 אנשים1 עשרות0

הבאים: הרכיבים שני יתקבלו שונים צמצום חוקי הפעלת לאחרO0 -מגיעים 3

6 3 -נרשמיםOכש-

למשפט: הכיסוי את להרכיב נוכל האלה הרכיבים ומשניOכש- -מגיעיםOנרשמים-

לצמצום חוק לו הוגדר שלא משום המשפט את עוד יצמצם לא המדומה התחבירי המנתח"כש...". במילית המתחילות פסוקיות.22דינמי תכנות של פשוט אלגוריתם ע"י מתבצעת ביותר הקצרה הרכיבים סדרת מציאת

A[i,j] במשפט(. המקום המחרוזות מספר הואn )nxn בגודלA במטריצה משתמש האלגוריתם של ביותר הקטן המספר בעל הכיסוי )כלומר המינימלי הכיסוי את האלגוריתם בסוף מכיל

לרכיבים. הושלמו שלא הפעילות בקשתות צורך אין כבר זה בשלב 21 בנפרד(. אחד )כלKasami ו- Cocke, Younger ע"י פותח דומה אלגוריתם 22

Younger], [Kasami 65], 145 עמ' [HU 79]מקומות: בכמה שלו תיאור למצוא ניתן67].

Page 47: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

הסדרה האלגוריתם בסוף בכלל. לכן ועדj מקום עדi ממקום המשפט את רכיבים( שמכסה.A[0,n-1] תהיה המבוקשת

שנוצרו הרכיבים )כל בודד רכיב בהן שיש הסדרות כל במטריצה נמצאות האלגוריתם בתחילת אחת מחרוזת שמכסים הכיסויים כל במטריצה התחבירי(. בפרט, נמצאים הניתוח במהלך

רק יש אחד בכל )כי מינימליים הם האלה רכיב(, והכיסויים קיים מחרוזת כל עבור )כי מהמשפט. i כל עבור מאותחליםA[i,i]האיברים: אחד(. כלומר רכיב

מחרוזות שתי שמכסות הסדרות כל את ומרכיב המטריצה על עובר האלגוריתם הראשון במעברמהמשפט:

A[i,i+1]=min(A[i,i+1] , A[i,i]#A[i+1,i+1])

0 i < n-1

A[i,i+1] ב יש עכשיו היא, שאם המינימום פעולת של שרשור. המשמעות # מציין הסימן כאשר משני מורכב החדש הכיסוי החדש, כי בכיסוי יוחלף לא הוא – בלבד אחד מרכיב שמורכב כיסוי

i למקוםi שממקום לקטע-המשפט המינימלי הכיסוי את יכיל אכןA[i,i+1] האיבר רכיבים. לכן לשתי המינימליים הכיסויים כל את גם תכילA הראשון, המטריצה המעבר . לכן, לאחר1+

מהמשפט. מחרוזותמהמשפט: מחרוזות שלוש שמכסות הסדרות כל את מרכיב האלגוריתם השני במעבר

A[i,i+2] = min (A[i,i+2] , A[i,i]#A[i+i,i+2] , A[i,i+1]#A[i+2,i+2])

0 i < n-2

לקטע-המשפט המינימלי הכיסוי את יכילA[i,i+2] שהאיבר לכך דואגת המינימום שוב, פעולת.i+2 למקוםi שממקום

מחרוזותk+1 עבור המינימליים הכיסויים כל את מרכיב , האלגוריתםkה- כללי, במעבר באופןמהמשפט:

A[i,i+k] = min (A[i,i+k] ,

A[i,i]#A[i+i,i+k] ,

A[i,i+1]#A[i+2,i+k] ,

A[i,i+2]#A[i+3,i+k] ,...,

A[i,i+k-1]#A[i+k,i+k] );

. i < n-k 0 המקיים: i לכל ל- המינימלי הכיסוי את מכילהA המטריצה פעמים, ובסופוn-1 אופן באותו ממשיך האלגוריתם

nב נמצא הזה כולו. הכיסוי למשפט המינימלי הכיסוי את מהמשפט, כלומר מחרוזות A[0,n-1], המבוקש. הכיסוי וזהו

Page 48: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

ב' שלב סיבוכיות.5

עבורA[i,i+k] מהצורה המטריצה איברי כל את ליצור האלגוריתם, צריך שלkה- במעבר0 i < n-kכל . עבור iלבדוק צריך kה- המעבר אפשריים. לכן צירופיםkזמן דורש O(k*(n

-k))הוא: הדרוש הזמן . בסה"כ

המחרוזות = מספרO( n(n3היא: ) האלגוריתם של השלבים שני של הכוללת הסיבוכיות לפיכךבמשפט(.

הצמצום חוקי.6

שבהם חוקי-הצמצום את לציין יש התחבירי הניתוח אלגוריתם הגדרת את להשלים לבסוף, כדי זו. לעבודה בנספח מופיעה השתמשנו שבהם חוקי-הצמצום של המלאה השתמשנו. הרשימה

הרשימה. את להבין הקוראים על שיקלו דוגמאות מספר נביא זה בסעיףהוא: צמצום חוק של הכללי המבנה

[…]תבנית-ג תבנית-ב )( תבנית-א==< תבנית-תוצאה

ניתן אותן צורניות, אשר תבניות החוק( מופיעות של )הרישא החוק של הראשונה בשורה מחרוזות שרשרת מופיעה החוק. כאשר של בסיפא התוצאה, המופיעה תבנית לפי לצמצם

דוגמה לתבנית-התוצאה. הנה לצמצמה יהיה הצורניות, ניתן לתבניות במשפט, המתאימהלחוק-צמצום:

'-' שם-עצם-נפרד )( שם-עצם-נסמך==< שם-עצם-נפרד

)'-'(, שם-עצם-נסמך, מקףהרכיבים: שרשרת את לצמצם זה, ניתן חוק לפי "הכנסת – בית" הצירוף את לצמצם . למשל, ניתןשם-עצם-נפרדחדש: , לרכיבשם-עצם-נפרד

".בית" למחרוזתיותר: מורכב צמצום לחוק דוגמה והנה

הווה רבים נקבה נסתר([ פועל-עזר רבים סיומת)נקבה עם )( 'אין']מילת-יחס==< פועל

" )מילת-היחסאינן" המחרוזת מופיעה בה רכיבים שרשרת לצמצם זה, ניתן לחוק בהתאם .פועל שהוא חדש בהווה-רבות, לרכיב פועל-עזר נסתרות( ואחריה של סיומת "אין", עם

". יכולות" " למחרוזתיכולות אינן" הצירוף את לצמצם למשל: ניתן

החלקי התחבירי בניתוח שימוש ב צורני ניתוח מותאם מחרוזת לכל שבו משפט מקבל שלנו המדומה התחבירי כזכור, המנתח יותר יש כאשר גם מחרוזת לכל הנכון הצורני הניתוח את למצוא היא זו בעבודה יחיד. מטרתנו

לכל הנכון הצורני הניתוח מהו יודעים איננו עדיין התחבירי הניתוח אחד. בשלב אפשרי מניתוח הקודם, הפרק מסוף מחרוזת. כזכור לכל ביותר הסביר הניתוח מהו רק יודעים אנחנו – מחרוזת

.7%כ- של בהיקף ניתוח שגיאות נותרו הפשוטות פקודות-התיקון הפעלת לאחר

Page 49: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

לתאר שנותרו. כדי השגיאות בתיקון לנו לעזור נועד למעלה שתואר המדומה התחבירי המנתח ציוןו תחבירי ציוןציונים: של סוגים שני נגדיר הצורני בניתוח התחבירי המנתח משתלב איך

צורני.משפט של צורני לניתוח תחבירי ציון.1

מניחים, שככל עבורו. אנו הנתון הצורני לניתוח בהתאם משפט כל מצמצם התחבירי המנתח אחת. למחרוזת המשפט צמצום יתקרב המשפט, כך של הצורני בניתוח שגיאות פחות שיש

הבא: במשפט שוב נשתמש כדוגמה8 ישראל7 אל6 מתאילנד5 אתמול4 הגיעו3 זרים2 עובדים1 עשרות0

את לצמצם יצליח המדומה התחבירי המנתח – נכון נותחו זה במשפט המחרוזות כל אםאחת: למחרוזת המשפט

Oהגיעו-

כנפרד אותה ( וניתחנועשרות) הראשונה המחרוזת בניתוח זה, אם, למשל, טעינו לעומתנקבל: לחלוטין, אלא המשפט את לצמצם נצליח כנסמך, לא במקום

-הגיעוO עשרות

את מבטא זה תחבירי". ציון "ציון לייחס ניתן המשפט את צורנית לנתח מהדרכים אחת לכל )באופן נבחרה זו המשפט. בעבודה את לצמצם המדומה התחבירי המנתח של ההצלחה מידת

הבא: באופן המחושבת למדי( פונקציית-ציון שרירותי

0 ל התחבירי הציון את אתחל

: }המצומצם במשפט w מחרוזת לכל

.שהוא כמו הציון את השאר – חיבור-מילת היא w אם

.שהוא כמו הציון את השאר – נושא-עם-פועל היא w אם

,0.04623 מהציון הורד – נושא-בלי-פועל היא w אם

.0.324 מהציון הורד – אחרת

, חיבור-מילות אינן w שאחרי המחרוזת וגם w אם

.0.5225 מהציון הורד – חיבור-מילת ביניהן ואין

}

פעלים-עם-נושא רק בהם שנשארו ( למשפטים0) גבוה תחבירי ציון נותנת זו פונקציה במשפטים יירד התחבירי אחרים. הציון משפטים של התחבירי הציון את ומילות-חיבור, ומורידה

)log10)0.9 הוא הזה המספר 2324 log10)0.5(25 log10)0.3(

Page 50: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

ללא פעלים כלשהו, וכן לפועל התחברו שלא תארים או נשארו, למשל, שמות-עצם בהםחיבור. מילת בעזרת מחוברות שאינן סמוכות מחרוזות בהם שנותרו משפטים נושא, או הצליח שהמנתח )כיוון0 תחבירי ציון יקבל המשפט של הנכון שלמעלה, הניתוח בדוגמא " הינהעשרות" המחרוזת )לפיו המשפט של השגוי הניתוח (, ואילו-הגיעוOל: אותו לצמצם

עשרותל: רק אותו לצמצם הצליח שהמנתח )משום0.82=-0.3-0.52 –ציון נפרד( יקבלOהגיעו- .)

בניתוח. כדי יש שגיאות כמה לדעת מאפשרת כהיוריסטיקה, ואינה רק משמשת זו פונקציית-ציון אחרות שגיאות לנו יהיו אם יקרה מה ונראה כדוגמה מלמעלה במשפט נשתמש זאת להמחיש

הצורני. בניתוח נכון " ניתחנועשרות" המחרוזת שאת )בעוד בהווה " כפועלעובדים" המחרוזת את שניתחנו נניח

הבא: באופן המשפט את יצמצם התחבירי כמספר-נסמך(, המנתח– עשרות]מספר-נסמך[ עובדים]פועל[ זרים]תואר[ הגיעו]פועל[

שלו הציון פועל, ולכן לאף מחוברות שאינן מחרוזות נושא, ושתי בלי פעלים שני יש זה בצמצוםיהיה:

-0.046-0.3-0.046-0.3-2*0.52- = 2.26 המחרוזת את וגם " כשם-עצם-נפרדעשרות" המחרוזת את פעמיים: ניתחנו ששגינו נניח כעת

הבא: באופן המשפט יצטמצם זה " כפועל. במקרהעובדים"Oהגיעו זרים -עובדים

יהיה: הציון-0.046-0.3-2*0.52- = 1.39גבוה! יותר שגיאות, הציון יותר שיש זה, למרות בניתוח

במקום כשם-עצם " נותחהזרים" שלישית, והמחרוזת שגיאה שהתווספה אחר, נניח במקרההבא: באופן יצטמצם המשפט זה כתואר. במקרה

Oעובדים- Oהגיעו-

הקודמים, בהם בצמצומים מאשר יותר אף גבוה – ציון0.52- התחבירי הציון יהיה זה במקרהשגיאות. פחות היו

הנכון. הצורני מהניתוח גבוה יותר תחבירי ציון מקבל שגוי צורני ניתוח דווקא שבהם משפטים ישלמשל, במשפט:

תנועת-המושבים למזכיר תפנה כי הודיעה שרת-הפנים

" וגםהודיעה" של הנושא גם " הואשרת-הפנים" שם-העצם כי יודע אינו שלנו המדומה המנתח נושא. הניתוח ללא " נשארתפנה" הפועל המצומצם כך, במשפט ", בשלתפנה" של הנושא

Page 51: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

הבא: כך, באופן יצומצם, אם הנכון הצורניOתפנה כי -הודיעה

.0.046 –יהיה הנכון לניתוח והציון במקום " כשם-עצם-נפרדלמזכיר" המחרוזת את ננתח שגוי, אם זאת, בניתוח לעומת

"תפנה" של " כנושאתנועת-המושבים" הצירוף את יראה המנתח כשם-עצם-נסמך, אז למזכיר"(. תפנה תנועת-המושבים כי הודיעה הנה: "שרת-הפנים המשפט )כלומר, משמעות

הבא: באופן המשפט את לצמצם יהיה לזה, ניתן בהתאם"Oתפנה- כי -הודיעהO,"

הנכון! הניתוח מציון גבוה יהיה זה במקרה השגוי הניתוח . ציון0 יהיה והציון

הצורני הניתוח למציאת טובה היוריסטיקה מהווה התחבירי למעלה, הציון האמור כל למרות סבירים, בזכות הינם שהתקבלו הצורניים הניתוחים – בו משתמשים אנו שבו בשלב הנכון, כי

שגיאות הרבה כך כל שיהיו הקודמים. לפיכך, הסיכוי בשלבים בהם שהשתמשנו האלגוריתמים היותר. לכל אחת שגיאה תהיה קצרים במשפטים יחסית. לרוב נמוך הוא זו את זו שמבטלות לא בסמיכות, ולכן יימצאו לא כלל בדרך הן שגיאות, אך יותר יהיו אמנם יותר ארוכים במשפטים

ויתוקנו. יתגלו אלא זו את זו יבטלו

משפט של צורני לניתוח צורני ציון.2

קבוצת מחרוזת כל עבור , התקבלה4 ו- 3 בפרקים שתואר ההסתברותי הצורני הניתוח לאחר של צורני הנכון. ניתוח הניתוח שהוא הסתברות הותאמה אפשרי ניתוח אפשריים, ולכל ניתוחים המשפט של צורני ניתוח במשפט. לכל מחרוזת כל עבור יחיד צורני מניתוח מורכב שלם משפט )או שנבחרו הניתוחים של ההסתברויות כל ממכפלת צורני", המורכב "ציון להתאים אפשר באמצעות הצורני הציון חישוב אופן את להמחיש ההסתברויות(. ניתן של הלוגריתמים מסכום

הבא: המשפט. עובדים אנשים

כל של ההסתברויות את אפשריים, וחישבנו ניתוחים שני " מצאנואנשים" שלמחרוזת נניחניתוח:

פועל-מדבר-עתיד{‰200 שם-עצם-זכר-רבים‰800}שונות: הסתברויות אפשריים, בעלי ניתוחים שני " מצאנועובדים" למחרוזת וגם

פועל-רבים-הווה{ ‰450 שם-עצם-זכר-רבים‰550}שונה: צורני ציון אפשריים, בעלי צורניים ניתוחים4 יהיו כולו לזה, למשפט בהתאם

log( 0.8*0.55= ) - 0.36 ציוןאנשים]שם-עצם[ עובדים]שם-עצם[ –

log( 0.8*0.45= ) - 0.44 ציוןאנשים]שם-עצם[ עובדים]פועל[ –

log( 0.2*0.55= ) - 0.96 ציוןאנשים]פועל[ עובדים]שם-עצם[ –

Page 52: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

log( 0.2*0.45= ) - 1.05 ציוןאנשים]פועל[ עובדים]פועל[ –

הצורני הציון עם התחבירי הציון שילוב.3

שונה משקל לייחס גם אותם. ניתן לחבר היא הציונים סוגי שני את לשלב ביותר הפשוטה הדרךהנוסחה: לפי מהציונים, למשל אחד לכל

תחבירי-ציון*2+ צורני-ציון= סופי ציון

התחבירי(. לציון יותר גדול משקל נותנת זו )נוסחה

ביותר הטוב הצורני הניתוח מציאת גיעיל ולא פשוט אלגוריתם.1

נתון משפט של הצורני הניתוח את לתקן הקודם, ניתן בסעיף שתוארו הציון פונקציות בעזרתהבא: האלגוריתם בעזרת

.הנתון המשפט של הצורניים הניתוחים כל את מצא

ובעזרתם, שלו התחבירי-הציון ואת שלו הצורני-הציון את מצא: צורני ניתוח לכל.שלו הסופי-הציון את חשב

.ביותר הגבוה הסופי-הציון עם הצורני הניתוח את בחר

של רב מספר להיות יכול משפט שלכל בעייתי, משום הוא פשוט, אך אמנם זה אלגוריתם עם מחרוזות10 מחרוזות, ומתוכן20 יש , למשל, שבמשפט אפשריים. נניח צורניים ניתוחים

מחרוזת לכל אם כאלו(. כך, אפילו מחרוזות10מ- יותר יש )לרוב אחד מניתוח יותר אפשריים צורניים ניתוחים1024=210 כולו למשפט יהיו – ניתוחים2 רק יש רב-משמעית

מאד לפיכך יהיה האפשריים הניתוחים כל את תחבירית לנתח יותר(. ניסיון הרבה יש כלל )בדרךיעיל. לאמשופר אלגוריתם.2

גבעה": על "טיפוס בסגנון באלגוריתם השתמשנו התהליך את לייעל כדי

מחרוזת לכל שבו הניתוח: כלומר) המשפט של ביותר הסביר הצורני לניתוח a את אתחל. א(.שלה ביותר הסביר הצורני הניתוח מותאם

(.תחבירי ניתוח a את לנתח צריך כך לשם) a של הסופי הציון את מצא. ב

: }w מחרוזת לכל. במשפט המחרוזות כל על עבור. ג

.w של ביותר הסביר הצורני הניתוח את w0-ב סמן

ועבור שהוא כמו אותו השאר : w0-מ שונה הוא a-ב w המחרוזת של הניתוח אם*.במשפט הבאה למחרוזת

}:w1 ניתוח לכל. w0-מ השונים, w של הניתוחים כל על עבור- אחרת

Page 53: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

(.a1 החדש לניתוח נקרא )w1-ל w0-מ w המחרוזת של הניתוח את a-ב החלף

.a1 של הצורני הציון את מצא

.במשפט הבאה למחרוזת עבור – a של הסופי מהציון נמוך יותר הוא אם**

(תחבירי ניתוח a1 את לנתח צריך כך לשם )a1 של הסופי הציון את מצא

}

}

סופי ציון לו שיש הניתוח את מצא – הקודם בשלב שמצאת a1 החלופיים הניתוחים מכל. ד

לא אם. a1-ב a את החלף– a של מהציון גבוה יותר שלו הסופי הציון אם. ביותר גבוה.סיים–

.ג לשלב חזור. ה

תהיה שתתקבל שהתוצאה אחת, כך מחרוזת של ניתוח פעם בכל מחליפים זה באלגוריתםהאפשר. ככל גבוה סופי ציון בעלת

הערות:

1היא, שאם התנאי של (. משמעותו*) בכוכבית המסומן תנאי יש האלגוריתם של ג בשלב לא ניתוחה הבאים במעברים אז – אחת מחרוזת של ניתוח הוחלף בלולאה כלשהו במעבר

ושוב. הוא שוב אחת מחרוזת של ניתוח מחליפים שבו מצב למנוע בא עוד. התנאי יוחלף למטה(. כמובן, ייתכן הסיבוכיות )ע' בניתוח האלגוריתם של הסיבוכיות את בהרבה מקטין פוגעת מידה באיזו לבדוק הנכון, ויש התחבירי הניתוח את למצוא מאיתנו ימנע זה שתנאי

של השגיאות הבא, בניתוח בפרק שוב בכך הצורני. נדון הניתוח של בדיוק זו אפשרותשלנו. המנתח

2הצורני הציון היא, שאם זה תנאי של (. משמעותו**) כוכביות בזוג המסומן תנאי יש ג בשלב ביותר הטוב הסופי הציון בעל הניתוח של הסופי מהציון ( קטןa1) עכשיו שנבדק הניתוח של

(aאז ) של התחבירי הציון את לחשב טעם אין a1שווה או קטן תמיד הוא התחבירי הציון , כי .a של הסופי מהציון נמוך יהיהa1 של הסופי הציון גם , ולכן0ל-

3ב', כדי אחת, בשלב פעם רק מלא תחבירי ניתוח כאן הקודם, מבצעים לאלגוריתם בניגוד ג', כשצריך מכן, בשלב (. לאחרa) ביותר הסביר הניתוח-הצורני של הסופי הציון את לחשב הוא a לבין בינו ההבדל מההתחלה, כי אותו לנתח צורך (, איןa1) החדש הניתוח את לנתח

כמעט יהיוa1 ושלa של התחבירי הניתוח של הטבלאות כך, גם בלבד. בשל אחת במחרוזת מהטבלה להוציא רק , דרושa1 של הניתוח לטבלתa של הניתוח מטבלת לעבור זהות. כדי

, ואזw (w0) המחרוזת של הישן הניתוח את שמכילים והקשתות-הפעילות הרכיבים כל את להריץ יש מכן . לאחרw (w1) המחרוזת של החדש הניתוח את שמכסה חדש רכיב להכניס

ע' – האלגוריתם א' של בשלב הפנימית )הלולאה הטבלה של העדכון לולאת את אחת פעםא'(. סעיף למעלה

Page 54: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

המשופר האלגוריתם סיבוכיות.3

)ע' אחת פעם במשפט מחרוזת כל של הניתוח את להחליף נצטרך ביותר הגרוע במקרהבמשפט(. המחרוזות = מספרn) פעמיםO(n) ג' יתבצע שלב למעלה(, ולכן הראשונה בהערה

האפשריים הניתוחים שמספר )בהנחה ניתוחים-תחביריים-חלקייםO(n) לבצע ג' צריך בשלבחסום(. הוא מחרוזת לכל

את רק לבדוק שצריך משום – רכיביםO(n) היותר לכל ייווצרו הזה החלקי התחבירי בניתוח כאלה. לפיכך, רכיביםO(n) משמאל, ויש או מימין החדש לרכיב להצטרף שיכולים הרכיבים

.O(n2) היא החלקי התחבירי הניתוח של הסיבוכיות.O(n4) היא האלגוריתם סיבוכיות בסך-הכל

ותוצאות בדיקה ד שהופעלו מאמרים, לאחר שני על הורץ ביותר הטוב הצורני הניתוח למציאת האלגוריתם

הדיוק הקודם(. מידת )ע' בפרק מחרוזות5000 של מקורפוס שנלמדו פקודות-תיקון עליהם בממוצע.95% ל- 93%מ- עלתה

דקות. 30כ , היה133 פנטיום מחשב הריצה, על זמן )עבור מרווח-וודאות הקודם, נקבל הפרק בסוף שבוצע לניתוח דומה סטטיסטי ניתוח לפי

(:95% של ודאות

93.8% לפחות יהיה שלנו השיטה של – הדיוק95% של היא, שבהסתברות התוצאה משמעות.

נותרו? שגיאות : אילו6 פרק שבוצעו מאמר, לאחר של הצורני בניתוח הנותרות השגיאות את בפירוט נתאר זה בפרק

הקודמים: בפרקים שתוארו הניתוח שלבי שלושת

0בהקשר תלות בנפרד, ללא מחרוזת לכל ביותר הסביר הניתוח מציאת – שלב-המחרוזת (.3 פרק)

0פרק) שאחריה והמחרוזת שלפניה המחרוזת לפי מחרוזת כל של הניתוח תיקון – שלב-הזוג 4.)

0פרק) המשפט כל של תחבירי ניתוח בעזרת המחרוזות של הניתוח תיקון – שלב-המשפט 5.)

הטעות. את לתקן היה ניתן המנתח, וכיצד טעה למה להסביר האפשר, ננסה במידת

Page 55: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

"הארץ". מעיתון לקוחים המאמרים שני

א מאמר א מטקסט-האימון המאמר את פקודות-התיקון, הסרנו מחרוזות. ללימוד468 בן הוא המאמר מחרוזות.4906 בגודל טקסט-אימון הספרות(, וקיבלנו בסקר )המתואר שברשותנו המנותח

המילוני. ( בערך2.6%) שגיאות12 (, מתוכן3.8%) שגיאות18 היו בניתוח1 מקטע

משרד מתיר שני המינימום, ומצד שכר את להוריד האוצר רוצה אחד "מצדזה" משכר בפחות עובדים להעסיק והרווחה העבודה

שגיאות:4 היו זה במשפט

)מילית-יחסmi-cadd תחיליות( במקום ללא )שם-עצםmcadכ- " נותחהמצד" המחרוזת.1שם-עצם(. ואחריה

. w-mi-cadd במקוםw-mcadכ- " נותחהומצד" המחרוזת.2 כ- נסמך( במקום שם-עצם ואחריה -)מילית-יחסmi-$radכ- " נותחהמשרד-" המחרוזת.3

mi$radתחיליות(. ללא נסמך - )שם-עצם של )רבים כשם-עצם נותחהpaxot המחרוזת , אולםb-paxotכ- " נותחהבפחות" המחרוזת.4

ככמת. פחה(, במקום והניתוח‰634 קיבלw-mcad בשלב-המחרוזת: הניתוח כבר קיימות היו2 ו- 1 שגיאות

w-mi-caddההפרש‰80 קיבל( (80=)0.9 הוא הצורני בציוןlog-(634)logדבר .) מכך נבע זה 5000כ- רק היה )שגודלו בקורפוס-האימון כלל הופיעו "מצד" ו"צד" לא המילוניים שהערכים

של לשכיחותן רק התייחס השונים הניתוחים הסתברויות חישוב של האלגוריתם מחרוזות(. לכן המחרוזות ניתוח כן, כי המילוניים. התברר, אם לערכים התייחס ולא הצורניות התכונות

עם כשם-עצם ניתוח מאשר יותר רבה במידה סביר הוא אותיות-יחס ללא כשם-עצם.26גדול יותר בקורפוס-אימון משתמשים היינו אם זו שגיאה למנוע היה שניתן אותיות-יחס. ייתכן

המחרוזת לפי הניתוחים בין המבדילה פקודת-תיקון שאין משום בשלב-הזוג תוקנה לא זו שגיאה פקודת-תיקון לומד היה שהמנתח יותר, ייתכן גדול היה קורפוס-האימון הבאה. שוב, אם

27. ( תוארmi-cadd"מ-צד" ) ( תוארmcad"מצד" )מהצורה:

- היתהmi$rad בשלב-הזוג: לניתוח לא וגם בשלב-המחרוזת קיימת היתה לא3 שגיאה(93=)0.65 הוא הצורני בציון )ההפרש93 הסתברות - היתהmi-$rad ולניתוח415 הסתברות

log-(415)log.) כ )שגודלו הספרות בסקר שתואר הקורפוס על בלבד שלב-המחרוזת של בביצוע 26

)w-mcad מהניתוח סביר יותרw-mi-cadd שהניתוח התגלה מחרוזות(, אכן166000 קיבלw-mcad הניתוח בקורפוס, אך בכלל הופיע "מצד" לא (. שם-העצם191 לעומת240

ו' שלפניו )שם-עצם שלו הצורניות התכונות של ההסתברות בגלל0מ גדולה הסתברותהחיבור(.

"מצד" שם-העצם אחרי שגם משום נלמדת היתה לא כזו שפקודה זה, ייתכן לעומת 27תואר. שיבוא סביר

Page 56: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

(2 " )שגיאהומצד" המחרוזת בניתוח השגיאה בשלב-המשפט: בגלל נוצרה זאת שגיאה שני ומצד" המקטע את צמצם " ולכןשני ומצד" הרכיב את לצמצם הצליח לא התחבירי המנתח

ומצדלרכיבים: " עד " רקזה משכר בפחות עובדים להעסיק והרווחה העבודה משרד מתיר את המנתח ששינה נושא(. לאחר יש מציין, כזכור, שלפועלO " )העיגול-להעסיקOמתיר- הפועל של " כנושאשני מצד" לרכיב התייחס -, הואmi-$rad " למשרד" המחרוזת ניתוח

מתיר שהמצד )כאילו 28הפועל של " כהשלמהוהרווחה העבודה משרד" הרכיב ", ואלמתיר"-Oו-לרכיבים: " המקטע את לצמצם המנתח הצליח זה עובדים...(. באופן להעסיק

0.82ב- גבוה - היהmi-$rad עם המשפט ניתוח של התחבירי ". לפיכך, הציוןמתיר-להעסיק(.5 פרק- )ע' בmi$rad עם מניתוחו

-w " לומצד" המחרוזת של הניתוח את לשנות – הנכונה האפשרות את גם ניסה המנתחmi-caddהצטמצם שהמשפט המידה, משום באותה השתפר זה במקרה התחבירי . הציון

של " כנושאוהרווחה העבודה משרד" לצירוף התייחס " )המנתח-להעסיקOומתיר-לרכיבים: " בציון ההפרש זה במקרה זה(. אולם פועל של " כהשלמהשני מצד" ", ולצירוףמתיר" הפועל-mi - לmi$rad הניתוח תיקון – השגויה האפשרות הועדפה (, ולכן0.9) יותר גבוה היה הצורני

$rad.- בשלב-המחרוזת כבר קיימת היתה : השגיאה2 ו- 1 לשגיאות המצב דומה4 בשגיאה

פקודת-תיקון נוצרה (, ולא187 קיבל כמספר והניתוח193 קיבל כשם-עצם )הניתוח תוקנה. נראה, לא ולכן התחבירי הניתוח על כלל השפיעה לא זו המקרים. שגיאה בין המבחינה

שהיינו ייתכן זה יותר. במקרה גדול היה האימון קורפוס אם נמנעת היתה זאת שגיאה גם כי הערך מאשר יותר הרבה "פחות" )ככמת( נפוץ שהערך-המילוני בשלב-המחרוזת כבר מגלים

"פחה". המילוני2 מקטע

המושבים... תנועת ולמזכיר הפנים לשר תפנה כי הודיעה נמיר

שגיאות:2 היו זה במשפט

(.ha-pnim) כשם-עצם-יחיד ( במקוםha-panim) כשם-עצם-רבים " נותחההפנים" המחרוזת.1 למקרה מתאימה פקודת-תיקון כל היתה לא בשלב-המחרוזת, ובשלב-הזוג נוצרה השגיאה

כאן בשלב-המשפט. גם תוקנה לא ולכן התחבירי הניתוח על כלל השפיעה לא זו זה. שגיאה היה פעמים, ניתן הפנים" כמה "שר הביטוי מופיע היה יותר, בו גדול שבקורפוס-אימון ייתכן

מהצורה: תיקון פקודת ללמוד(.pnim" )פנים" "שר "( panim" )פנים" "שר "

כשם-עצם ( במקוםw-l-ha-mazkir) נפרד מיודע כשם-עצם " נותחהולמזכיר" המחרוזת.2 קטן יתרון היה שלב-הזוג בשלב-המשפט. לאחר נוצרה זו -(. שגיאהw-l-mazkir) נסמך

בשלב . אולם0.04 היה הצורני בציון ; ההפרש‰322 לעומתw-l-mazkir-: ‰351 לניתוח משום ". זאתתפנה כי -הודיעהOלרכיבים: " עד - רקw-l-mazkir עם הניתוח צומצם המשפט

" והןהודיעה" הפועל של כנושא " הןנמיר" הרכיב את קישר לא המדומה שהמנתח-התחבירי

פעלים של לדרישות-השלמה התייחסות אין שבנינו המדומה התחבירי במנתח 28 אין זה מילת-יחס(. במקרה כל )עם השלמה כל לקבל יכול פועל כל מסויימים, כלומר

מ-שרד" " לעומתשני מ-צד)" האפשריות ההשלמות ששתי גדולה, משום משמעות לדבר".מ" מילית-היחס באותה "( מתחילותוהרווחה העבודה

Page 57: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

זאת, נושא. לעומת " ללאתפנה" הפועל נותר זה בניתוח ". לכןתפנה" הפועל של כנושא זה במקרה ", כיOתפנה- כי -הודיעהOלרכיבים: " עד צומצםw-l-ha-mazkir עם הניתוח תנועת" הרכיב הפך ", וכךהמושבים תנועת" הרכיב עם צומצם " לאולמזכיר" הרכיב

תנועת-המושבים כי הודיעה כתוב: "נמיר היה " )כאילותפנה" הפועל של " לנושאהמושבים מהציון0.046ב- גבוה היה זה ניתוח של התחבירי הציון ולמזכיר"(. לכן הפנים לשר תפנה

נבחר כך . בשל0.006=0.046-0.04 ב גבוה היה הסופי הנכון, והציון הניתוח של התחבירי.w-l-ha-mazkir עם הניתוח

זה: )במקרה אחד ששם יודע היה התחבירי המנתח אילו נמנעת היתה שהשגיאה ייתכן המנתח אם נמנעת היתה ייתכן, שהשגיאה שונים. עוד פעלים לשני כנושא לשמש "( יכולנמיר"

.29שם-עצם-נסמך תמיד "מזכיר" היא המחרוזת "מזכיר-תנועת-ה... " בו הצירוף את מכיר היה3 מקטע

העבודה במקום המקובלים הסוציאליים התנאים ...ומתן

-"(bimqom)" כמילת-יחס " נותחהבמקום" אחת: המחרוזת שגיאה היתה זה במקטע )מילת-היחס בשלב-המחרוזת נוצרה זאת -"(. שגיאהb-mqom)" כשם-עצם-נסמך ולא

כלשהן. גם פקודות-תיקון על-ידי תוקנה "מקום"(, ולא משם-העצם יותר "במקום" נפוצה בשני – התחבירי הניתוח על משפיעה שאינה משום השגיאה תוקנה לא בשלב-המשפט

השגיאה, כי את לגלות קשה המשמעות מבחינת תקני. למעשה, גם משפט מתקבל המקרים סוציאליים תנאים להם שיתנו רוצים הם – עבודה רוצים שאינם יגידו שהעובדים ייתכן בהחלט הצירוף את מכיר היה המנתח אם )לדעתי( רק נמנעת היתה זאת העבודה... שגיאה במקום

.30שם-עצם-נסמך תמיד " היאמקום" המחרוזת " בוהעבודה מקום"4 מקטע

זרים... עובדים להביא לה שיותר לחץ הפעילה המושבים ...תנועת

שגיאות:3 היו זה במקטע

(.hip&ila) כפועל ( במקוםha-p&ila) בנקבה כתואר " נותחההפעילה" המחרוזת.1) תחילית ללא כשם-עצם ( במקוםl-ha-xec) תחילית עם כשם-עצם " נותחהלחץ" המחרוזת.2

laxc.) של כנטיית-עתיד נותחה היא נסתר, אך בעתיד כפועל נותחה " אמנםשיותר" המחרוזת.3

(.e-yuttar"הותר" )$ הפועל של כנטיית-עתיד ( במקוםe-ywatter"ויתר" )$ הפועל ‰720 הסתברות קיבלha-p&ila )הניתוח בשלב-המחרוזת כבר נוצרה1 שגיאה

מתאימה פקודת-תיקון כל היתה לא הזוג (. בשלב279 הסתברות קיבלhip&ila והניתוחזו. שגיאה לתיקון

היה ביותר הסביר הניתוח שלב-הזוג בשלב-המשפט. לאחר נוצרה2 שגיאה קיבלl-ha-xec והניתוח182 קיבלlaxc , הניתוח‰279 קיבל זה (. ניתוחlaxac) כפועל-עבר

התנועהלרכיבים: " המשפט לצמצום הביא1 שגיאה עם בשילוב כפועל המחרוזת . ניתוח92 "מזכיר-" עם רבים צירופים מחרוזות( הופיעו165000 )בגודל הגדול בקורפוס 29

הצירוף )מזכיר-המדינה, מזכיר-התק"מ, וכו'(, אבל נסמך כשם-עצםאחת. נוספת פעם רק הופיע "מזכיר-תנועת-המושבים

נוספת. אחת פעם עבודה" רק "מקום הביטוי הופיע הגדול בקורפוס 30

Page 58: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

"תנועת-המושבים-הפעילה" לרכיב המקטע , צומצם1 שגיאה " )בגללשיותר-להביא לחץ המקטע את לצמצם אפשרhip&ila " לפועלהפעילה" המחרוזת ניתוח "(. שינויהתנועה"

. אולם0.3ב- התחבירי הציון את העלה זה ". דברשיותר-להביא לחץ -הפעילהOלרכיבים: " לה שיותר ל-חץ" המקטע את לצמצם אפשרla-xec" ל- לחץ" המחרוזת של הניתוח שינוי

כל מצמצם שלנו התחבירי שהמנתח ". זאת, משוםל-חץ" " לרכיבזרים עובדים להביא כפסוקית לפסוקית מתייחס )הוא ב"ש..." לשם-עצם שמתחילה פסוקית יש שאחריו שם-עצם

כל מצמצם שלנו התחבירי ". המנתחל-חץ התנועה" לרכיב כולו המקטע צומצם לוואי(. לכן שם-העצם(. של כלוואי לצירוף-היחס מתייחס )הוא לשם-עצם צירוף-יחס יש שאחריו שם-עצם

, והציון0.6ב- התחבירי הציון עלה ". לפיכךהתנועה" לרכיב האחרון זה רכיב צומצם לכןיותר. גבוה היה הסופי

" לפועלהפעילה" המחרוזת של הניתוח את גם בבת-אחת משנה המנתח היה אילוhip&ilaלשם-העצםלחץ" המחרוזת של הניתוח את וגם " laxcהשגיאות, כיוון כל נמנעות – היו

)זהו, כאמור,0 היה התחבירי " והציון-הפעילהO" לרכיב המשפט כל את לצמצם היה ניתן שכך אינו זה דבר נושא(. אולם עם פועל יש שבו למשפט ניתן אשר – ביותר הגבוה התחבירי הציון )ע' אחת מחרוזת של ניתוח רק פעם בכל משנה שלנו, אשר האלגוריתם באמצעות לביצוע ניתן

31נבדקה. לא כלל הנכונה האפשרות זה (. במקרה5 פרק

הסביר בשלב-הזוג( הניתוח )וגם בשלב-המשפט. בשלב-המחרוזת נוצרה3 שגיאה היתה ככמת כפועל(. לניתוח )ולאe-yoter$ ככמת " היהשיותר" המחרוזת עבור ביותר

קיבל . בשלב-המשפט‰146 הסתברות היתה כפועל הניתוחים שלשני בעוד‰361 הסתברות הסתברות אותה היתה הפעלים שלשני ביותר. כיוון הגבוה הציון את כפועל המחרוזת ניתוח למנוע היה שגויה. אפשר היתה בחירתו הצער ולמרבה – באקראי מהם אחד המנתח בחר

להיות חייב שלו שהנושא פועל היאe-ywatter$ שהמחרוזת מגדירים היינו אילו זאת שגיאה אדם אין זה שבמקטע נושא. זאת, משום פסוקיות מכיר היה התחבירי המנתח אדם, ואילו

הפסוקית משמשתe-yuttar$ למחרוזת ; ואילוe-ywatter$ הפועל של כנושא לשמש שיכול" כנושא.זרים... עובדים להביא"

6 מקטע

ישראליים. עובדים על העדפתם למנוע ... כדי

) כפועל-עבר " נותחההעדפתם" המחרוזת – אחת שגיאה היתה זה במקטעhe&daptemכינוי-שייכות עם כשם-עצם ( במקום (ha&dapatamשגיאה .) כבר נוצרה זו

התחבירי גדולה(, והניתוח יותר קצת הסתברות היתה כפועל )לניתוח בשלב-המחרוזת מצמצם אינו התחבירי המנתח השגויה, כי הבחירה את חיזק בשלב-המשפט

ראוי אכן ימינו של 'את'. בעברית מילת-היחס לפניו מופיעה לא אם מושא-ישיר-מיודע-דקדוקית הואha&dapatam שם-העצם ", כיישראליים עובדים על העדפתם את למנוע כדי" לכתוב היה

ציון גם קיבל " כפועלהעדפתם" המחרוזת כינוי-שייכות(. לפיכך, ניתוח לו )יש מיודע-דקדוקיתיותר. גבוה תחבירי8 מקטע

הזרים... העובדים העסקת את לחסל בדרישה לממשלה לפנות הוועדה ...על

הדומים )ביטויים פעמיים לחץ" עוד "הפעיל הביטוי הופיע הגדול בקורפוס 31אחת(. פעם אחד כל לחץ" – הופיעו לחץ" ו"הפעלת -- "הופעל המשמעות מבחינת

Page 59: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

(b-ha-dri$a) מיודע כשם-עצם "בדרישה" נותחה המחרוזת – אחת שגיאה היתה זה במקטע המיודע )לניתוח בשלב-המחרוזת נוצרה זו (. שגיאהb-dri$a) לא-מיודע כשם-עצם במקום

אפשרות שום היתה (, ולא491 הסתברות היתה הבלתי-מיודע ולניתוח508 הסתברות היתה מכיר המנתח היה אילו רק נמנעת היתה זו שגיאה32בשלב-המשפט. או בשלב-הזוג אותה לתקן

זה במקרה לציין, כי )יש מיודעת "בדרישה" אינה המחרוזת בדרישה..." בו "לפנות הביטוי אתהמיודע(. הניתוח את בוחר היה אנושי מנתח שגם ייתכן

במקטע: גם התגלתה השגיאה אותההזרים... העובדים עבודת את חודש בתוך לבטל בדרישה והרווחה העבודה למשרד לפנות יש

9 מקטע

המינימום. בשכר עבודה בכל לעבוד המוכנים העולים היצע ...על-רקע

כפועל-עזר. השגיאה ולא כתואר "המוכנים" נותחה המחרוזת – אחת שגיאה היתה זה במקטע היתה כפועל-עזר ולניתוח560 הסתברות היתה כתואר לניתוח – בשלב-המחרוזת כבר נוצרה

. 179 הסתברותפקודת-התיקון: הופעלה בשלב-הזוג

+(0+( פועל)621פועל-עזר) פועל לא-פועל-עזר התקבלו הנרמול . לאחר800ל- כפועל-עזר הניתוח של הסתברותו גדלה התיקון בעקבות

היה זה כפועל-עזר. בשלב הניתוח עבור494ו- כתואר הניתוח עבור346ההסתברויות: אחרת: פקודת-תיקון הופעלה אז הנכון. אך הניתוח גם ביותר הסביר הניתוח

+(215+( תואר)296שם-עצם) לא-תואר שם-עצם היה המועדף ההסתברויות, והניתוח השתנו שוב השניה התיקון פקודת הפעלת בעקבות

התואר... "על-רקע לרכיב התייחס התחבירי שהמנתח השגיאה. זאת, משום תוקנה לא בשלב-המשפט

בכל כתוב: "לעבוד היה "לעבוד" )כאילו הפועל של השלמה המוכנים" כאל העולים היצע לחלוטין המקטע צומצם המוכנים"(, ולכן העולים היצע רקע על המינימום בשכר עבודה

תוקנה. לא והשגיאה לאחר מחדש נוצרה שהיא השגיאה, משום את למנוע ניתן היה כיצד לי ברור לא זה במקרה

תוקנה. שכבר10 מקטע

לתאילנדים. רטרואקטיביים תשלומים ...ולמתן

במקום לא-מיודע כשם-עצם "לתאילנדים" נותחה אחת: המחרוזת שגיאה היתה זה במקטע שיכולה פקודת-תיקון שום היתה לא זה במקרה למעלה, גם 8מקטע ב מיודע. כמו כשם-עצם

אם רק להימנע יכולה זה מסוג אותה. שגיאה תיקן לא התחבירי הניתוח השגיאה, וגם את לתקן

ב(. )ע' פרק שם-עצם כל של ליידוע גם מתייחסים שבשלב-המחרוזת לזכור יש 32 ואת המיודעים המופעים מספר את בקורפוס-האימון שם-עצם כל עבור כלומר: סופרים

הניתוח על השפעה כל לדבר היתה לא זה במקרה הבלתי-מיודעים. אבל המופעים מספר להגביר כדי פעמים מספיק האימון בקורפוס הופיעה " לאדרישה" המחרוזת )כנראה שנבחר

הבלתי-מיודע(. הניתוח הסתברות את

Page 60: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

המאוחר שבמופע סביר במאמר, ולכן קודם נזכר "תאילנדים" כבר ששם-העצם יזכור המנתח33מיודע. יהיה הוא

11 מקטע

זרה. כעובדת אחות אף בארץ תועסק לא השנה סוף עד

שגיאות: שתי היו זה במקטענסמך. כשם-עצם במקום נפרד כשם-עצם " נותחהסוף" המחרוזת במילון כשם-עצם-מיודע. ]נזכיר, כי במקום כתואר-פועל " נותחההשנה" המחרוזת

עצמאי מילוני " כערךהשנה" המילה הבסיסי, מופיעה הצורני הניתוח בשלב בו שהשתמשנו כשם-עצם הניתוח רק קיים דקדוקית שמבחינה תואר-פועל, למרות הוא שלו שחלק-הדיבר

מיודע[. קטן הנכון( בהפרש )הניתוח נסמך " כשם-עצםסוף" המחרוזת נותחה שלב-הזוג לאחר

(.0.01 הוא הצורני בציון – ההפרש‰493 לעומת‰506) נפרד כשם-עצם מהניתוח –‰487 לעומת‰512) במעט אך גדול בהפרש כתואר-פועל " נותחההשנה" המחרוזת(. 0.02 הוא הצורני בציון ההפרש

" לאסוף" ו"עד" " )המחרוזותOסוף- תועסק- "עד לרכיבים המקטע צומצם בשלב-המשפט המחרוזת ניתוח את המנתח זאת, החליף סומך(. בעקבות היה -" לאסוף" לנסמך כי צומצמו

היה " )כאילותועסק" הפועל של השלמה " כאלסוף עד" לרכיב והתייחס לנפרד " מנסמךסוף" לצמצם היה ניתן זה "(. באופןסוף עד זרה כעובדת אחות אף בארץ תועסק לא השנהכתוב: "

המחרוזת של נכון יותר. ניתוח גבוה היה התחבירי הציון ", ולכןOתועסק-" לרכיב המשפט את הצורני בציון שההפרש מפני המידה, אך באותה התחבירי הציון את משפר הוא גם " היההשנה"

"סוף". וכך המחרוזת ניתוח תיקון של האפשרות ( נבחרה0.01 לעומת0.02) יותר גדול היה בניתוח שגיאה הוסיף " הואהשנה" המחרוזת בניתוח השגיאה את יתקן שהמנתח במקום

34הראשונה... השגיאה 'חיפתה' על "סוף", אשר המחרוזת

12 מקטע

לתאילנדים. במקום ישראליים לעובדים לדאוג לחקלאים קורא השירות

( במקוםb-maqom) כשם-עצם " נותחהבמקום" אחת: המחרוזת שגיאה היתה זה במקטע לניתוח יתרון היה בשלב-המשפט. בשלב-המחרוזת נוצרה זאת -(. שגיאהbimqom) כמילת-יחס

bimqom( 461אבל175 לעומת ;) שתי לצמצם ניתן לפיה הוראה אין שלנו התחבירי למנתח לחלוטין. המקטע את לצמצם הצליח לא הוא ולכן35-(bimqom l )כגון רצופות מיליות-יחס

שם-העצם את צמצם ( המנתחb-maqom) השגוי בניתוח הוחלף הנכון זאת, כשהניתוח לעומת מאשר יותר גבוה היה התוצאה של התחבירי "לתאילנדים", והציון צירוף-היחס "מקום" עם

הנכון. הניתוח של התחבירי הציון במאמר " מופיעהבדרישה" מקרה, למשל: המחרוזת בכל נכון אינו זה כלל 33

מיודעת. אינה היא ובשתיהן פעמיים כנסמך " הופיעהסוף" המחרוזת שבהם רבים צירופים הופיעו הגדול בקורפוס 34

אחת פעם רק השנה" הופיע "סוף הצירוף העונה" וכו'( אבל החודש", "סוף )"סוףנוספת.

מתחתלכללי-הצמצום: " ידני באופן שהוכנסו ספורים מיוחדים למקרים פרט 35".ל... מחוץ" ו"ל... מעל", "ל...

Page 61: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

ח מאמר ב מטקסט-האימון המאמר את פקודות-התיקון, הסרנו מחרוזות. ללימוד763 בן הוא המאמר מחרוזות.4611 בגודל טקסט-אימון הספרות(, וקיבלנו בסקר )המתואר שברשותנו המנותחהמילוני. ( בערך1.7%) שגיאות13 (, מתוכן3.5%) שגיאות27 היו בניתוח1 מקטע

גלויה'." בתוקפנות כאן הנשיא, 'מדובר נפט', כעס 'לא

, כעסוka&s) כשם-עצם-נסמך " נותחהכעס" אחת: המחרוזת שגיאה היתה זה במשפט בשלב-המחרוזת: הניתוח נוצרה (. השגיאהka&as) כפועל-עבר הנשיא( במקום של

‰121 הסתברות קיבל כפועל-עבר והניתוח‰470 הסתברות קיבל כשם-עצם-נסמך "כעס-הנשיא" הינו הזוג בשלב-הזוג, כי תוקנה לא (. השגיאה0.58 היה הצורני בציון )ההפרש

כשם-עצם-נסמך הניתוח לתקנו. בשלב-המשפט, אמנם, קיבל סיבה ואין חוקי סמיכות צירוף פועל( – ללא שם-עצם נשאר הצמצום אחרי )כי הנכון הניתוח שקיבל מזה נמוך תחבירי ציון

(. 0.3) הניתוח את לתקן מכדי קטן היה התחבירי בציון ההפרש אבל5 מקטע

כברית-המועצות למדינות אותם מיצאת ... היא

במקום מיודע כשם-עצם " נותחהלמדינות" אחת: המחרוזת שגיאה היתה זה במשפט ניתן שלא לי א, נראה במאמר 10מקטע וב 8מקטע ב כאן, כמו לא-מיודע. גם כשם-עצם

השגיאה. את למנוענוספים: מקטעים בכמה היו דומות שגיאות

0התנגדות באיובה איפוא מעוררים אלטרואיסטיים מניעים רק לא במקום מיודע כשם-עצם נותחה"למלחמות" המחרוזת – למלחמותמיודע לא כשם-עצם

0'peace nowבאנגלית" – המחרוזתבאנגלית... הכותרת ' אמרה" מיודע לא כשם-עצם במקום מיודע כשם-עצם נותחה

0לקח לא ארה"ב, מעולם שאיש, כולל מוסד של המוסרית ...האוטוריטה במקום מיודע כשם-עצם " נותחהברצינות" – המחרוזתברצינות...

לא-מיודע. כשם-עצם

0נותחהבזהירות" המחרוזת – בזהירות בצורך מאמינים ...ושניהם " לא-מיודע. כשם-עצם במקום מיודע כשם-עצם

6 מקטע

במערב אחרות חקלאיות מדינות עם איובה, יחד נקלעה1980... בקשה... התיכון, לסחרור

שגיאות:3 היו זה במקטע

Page 62: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

כשם-עצם-נפרד, במקום כשם-עצם-נסמך " נותחהמדינות" המחרוזת "חקלאיות מדינות" הצירוף )כלומר כתואר במקום כשם-עצם " נותחהחקלאיות" המחרוזת

חקלאיות"(. של "מדינות כצירוף-סמיכות נותחכתואר. במקום כפועל-בינוני " נותחהקשה" המחרוזת

" נותחהמדינות" , כלומר: המחרוזת1 שגיאה רק קיימת היתה בשלב-המחרוזת כשם-עצם-נפרד והניתוח‰632 הסתברות קיבל כשם-עצם-נסמך )הניתוח כשם-עצם-נסמך

‰397 קיבל כתואר )הניתוח כתואר " נותחהחקלאיות" (, והמחרוזת‰367 הסתברות קיבל את להפעיל האפשרות את המנתח בחן (. בשלב-הזוג‰159 קיבל כשם-עצם והניתוח

פקודת-התיקון:+(0+( לא-שם-עצם)252לא-שם-עצם-נסמך) לא-שם-עצם שם-עצם-נסמך

(. כך632>252+367) מדי קטנה היתה שהתוספת משום הופעלה לא זו פקודה לבסוף אךפקודת-התיקון: לגבי גם המצב היה

+(429+( תואר-מתאים-במספר)17שם-עצם-נפרד) תואר שם-עצם-נסמךפקודת-התיקון: הופעלה לבסוף

+(207+( שם-עצם)0שם-עצם-נסמך) לא-שם-עצם שם-עצם-נסמך.2 שגיאה נוצרה ", וכךחקלאיות" המחרוזת ניתוח את שיבשה זו פקודת-תיקון

במערב אחרות חקלאיות מדינות עם יחד" בשלב-המשפט. המקטע היא אף נוצרה3 שגיאה ".נקלעה" הפועל של השלמה " הינוקשה לסחרור" המקטע מאמר-מוסגר, ולכן " הינוהתיכון מוסגרים, הוא במאמרים להבחין כדי מספיק מתוחכם אינו שלנו המדומה שהמנתח כיוון אולם של השלמה " כאללסחרור" למחרוזת והתייחס " לפועלקשה" המחרוזת ניתוח את שינה

של לדרישות-השלמה כלל מתייחס אינו שלנו התחבירי המנתח לזכור, כי )יש הזה הפועלפועל(. כל להשלים יכול צירוף-יחס פעלים: כל

7 מקטע

דם" מקפיאת "...קריקטורה

כתואר במקום נפרד כתואר " נותחהמקפיאת" אחת: המחרוזת שגיאה היתה זה במקטע מתקבלת שלהם שצורת-הנקבה תארים הצורני: יש במנתח מפגם נבעה זאת נסמך. שגיאה

מבדיל אינו הצורני המנתח 'ת' )כמו: 'ייחודי' – 'ייחודית'(, אך תוספת על-ידי המילוני מהערך שני עבורו יוצר הצורני תואר+'ת' – המנתח יש בו מקרה רגילים. לפיכך, בכל תארים לבין בינם

הניתוח של ההסתברות היתה נסמך. בשלב-המחרוזת וכתואר נפרד כתואר – ניתוחים נפוץ הינו )תואר-נפרד כתואר-נסמך הניתוח של מההסתברות גבוהה יותר מעט כתואר-נפרד

היתה שיכולה פקודת-תיקון נמצאה לא תואר-נסמך(. בשלב-הזוג מאשר בעברית יותר הרבה36בעברית(. נפוץ לא מאד הוא שתואר-נסמך )שוב, מפני זו שגיאה לתקן

8 מקטע

וייטנאם' עוד תהיה שפתיי, ג'ורג' לא את 'קרא

ביטויים חיפוש שאפילו דם", כך "מקפיא הביטוי כלל הופיע לא הגדול בקורפוס 36זה. במקרה השגיאה את מתקן היה לא

Page 63: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

^( במקוםqara) כפועל-עבר " נותחהקרא" אחת: המחרוזת שגיאה היתה זה במקטע‰ הסתברות קיבל כפועל-עבר )הניתוח בשלב-המחרוזת נוצרה ^(. השגיאהqra) כפועל-ציווי

קיבל כפועל-ציווי הניתוח (. בשלב-המשפט‰400 הסתברות קיבל כפועל-ציווי והניתוח600 כפועל-עבר הניתוח שלפי משום עבר. זאת כפועל הניתוח מאשר גבוה יותר קצת תחבירי ציון

בציון שההפרש זה, כיוון נושא. למרות צריך אינו פועל-ציווי ", בעודקרא" לפועל נושא חסר השגוי הניתוח לבסוף – נבחר0.18 היה הצורני בציון ההפרש - ואילו0.04 היה התחבירי

יותר(. גבוה היה שלו הסופי )הציוןבמקטעים: גם היתה דומה שגיאה

שפתיי... את קרא

חדשים מסים יהיו לא שפתיי את קראו

שהביטוי יודע היה "ידע-העולם", והמנתח במערכת משלבים היינו אם נמנעות היו אלו שגיאות מעבר הרבה זה, כמובן, חורג מסוג כציווי. ידע נאמר לג'ורג' בוש שפתיי" בקשר את "קראו

זו. עבודה של להיקפה10 מקטע

כבר שמעתי בארה"ב, לא ליברלים בין מקובלים היו כאלה, שפעם טיעוניםזמן. הרבה

כתואר. במקום כשם-עצם " נותחהמקובלים" אחת: המחרוזת שגיאה היתה זה במקטע עם גם תקני הוא שהמשפט הבאים, כיוון בשלבים תוקנה ולא בשלב-המחרוזת נוצרה השגיאה השגוי, הניתוח לחלוטין: לפי שונה היא משמעותו כי )אם כשם-עצם המחרוזת של השגוי הניתוח

בארה"ב'...(. ייתכן ליברלים בין שהסתובבו מצפת מקובלים כמה היו 'פעם הם הטיעונים שם-העצם מאשר יותר " נפוץמקובל" התואר כי נקבע היה אילו נמנעת היתה זו ששגיאה

של בנושא תלויה היא – תלויית-הקשר היא שכזו קביעה כי לציין זה, יש עם " )יחדמקובל"המנותח(. המאמר11 מקטע

"…ופרגמטיים הגיוניים אנשים מלא "…שהוא

כפועל-בינוני. במקום כפועל-עבר " נותחהמלא" אחת: המחרוזת שגיאה היתה זה במקטע השפעה שום לה היתה שלא הבאים, כיוון בשלבים תוקנה ולא בשלב-המחרוזת נוצרה השגיאה

משתמשים היינו אילו רק נמנעת היתה זו שגיאה המשפט. לדעתי של התחבירי הניתוח על בצורת יותר " מופיעמלא" הפועל כי להסיק ניתן היה במיוחד, שמתוכו גדול בקורפוס-אימון

.37העבר בנטיית מאשר הבינוני12 מקטע

לקח לא ארה"ב, מעולם שאיש, כולל מוסד של המוסרית ...האוטוריטהברצינות..

שגיאות: שתי היו זה במקטע

שונה: הניתוח תוצאה התקבלה אכן הגדול הקורפוס על שלב-המחרוזת בביצוע 37 112 הסתברות קיבל כפועל-עבר והניתוח פרומיל115 הסתברות קיבל כפועל-הווה

פרומיל.

Page 64: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

)ע' למעלה מיודע לא כשם-עצם במקום מיודע כשם-עצם " נותחהברצינות" המחרוזת(5מקטע ב

כתואר. למעשה, המקטע של"( במקום )"הכולל כשם-עצם-נסמך " נותחהכולל" המחרוזת ולכן מוסגרים מאמרים לנתח יודע המנתח אין – שראינו מאמר-מוסגר. כפי " הואארה"ב כולל"

המקטע אל ארה"ב'( ולהתייחס של )'הכולל כשם-עצם זו מחרוזת לנתח האפשרות הועדפה38".איש" שם-העצם של כתמורה

13 מקטע

המפרץ על להסכים נטו עניין, אבל שום על להסכים יכלו לא ...אמנםהפרסי.

בעתיד כפועל " נותחהיכלו" אחת: המחרוזת שגיאה היתה זה במקטע(yikluבמקום ) בעבר עזר כפועל (yakluשגיאה .) בשלב נוצרה זו

לבעיות גורמת אינה שהיא הבאים, משום בשלבים תוקנה ולא המחרוזת היה אילו נמנעת היתה שהשגיאה המשפט. ייתכן של התחבירי בניתוח"כלה". מהפועל יותר נפוץ "יכל" הינו שהפועל לומד המנתח

14 מקטע

להפלת המאבק את אפשרי, וחייב צבאיות הוצאות סעיף בכל תמך טוקיניקרגואה. ממשלת

כפועל " נותחהוחייב" אחת: המחרוזת שגיאה היתה זה במקטע נוצרה זו (. שגיאהw-xiyyeb) בעבר כפועל !( במקוםw-xayyeb) בציווי

התחבירי א(, המנתח במאמר 2מקטע )ב הוסבר שכבר בשלב-המשפט: כפי קישר לזה, לא שונים. בהתאם פעלים שני של כנושא שם מקשר אינו שלנו

המחרוזת ". לפיכך, נותחהחייב" הפועל של " כנושאטוקי" השם את המנתחנושא. ללא פועל-עבר ייוותר שלא " כפועל-ציווי, כדיחייב"

16 מקטע

שווה. כמעט נציים, במידה יונים יוניים, או נצים שניהם הפרסי במפרץ

כתואר-נקבה. במקום כפועל-ציווי " נותחהשווה" אחת: המחרוזת שגיאה היתה זה במקטע קיבל כתואר-נקבה והניתוח‰170 הסתברות קיבל כפועל-ציווי הניתוח בשלב-המחרוזת

פקודת-התיקון: הפעלת בשלב-הזוג, בגלל נוצרה זו . שגיאה‰281 הסתברות+(221) +( פועל0תואר-פועל) לא-פועל תואר-פועל

17 מקטע

אינסטינקטיווית... בדלנות של הגונה מידה גם חוזרת השטח פני ...ואל

במקום כתואר-פועל " נותחהאינסטינקטיווית" אחת: המחרוזת שגיאה היתה זה במקטע ‰502 הסתברות קיבל כתואר-פועל בשלב-המחרוזת: הניתוח נוצרה כתואר. השגיאה

. ‰246 הסתברות קיבל כתואר והניתוח ]שם-עצם[" כ- "כולל מהצורה מוסגר מאמר הופיע הגדול בקורפוס לציין, כי יש 38 פעמים.30

Page 65: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

זו: שגיאה לתקן יכולה שהיתה פקודת-תיקון היתה אמנם בשלב-הזוג+(237+( תואר)0שם-עצם) לא-תואר שם-עצם

(.502 > 237+246) מדי נמוכה היתה שהתוספת משום הופעלה לא הפקודה אולם הניתוח עם גם תקין הוא שהמשפט השגיאה, משום תוקנה לא בשלב-המשפט גם

של הגונה מידה גם השטח פני אל כתוב: "אינסטינקטיווית, חוזרת היה )כאילו כתואר-פועל יותר קרוב נמצא תואר-הפועל כלל )בדרך סביר אינו כזה תחבירי בדלנות"(. אמנם, ניתוח

משתמש אינו כי זה מעין שיקולים להפעיל יכול אינו שלנו התחבירי המנתח לפועל(, אולםהסתברותי. בדקדוק19 מקטע

אלף.52 רק קיבל טוקי

במקום כשם-עצם " נותחהאלף" אחת: המחרוזת שגיאה היתה זה במקטע מפני הבאים בשלבים תוקנה ולא בשלב-המחרוזת נוצרה כשם-מספר. השגיאה

דק הוא הניתוחים בין התחבירי. ההבדל הניתוח על השפעה לה היתה שלאכלל(. שגיאה כאן נעשתה לא שושן אבל מילון לפי – )למעשה מאד

20 מקטע

שבעה או מששה כאחד הארקין את דאיין טום אייפא"ק מנכ"ל תיאר84"ב- '. " יהודי ' כסף בזכות סנאטורים, שנבחרו

שגיאות:2 היו זה במקטעלמעלה(. 19מקטע ב )כמו כשם-מספר במקום כשם-עצם " נותחהכאחד" המחרוזת שזו בטוח לא נסמך. אני כשם-מספר במקום נפרד כשם-מספר " נותחהמששה" המחרוזת

התחבירי ". המנתחסנאטורים" לשם-עצם נסמך " הואששה" שהמספר לי נראה אבל שגיאההעוקבת. המחרוזת הינו הסומך שם-העצם אם רק כנסמך שם-עצם מנתח שלנו

21 מקטע

השנה. ממנה יימנע שהוא ספק , ואין דיסקרטית – לא התרברבות היתה זו

( ולאmmanne) כפועל-הווה " נותחהממנה" אחת: המחרוזת שגיאה היתה זה במקטע האפשרות את המנתח בחן בשלב-המשפט. תחילה נוצרה זו (. שגיאהmimmenna) כמילת-יחס

אל המנתח לזאת, התייחס יחס(. בהתאם כמילת – הנכון )הניתוחmimmenna הוא שהניתוח ".ספק" שם-העצם את המשלימה לוואי פסוקית " כאלהשנה ממנה יימנע שהוא" המקטע שינה כך, המנתח ". בשלואין-ספקאחרים: " לרכיבים קשור שאינו צירוף-יחס נותר זה בניתוח

"יימנע שהוא" המקטע הפך זה (. בעקבותmmanne) לפועל-בינוני המחרוזת ניתוח את העיקרי הפועל להיות " הפכהממנה" המחרוזת ", ואילוספק" המחרוזת של לוואי לפסוקיתממנה"(. הספק אין כתוב: "השנה היה )כאילו במשפט

Page 66: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

תקני " כמשפטש... ספק אין" הצירוף הגדרת על-ידי זו משגיאה להימנע היה לדעתי, ניתן39 עיקרי. פועל בו שאין נראה שלכאורה למרות

22 מקטע

כהונה לתקופת הנבחר איובה בתולדות הראשון הדמוקרטי הסנאטור הואשניה.

-ba)" נפרד מיודע כשם-עצם " נותחהבתולדות" אחת: המחרוזת שגיאה היתה זה במקטעtoldotנסמך כשם-עצם "( במקום "(b-toldotהשגיאה .)"- תוקנה ולא בשלב-המחרוזת נוצרה

היה: התחבירי המנתח של הצמצום מחוקי שאחד בשלב-המשפט. זאת, משום. שם-עצם שם-פרטי שם-עצם מדי, שכן כללי זה ' . מסתבר, שחוקחיפה העיר' ' אונמיר ח"כ' כגון לצירופים נועד זה חוק

" ולנתחתולדות" " לרכיבאיובה תולדות" הצירוף את לצמצם למנתח אפשר הוא זה במקרהנסמך. כשם-עצם ולא נפרד " כשם-עצםתולדות" המחרוזת את

23 מקטע

החוץ. סיוע חוק בעד בעתיד גם הארקין, שיצביע על חזקה

נפרד. כשם-עצם במקום כתואר " נותחהחזקה" אחת: המחרוזת שגיאה היתה זה במקטע חזקה" הצירוף הגדרת על-ידי זו שגיאה למנוע היה למעלה, ניתן 21מקטע ב לשגיאה בדומה

40מסויימת. משמעות בעל " כצירוףעל... ש...

סיכום ג בו הניתוח לשלב בהתאם השגיאות פירוט שגיאות. הנה45 היו המאמרים בשני בסך-הכל

נוצרו:

432ניתוח. כל של ההסתברויות בקירוב שגיאה בשלב-המחרוזת, בגלל נוצרו שגיאות510בשלב-המשפט. נוצרו שגיאות62(16מקטע ו6מקטע ח, )מאמר בשלב-הזוג נוצרו שגיאות7(7מקטע ח, )מאמר הצורני במנתח פגם בגלל נוצרה אחת שגיאה

לאופי שלב-המשפט(, בהתאם )לפני המוקדמים בשלבים שנוצרו השגיאות35 פירוט הנההשגיאה:

88ברצינות" במקום )כגון שם-עצם של מצב-היידוע זיהוי של שגיאות היו שגיאות" על כלל השפיעו לא שהן כיוון בשלב-המשפט אותן לתקן אפשר היה "ברצינות"(, ולא

התחבירי. הניתוח99לתקן היה ניתן לא אלו שגיאות שם-עצם. גם של שגוי לניתוח קשורות היו נוספות שגיאות

הפנים= "משרד )למשל התחבירי הניתוח על כלל השפיעו לא הן שגם משום בשלב-המשפט

פעמים.10" כ- ש... ספק אין" הצירוף הופיע הגדול בקורפוס 39 )הוא הזאת " במשמעותעל... חזקה" הצירוף בכלל הופיע לא הגדול בקורפוס 40

"(הילד... על חזקה לקבל" אחרת, במקטע במשמעות אחת פעם הופיע

Page 67: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

panimהפנים= "משרד " במקוםpnimמדינות ]של[ חקלאיות" במקום ", "מדינות" חקלאיות" וכו'(.

106הלא-נכון, השורש או הלא-נכון הזמן )בחירת פועל של שגוי לניתוח קשורות היו שגיאות לא הן גם כי בשלב-המשפט לתקן אפשר היה לא אלו שגיאות (. גםyaklu במקוםyiklu כגון

התחבירי. הניתוח על כלל השפיעו1111רחבות ניתוח יכולות היו התחבירי למנתח בשלב-המשפט, אילו לתקן אפשר היה שגיאות

שגיאה(. לכל הסיבות למעלה, בניתוח בפירוט שהוסבר )כפי יותר12כל את בודק גבעה"( היה על )"טיפוס שלנו האלגוריתם אילו לתקן אפשר היה אחת שגיאה

א. במאמר 4מקטע ע' ב – האפשרויות שלנו האלגוריתם של לאופיו לייחס גם-כן ניתן בשלב-המשפט, אחת שנוצרו השגיאות10 מתוך

למנתח אילו נמנעות היו הנותרות השגיאות9א(. במאמר 4מקטע – מקטע )ע' באותויותר. מקיפות ניתוח יכולות היו שלנו התחבירי

בלבד שגיאות2מושלם, ו- היה שלנו התחבירי המנתח אילו נמנעות היו שגיאות20בסך-הכל, האפשרויות(. כל את בודק )כלומר מושלם היה שלנו האלגוריתם אילו נמנעות היו

לבדוק בתוכנה. כדי ביטויים הגדרת באמצעות חלקן את למנוע היה השגיאות, ניתן45 מתוך ",אחד... מצדנפוצים: " ביטויים מספר ידני באופן הוספנו הכרת-ביטויים של ההשפעה את

",העבודה מקום", "השנה סוף", "לחץ הפעיל", "מ... פחות", "הפנים משרד", "שני... מצד" 8 לתיקון גרמה זו ". תוספתעל... ש... חזקה", "ש... ספק אין", "... כולל", "דם מקפיא"

מתוך שגיאות12 בסך-הכל – ח במאמר27 מתוך שגיאות4 א, ועוד במאמר18 מתוך שגיאות יעילה דרך מצאנו לא ידני. עדיין באופן הוספו שהביטויים היא זה בפתרון היחידה . הבעיה45

מנותח. לא מטקסט עצמאי באופן ביטויים ללמוד למחשב שתאפשר

Page 68: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

ומסקנות : סיכום7 פרק

שונות מרמות מידע של שילוב על-ידי בעברית הצורני הניתוח בעיית את לפתור ניסינו זו בעבודה מבחינות האלו הרמות בין נשווה זה המשפט. בפרק ורמת הזוג הבודדת, רמת המילה רמת–

שונות.

מהשלבים אחד כל של התרומה א הסופי, לדיוק תורם הוא השלבים, וכמה משלושת אחד כל של היחסית התועלת מה לבדוק כדי

השלבים. שלושת של אחר צירוף עם פעם בכל – פעמים8א( מאמר )על התוכנה את הרצנושהתקבלו: התוצאות ואלו

הניתוח את מילה לכל לבחור שבמקום היא הופעל, הכוונה לא המילה ששלב ]הערה: כשכתובאקראי[ ניתוח נבחר שלה ביותר הסביר

הסופית הדיוק לרמת הניתוח משלבי אחד כל של : התרומה2מס' טבלה

Table No. 2: The contribution of each phase of the morphological analysis to the final accuracy level

שלב הופעל האםהמילה?

שלב הופעל האםהזוג? שלב הופעל האםהמשפט?

השגיאה? אחוז היה מה

36לאלאלא14לאלאכן

21לאכןלא7לאכןכן

20כןלאלא5.3כןלאכן

14כןכןלא3.8כןכןכן

Page 69: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

63

41

12

7

02

3.5

41

8.3

)למטה=לא, שלב-המילה את מסמל האנכי הציר שלמעלה, שבו בגרף מסוכמות התוצאות השלישי )ימינה=לא, שמאלה=כן(, והציר הזוג שלב את מסמל האפקי למעלה=כן(, הציר

)אחורה=לא, קדימה=כן(. המשפט שלב את מסמל

מופעלים שלושתם כאשר השלבים: רק שלושת לכל חשיבות יש עולה, כי אלה מנתונים המתקן הוא המילה שלב לראות, כי ניתן זה עם ביותר. יחד הנמוך השגיאה אחוז מתקבל למעלה(, מלמטה כשעוברים מתקבלת באחוז-השגיאה ביותר הגדולה )הירידה בניתוח העיקריהמשפט. שלב – ואחריו

התגלו הזוג שבשלב מהעובדה נובע זה יחסית. לדעתי, דבר קטנה היא שלב-הזוג של התרומה של ידנית הקודם, תוספת הפרק בסוף שהוסבר ספציפיים. כפי ביטויים ולא כלליים חוקים רק

השגיאה אחוז את להוריד ובכך שנשארו מהשגיאות רבע בערך לתקן איפשרה נפוצים ביטויים.3%ל- מתחת הסופי

( היו45%כ- )כלומר שנשארו השגיאות45 מתוך20הקודם, הפרק בסוף שנאמר כפי.2%ל- יורדת היתה השגיאה רמת זה יותר. במצב מתוחכם התחבירי המנתח היה אילו נמנעות

מהשלבים אחד כל של הקושי בוזיכרון(: )זמן משאבי-מחשב של שונה כמות דורש השלבים משלושת אחד כל13של צירוף לכל כי רב מקום דורש הוא ללימוד, אבל יחסית קצר זמן דורש שלב-המילה

הוא הביצוע זאת, בעת שלו. לעומת אפשרי ניתוח לכל ההסתברות את לזכור צריך אותיותמילה. לכל ביותר הסביר הניתוח את לבחור רק המנתח על שכן ביותר מועט זמן דורש

14משאבים: מאוד מעט דורש הוא הביצוע בעת ללימוד, אבל למדי רב זמן דורש שלב-הזוג בודדות(, והפעלת )עשרות פקודות-תיקון של גדול לא מספר רק לזכור צריך המנתח

כמעט. אפסי זמן דורשת הפקודות

Page 70: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

15באופן נכתבו חוקי-הצמצום )כל ללימוד זמן דורש אינו המשפט שלב הזמן הביצוע. למעשה, רוב בעת מאד רב זמן דורש הוא ידני(, אבל

משפטים. של תחבירי בניתוח מושקע הביצוע בעת

המחקר להמשך כיוונים ג לא קורפוס מתוך אוטומטי באופן ביטויים ללמוד דרך למצוא הקודם, יש הפרק בסוף כאמור.1

השגיאה. אחוזי את להקטין כדי בשלב-הזוג בהם מנותח, ולהשתמש הדיוק את לשפר ושמות-עצם, כדי פעלים של ההשלמה דרישות את ללמוד דרך למצוא יש.2

התחבירי. הניתוח של זמן דורש שלב-המשפט. כאמור, שלב-המשפט של הביצוע זמן את להקטין דרך למצוא יש.3

של צורני לניתוח מעשי באופן במערכת להשתמש רוצים הביצוע, ואם בעת מאד רב אותו לנתח בלי המשפט לכל להתייחס דרך למצוא אותו. לדעתי, צריך לייעל חובה טקסטים

זו. מטרה להשיג כיצד יודעים איננו לצערנו מלא, אך תחבירי ניתוח

Page 71: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

מקורות רשימת[Allen 95]James Allen: “Natural Language Understanding”, 2nd ed., The Benjamin-Cummings Publishing Company, CA 1995

[Brill 92]Eric Brill: “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging”, Computational Linguistics 21, pages 543-565, (1995).

[CHJP 93]Eugene Charniak, Curtis Hendrickson, Neil Jacobson, and Mike Perkowitz: “Equations for part-of-speech tagging.” In Proceedings of the Eleventh National Conference on Artificial Intelligence, Menlo Park: AAAI Press/MIT Press (1993) 784-789.

[CL 85]Y. Choueka and S. Lusignan: “Disambiguation by short context”, Computers and the Humanities, 19(3) (1985).

[DI 94]I. Dagan and A. Itai: “Word Sense Disambiguation Using a Second Language Monolingual Corpus”, Computational Linguistics 20, pages 563-596, (1994).

[HU 79]John E. Hopcroft and Jeffrey D. Ullman: “Introduction to Automata Theory. Languages and Computation”, Addison-Wesley 1979.

[Kasami 65]T. Kasami: “An efficient recognition and syntax algorithm for context-free languages”, Scientific Report, AFCRL-65-758, Air Force Cambridge Research Lab., Bedford, Mass.

[ISO 99]“Information and documentation – Conversion of Hebrew characters into Latin characters – Part 3: Phonemic Conversion”, ISO/FDIS 259-3: (E)

7

Page 72: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

[LOI 95]M. Levinger, U. Ornan and A. Itai: “Morphological Disambiguation in Hebrew Using A Priori Probabilities”, Computational Linguistics 21, pages 383-404, (1995).

[MMW 93]Tomoyoshi Matsukawa, Scott Miller, Ralph Weischedel: “Example-Based Correction of Word Segmentation and Part of Speech Labelling”, ARPA (1993).

[Merialdo 91]Bernard Merialdo: “Tagging English Text with a Probabilistic Model”, Computational Linguistics 20, pages 155-171, (1994).

[OK 94]Uzzi Ornan and Michael Katz: “A New Program for Hebrew Index Based on the Phonemic Script”, Technical Report #LCL 94-7, Laboratory for Computational Linguistics, Technion, Israel (1994).http ://www.multitext.co.il בכתובת התוכנה של הדגמה לראות ניתן :

[SW 99]Ivan Sag and Tom Wasow : “Syntactic Theory: A Formal Introduction”, CSLI publications, Ventura hall, Stanford University, Stanford CA 94305 (1999).

[Younger 67]D. H. Younger: “Recognition and parsing of context-free languages in time n3”, Information and Control 10: 2, 189-208

[ 87 ]אורנן( )1) י"ז חד-משמעי", משפטים כתב יסוד על במחשב עבריים טקסטים אורנן: "עיבוד עוזי

1987.)

תשנ"ה[ ]אורנן ,4 הבינוני", מקורות בנטיית והדגמתה ולהוראתו הפועל לתיאור חדשה אורנן: "גישה עוזי

)תשנ"ה(.43 - 32 עמודים

[92 ]אלבק העברית של המשלבים באחד בורר דקדוק באמצעות פורמאלי אלבק: "ניתוח אורלי

7

Page 73: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

דורון, בהוצאת ועידית אריאלי אורנן, גדעון עוזי עברית, בעריכת חישובית בת-זמננו", בלשנות(.1992) בישראל והטכנולוגיה המדע משרד

[ 92 ]באשל מילים של ממוחשב לביא: "ניתוח שגב, אלון בן-ארי אנג'ל, דנית בנטור, אביאלה אסתר

דורון, בהוצאת ועידית אריאלי אורנן, גדעון עוזי עברית, בעריכת חישובית עבריות", בלשנות(.1992) בישראל והטכנולוגיה המדע משרד

תשמ"ד[ ]כהן דוקטור תואר קבלת לשם בעברית", חיבור משפט של מכני תחבירי כהן: "ניתוח דניאל

)תשמ"ד(. העברית, ירושלים לפילוסופיה, האוניברסיטה

[92 ]לוינגר של חלקי מילוי לשם מחקר על בעברית", חיבור מורפולוגית עמימות לוינגר: "הפגת משה

(.1992) המחשב, הטכניון, חיפה במדעי למדעים מגיסטר תואר לקבלת הדרישות

תשנ"ז[ ]סגל .B. Sc לתואר גמר מנוקדות", פרוייקט לא עבריות למילים צורני סגל: "מנתח אראל

להורדה תיעוד( ניתן )כולל המנתח של )תשנ"ז(. הקוד במדעי-המחשב, הטכניון, חיפהבכתובת:

http: //www.cs.technion.ac.il/~erelsgl/hmntx.zip

קטנה הסתברות להערכת הדרוש הטקסט גודל א: חישוב נספח בטקסט. להופעתו ההסתברות את לחשב מעוניינים דיבר, שאנו חלקי שלr מסויים רצף נתון

הרצף אם1 יהיה {(, שערכו0,1} לקבוצה הרצפים )ממרחבX מקרי משתנה נגדיר כך לשם, כלומר:r הוא שהרצף כהסתברותp ההסתברות את אחר. נגדיר רצף לכל0 ו- r הוא

p = Pr[X=1]

האימון, כלומר: בטקסטr הרצפים של היחסי החלק הואpל- המקובל המשערך

.r הרצפים מספר הואNrו- בטקסט-האימון הרצפים מספר הואN כאשר:p האמיתית להסתברות שווה המשערך של התוחלת

7

Page 74: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

ע"י: נתונה שלו והשונות

(.1ל- ביחס מאד קטנהp ההסתברות כלל בדרך כי מוצדק האחרון )הקירוב p בהערכת , השגיאה95% של בוודאות כי מהימן, נדרוש באופן ההסתברות את להעריך כדי

ע"י: נתון השגיאה לגודל . החסםp של מהערך מחצית היותר לכל תהיה

לפחות: שערכוN דרוש 0.5p בגודל חסם לקבל כדי

.N=110 – יחסית קטן אימון בטקסט להסתפק (, ניתןp=1/10 )למשל יחסית שכיח רצף עבור=p מהימן. עבור באופן אותו להעריך כדי יותר גדול אימון טקסט דרוש – נדיר יותר שהרצף ככל

לפחות להכיל צריך – טקסט-האימוןp=10-6 רצפים, ועבור11000 בן טקסט דרוש1/1000רצפים. מיליון11

התחבירי המנתח של הצמצום חוקי ב: רשימת נספח.5 פרקב בפירוט תוארו חוק-צמצום של והמשמעות המבנה

פועל )( תואר~פועל ==< פועל

פועל )( מילת~שאלה==< פועל

',' פועל )( תואר~פועל==< פועל

)( 'אין']מילת~יחס[ פועל-הווה==< פועל

נסתר([ פועל-זכר-יחיד-הווה יחיד )( 'אין']מילת~יחס-עם~סיומת)זכר==< פועל

נסתר([ פועל-נקבה-יחיד-הווה יחיד )( 'אין']מילת~יחס-עם~סיומת)נקבה==< פועל

נסתר([ פועל-זכר-רבים-הווה רבים )( 'אין']מילת~יחס-עם~סיומת)זכר==< פועל

נסתר([ פועל-נקבה-רבים-הווה רבים )( 'אין']מילת~יחס-עם~סיומת)נקבה==< פועל

)( 'אין']מילת~יחס[ פועל~עזר-הווה

7

Page 75: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

==< פועל נסתר([ פועל~עזר-זכר-יחיד-הווה יחיד )( 'אין']מילת~יחס-עם~סיומת)זכר

==< פועל נסתר([ פועל~עזר-נקבה-יחיד-הווה יחיד )( 'אין']מילת~יחס-עם~סיומת)נקבה

==< פועל נסתר([ פועל~עזר-זכר-רבים-הווה רבים )( 'אין']מילת~יחס-עם~סיומת)זכר

==< פועל נסתר([ פועל~עזר-נקבה-רבים-הווה רבים )( 'אין']מילת~יחס-עם~סיומת)נקבה

==< פועל

נסתר([ יחיד 'לבד']מילת~יחס-עם~סיומת)זכר )( פועל-זכר-יחיד-הווה==< פועל

נסתר([ יחיד 'לבד']מילת~יחס-עם~סיומת)נקבה )( פועל-נקבה-יחיד-הווה==< פועל

נסתר([ רבים 'לבד']מילת~יחס-עם~סיומת)זכר )( פועל-זכר-רבים-הווה==< פועל

נסתר([ רבים 'לבד']מילת~יחס-עם~סיומת)נקבה )( פועל-נקבה-רבים-הווה==< פועל

תואר~פועל )( פועל==< פועל

שם~פרטי )( שם~פרטי==< שם~פרטי

'"' )( '"' שם~פרטי==< שם~פרטי

תואר )( תואר~פועל==< תואר

)( 'יותר']מספר-נפרד[ תואר==< תואר

)( 'פחות']מספר-נפרד[ תואר==< תואר

)( 'מספיק']מספר-נפרד[ תואר==< תואר

תואר~פועל )( תואר-נפרד==< תואר

'יותר']מספר-לא~מיודע[ )( תואר-נפרד

7

Page 76: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

==< תואר ב-'יותר']מספר-לא~מיודע[ )( תואר-נפרד

==< תואר 'פחות']מספר-לא~מיודע[ )( תואר-נפרד

==< תואר 'מספיק']מספר-לא~מיודע[ )( תואר-נפרד

==< תואר

יידוע( ב )מתאים ו-עצם-נפרד )( עצם-נפרד==< עצם-רבים

יידוע( ב )מתאים ו-מספר-נפרד )( מספר-נפרד==< מספר-רבים

מספר( מין יידוע ב )מתאים ו-תואר-נפרד )( תואר-נפרד==< תואר

ו-שם~פרטי )( שם~פרטי==< עצם-מיודע-רבים-נפרד

ו-תואר~פועל )( תואר~פועל==< תואר~פועל

יידוע( ב )מתאים 'או' עצם-נפרד )( עצם-נפרד==< עצם-רבים

יידוע( ב )מתאים 'או' מספר-נפרד )( מספר-נפרד==< מספר-רבים

מספר( מין יידוע ב )מתאים 'או' תואר-נפרד )( תואר-נפרד==< תואר

'או' שם~פרטי )( שם~פרטי==< עצם-מיודע-רבים-נפרד

'או' תואר~פועל )( תואר~פועל==< תואר~פועל

עצם-נפרד )( עצם-נסמך==< עצם-נפרד

'-' עצם-נפרד )( עצם-נסמך==< עצם-נפרד

מספר-נפרד )( עצם-נסמך==< עצם-נפרד

שם~פרטי )( עצם-נסמך==< עצם-מיודע-נפרד

7

Page 77: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

עצם-נפרד )( תואר-נסמך==< תואר-נפרד

עצם-נפרד )( מספר-נסמך==< עצם-נפרד

מספר-נפרד )( מספר-נסמך==< מספר-נפרד

'זה']מילת~גוף[ )( מספר-נסמך==< מילת~גוף

'-' 'זה']מילת~גוף[ )( מספר-נסמך==< מילת~גוף

',' ',' עצם-נפרד )( עצם-נפרד==< עצם

',' ',' שם~פרטי )( עצם-נפרד==< עצם

',' ',' עצם-נפרד )( שם~פרטי==< עצם-מיודע-יחיד-נפרד

',' ',' שם~פרטי )( שם~פרטי==< עצם-מיודע-יחיד-נפרד

'(' ')' עצם-נפרד )( עצם-נפרד==< עצם

'(' ')' שם~פרטי )( עצם-נפרד==< עצם

'(' ')' עצם-נפרד )( שם~פרטי==< עצם-מיודע-יחיד-נפרד

'(' ')' שם~פרטי )( שם~פרטי==< עצם-מיודע-יחיד-נפרד

'"' '"' עצם-נפרד )( עצם-נפרד==< עצם

'"' '"' שם~פרטי )( עצם-נפרד==< עצם

'"' '"' עצם-נפרד )( שם~פרטי==< עצם-מיודע-יחיד-נפרד

'"' '"' שם~פרטי )( שם~פרטי==< עצם-מיודע-יחיד-נפרד

7

Page 78: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

מין( ב )מתאים שם~פרטי )( עצם-מיודע-נפרד==< עצם-מיודע-נפרד

מין( ב )מתאים שם~פרטי )( מילת~יחס==< מילת~יחס-עם~סיומת

מספר( מין ב )מתאים עצם-נפרד )( מילת~יחס==< מילת~יחס-עם~סיומת

מספר( מין ב )מתאים מספר-נפרד )( מילת~יחס==< מילת~יחס-עם~סיומת

מספר( מין ב )מתאים )( 'מתחת']מילת~יחס[ ל-עצם-נפרד==< מילת~יחס-עם~סיומת

מספר( מין ב )מתאים )( 'מעל']מילת~יחס[ ל-עצם-נפרד==< מילת~יחס-עם~סיומת

גוף( מספר מין ב 'מה']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב 'מי']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב 'עצמו']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב 'זה']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב 'כך']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב 'כן']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב )( 'לאחר']מילת~יחס[ מ-'כן']מילת~גוף-לא~מיודע[ )מתאים==< מילת~יחס-עם~סיומת

)( בכלם-שם~פרטי==< מילת~יחס-עם~סיומת

)( בכלם-עצם-נפרד==< מילת~יחס-עם~סיומת

)( בכלם-מספר-נפרד==< מילת~יחס-עם~סיומת

7

Page 79: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

)( בכלם-'מה']מילת~גוף-לא~מיודע[==< מילת~יחס-עם~סיומת

)( בכלם-'מי']מילת~גוף-לא~מיודע[==< מילת~יחס-עם~סיומת

)( בכלם-'עצמו']מילת~גוף-לא~מיודע[==< מילת~יחס-עם~סיומת

)( בכלם-'זה']מילת~גוף-לא~מיודע[==< מילת~יחס-עם~סיומת

)( בכלם-'כך']מילת~גוף-לא~מיודע[==< מילת~יחס-עם~סיומת

ו-מילת~יחס-עם~סיומת )( מילת~יחס==< מילת~יחס

'או' מילת~יחס-עם~סיומת )( מילת~יחס==< מילת~יחס

מילת~יחס-עם~סיומת )( פועל==< פועל

עצם-לא~מיודע-נפרד )( פועל==< פועל

פועל )( מילת~יחס==< פועל

',' פועל )( מילת~יחס==< פועל

נסתר([ יחיד נסתר( 'של']מילת~יחס-עם~סיומת)זכר יחיד )( עצם-נפרד-עם~סיומת)זכר==< עצם

נסתר([ יחיד נסתר( 'של']מילת~יחס-עם~סיומת)נקבה יחיד )( עצם-נפרד-עם~סיומת)נקבה==< עצם

נסתר([ רבים נסתר( 'של']מילת~יחס-עם~סיומת)זכר רבים )( עצם-נפרד-עם~סיומת)זכר==< עצם

נסתר([ רבים נסתר( 'של']מילת~יחס-עם~סיומת)נקבה רבים )( עצם-נפרד-עם~סיומת)נקבה

7

Page 80: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

==< עצם

מילת~יחס-עם~סיומת )( עצם-נפרד==< עצם

מספר( מין ב )מתאים הווה–ה-פועל )( עצם-נפרד==< עצם

מספר( מין ב )מתאים ש-פועל )( עצם-נפרד==< עצם

מספר( מין ב )מתאים הווה–)( 'זה']מילת~גוף[ ה-פועל==< מילת~גוף

מספר( מין ב )מתאים )( 'זה']מילת~גוף[ ש-פועל==< מילת~גוף

מספר( מין ב )מתאים )( 'איזה']מילת~גוף[ ש-פועל==< מילת~גוף

)( 'מי']מילת~גוף[ ש-פועל==< מילת~גוף

)( 'מה']מילת~גוף[ ש-פועל==< מילת~גוף

מספר( מין ב )מתאים הווה–',' ה-פועל )( עצם-נפרד==< עצם

מספר( מין ב )מתאים ',' ש-פועל )( עצם-נפרד==< עצם

מספר( מין ב )מתאים הווה–)( 'זה']מילת~גוף[ ',' ה-פועל==< מילת~גוף

מספר( מין ב )מתאים )( 'זה']מילת~גוף[ ',' ש-פועל==< מילת~גוף

מילת~יחס-עם~סיומת )( תואר-נפרד==< תואר

8

Page 81: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

)( 'רק']מילית[ =מילה===< =מילה=

)( 'גם']מילית[ =מילה===< =מילה=

)( 'כמובן']מילית[ =מילה===< =מילה=

)( 'איפוא']מילית[ =מילה===< =מילה=

)( 'כנראה']מילית[ =מילה===< =מילה=

)( 'למשל']מילית[ =מילה===< =מילה=

מספר( מין ב )מתאים פועל-נסתר )( עצם-נפרד==< פועל

מין( ב )מתאים פועל-יחיד-נסתר )( שם~פרטי==< פועל

גוף( מספר מין ב )מתאים )( 'הוא']מילת~גוף[ פועל==< פועל

גוף( מספר מין ב )מתאים )( 'מישהו']מילת~גוף[ פועל==< פועל

גוף( מספר מין ב )מתאים )( 'זה']מילת~גוף[ פועל==< פועל

מספר( מין ב )מתאים עצם-נפרד )( פועל-נסתר==< פועל

מין( ב )מתאים שם~פרטי )( פועל-יחיד-נסתר==< פועל גוף( מספר מין ב 'הוא']מילת~גוף[ )מתאים )( פועל

==< פועל גוף( מספר מין ב 'מישהו']מילת~גוף[ )מתאים )( פועל

==< פועל גוף( מספר מין ב 'זה']מילת~גוף[ )מתאים )( פועל

==< פועל

פועל-מקור )( פועל~עזר

8

Page 82: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

==< פועל פועל-מקור )( פועל

==< פועל

מספר( פועל-מקור מין ב )מתאים עצם-נפרד )( פועל~עזר-נסתר==< פועל

מין( פועל-מקור ב )מתאים שם~פרטי )( פועל~עזר-יחיד-נסתר==< פועל

גוף( מספר מין ב )מתאים ו-פועל )( פועל==< פועל

גוף( מספר מין ב )מתאים 'או' פועל )( פועל==< פועל

)( 'בין']מילית[ תואר-נפרד==< תואר

)( 'הבין']מילית[ תואר-נפרד==< תואר-מיודע

)( 'פרו']מילית[ תואר-נפרד==< תואר

)( 'הפרו']מילית[ תואר-נפרד==< תואר-מיודע

)( 'הלא']מילית[ תואר-נפרד==< תואר-מיודע

)( 'הכלל']מילית[ תואר-נפרד==< תואר-מיודע

)( 'תת']מילית[ תואר-נפרד==< תואר

)( 'חד']מילית[ תואר-נפרד==< תואר

)( 'דו']מילית[ תואר-נפרד==< תואר

)( 'תלת']מילית[ תואר-נפרד==< תואר

)( 'רב']מילית[ תואר-נפרד==< תואר

)( 'טרום']מילית[ תואר-נפרד

8

Page 83: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

==< תואר )( 'קדם']מילית[ תואר-נפרד

==< תואר )( 'בתר']מילית[ תואר-נפרד

==< תואר )( 'פוסט']מילית[ תואר-נפרד

==< תואר )( 'אינטר']מילית[ תואר-נפרד

==< תואר )( 'אנטי']מילית[ תואר-נפרד

==< תואר )( 'ארכי']מילית[ תואר-נפרד

==< תואר )( 'אי']מילית[ תואר-נפרד

==< תואר )( 'לא']תואר~פועל[ תואר-נפרד

==< תואר )( מ-'צד']עצם-לא~מיודע-זכר-יחיד-נפרד[ תואר-לא~מיודע-זכר-יחיד-נפרד

==< תואר~פועל נפרד[–)( 'קודם']תואר-לא~מיודע-זכר-יחיד-נסמך[ 'כל']מספר-לא~מיודע-זו"נ

==< תואר~פועל נפרד[–)( 'ראשית']עצם-לא~מיודע-זכר-יחיד-נסמך[ 'ל']מספר-לא~מיודע-זו"נ

==< תואר~פועל )( 'על']מילת~יחס[ 'אף']מילית[

==< מילת~יחס )( 'על']מילת~יחס[ 'פי']מילית[

==< מילת~חיבור )( 'תוך']מילית[ 'כדי']מילית[

==< מילת~יחס )( 'יותר']מספר-נפרד[ 'מדי']תואר~פועל[

==< תואר~פועל )( 'מדי']תואר~פועל[ 'פעם']עצם-לא~מיודע-נקבה-יחיד-נפרד[

==< תואר~פועל )( 'כל']מספר-נסמך[ 'כך']מילת~גוף[

==< תואר~פועל )( 'משום']מילית[ 'כך']מילת~גוף[

==< תואר~פועל )( 'משום']מילית[ 'מה']מילת~גוף[

==< תואר~פועל

8

Page 84: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

)( 'פי']מילית[ מספר-נפרד==< תואר~פועל

)( 'אחרי']מילת~יחס[ כ-'כלות']עצם-לא~מיודע-נקבה-יחיד-נסמך[ נפרד[–'כל']מספר-מיודע-זו"נ

==< תואר~פועל מספר( מין יידוע ב )( 'פחות']מספר-נפרד[ '' 'יותר']מספר-נפרד[ )מתאים

==< תואר~פועל )( 'יתר']מילית[ 'על']מילת~יחס[ 'כן']מילת~גוף-לא~מיודע-זו"נ-יחיד-נסתר[

==< מילית )( 'יתר']מילית[ '-' 'על']מילת~יחס[ '-'

'כן']מילת~גוף-לא~מיודע-זו"נ-יחיד-נסתר[==< מילית

)( 'אף']מילית[ 'על']מילת~יחס[ 'פי']מילית[ 'כן']מילת~גוף-לא~מיודע-זו"נ-יחיד-נסתר[

==< מילית )( 'אף']מילית[ '-' 'על']מילת~יחס[ '-' 'פי']מילית[ '-'

'כן']מילת~גוף-לא~מיודע-זו"נ-יחיד-נסתר[==< מילית

מין( ב )מתאים )( 'אחד']מספר-לא~מיודע-יחיד-נסמך[ תואר-מיודע-רבים-נפרד==< תואר-יחיד

)( 'בין']מילית[ '-' תואר-נפרד==< תואר

)( 'הבין']מילית[ '-' תואר-נפרד==< תואר-מיודע

)( 'פרו']מילית[ '-' תואר-נפרד==< תואר

)( 'הפרו']מילית[ '-' תואר-נפרד==< תואר-מיודע

)( 'הלא']מילית[ '-' תואר-נפרד==< תואר-מיודע

)( 'הכלל']מילית[ '-' תואר-נפרד==< תואר-מיודע

)( 'תת']מילית[ '-' תואר-נפרד==< תואר

)( 'חד']מילית[ '-' תואר-נפרד==< תואר

)( 'דו']מילית[ '-' תואר-נפרד==< תואר

8

Page 85: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

)( 'תלת']מילית[ '-' תואר-נפרד==< תואר

)( 'רב']מילית[ '-' תואר-נפרד==< תואר

)( 'טרום']מילית[ '-' תואר-נפרד==< תואר

)( 'קדם']מילית[ '-' תואר-נפרד==< תואר

)( 'בתר']מילית[ '-' תואר-נפרד==< תואר

)( 'פוסט']מילית[ '-' תואר-נפרד==< תואר

)( 'אינטר']מילית[ '-' תואר-נפרד==< תואר

)( 'אנטי']מילית[ '-' תואר-נפרד==< תואר

)( 'ארכי']מילית[ '-' תואר-נפרד==< תואר

)( 'אי']מילית[ '-' תואר-נפרד==< תואר

)( 'לא']תואר~פועל[ '-' תואר-נפרד==< תואר

)( מ-'צד']עצם-לא~מיודע-זכר-יחיד-נפרד[ '-' תואר-לא~מיודע-זכר-יחיד-נפרד==< תואר~פועל

נפרד[–)( 'קודם']תואר-לא~מיודע-זכר-יחיד-נסמך[ '-' 'כל']מספר-לא~מיודע-זו"נ==< תואר~פועל

נפרד[–)( 'ראשית']עצם-לא~מיודע-זכר-יחיד-נסמך[ '-' 'ל']מספר-לא~מיודע-זו"נ==< תואר~פועל

)( 'על']מילת~יחס[ '-' 'אף']מילית[==< מילת~יחס

)( 'על']מילת~יחס[ '-' 'פי']מילית[==< מילת~חיבור

)( 'תוך']מילית[ '-' 'כדי']מילית[==< מילת~יחס

)( 'יותר']מספר-נפרד[ '-' 'מדי']תואר~פועל[==< תואר~פועל

)( 'מדי']תואר~פועל[ '-' 'פעם']עצם-לא~מיודע-נקבה-יחיד-נפרד[==< תואר~פועל

)( 'כל']מספר-נסמך[ '-' 'כך']מילת~גוף[

8

Page 86: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

==< תואר~פועל )( 'משום']מילית[ '-' 'כך']מילת~גוף[

==< תואר~פועל )( 'משום']מילית[ '-' 'מה']מילת~גוף[

==< תואר~פועל )( 'פי']מילית[ '-' מספר-נפרד

==< תואר~פועל מין( ב )מתאים )( 'אחד']מספר-לא~מיודע-יחיד-נסמך[ '-' תואר-מיודע-רבים-נפרד

==< תואר-יחיד

גוף( מספר מין ב '-' 'מה']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב '-' 'מי']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב '-' 'עצמו']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב '-' 'זה']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב '-' 'כך']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

גוף( מספר מין ב '-' 'כן']מילת~גוף-לא~מיודע[ )מתאים )( מילת~יחס==< מילת~יחס-עם~סיומת

מין( ב )מתאים )( 'אחד']מספר-לא~מיודע-יחיד-נפרד[ מ-תואר-מיודע-רבים-נפרד==< תואר-יחיד

)( 'לא']תואר~פועל[ 'רק'==< מילת~חיבור

)( 'אלא' 'גם'==< מילת~חיבור

נפרד[ מ-עצם-נפרד–)( 'יותר']מספר-לא~מיודע-זו"נ==< עצם

נפרד[ מ-עצם-נפרד–)( 'פחות']מספר-לא~מיודע-זו"נ==< עצם

מספר( מין יידוע ב )מתאים תואר-נפרד )( עצם-נפרד==< עצם

מין( ב )מתאים תואר-מיודע-יחיד-נפרד )( שם~פרטי==< שם~פרטי

מספר( מין יידוע ב 'זה']מילת~גוף-נסתר[ )מתאים )( עצם-נפרד

8

Page 87: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

==< עצם-מיודע מספר( מין יידוע ב 'ההוא']מילת~גוף-נסתר[ )מתאים )( עצם-נפרד

==< עצם-מיודע מספר( מין יידוע ב 'עצמו']מילת~גוף-נסתר[ )מתאים )( עצם-נפרד

==< עצם-מיודע מספר( מין יידוע ב 'הלה']מילת~גוף-נסתר[ )מתאים )( עצם-נפרד

==< עצם-מיודע מספר( מין יידוע ב )מתאים )( 'איזה']מילת~גוף-נסתר[ עצם-נפרד

==< עצם גוף( מספר מין יידוע ב )( 'הוא']מילת~גוף[ 'עצמו']מילת~גוף[ )מתאים

==< מילת~גוף גוף( מספר מין יידוע ב )( 'זה']מילת~גוף[ 'עצמו']מילת~גוף[ )מתאים

==< מילת~גוף

8

Page 88: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

Abstract

Morphological analysis of words in a text is the first stage of most natural language applications that deal with Hebrew texts. The problem of morphological analysis of Hebrew texts is similar to the well-studied problem of part-of-speech tagging in English, but it is much more difficult due to the rich morphology of the Hebrew language, which results in a great degree of morphological ambiguity.

In this work we solve this problem by combining probabilistic methods with syntactic analysis. The solution consists of three consecutive phases:

1. The word phase: In this phase we find all possible morphological analyses of each word in the analyzed text. Then we approximate, for each possible analysis, the probability that it is the correct analysis, without relating to the context of the word. For this purpose we use a small analyzed training corpus and an algorithm that takes advantage of the Hebrew morphology. After approximating the probabilities, we assign each word the analysis with the highest approximated probability.

2. The pair phase: In this phase we use correction-commands, which correct the analysis of a word according to the previous or to the next word. The correction commands are learned automatically from the same training corpus mentioned above.

3. The sentence phase: In this phase we use a simple syntactical analyzer to evaluate different alternatives for the analysis of whole sentences. We use a hill-climbing algorithm to find the analysis which best matches both the syntactical information obtained from the syntactical analysis and the probabilistic information obtained from the previous two phases.

Using all these three phases results in a morphological analysis which is correct for about 96% of the words. This result approaches results reported for English probabilistic part-of-speech tagging. It does so by using a very small training corpus – 5000 words only, in contrast to million-word corpora used for English tagging.

The results show that combining probabilistic methods with syntactic information can lead to an improvement in the accuracy of morphological analysis.

I

Page 89: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

Contents

Abstract .........................................................................................................................1

Chapter 1: Defining the problem and the way of solution.............................................3a. The problem.......................................................................................................................................3b. The purpose of the thesis...................................................................................................................4c. The way a human being analyzes a word...........................................................................................4d. The way a computer analyzes a word................................................................................................5e. The way a computer learns to analyze a word...................................................................................7

Chapter 2: Literary survey............................................................................................10a. Works related to Hebrew morphological analysis...........................................................................10b. Works related to part-of-speech tagging in other languages............................................................10

Chapter 3: The word phase...........................................................................................12a. Simple morphological analysis (without probabilities)...................................................................12b. Assigning probabilities to the analyses............................................................................................14c. Probabilistic context-insensitive morphological analysis ...............................................................18d. Concluding comment.......................................................................................................................18

Chapter 4: The pair phase.............................................................................................19a. Correcting the analysis using “preferred couples”...........................................................................19b. Correcting the analysis using “correction commands”....................................................................21c. Learning correction commands using an analyzed corpus...............................................................25d. Experiments for testing the learning algorithm................................................................................29

Chapter 5: The sentence phase.....................................................................................32a. A syntactical pseudo-analyzer..........................................................................................................32b. Using the syntactical pseudo-analysis..............................................................................................39c. Finding the best morphological analysis of a whole sentence.........................................................42d. Tests and results...............................................................................................................................44

Chapter 6: The mistakes that remain............................................................................45a. First article........................................................................................................................................45b. Second article...................................................................................................................................50c. conclusions.......................................................................................................................................55

Chapter 7: Summary and conclusions..........................................................................57a. The contribution of each phase to the accuracy...............................................................................57b. The difficulty of each phase.............................................................................................................58c. Further research................................................................................................................................58

Bibliography.................................................................................................................60

Appendix A: The size of text needed for approximating a small probability..............62

Appendix B: The grammatical rules used by our syntactical analyzer........................62

List of tablesTable No. 1: Results of an experiment testing the algorithm for learning correction-commands...........31Table No. 2: The contribution of each phase of the morphological analysis to the final accuracy.........57

I

Page 90: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

The research thesis was done under the supervision of Prof. Alon Itai in the faculty of Computer Science.

The generous financial help of the Technion is gratefully acknowledged.

I

Page 91: GitHub Pageserelsgl.github.io/bxi/mcht/MScErelSegal1999.doc  · Web viewמנתח מורפולוגי הסתברותי לטקסטים עבריים לא מנוקדים. חיבור על

Probabilistic Morphological Analyzer for Hebrew Undotted

Texts

Research Thesis

Submitted in partial fulfillment of the requirements for the degree of

Master of Science in Computer Science

Erel Segal

Submitted to the senate of the Technion – Israel Institute of Technology

Cheshvan 5760 Haifa October 1999

I