Upload
noobie312
View
46
Download
3
Embed Size (px)
Citation preview
1-се тема ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ
ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ 1.1. Белем биреүҙе ойоштороуҙың моделдары и методтары
—1-се-2-се лекциялар . 1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы
— 3-сө-4-се, 8-се лекциялар .
1.3. Белем эҫтәүҙең логик-статистик методтары — 5-се-7-се лекциялар .
ҮҘ АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ ӨЛӨШТӘРЕ
1.4. Тезаурус һүҙлек төҙөүҙең автоматлаштырылған технологияһы .
1.5. Телдең тәбиғи байлығын өйрәнеү миҫалы.
6-сы лекция
ТЕКСТЫҢ СИНТАГМАТИК МОДЕЛЫ
Төп синтагмаларҙы фформаль тасуирлау
Яһалма синтагмаларҙы һәм синтагматик конструктивтарҙы фформаль тасуирлау
Синтагматик конструктивтарҙың сстатистик анализы
Әҙәбиәт
Материал лекции представлен в книге:
Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /
Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 54–64.
Төп синтагмаларҙы фформаль тасуирлау
Конструктив тәбиғи тел берәмектәре : текстар корпусы, текст, контекст, фразанан тыш берҙәмлек , һөйләм, һүҙбәйләнеш, һүҙ, морфема, квази-морфема, ижек, алфавит символы
(хәреф).
Синтагма — аҫҡы кимәл тел берәмектәренең (символдарҙың) ирекһеҙ теҙмәһе .Һәр өҫкө кимәл синтагмаһы үҙ эсенә аҫҡы кимәл
синтагмаларын ала.
төп : символ, һүҙ, һөйләм, текст
яһалма : морфема, квази-морфема, ижек, һүҙбәйләнеш, , фразанан тыш
берҙәмлек , контекст һәм текстар корпусы
Төп синтагмаларҙы айырыуҙың маҡсаты
1. Тексты формаль телдәр теорияһы нигеҙендә тасуирлау.
2. Текстың тәү анализының эштәр комплексын айырып билдәләү.
Әҙәбиәт
Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А.Языковые средства диалога человека с ЭВМ. Практическое пособие / Серия «Организация взаимодействия человека с техническими средствами АСУ». В 7 кн. Кн.2. Под ред. Четверикова В.Н. М.: Высш. шк., 1990. – 159 с.
ТЕКСТЫҢ СИНТАГМАТИК СТРУКТУРАҺЫ
ТЕКСТЫҢ СИНТАГМАТИК СТРУКТУРАҺЫ — төп һәм яһалма синтагмалар нигеҙендә төҙөлгән синтагматик
конструктивтар комплексы.
Төп синтагматик конструктивтар: текстар, һүҙ йыйлмалары (өлөшләтә һәм тулы, тура һәм кире,
йышлыҡлы) — тәртипкә һалынған синтагмалар теҙмәһе Һүҙэйәркестәр —тәртипкә һалынған түбәнге кимәл синтагмалар
теҙмәһенең өҫкө кимәлсинтагмалары буйлап, йә билдәле бер тупланған берәмекбуйлап эйәртеүсе индекстар.
ТӨП СИНТАГМАЛАР (1)
.
,
.
SDlLrR ABABABABABABAB
},...,{ ЯАABR },...,{ яаABr },...,{ ZAABL },...,{ zaABl
}9,...,0{DAB
@}~,_,*,,^,\,,,/,,$,%,&,{# SAB
Предмет өлкәһенең тәбиғи тел тасуирламаһы алфавиты булып AB күплеге торһа:
ABх — хәзерге тәбиҙи тел алфавиттары (яҙма,баҫма
хәрефтәре менән айырыла ) ,
,
бында:
ABD —цифрҙар күплеге
ABS — һүҙ хәрефтәре сифатында хеҙмәт иткән айырым символдар.
ТӨП СИНТАГМАЛАР (2)
.
,
.
Һүҙҙең стоп-тамғаһы — текста һүҙҙәрҙе бер-береһенән айырырға мөмкинлек биреүсе тамғалар күплеге элементы. W һүҙенең стоп –тамғаһы stW стоптамғалар күплегенең трнзитив йөпләүсеһе булып тора:
WW STst
1n
nWW STST, где
файлаконецсимволнультабуляциякареткивозврат
строкуследнаперевоход
знакьныйвопросителзнакльныйвосклицате
скобкаквправаяскобкаквлеваяскобкакрправаяскобкакрлевая
кавычкадефисминустирезапятойсточказапятая
двоеточиеточкапробел
WST
_,_,,_
,___
,_,_
,__,__,__,__
,,//,__,
,,,
ТӨП СИНТАГМАЛАР (3)
Предметлы даирәне (ПО) тәбиғи тел тасуирламаһында һүҙ тип АВ күплегенең транзитив йөпләүсе элементтың һәм стоп тамғаның конкатенацияһын (йәғни ике һәм унан күберәк тамғаларҙың билдәле бер тәртиптә эйәреп килеүе) атайбыҙ.
)( WSTABWw
ТӨП СИНТАГМАЛАР (4)
.
Һөйләмде STS һөйләмдең стоп-тамғаһы һәм һүҙҙәрҙең транзитив йөпләүсе элементының.уларҙы айырыусыларҙың конкатенацияһы итеп ҡарайбыҙ:
;)(1
n
nWSTABW; SSTWS
абзацаконец
файлаконецсимволнульзнакьныйвопросител
знакльныйвосклицатеточка
SST
WST
SST
_
,_,_,_
,_,
;
2}____{_ кореткивозвратстрокуследнапереходабзацаконец
ТӨП СИНТАГМАЛАР (5)
Тексты ,һөйләм һымаҡ уҡ стоп-тамға ның һәм һүҙҙәрҙең транзитив йөпләүсе элементының.уларҙы айырыусыларҙың конкатенацияһы итеп ҡарайбыҙ.
1
)(n
nWSTABW;)_( файлаконецWT
ГРАММАТИКАНЫ ТЫУҘЫРЫУСЫ ТӘБИҒИ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (1)
GT –текст тыуҙырыусы грамматика
GS – һөйләм тыуҙырыусы грамматикаGW – һүҙ тыуҙырыусы грамматика
N – йөпләүсе символдар күплеге T = AB STW – – йөпләүсе символдар күплеге ю.S – баштағы йөпләмәүсе символ.
EOF = <файл аҙағы>
EOL = (<икенсе _ һыҙыҡҡа_күсеү> <кареткны_кире ҡайтарыу >)
ГРАММАТИКАНЫ ТЫУҘЫРЫУСЫ ТӘБИҒИ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (2)
ТЕКСТ ТЫУҘЫРЫУСЫ ГРАММАТИКАНЫҢ ТАСУИРЛАМАҺЫ
GT = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB STW
P = { S0 S1 EOF | EOF,
S1 S2 S1 | S2,
S2 S3 S4 | S3 | S4,
S3 w S3 | w w AB T
S4 s S4 | s s (STW \ EOF) T
ГРАММАТИКАНЫ ТЫУҘЫРЫУСЫ ТӘБИҒИ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (3)
ҺӨЙЛӘМ ТЫУҘЫРЫУСЫ ГРАММАТИКАНЫҢ ТАСУИРЛАМАҺЫ
GS = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB STW
P = { S0 S1 е | е , е STS T
S1 S2 S1 | S2,
S2 S3 S4 | S3 | S4,
S3 w S3 | w w AB T
S4 s S4 | s s (STW \ STS) T
}
ГРАММАТИКАНЫ ТЫУҘЫРЫУСЫ ТӘБИҒИ ТЕЛ ПОРМ ТАСУИРЛАМАҺЫ (4)
ҺҮҘ ТЫУҘЫРЫУСЫ ГРАММАТИКАНЫҢ ТАСУИРЛАМАҺЫ.
GW = (N, T, P, S0)
N = { S0,S1,S2,S3 }
T = AB STW
P = { S0 S1 е | е , е STW T
S1 S2 S1 | S2
S2 w S3 | w w AB T
S3 s S3 | s s (STW \ EOF) T }
ЯҺАЛМА СИНТАГМАЛАРҘЫ ҺӘМ СИНТАГМАТИК КОНСТРУКТИВТАРҘЫ ФОРМАЛЬ ТАСУИРЛАУ
Генераль тулайымлыҡ = ПОРМ тәбиғи тел тасуирламаһы текстар корпусы
Эҙләнеү объекттары — текстар корпусы ның элеменнттары булып
торған айырым синтагмалар.
Төп ҡылыҡһырламалар — синтагмаларҙың текстар корпусында һәм уның өлөштәрендә абсолют осрау йышлығы.
ЯҺАЛМА СИНТАГМАЛАР (1)Текстар корпусы G — ул ПОРМ тәбиғи тел тасуирламаһы текстары күмәклеге :G = { T1, T2, ..., TN }, бында N – корпустағы текстар нисбәте , Ti – i-се текст.
Һүҙбәйләнеш wk — GT. – нан сығарыла, ул k-һүҙҙән тора, уларҙың араһындағы стоп- тамалар булмай: wk = w1w2w3..wk. Ниндәй ҙә булһа айырым һүҙ w = w1.
Һәр wk аңлатмаһына GT и конкрет текста уның осрау йышлығын күрһәткән һан ҡуябыҙ һәм килеп сыға F: wk E, бында E – теүәл һандар күплеге.
Йышлыҡ функцияһы — F = N(wk, T), бында :T – конкрет текст, wk – һүҙбәйләнеш.
Йышлыҡ функцияһының үҙенсәлектәре:N(wk,T)>0, әгәр wk T, һәм N(wk,T)=0, әгәр wk T. Бынан w = w1 килеп сыға N(w,T) = N(w1,T).
ЯҺАЛМА СИНТАГМАЛАР (2)
Т3 тексы стоп-тамғапары аппып ташланған T1 тексы менән T2 тексының ҡушылдығы булып тора.
T3 – GT. –нан сығарылған текст булып тора.
Иҫбатлау
1. Әгәр GT –нан сығарылған T1 һәм T2, бар икән, S0. аксиомаһынан сығарылған T1 һәм T2 бар.
2. T1 и Т2 –GT сикле алфавитының йөпләүсе эйәрсен символдары ,
3. Ә грамматика үҙе теләһә ниндәй оҙонлоҡта эйәрсендәр йыя ала.
4. Тимәк, T1 бөтә символдарын сығарғандан һуң , өҫтәмә рәүештә бөтә T2. символдарын сығарырға мөмкин.
5. Шулай итеп T3 GT.-нан сығарылған текст.Яҙабыҙ : T3 = T1 + T2, T1+T2 T2+T1.
ЯҺАЛМА СИНТАГМАЛАР (3)
Контекст С(T) — T тексының өҙлөкһөҙ фрагменты , йәғни GT-нан сығарылған фрагмент
Контекстың үҙенсәлектәре:N(wk, T1) + N (wk, T2) = N(wk, T1+T2) N(wk, C(T)) N(wk, T)T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [0,q]
N(wk,Сi(T)) N(wk, T), где Сi(T) Cj(T)=
Аңғартма:
• N(wk, T1) + N (wk, T2) N(wk, T1+T2),
• Текстар һөйләмдаең стоп- тамғалары менән тамамлана.
• T1 һәм T2 сиктәрендә wk һүҙбәйләнеше мөмкин түгел.
• Былай иҫәпләйбеҙ N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
ЯҺАЛМА СИНТАГМАЛАР (4)
,
Йышлыҡлы һүҙ йыйлмалары — текстағы һүҙҙәрҙең ( йәки һүҙбәйләнештәр) тәртипкә һалынған күмәклеге һәм уларҙың йышлыҡ функцияларының аңлатмалары S(T) = ( <wk, N(wk,T)>).
Һүҙ йыйылмалары өҫтөндә эшҺүҙ йыйылмаларын берләштереү . S(T1) һәм S(T2) һүҙ йыйылмаларын берләштереү тип S(T1+T2) һүҙ йыйылмаһын әйтәбеҙ. Берләштерелгән һүҙ йыйылмаһына үҙҙәренең йышлыҡ функциялары менән ике текстың барлыҡ һүҙҙәре һәм һүҙбәйләнештәре инә.Бер иш һүҙҙәр йәки һүҙбәйләнештәр өсөн ҡушма йышлыҡлы функция төҙөлә.
Һүҙ йыйылмаларын тарҡатыу. S(T1)-S(T2) һүҙ йыйылмаларын тарҡатыу тип S(T*) һүҙ йыйылмаһын әйтәбеҙ.Унда T1-ән N(wk,T1) > N(wk,T2) тигеҙләмә даирәһенә ингән һүҙҙәр һәм һүҙбәйләнештәр генә инә. T*-ны S(T*) һүҙ йыйылмаһын төҙөүгә нигеҙ була алған бер гипотетик текст тип алабыҙ.
ЯҺАЛМА СИНТАГМАЛАР (5)
Синтагматик структураның сикләүҙәре: • Һүҙҙәрҙә дефисты айырып булмау,• Тик һүҙҙәрҙе һәм һөйләмдәрҙе генә таный алыу, • Өҫтәлмә структураларҙы танымау (тырнаҡлы яҙыуҙар,тура
телмәр ,башҡа формаль-синтаксик конструкциялллллллар).Яралтыусы синтагматик структура
Таныусы модель = «тапшырыусы программа-транслятор»
Тәбиғи тел ПОРМ тасуирламаһы синтагматик кодын тыуҙырыусы
синтагматик конструктивтар комплексы:
Һүҙ йыйылмалары,һүҙгәйүнәлтеүселәрҙе,һүҙбәйләнештәр теҙмәһе, контекстар, индекстар һ.б.
ЯҺАЛМА СИНТАГМАЛАР 6)
ТЕКСТЫҢ СИНТАГМАТИК МОДЕЛЫ
— ул тексты уның формаль-тел теоретик-күмәклекле тасуирламаһы нигеҙендә тексты үҙгәртеү юлы менән табылған төп синтагматик конструктивтар күплеге
рәүешендә күҙаллана.
.
GStgKKGSTG
i
STG
i
STG
:где,}{
СИНТАГМАТИК КОНСТРУКТИВТАРҘЫҢ СТАТИСТИК АНАЛИЗЫ
Текстың йышлыҡлы анализы — текстың параметрик профилен яһау.
Йышлыҡлы анализдың бурыстары • Текстар өсөн «Дәрәжә-йышлыҡ » моделында һүҙҙәрҙең бүленеш
параметрҙарын иҫәпләп сығарыу.• Текста өсөн һүҙҙәрҙең һәм парлы һүҙбәйләнештәрҙең йышлыҡ
функцияларын төҙөү: N(wij, Tj), N(wij2, Tj)}, где wij,wij
2 Tj, j =1,N.• Йышлыҡлы һүҙ йыйылмалары төҙөү.{ S(Tj) }, бында j=1,N.
• һүҙ йыйылмалары элементтарының дөйөм һанын иҫәпләп сығарыу.
jR
ijijj TwNN
0
),( , бында Rj –һүҙ йыйылмалары элементтарының һаны S(Tj).
• Генераль күмәклек өсөн «Дәрәжә-йышлыҡ » моделында һүҙҙәрҙең бүленеш параметрҙарын иҫәпләп сығарыу.
• Генераль күмәклек өсөн Мандельброт законы параметрҙарын табыу.
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (1)
Текстың динамик анализы — t. ваҡыт арауығында асыҡланған тәбиғи тел ПОРМ
тасуирламаһы структураһында нисбәт ҡылыҡһырламаларының үҙгәреш заңын табыу.
Динамик анализдың бурыстары:• Текст структураһын асыҡлау ; • Һүҙ йыйылмалары структураһын асыҡлау, • Һүҙ йыйылмалары йөкмәткеһен асыҡлау,• Һүҙ йыйылмаларының тулыланыуын асыҡлау,
Динамик анализдың төп идеяһы Йышлыҡ арауыҡтарының үҙгәреш ҡылыҡһырламаларын
күҙәтеү.
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (2)
Йышлыҡ F 1 F2 F 3 F 4 .... F N
1
1 - р1
р2 - р3
...
рk - рk+1
> рk+1
Бөтәһе :
Дөйөм алғанда ошондай таблица килеп сыға:
Бында: [Pk,Pk+1] – йышлыҡ арауыҡтарының сиктәре.
j
kkj TF
1
–күҙәтеү аҫтындағы текстар йәки һүҙ йыйылмалары.
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (3)
Һүҙ йыйылмаларының структураһы билдәле бер ваҡыт арауығында текстарҙа йышлыҡ
группаларының күләменең сағыштырмаса үҙгәреүен күрһәтә.
,
),(
),,,(),,(
1 1
121
21
N
j
M
ijij
R
i
j
t
TwN
pptiPppt Бында
0
,),(),,,(
bcaеслиFwNcbatiP tit
Бында: Mj – Tj, тексындағы һүҙҙәр һаны
Rt –Ft тексындағы һүҙҙәр һаны
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (4)
Һөҙөмтәләр таблицаға тултырыла :
Йышлыҡ F 1 F2 F 3 F 4 .... F N
1 (1,0,1) (N,0,1)
1 - р1 (1,1,р1) (N,1,р1)
р2 - р3 (2,р2,р3)
...
рk - рk+1
> рk+1
Бөтәһе: (1,0,) (1,0,) 1
«Бөтәһе» юлына үрҙә торған бағана суммаһы яҙыла , йәғни (1,0,). Күренеүенсә (N,0,) = 1
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (5)
Һүҙ йыйылмаларының структураһы билдәле бер ваҡыт арауығында йышлыҡ группаларының
күләменең сағыштырмаса үҙгәреүен күрһәтә.
,),,,(
),,( 121
21N
R
i
R
pptiPppt
t
Бында
0
),(,1),,,(
bFwNaеслиbatiP tit
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (6)
Һүҙ йыйылмаларының йөкмәтке динамикаһы билдәле бер ваҡыт арауығында йышлыҡ группаларының күләм
сағыштырмаһын күрһәтә .
Бында
Бында : Rt – Ft. . һүҙ йыйылмаһындағы һүҙҙәр һаны.
,
),0,,(
),,,(),,(
1
121
21
t
t
R
i
R
i
itP
pptiPppt
0
),(,1),,,(
bFwNaеслиbatiP tit
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (7)
Һөҙөмтәләр таблицаға тултырыла :
Йышлыҡ F 1 F2 F 3 F 4 .... F N
1 (1,0,1) (N,0,1)
1 - р1 (1,1,р1) (N,1,р1)
р2 - р3 (2,р2,р3)
...
рk - рk+1
> рk+1
Бөтәһе: 1 1 1 1 1 1
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (8)
Һүҙ йыйылмаларының тулыланыу динамикаһы билдәле бер ваҡыт арауығында йышлыҡ группаларына яңы
һүҙҙәр «үрсем биреүе» менән ҡылыҡһырлана.
где
Бында: RN – FN. һүҙ йыйылмаһындағы һүҙҙәр һаны.Rt – Ft. һүҙ йыйылмаһындағы һүҙҙәр һаны
,
),,,(
),,,(),,(
121
121
21
N
t
R
i
R
i
ppiNP
pptiPppt
0
))((&),(,1),,,( , bFwNabFwNaесли
batiP NiNtit
ТЕКСТЫҢ ДИНАМИ К АНАЛИЗЫ (9)
Һөҙөмтәләр таблицаға тултырыла :
Йышлыҡ F 1 F2 F 3 F 4 .... F N
1 (1, 0, 1) 1
1 - р1 (1, 1, р1) 1
р2 - р3 (2, р2, р3) 1
... 1
рk - рk+1 1
> рk+1 1
Бөтәһе: (1, 0, ) (1, 0, ) 1
ҮҘЕҢДЕ – ҮҘЕҢ ТИКШЕРЕҮ ӨСӨН ҺОРАУҘАР
Текстың синтагматик моделы нимә ул?
Төп синтагмаларҙың формаль тасуирламаларын бирегеҙ. Яһалма синтагмаларҙың формаль тасуирламаларын
бирегеҙ. Миҫалға синтагматик конструктивтар килтерегеҙ. Синтагма и синтагматик конструктиврҙы статистик
анализының төп этаптарын һанап сығығыҙ.