Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
CLARIN-PL
Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania
Agnieszka DziobPolitechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 [email protected]
2018-05-24
Instalowanie aplikacji
CLARIN-PL
CLARIN-PL.EU/PL/USLUGI/
CLARIN-PL
CLARIN-PL
CLARIN-PL
O Słowosieci
CLARIN-PL
CLARIN-PL
Stan wyjściowy CLARIN-PL
CLARIN-PL
O SłowosieciZastosowania
CLARIN-PL
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Text mining
Semantic Web
Dane multimodalne
Lingwistyka, translacje, dydaktyka
WSD
Wydobywanie informacji
Generatory danych
Psychologia i medycyna
Budowa Słowosieci
CLARIN-PL
CLARIN-PL
Zadanie badawcze
• Przykładowy problem badawczy: diagnostyka zaburzeń osobowości
• Przykładowy materiał: wypowiedzi osób diagnozowanych
CLARIN-PL
System relacji
305 typów i podtypów relacji, w tym:
• 76 typów i podtypów relacji słownika walencyjnego Walenty (obrazują preferencje selekcyjne)
• 42 typów i podtypów relacji synsetów i jednostek łączących Słowosieć z Princeton WordNetem
• 29 typów relacji jednostek i synsetów Princeton WordNet
CLARIN-PL
System relacji
• Podstawowa: hiperonimia (odwrotna hiponimia) – wiąże z kategorią nadrzędną (kot -> ssak drapieżny)
• Relacja cząstkowości-całościowości: meronimia-holonimia dla rzeczowników (awans -> kariera)
• Relacja mero-/holonimii taksonomicznej dla rzeczownika – wiąże drzewo taksonomii naukowej z drzewem wiedzy potocznej (pies -> psowate)
• Relacja dla nazw własnych: typ-egzemplarz (oznaczenie nazw własnych: NP w komentarzu) (Mendel -> botanik)
• Relacje opisu związków przyczynowo-skutkowych dla czasowników:
• Wcześniej (przyczyna): uprzedniość i presupozycja
• Jednocześnie: mero-/ i holonimia czasownikowa
• Później (skutek): kauzacja (inchoatywność) i procesywność
• Relacje wielokrotności dla czasowników: dystrybutywność i iteratywność
CLARIN-PL
System relacji
wartość cechy (Adj-N)
CLARIN-PL
X to przymiotnik, N to rzeczownik
Jeżeli ktoś|coś jest X-owy(e), to ma określone N / jest kimś|czymś o określonym N.Jeżeli ktoś|coś ma określone N / jest o określonym N, to niekoniecznie jest X-owy(e).
System relacji
wartość cechy (Adj-N)
CLARIN-PL
X to derywat przymiotnikowy od czasownika VX oznacza ‘taki [prep] który można V-ować’
atrakcyjny to przymiotnik, wygląd to rzeczownik
Jeżeli ktoś|coś jest atrakcyjny, to ma określony wygląd / jest kimś|czymś o określonym wyglądzie.Jeżeli ktoś|coś ma określony wygląd / jest o określonym wyglądzie, to niekoniecznie jest atrakcyjny.
X to przymiotnik, N to rzeczownik
Jeżeli ktoś|coś jest X-owy(e), to ma określone N / jest kimś|czymś o określonym N.Jeżeli ktoś|coś ma określone N / jest o określonym N, to niekoniecznie jest X-owy(e).
CLARIN-PL
CLARIN-PL
CLARIN-PL
CLARIN-PL
CLARIN-PL
Zadanie badawcze
• Przykładowy problem badawczy: diagnostyka zaburzeń osobowości
• Przykładowy materiał: wypowiedzi osób diagnozowanych
• Proszę wyszukać w Słowosieci czasowniki z kauzacją i procesywnością
• Czym różnią się jedne od drugich?
CLARIN-PL
• Przykładowy scenariusz rozwiązania problemu:1. Badanie, jaki procent stanowią czasowniki wyrażające
postawę czynną a jaki bierną,
2. Przyporządkowanie na podstawie relacji czasowników agentywnych i bezagentywnych do obszarów semantycznych.
CLARIN-PL
Dziedziny w Słowosieci CLARIN-PL
• 53 dziedziny semantyczne dla wszystkich części mowy
• lexicographer files – zastosowanie czysto techniczne• brak zasad dziedzinowej kwalifikacji semantycznej
• brak kodyfikacji (dziedziny nie są opisane w wytycznych ani instrukcjach użytkownika; wyjątkiem jest przymiotnik i niektóre dziedziny czasownika)
bhp najwyższe w hierarchii
grp grupy ludzi i rzeczy
sys systematyka, klasyfikacja
cst czasowniki stanowe
cdystr czasownki dystrybutywne
caku czasowniki akumulatywne
cper czasowniki perduratywne
cdel czasowniki delimitatywne
czy czynności (nazwy)
zdarz zdarzenia
cel cel działania
st sytuacje statyczne (stany)
czc części ciała
os ludzie
rsl nazwy roślin
zw zwierzęta
hig pielęgnacja ciała
cjedz czasowniki jedzenia
pst czasowniki postrzegania (percepcji)
cech cechy ludzi i zwierząt
pos posiadanie i jego zmiana
il ilość, liczebność, jednostki miary
ksz kształty
czas czas i stosunki czasowe
zmn zmiana wielkości, temperatury natężenia, itp.
CLARIN-PL
wytw wytwory ludzkie(nazwy)
jedz jedzenie
msc miejsca i umiejscowienie
umy związane z myśleniem
por związane z porozumiewaniem się
czuj uczucia, odczucia i emocje
zwz związek miedzy ludźmi, rzeczami lub ideami
cumy czasowniki myślenia (szeroko rozumianego)
cpor czasowniki mówienia, śpiewania itp.
wal czasowniki rywalizacji fizycznej
cczuj czasowniki wyrażające uczucia
cpos czasowniki posiadania i zmiany posiadania
sp czasowniki oznacz. wydarzenie i działania społeczne i polityczne
pog czasowniki oznacz. zjawiska pogodowe
prc procesy naturalne
rz obiekty naturalne
zj zjawiska naturalne
sbst substancje
dtk czasowniki oznacz. kontakt fizyczny (dotykanie, uderzenie, rycie itp.)
cwyt czasowniki oznacz. wytwarzanie czegoś
ruch czasowniki ruchu
jak przymiotniki jakościowe
mat przymiotniki materiałowe
rel przymiotniki relacyjne (rzeczownikowe)
adv przysłówki
Zadanie badawcze
• Przykładowy problem badawczy: badanie zdolności dziecka szkolnego
• Przykładowy materiał: teksty tworzone przez dziecko
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
posp. – pospolite
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
posp. – pospolite
pot. – potoczne
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
posp. – pospolite
pot. – potoczne
og. – rejestr ogólny
CLARIN-PL
Rejestr jednostki leksykalnej
11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
posp. – pospolite
pot. – potoczne
og. – rejestr ogólny
CLARIN-PL
Zadanie badawcze
• Przykładowy problem badawczy: badanie zdolności dziecka szkolnego
• Przykładowy materiał: teksty tworzone przez dziecko
• Proszę wyszukać w Słowosieci słownictwo książkowe i specjalistyczne abstrakcyjne
• Na podstawie relacji proszę sprawdzić, do jakich dziedzin może należeć słownictwo
CLARIN-PL
• Przykładowy scenariusz rozwiązania problemu:1. Badanie, jaki procent tekstu dziecka to słownictwo
specjalistyczne i książkowe,
2. Badanie, do jakich obszarów semantycznych należy słownictwo (jaki obszar nauk) na podstawie relacji jednostek i dziedzin semantycznych,
3. Utworzenie słownika (listy) jako materiału porównawczego w stosunku do innych dzieci w podobnym wieku.
CLARIN-PL
Synsety sztuczne
• Synsety o charakterze porządkującym, niebędące jednostkami języka
• Przykład: proszę prześledzić hiponimy czasownika czuć 2
• Proszę zobaczyć, jakie anotacje emotywne mają
CLARIN-PL
Zadanie badawcze
• Przykładowy problem badawczy: analiza sentymentu
• Przykładowy materiał: forum dyskusyjne chorych na depresję
CLARIN-PL
Nastawienie emocjonalne
• Emocje podstawowe –radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)
CLARIN-PL
Nastawienie emocjonalne
• Emocje podstawowe –radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)
• Wartości uniwersalne –użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992)
CLARIN-PL
Nastawienie emocjonalne
• Emocje podstawowe –radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)
• Wartości uniwersalne –użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992)
• Nastawienie –pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne.
CLARIN-PL
Nastawienie emocjonalne
• Emocje podstawowe –radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)
• Wartości uniwersalne –użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992)
• Nastawienie –pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne.
• Ponad 100 000 oznakowanych jednostek.
CLARIN-PL
Nastawienie emocjonalne CLARIN-PL
• Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki;
Nastawienie emocjonalne CLARIN-PL
• Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki;
• Superanotator , którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji;
Nastawienie emocjonalne CLARIN-PL
• Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki;
• Superanotator , którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji;
• Anotatorzy nie widzą wzajemnie swoich anotacji.
Nastawienie emocjonalne CLARIN-PL
Zadanie badawcze
• Przykładowy problem badawczy: analiza sentymentu
• Przykładowy materiał: forum dyskusyjne chorych na depresję
• Proszę wyszukać w Słowosieci słownictwo mocno negatywnie nacechowane
• Na podstawie relacji proszę sprawdzić, do jakich dziedzin może należeć słownictwo
CLARIN-PL
WNLoom
CLARIN-PL
Długotrwały kontakt językowy i jego skutki leksykalne oraz semantyczne na przykładzie polskich zapożyczeń leksykalnych w jidysz - grant NCN (OPUS 11); kierownik prof. Ewa Geller (UW)
CLARIN-PL
Do poczytaniaSubiektywny wybór tekstów
CLARIN-PL
• Nowaczyk, A., & Jackowska-Strumiłło, L. (2017). Rozpoznawanie emocji w tekstach polskojęzycznych z wykorzystaniem metody słów kluczowych. Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska, 7.
• Sansonnet, J. P., & Bouchet, F. (2010). Extraction of agent psychological behaviors from glosses of wordnet personality adjectives. In Proc. of the 8th European Workshop on Multi-Agent Systems (EUMAS10).
• Sigman, M., & Cecchi, G. A. (2002). Global organization of the Wordnet lexicon. Proceedings of the National Academy of Sciences, 99(3), 1742-1747.
• Mikołajczak-Matyja, N. (2015). The associative structure of the mental lexicon: hierarchical semantic relations in the minds of blind and sighted language users. Psychology of Language and Communication, 19(1), 1-18.
• Gatkowska, I. (2015). Empiryczna sieć powiązań leksykalnych. Polonica, 35, 155-178.
CLARIN-PL
Dziękuję bardzo za uwagę
Zapraszamy do kontaktu:[email protected]