Introduktion till språkteknologi Föreläsning 2 ...evapet/Undervisning/ist2016/F2-handout.pdf · Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Eva [email protected]

2016-11-09

Förra gången

• Kursmål och kursintroduktion• Språkteknologiska tillämpningar

– OCR - Dialogsystem– Informationssökning - Språkgranskning– Frågesvarsystem - CALL– Textsammandrag - Textklassficering– Talteknologi - Maskinöversättning

• Grundläggande NLP-tekniker• Utmaningar i analys av naturligt språk• Inlämningsuppgift 1

– short paper med posterpresentation

Denna gång

• Val av ämne för inlämningsuppgift 1• Akademiskt skrivande och referenser• Korpuslingvistik

– Korpustyper– Språkstatistik– Korpusar och utvärdering av språkteknologiska program– Frekvenser och språkteknologi

• (Automatisk språkgranskning)

VAL AV ÄMNE FÖR INLÄMNINGSUPPGIFT 1

Inlämningsuppgift 1: ämnesvalWeb search and ranking GoogleLanguage support tools Anna, Ellinor LingsoftRecommender systems Tedy NetflixDialogue systems Ramazan, Nai, Jonathan Apple’s SiriSpeech synthesis Ebba, Ingrid, Matilda AT&T Natural VoicesStatistical machinetranslation

Google Translate

Rule-based/hybrid machine translation

Systran

Social network data mining

Alexander, Oscar, Erik Facebook

Social media sentiment analysis

socialmention.com

Plagiarism detection Emelie, Markus, Ahmed Urkund

AKADEMISKT SKRIVANDE OCH REFERENSER

Att skriva vetenskapligt

• Läs Mats Dahllöfs PM om akademiska uppsatsers uppbyggnad (http://stp.lingfil.uu.se/~matsd/pub/akupp.pdf)

• Lite overkill för denna uppgift att ta till sig allt därifrån, men ger en del goda tips om hur man skriver vetenskapligt

Objektivitet och saklighet

• Skriv objektivt och sakligt• Skriv med dina egna ord – det är inte okej att kopiera

delar av källtexten, då detta räknas som plagiat!

Google har tillgång till många parallella texter att träna sina maskinöversättningssystem på. Det tycker jag verkar bra.

Google har tillgång till många parallella texter att träna sina maskinöversättningssystem på. Detta talar för att de har möjlighet att uppnå goda resultat i översättningen.

Citat

• Citat är ett stycke ordagrann återgivning av vad som står i en text, till skillnad från din artikel i övrigt, där du som sagt skriver med dina egna ord

• Citat måste tydligt märkas upp som citat, med citationstecken, indentering och angivande av källa

• Ange även vilken sida i källan som citatet är hämtat från

• Max 15 rader utan tillstånd från upphovsrättsinnehavare

Citat: exempel

Persson (2004, 27) skriver:

”Kunskap om olika typer av partier och partisystem ger en generell förståelse av partiernas utveckling. För att kunna beskriva ett partisystems kännetecken krävs kunskap om antalet partier, om de partier som ingår i systemet och den omgivning som partiet befinner sig i.”

Ära den som äras bör

• Gör tydlig skillnad mellan dina egna bidrag och andras”äras den som äras bör”

• Redovisa alltid källan till de fakta du lägger fram, dvs var du har hittat denna information

Inom statistisk maskinöversättning används parallellkorpusar för att träna systemet på att översätta mellan olika språk. En viktig del i detta är länkning på menings- och ordnivå.

Inom statistisk maskinöversättning används parallellkorpusar för att träna systemet på att översätta mellan olika språk. En viktig del i detta är länkning på menings- och ordnivå (författare, årtal).

Källhänvisningar

Varje gång du nämner något som du har läst någonstans, måste du ange källan, även om du inte citerar dem bokstavligen

Källa med en författareBla bla bla (Nilsson 2010).Nilsson (2010) redogör för bla bla bla …

Källa med två eller tre författareBla bla bla (Fossum, Skantz och Katzeff 1997).Fossum, Skantz och Katzeff (1997, 25-31) menar att bla bla bla ...

Källa med fyra eller fler författareOm det finns fyra eller flera författare till samma bok skriver du i den löpande texten bara det första namnet och ”et al.”Bla bla bla (Johnson et al. 2001).Johnson et al. (2001) framför bla bla bla...

ReferenslistaI slutet av artikeln listas alla referenser i bokstavsordning (sorterat på efternamn)

382 Sandrine Zufferey and Bruno Cartoni

5. Absolute uses designates uses of a connective in a self-contained answer, as in the following exchange: Marie: « Pierre n’est-il pas formidable » ? — Jeanne: « En effet ».

6 The absolute numbers for each relation are: justification = 319 and confirmation = 71.

References

Asher, Nicholas. 1993. Reference to Abstract Objects in Discourse. Dordrecht: Kluwer. DOI: 10.1007/978-94-011-1715-9

Baker, Mona. 1993. “Corpus Linguistics and Translation Studies: Implications and Applications.” In Text and Technology: In Honour of John Sinclair, ed. by Mona Baker, Gill Francis, and Elene Tognini-Bonelli, 233–250. Amsterdam: John Benjamins.

Baker, Mona. 1995. “Corpora in Translation Studies: An Overview and Some Suggestions for Future Research.” Target 7 (2): 223–243. DOI: 10.1075/target.7.2.03bak

Becher, Viktor. 2010a. “Abandoning the Notion of ‘Translation-Inherent’ Explicitation: Against a Dogma of Translation Studies.” Across Languages and Cultures 1 (1): 1–28. DOI: 10.1556/Acr.11.2010.1.1

Becher, Viktor. 2010b. “Towards a More Rigorous Treatment of the Explicitation Hypothesis in Translation Studies.” Trans-Kom 1: 1–25.

Becher, Viktor. 2011. “When and Why Do Translators Add Connectives?” Target 23 (1): 26–47. DOI: 10.1075/target.23.1.02bec

Blum-Kulka, Shoshana. 1986. “Shifts of Cohesion and Coherence in Translation.” In Interlingual and Intercultural Communication, ed. by Juliana House, and Shoshana Blum-Kulka, 17–35. Tübigen: Narr.

Cartoni, Bruno, and Thomas Meyer. 2012. “Extracting Directional and Comparable Corpora from a Multilingual Corpus for Translation Studies.” In Proceedings of Language Resources and Evaluation Conference, 2132–2137. Istanbul, Turkey.

Cartoni, Bruno, Sandrine Zufferey, and Thomas Meyer. 2013. “Using the Europarl Corpus for Linguistic Research.” Belgian Journal of Linguistics 27: 23–42. DOI: 10.1075/bjl.27.02car

Charolles, Michel, and Benjamin Fagard. 2012. “En effet en français contemporain: de la confir-mation à la justification/explication.” Le français Moderne 80 (2): 137–164.

Danlos, Laurence. 2012. “Formalisation des Conditions d’Emploi des Connecteurs ‘en réalité’ et ‘(et) en effet’.” In Proceedings of 3e Congrès Mondial de Linguistique Française, 493–508. Lyon, France.

Degand, Liesbeth. 2000. “Contextual Constraints on Causal Sequencing in Informational Texts.” Functions of Language 7 (2): 173–201. DOI: 10.1075/fol.7.2.02deg

Degand, Liesbeth, and Henk Pander Maat. 2003. “A Contrastive Study of Dutch and French Causal Connectives on the Speaker Involvement Scale.” In Usage-Based Approaches to Dutch: Lexicon, Grammar, Discourse, ed. by Arie Verhagen, and Jeroen van de Weijer, 175–199. Utrecht: LOT.

Degand, Liesbeth, and Benjamin Fagard. 2012. “Competing Connectives in the Causal Domain. French Car and Parce Que.” Journal of Pragmatics 34 (2): 154–168. DOI: 10.1016/j.prag-ma.2011.12.009

Referenslista: böcker

Bok med en författareInkludera följande (om tillgängligt): författarens efternamn, förnamn. Utgivningsår. Titel. Upplaga (om ej 1:a uppl.). Förlagsort: förlag.Exempel:Bryman, Alan. 2008. Social research methods. 3. uppl. Oxford: Oxford University Press.

Bok med två eller flera författareFabozzi, Frank J., Modigliani, Franco och Jones, Frank J. 2010. Foundations of financial markets and institutions. 4. uppl. Boston: Prentice Hall.

Bok med redaktör/er (antologi/samlingsverk)Kamrany, Nake M. och Day, Richard H. (red.). 1980. Economic issues ofthe eighties. Baltimore: Johns Hopkins University Press.

Referenslista: konferensartiklar

Föredrag på konferenser och seminarier publiceras i samlingsverk som ofta kallas proceedings. Konferensens titel och tidpunkt samt konferensort ska tas med om de är kända. När du refererar till ett konferensbidrag refererar du till en del i en bok.

Hall, C. Michael. 2007. North-south perspectives on tourism, regional development and peripheral areas. I Dieter K. Müller and Bruno Jansson (red.) Tourism in peripheries: perspectives from the north and south, 19-38. Perspectives on tourism in Nordic and other peripheral areas, 2004, Umeå. Wallingford: CABI.

Referenslista: webbsidor

För internetkällor inkluderas i den mån det finns tillgängligt följande uppgifter: Författarens, organisationens eller myndighetens namn. Årtal då webbsidan/motsvarande uppdaterades.Dokumentets eller sidans titel. Webbplatsens titel eller ägare. Fullständig URL-adress (http://…),(datum då du hämtade dokumentet/informationen från dess plats på nätet).

Samuelsson, Johan. 2012. Fasta kriterier för bedömning täcker inte in allt. Skolverket.http://www.skolverket.se/skolutveckling/forskning/omraden/bedomning-och-betyg/summativ_bedomning/rapporter/fasta-kriterier-for-bedomning-tacker-inte-in-allt-1.187698 (Hämtad 2012-01-09).

Referenser i Harvardsystemet

• Läs mer om källhänvisningar och referenslistor enligt Harvardsystemet på följande url: http://www.ub.umu.se/skriva/skriva-referenser/referenser-harvard

Kom ihåg att alla källhänvisningar som nämns i texten även måste finnas med i referenslistan, och vice versa!

KORPUSLINGVISTIK

Vad är en korpus?

• Term– korpus – korpusar/korpora

• Definition– samling autentiska språkliga data (naturligt språk) som speglar

hur språket används och därmed kan användas för språkforskning

– texter eller transkriptioner av talspråk– hopsamlade (samplade) för att vara representativa för språket i

fråga – lagras elektroniskt

Vad är korpuslingvistik?

• Genom att använda en korpus kan man studera hur språket faktiskt används, t.ex: – Används konjunktivformer i svenska språket idag?

205 konjunktivfomer i SUC-korpusenvore, vare och måtte överlägset vanligast

– Säger vi bättre än jag eller bättre än mig?bättre än jag: 40 träffar (PAROLE)bättre än mig: 1 träff (PAROLE)

– Hur skiljer sig språkbruket med avseende på kön, klass och etnicitet? – När började ordet e-post användas i svenskan?

• Metoden att använda korpusdata för språkstudier kallas korpuslingvistik.

Att fundera på…

• Hur används det relativt nytillkomna verbet googla?• Vilken valensram har det?

Korpussökning i Korp: googla

Varför är korpusar viktiga inom språkteknologin?

• Visar hur språket används• Kan ”lära” datorn hur språk ska analyseras/genereras• Används för uppträning och utvärdering av nästan alla

typer av språkteknologiska system

Några viktiga termer• Löpord (tokens)

– Sekvens av bokstäver (inkl. kolon eller bindestreck) som avgränsas av mellanslag eller skiljetecken eller radbrytning

– Oftast räknas även skiljetecken av olika slag som löpordI den här meningen finns åtta löpord .

• Typord (types)– Textens unika ord, dvs. räkna identiska löpord endast en gång

Malte och Nora gillar att läsa och busa .9 löpord och 8 typord (Malte och Nora gillar att läsa busa .)

• Hapax Legomena– Ord som förekommer endast en gång i en korpus

...ännu en viktig term

• LemmaGrundform/uppslagsform, dvs den oböjda formen av ett ord, som (vanligen) används för att representera ett ord i exempelvis en ordbok– fot är lemma till fötter– för två ord som har samma stavning men olika betydelser

(homografi, homofoni) används normalt två olika lemman• banan – substantiv, olika uttal

– en frukt à obestämd form av lemmat banan – spåret à bestämd form av lemmat bana

• kort – olika ordklasser, olika uttal – kort à adjektiv, i motsats till lång – kort à substantiv, spelkort

…och ytterligare en term

• n-gramFasta sekvenser om flera på varandra följande ord (alternativt fonem/stavelser/bokstäver etc) i en given sekvens av text eller tal – n=1: unigram– n=2: bigram– n=3: trigram

• Exempel: att vara eller inte vara – 5 unigram: att, vara, eller, inte, vara– 4 bigram: att vara, vara eller, eller inte, inte vara – 3 trigram: att vara eller, vara eller inte, eller inte vara

Korpusen som statistiskt urval

• Insamling av texter görs efter samma principer som opinonsundersökningar: – Man tar ett representativt och tillräckligt stort stickprov

(urval/sampel) ur en väldefinierad population – ...för att kunna ställa frågor och få svar som ger (statistiskt)

signifikant information om populationen

• Hur gör vi ett representativt (balanserat) urval? – Låt mängden text i olika textgenrer stå i proportion till hur

mycket text som produceras (eller läses) i respektive genre– Kontrollera ålder och kön på skribenterna för att uppnå balans

med avseende på vem som skrivit texten

Korpusstorlek• Exempel

• Ju större korpus, desto mer pålitliga resultat – Fler språkliga fenomen finns representerade – Bättre generaliseringar från urvalet till språket i stort

• Svårigheter med stora korpusar – Kostsamt och tidskrävande att manuellt annotera dem

60-tal Brown Corpus 1 milj. löpord

80-tal Birmingham collection of English Text 20 milj. löpord

90-tal British National Corpus (BNC) 100 milj. löpord00-tal Bank of English (COBUILD) 525 milj. löpord

KORPUSTYPER

Korpustyper• Modalitet

– text och/eller (transkriberat) tal• Genre

– generella ßà specialiserade korpusar– balanserade korpusar

• Språk– ett, två eller många…

• Tidsperiod– historiska ßà moderna korpusar– synkroniska ßà diakroniska korpusar

• Uppmärkning (annotering)– Manuellt eller automatiskt– Typ av annotering (morfologisk, syntaktisk etc)

Generella korpusar

• En generell korpus är balanserad med avseende på genre och domän, och anses vara representativ för språket i fråga

• Innehåller text och ofta även tal• Exempel:

British National Corpus (BNC)American National Corpus (ANC)Stockholm-Umeå Corpus (SUC)

• Kan användas som så kallad referenskorpus i kontrastiva studier

Specialiserade korpusar

• En specialiserad korpus är mer avgränsad än en generell korpus– domän- eller genrespecifik– syftar till att representera en delmängd av språket

• Värdefullt om man vill studera hur språkbruket inom en viss domän skiljer sig från allmänspråket– jämför ordfrekvenser o dyl mot en generell referenskorpus

• Exempel:Bloggmix Tillhandahålls av Språkbanken:

https://spraakbanken.gu.se/

Inlärningskorpusar (Learner Corpora)

• Andraspråkskorpusar– texter/tal av andraspråksinlärare– exempel: Tisus-korpusen

texter från Test i svenska för universitetsstudier (2005-2006)• Utvecklingskorpusar

– texter/tal av barn som lär sig sitt första språk– exempel: CHILDES

• Språkteknologisk användning– anpassning av språkgranskningsprogram– utveckling och förbättring av CALL-program

Flerspråkiga korpusar

• Parallellkorpusar– samma text på två eller flera språk

• EuroParl http://www.statmt.org/europarl/Protokoll från Europaparlamentet (21 officiella EU-språk)

• Canadian Hansard Corpus Kanadensiska parlamentsprotokoll (engelska–franska)

• Jämförbara korpusar– ”liknande” texter på olika språk

• samma textgenre• samma tidsperiod• etc.

Flerspråkiga korpusar och språkteknologi

• Skapa översättningslexikon• Träna statistiska maskinöversättningssystem• Ett viktigt steg för båda dessa tillämpningar är

länkning på menings- och ord/fras-nivå

I take the middle seat, which I dislike

Jag tar mittplatsen, vilket jag inte tycker om

Synkroniska korpusar

• Samling texter från samma tidsperiod• Exempel: International Corpus of English

(ICE) för synkroniska studier av engelska i världen– 20 delkorpusar på 1 miljon ord vardera– skriven och talad engelska från 1989 och framåt– täcker länder/områden där modersmålet är engelska

• Få korpusar tillgängliga över regionala dialekter

Diakroniska korpusar

• Texter på samma språk men från olika tidsperioder• Kan exempelvis användas för att:

– undersöka språkförändringar– anpassa språkteknologiska verktyg till analys av historisk text

• Exempel: Helsinki Diachronic Corpus ofEnglish Texts– 1,5 miljoner ord från 400 texter– texter från 800-talet till 1800-talet

• Lite skojigare exempel: Star Trek-korpusen – undersöker genusaspekter i Star Trek-episoder från 1966-1993

Korpusannotering

• Extra-textuell information– författare– år – beskrivning av innehållet – etc

• Strukturmärkning– blankrader– rubriker– specialtecken – etc

• Lingvistisk annotering

Lingvistisk annotering

• ordklasstaggning ord à ordklass (+ morfologi)• lemmatisering ord à grundform• parsning mening à syntaktisk struktur• semantisk struktur mening à semantisk struktur

– semantiska relationer: agent, patient, mål etc– semantiska kategorier: personnamn, tid, plats etc

• fonetisk transkription ord à fonetisk representation

Ordklasstaggning

• Traditionellt sett nio ordklasser i svenska– substantiv, adjektiv, verb, pronomen, prepositioner, adverb,

räkneord, konjunktioner, interjektioner

• I korpussammanhang ofta betydligt fler– svenska Parole-korpusen: 153 olika taggar– den traditionella ordklassen kombineras med uppgifter om

numerus, genus, species etc

Parsning

• Annotering av någon form av grammatisk analys på högre nivå än enskilda ord – frasstruktur (S, NP, VP etc) – dependensrelationer (subjekt, objekt, averbial etc)

Trädbanker (Treebanks)

• (manuellt) lingvistiskt annoterad korpus som innehåller någon form av grammatisk analys på högre nivå än ordklasstaggning

• Myntat av Geoffrey Leech på 80-talet– syntaktisk struktur representeras ofta i trädformat

Mer om trädbanker

• Tidiga trädbanker skapades redan på 1970-talet • Exempel: Talbanken

– av Ulf Teleman (Lunds universitet, 1974)– ca 300 000 löpord skriven och talad svenska– annoterad med frasstrukturer och syntaktiska funktioner

• Kanske mest kända: Penn Treebank (engelska)• Språkteknologisk användning

– Träna upp parsrar för automatisk syntaktisk analys– Grammatikkontrollprogram– Grammatiskt medveten maskinöversättning

Material till trädbanker

• Trädbanker har ofta vuxit fram ur redan ordklasstaggade korpusar

• Består ofta av en delmängd av den ordklasstaggade korpusen (stort jobb att manuellt annotera syntaktiskt)

• Exempel: Swedish Treebank– SUC-korpusen– skrivna delen av Talbanken

Swedish Treebank illustrerat

WC Löpord Lemma POS Morfologisk annotering Dep Rel1 Han han PN UTR|SIN|DEF|SUB 2 SS2 hänvisade hänvisa VB PRT|AKT 0 ROOT3 utan utan PP _ 2 AA4 att att IE _ 3 PA5 blinka blinka VB INF|AKT 4 IF6 till till PP _ 5 OA7 Gamla gammal JJ POS|UTR/NEU|SIN|DEF|NOM 8 HD8 testamentet testamente NN NEU|SIN|DEF|NOM 6 PA9 . . MAD _ 2 IP

SS = subjekt IF = fras i infinitiv HD = huvud AA = adverbial OA = objektsadverbial IP = interpunktionPA = prepositionskomplement

Annotering av talspråkskorpusar

• Vad ska transkriberas?• Hur mycket paralingvistisk information ska tas med i

beskrivningen av ett samtal?– pauser?– skratt?– hummanden?– harklingar?– hostningar?– bakgrundsljud?– etc…

TVÅ EXEMPELKORPUSAR

British National Corpus (BNC)

• http://www.natcorp.ox.ac.uk/• Modern brittisk engelska • Över 100 miljoner ord • Skrivet och talat språk • Balanserad

tidningstext, tidskrift för olika åldrar, intressen, skönlitteratur, populärvetenskap, brev, uppsatser, dialoger och monologer med ortografisk transkription

• annoterad med ordklasstaggar

engelsk referenskorpus

<p><s n=011><w AT0>The <w AJ0>medical <w NN2>aspects <w VM0>can <w VBI>be<w NN1>cancer <c PUN>, <w NN1>pneumonia <c PUN>, <w AJ0>sudden<w NN1>blindness <c PUN>, <w NN1>dementia <c PUN>,<w AJ0>dramatic <w NN1>weight loss <w CJC>or <w DT0>any<w NN1>combination <w PRF>of <w DT0>these <c PUN>.</p><p><s n=012><w AV0>Often <w AJ0>infected <w NN0>people <w VBB>are<w VVN>rejected <w PRP>by <w NN0>family <w CJC>and<w NN2>friends<c PUN>, <w VVG>leaving <w PNP>them <w TO0>to<w VVI>face <w DT0>this <w AJ0>chronic <w NN1>condition<w AJ0-AV0>alone <c PUN>.</p>

BNC illustrerat

Stockholm-Umeå Corpus (SUC)

• Allmänsvenskt skriftspråk från 1990-talet• 1 miljon löpord• Balanserad

– 500 texter med cirka 2 000 löpord per text– 9 huvudgenrer, med subkategorier, ex: K (skönlitteratur)

KK allmän skönlitteratur KN triviallitteratur KL deckare och science fiction KR humor

• Annoterad med:– ordklass (part-of-speech)– lemma– namnuttryck (named entities)

svensk referenskorpus

<HEAD><s id=aa01c-001><w lem=’sovjetisk’ msd=’AQPNSNIS’ n=1952>Sovjetiskt</w> <w lem=’pansar’ msd=’NCNSN@IS’ n=1953>pansar</w><w lem=’i’ msd=’SPS’ n=1954>i</w><NAME TYPE=PLACE><w lem=’Vilnius’ msd=’NP00N@0S’ n=1955>Vilnius</w></NAME></s></HEAD><BYLINE><s id=aa01c-002><w lem=’av’ msd=’SPS’ n=1956>Av</w><NAME TYPE=PERSON><w lem=’Michael’ msd=’NP00N@0S’ n=1957>MICHAEL</w><w lem=’Winiarski’ msd=’NP00N@0S’ n=1958>WINIARSKI</w></NAME></s></BYLINE>

SUC illustrerat

SPRÅKSTATISTIK

Korpusstatistik

• Vilka ord som förekommer i en text säger ganska mycket om vad texten handlar om, värderingar och attityder bakom texten, samt hur språket används.

• Vanliga statistiska sätt att undersöka en korpus är att titta på:– ordfrekvenser– nyckelord– konkordanser– kollokationer

Frekvensordlistor

De 10 vanligaste löporden i SUC-korpusen31761 och25691 i23959 att19261 som17329 en15041 av14656 på14039 det13973 är11788 med

En frekvenslista är en sorterad lista över antal förekomster av en enhet, t.ex. löpord, typord eller lemman i en korpus.

Vad innebär ordfrekvenser?

• Kvantitativ ansats som visar antal förekomster av en enhet

• Listan kan ordnas efter frekvens, alfabetiskt, eller efter förekomst i korpusen

• Man kan räkna frekvenser på olika sätt: – löpord: springa, sprang, sprungit, hus, huset, husen – lemman: springa, hus – alla ord, innehållsord, specifika ordklasser,

ordformer av ett visst lemma etc.

Råa och relativa frekvenser

Att jämföra frekvenslistor i två (specialiserade) korpusar kan ge information om skillnader i hur olika lexikala enheter används mellan dessa.

• råa frekvenserDet faktiska antal gånger ett ord förekommer i en viss korpus. Används när man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus.

• relativa frekvenserDen procentandel ordets frekvens utgör av alla ord i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar.

Råfrekvenser: exempelAE BA KL KR74 år 38 parti 63 gång 75 man48 match 37 år 61 hand 74 far30 tränare 26 fråga 46 väg 70 häst29 minut 25 socialdemokrat 45 fråga 58 år27 dag 25 land 45 bil 57 tid24 seger 24 riksdag 40 fall 50 dag24 mål 24 regering 38 statsråd 48 gång23 spel 23 dag 37 huvud 45 väg23 lag 22 väg 37 dörr 41 hand21 tävling 20 procent 35 rum 39 öga21 plats 19 stat 32 år 39 sak20 tid 19 del 32 polis 36 del20 gång 18 politiker 31 tid 35 morSport Ledare Deckare Trivia

Exemplet

• Texter från SUC-korpusen– Sport – Deckare– Ledare – Trivia

• Frekvenslistor baserade på endast substantiv• Sökning på lemman (grundformer)

Relativa frekvenser

• Ibland vill man jämföra ordfrekvenser mellan korpusar av olika storlek

• Relativa frekvenser är den procentandel ett ord utgör av det totala antalet ord i korpusen

Relativa frekvenser: exempel

• Pronomenet vi förekommer: – 2,142 i en korpus innehållande totalt 148,624 löpord och– 2,666 i en annan korpus innehållande totalt 483,913 löpord

• Eftersom de två delkorpusarna är olika stora så säger inte de råa frekvenserna mycket, så vi måste normalisera

• Dela frekvensen för det löpord vi är intresserade av med det totala antalet ord i korpusen, och multiplicera med exempelvis tusen, för att få fram förekomsten per tusen ord – 2142/148624*1000 = 14,41 (ca 14 förekomster per tusen ord) – 2666/483913*1000 = 5,5 (ca 6 förekomster per tusen ord)

• vi är alltså mer än dubbelt så vanligt i den första korpusen

Nyckelord

• Ord som är mer frekvent förekommande i en text än vad vi skulle förvänta oss genom slumpen– återspeglar vad texten handlar om– inte nödvändigtvis de mest frekventa orden i en text

• Tas fram genom att jämföra de relativa frekvenserna i en text med de relativa frekvenserna i en generell referenskorpus

• Språkteknologiska tillämpningar– informationssökning (exvis Google)– textklassificering

Konkordanser (concordances)

• Sökord i kontext• KWIC – KeyWord In Context• Alfabetisk lista över ett sökord med kontext runtom• Används för att undersöka vilka ord som förekommer

kring ett givet ord

ej att förväxla med tidigare definition av

nyckelord!

Konkordanser i Korp: googla

Konkordanser: användning

• Kan användas för att undersöka skillnader i betydelser för ett ord och hur ordet används

• Kan säga något om ett ords semantiska preferens• Exempel:

Ger verbet orsaka mest positiva eller negativa associationer?

Konkordanser för verbet orsaka

Kollokationer (collocations)

• Samförekomst• Två eller flera ord som förekommer tillsammans oftare

än vad som förväntas av slumpen • NE: sammanhang som ett ord kan eller brukar ingå i • Specifika kombinationer av ord (inte hela kontexten)• Typer:

– sammanhängande: röd tråd, på grund av– diskontinuerliga: för ... skull, ju... desto – varierande: komma () ihåg, sitta () still, köra () bil

Kollokationer och förväntan

• Kollokationer innebär att vi förväntar oss att se vissa ord tillsammans

• Vilka ord kan förväntas här? buller och ?? väcka ?? blod

• Låter fel om man byter ett visst ord mot en synonymnär hon var 45 bildade/skapade/byggde/gjordehon ny familj och levde sedan i frid och lugn/glädje/ro/fröjd

• Låter fel om man byter plats på ord bång och buller

Konkordanser och kollokationer

• KonkordanserEn lista med ord där träffarna är centrerade och omgivna av sin kontext. Behöver gås igenom manuellt för att hitta mönster i kontexten.

• KollokationerEn lista med ord som förekommer ofta tillsammans. Kan ge information om intressanta mönster som man kan undersöka vidare genom konkordanser.

Sammanfattning: termerFrekvensordlista Sorterad lista som visar antal förekomster av en

enhet, t.ex. löpord eller lemman i en korpus.

Nyckelord Innehållsord som förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen och som därmed kan tänkas återspegla vad texten handlar om.

Konkordanser Lista över ord där träffarna är centrerade och omgivna av sin kontext. Kallas också KWIC (KeyWord-In-Context).

Kollokationer Samförekomst, dvs ord som förekommer tillsammans oftare än förväntat av slumpen, t.ex. idiom och fasta fraser.

KORPUSAR OCH UTVÄRDERING AV SPRÅKTEKNOLOGISKA PROGRAM

Korpusar och utvärdering av språkteknologiska program

• Vanligaste sättet att utvärdera språkteknologiskprogramvara är jämföra de resultat man får mot ett facit, en så kallad guldstandard

• Exempelvis om man har utvecklat en ordklasstaggare, så jämför man de taggar som taggaren spottar ur sig mot manuellt annoterade taggar i en korpus

• Vanligaste formen av utvärdering är i termer av precision och täckning

Precision och täckning

• PrecisionAndelen utpekade exempel som är verkliga exempel

• Täckning (recall)Andelen verkliga exempel som pekas ut

Precision

gulstandard ja guldstandard nejdatorprogram ja sanna positiva falska positivadatorprogram nej falska negativa sanna negativa

sanna positiva + falska positivasanna positivaPrecision =

Täckning


sanna positiva + falska negativasanna positivaTäckning =

Precision och täckning: korstabell


sanna positiva + falska positivasanna positivaPrecision =

sanna positiva + falska negativasanna positivaTäckning =

F-score

Ett sätt att väga samman precision och täckning

2 * (täckning * precision)

täckning + precision

FREKVENSER OCH SPRÅKTEKNOLOGI

Frekvenser och språkteknologi

• Exempel på frekvensberäkningar i en text/korpus och språkteknologiska tillämpningar som kan dra nytta av dessa:– bokstavsfrekvenser

kryptoknäckning– ordfrekvenser

stavningskontroll, informationssökning– n-gram av bokstäver

OCR, stavningskontroll– n-gram av ord

taligenkänning– ordlängd och meningslängd

läsbarhetsmätningar (LIX)– ordklasstaggfrekvenser, n-gram av ordklasstaggar

ordklasstaggning, grammatikkontroll

Användbara Unix-kommandon (1)

I Unix-systemet finns många inbyggda kommandon som är användbara för språkstatistiska beräkningar, ex:

– grep/egrepsöker i en text efter rader som innehåller en viss sträng

– sortsorterar raderna i en fil (alfabetiskt eller numeriskt)

– uniqslår ihop identiska rader i en text

– wcräknar antalet rader, ord och tecken i en text

Användbara Unix-kommandon (2)– tr

bokstavsvis utbyte, t.ex. A byts ut mot a– cat

sammanslagning av två eller flera filer sekventiellt– paste

sammanslagning av två eller flera filer radvis– head

plockar ut början av en fil– tail

plockar ut slutet av en fil

Till samtliga kommandon finns ett antal flaggor som kan anges för att specificera ytterligare hur kommandot ska ”bete sig”. I ett terminalfönster, skriv man följt av det kommando du är intresserad av, för att få mer information om hur kommandot används.

Övning

1. Anta att ni har en vanlig text, utifrån vilken ni vill skapa en ordlista på automatisk väg. Vilka delsteg kan tänkas ingå i den här processen? Försök att skriva ett ”recept på vanlig svenska” för hur datorn kan gå till väga för att lösa uppgiften. Ni måste alltså bryta ner problemet i mindre bitar. Använd era egna ord. Varje steg i receptet ska börja med ett verb (t.ex. ”Ta fram ...”, ”Ta bort ...”, ”Sortera ...”, ).

2. Ändra ”receptet” så att det blir en frekvensordlista istället.

3. Fundera kring hur ditt ”recept” kan skrivas om till Unix-kommandon.

Nästa gång

• 14 november– laboration 1: ord och n-gram

• 16 november– Föreläsning 3: digital humaniora

Documents

Introduktion till språkteknologi Föreläsning 2 ...evapet/Undervisning/ist2016/F2-handout.pdf · Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson