29
Växjö universitet: MSI Databasteori 2004 1 Några exjobbsförslag Leif Grönqvist ([email protected]) Språkteknologi & Lingvistik Växjö universitet, GU & GSLT

Några exjobbsförslag

Embed Size (px)

DESCRIPTION

Några exjobbsförslag. Leif Grönqvist ([email protected]) Språkteknologi & Lingvistik Växjö universitet, GU & GSLT. Upplägg. Lite om vad jag gjort och gör Grundutbildning: datalogi i Göteborg Konsult ett litet tag Doktorand inom GSLT (språkteknologi) Mina forskningsintressen Exjobbsförslag - PowerPoint PPT Presentation

Citation preview

Page 1: Några exjobbsförslag

Växjö universitet: MSI Databasteori 2004 1

Några exjobbsförslag

Leif Grönqvist ([email protected])Språkteknologi & LingvistikVäxjö universitet, GU & GSLT

Page 2: Några exjobbsförslag

2Databasteori 2004Växjö universitet: MSI

Upplägg

Lite om vad jag gjort och gör Grundutbildning: datalogi i Göteborg Konsult ett litet tag Doktorand inom GSLT (språkteknologi)

Mina forskningsintressen Exjobbsförslag

En datoriserad tesaurus Automatiskt sökindex för böcker Något inom information retrieval/extraction?

Page 3: Några exjobbsförslag

3Databasteori 2004Växjö universitet: MSI

Min bakgrund

1986-1989: ”4-årig teknisk” (electrical engineering) 1989-1993: M.Sc. (official translation of “Filosofie

Magister”) in Computing Science, Göteborg University 1989-1993: 62 points in mechanics, electronics, etc. 1994-2001: Work at the Linguistic department in Göteborg

Various projects related to corpus linguistics Some teaching on statistical methods (Göteborg and

Uppsala), and corpus linguistics in Göteborg, Sofia, and Beijing

1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases

1995-1996: Work at the department of Informatics in Göteborg (the Internet Project)

2001-2006: PhD Student in Computer Science / Language Technology

Page 4: Några exjobbsförslag

4Databasteori 2004Växjö universitet: MSI

Mina forskningsintressen

Statistiska metoder i språkteknologi Dolda Markovmodeller Korpuslingvistik Maskininlärning Vektorrymdsmodeller för lagring av

semantisk information Samförekomststatistik ”Latent Semantic Indexing” (LSI) Användning av lingvistisk information vid

träning

Page 5: Några exjobbsförslag

5Databasteori 2004Växjö universitet: MSI

Några möjliga applikationer av LSI

Automatisk generering av en domänspecifik tesaurus

Nyckelordsextraktion från dokument i en dokumentsamling

Hitta dokument som liknar varandra Hitta dokument som är relaterade till ett

givet dokument eller uppsättning termer

Page 6: Några exjobbsförslag

6Databasteori 2004Växjö universitet: MSI

Ett exempel baserat på 50000 tidningsartiklar

stefan edbergedberg 0.918cincinnatis 0.887edbergs 0.883världsfemman 0.883stefans 0.883tennisspelarna 0.863stefan 0.861turneringsseger 0.859queensturneringen 0.858växjöspelaren 0.852grästurnering 0.847

bengt johanssonjohansson 0.852johanssons 0.704bengt 0.678centerledare 0.674miljöcentern 0.667landsbygdscentern 0.667implikationer 0.645ickesocialistisk 0.643centerledaren 0.627regeringsalternativet 0.620vagare 0.616

Page 7: Några exjobbsförslag

7Databasteori 2004Växjö universitet: MSI

Dags för ett par konkreta förslag

1. En datoriserad tesaurus Att utforma och bygga en datoriserad tesaurus utifrån en

inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord)

2. Några tillägg till MultiTool 2a. Automatisk alignment: låt datorn hjälpa till att koppla

ihop transkription och mediafil 2b. Fonetikmodul: Beräkna och visualisera

frekvensspektrum och F0 som hjälp vid arbete i MultiTool 2c. Sök- och räknemodul: Lägg till möjligheten att söka efter

och räkna ord och kodningar, eventuellt kombinationer, samt möjlighet att spela upp eller exportera de funna sektionerna

2d. Stöd för kodningsscheman: lägg till möjligheten att ladda/spara kodningsscheman och att i vissa fall låsa användaren till att använda dem

Page 8: Några exjobbsförslag

8Databasteori 2004Växjö universitet: MSI

Konkreta förslag, forts

3. Transkriptionsstöd Kan med fördel byggas som en del av

MultiTool eftersom en hel del användbar funktionalitet finns där

4. Något inom information retrieval/extraction? Har inget konkret förslag… Men om

något av det jag pratat om och ni har en egen idé inom IR/IE-området så…

Page 9: Några exjobbsförslag

9Databasteori 2004Växjö universitet: MSI

1. Datoriserad tesaurus

Att utforma och bygga en datoriserad tesaurus utifrån en inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord)

Page 10: Några exjobbsförslag

10Databasteori 2004Växjö universitet: MSI

Två existerande tesaurusar

Brings (svenska) tesaurus finns inscannad 1000 huvudort Totalt över 100 000 ordformer Substantiv, verb och adjektiv i olika grupper

Roget´s thesaurus (engelska) finns, fast i ett annat format Samma struktur som Bring

Page 11: Några exjobbsförslag

11Databasteori 2004Växjö universitet: MSI

Exempel

Page 12: Några exjobbsförslag

12Databasteori 2004Växjö universitet: MSI

Vinster med en datorisering

Sökning i tesaurusarna i bokform är ibland lite jobbig: Huvudord går fint Övriga ord finns i indexet men det blir mycket

bläddrande Gränssnittet skulle kunna förenkla sökningen

avsevärt genom markering och klickbara ord Bäst vore om alla ord var huvudord!

Information för att åstadkomma detta finns troligen i datafilerna De mest relaterade orden står först Huvudord med flera betydelser har flera

undergrupper för varje ordklass

Page 13: Några exjobbsförslag

13Databasteori 2004Växjö universitet: MSI

Förkunskaper

Att ha gått ca. tre år på programmet räcker som förkunskap men bra att ha är: Goda kunskaper i programmering,

förslagsvis logikprogrammering. Semantik, lexikologi (från kurserna på

programmet) Programmeringsspråket Oz (och

utvecklingsmiljön Mozart) är väl lämpat att använda för den här uppgiften

Page 14: Några exjobbsförslag

14Databasteori 2004Växjö universitet: MSI

MultiTool

Flera förslag som syftar till att förbättra MultiTool

Handledare: Jens Allwood, [email protected] Magnus Gunnarsson, [email protected] Leif Grönqvist, [email protected]

Leif eller Magnus är handledare i normal mening, Jens fungerar som kravställare

Även andra användare finns (Anki och Loredana)

Implementation i Java existerar Utvecklad av Leif från början Vidareutvecklad av Magnus och nu i sommar av

Johan Lund

Page 15: Några exjobbsförslag

15Databasteori 2004Växjö universitet: MSI

Skärmdump från MultiTool

Page 16: Några exjobbsförslag

16Databasteori 2004Växjö universitet: MSI

MultiTools vyer visar info på olika sätt

Mediavyn: spelar upp filmen och/eller ljudet. Användaren kan spola fram och tillbaka för att hitta intressanta delar.

Standardvyn: visar transkriptionen på det sätt de flesta är vana vid, dvs ett yttrande på varje rad. Användaren kan scrolla genom transkriptionen.

Partiturvyn: visar transkriptionen som ett partitur, dvs en rad för varje talare och varje bidrag placerade i tidsordning, liknande noterna på ett notblad så att samtidiga yttranden står i samma kolumn.

Tidsskalevyn: en tidsskala, graderad i minuter och sekunder, där ljudets amplitud i varje tidpunkt kan avläsas.

Kodningsvyn: visar alla olika kodningar hierarkiskt med frekvenser på varje nivå.

Page 17: Några exjobbsförslag

17Databasteori 2004Växjö universitet: MSI

Internt i MultiTool

TP: tidpunkter, CP: kodningspunkter Kodningar består av:

Start-CP Slut-CP Talarinitial Kodningsvärde

Ett kodningsvärde är hierarkiskt och den översta nivån kallas ibland för schema

Exempel på kodningar: 1-2, A, text • god morgon 2-3, A, text • allihop 1-2, A, talegenskaper • betoning • avvikande 3-4, C, text • morrn 3-5, B, text • hej anders 5-6, A, text • är klockan tio redan

Page 18: Några exjobbsförslag

18Databasteori 2004Växjö universitet: MSI

Internt i MultiTool, forts

Synkroniseringar: CP1 = TP2,45 CP3 = TP4,24 CP4 = TP4,45 CP5 = TP4.70 CP6 = TP6,12

Kodningspunkter behöver inte kopplas till en tidpunkt

En TP har en direkt motsvarighet i mediafilen Kodningspunkter är numrerade från 1 och

uppåt, alltid i kronologisk ordning

Page 19: Några exjobbsförslag

19Databasteori 2004Växjö universitet: MSI

2a. Automatisk alignment i MultiTool

Låt datorn hjälpa till att koppla ihop transkription och mediafil

Ett program utvecklat på KTH kan koppla ihop en ordsträng med en ljudfil på ordnivå Problem: överlapp förvirrar programmet Hur vet man vilka synkroniseringar som är rätt och vilka

som bör sorteras bort? Ytterligare ett steg i fonetisk riktning vore att gissa

pauser, vokalljud och yttrandegränser eller till och med andra svårare språkljud, för att kunna synkronisera dessa automatiskt mot transkriptionen

Bra att använda existerande program men också bra om MultiTool kan fungera självständigt

Page 20: Några exjobbsförslag

20Databasteori 2004Växjö universitet: MSI

Automatisk alignment, forts

Förkunskaper Java Gärna kunskaper i fonetik

Tillgångar En existerande implementation av MultiTool. Fonetik och fonologi-expertis. Ett alignmentprogram utvecklat på KTH av

Kåre Sjölander som ger hyfsad alignment mellan indata i form av tal och text

Page 21: Några exjobbsförslag

21Databasteori 2004Växjö universitet: MSI

2b. Fonetikmodul för MultiTool

Beräkna och visualisera frekvensspektrum och F0 som hjälp vid arbete i MultiTool

Tidsskalevyn ger idag en bild av ljudamplitud vid olika tidpunkter

Det vore intressant att lägga till frekvensspektrum, F0, F1, mm då dessa skulle ge god hjälp vid synkronisering

Flera olika algoritmer existerar så en stor del handlar om att utforska om de kan användas på dialog.

Eventuellt finns en del existerande kod i Java för fonetisk analys så att leta upp något användbart vore en bra ända att börja i.

Page 22: Några exjobbsförslag

22Databasteori 2004Växjö universitet: MSI

Fonetikmodul, forts

Förkunskaper Java Gärna kunskaper i fonetik Förståelse för ganska matematiska

algoritmer Tillgångar

En existerande implementation av MultiTool Fonetik och fonologi-expertis Systemet Praat med mängder av

dokumentation – klarar att utföra den analys som behövs

Page 23: Några exjobbsförslag

23Databasteori 2004Växjö universitet: MSI

2c. Sök- och räknemodul för MultiTool

Lägg till möjligheten att söka efter och räkna ord och kodningar, eventuellt kombinationer, samt möjlighet att spela upp eller exportera de funna sektionerna

Man vill enkelt kunna söka efter, räkna, och spela upp segment som matchar ett sökuttryck

Viktigt att sökuttrycken inte kräver kunskap i reguljära uttryck eller Prolog

Enkla sökningar (ge mig alla ”bil”) viktigast Kombinationer (ge mig alla överlappade ”mm” i

början på yttranden) också användbart Gränssnittet är viktigt – enkelt men kraftfullt

Page 24: Några exjobbsförslag

24Databasteori 2004Växjö universitet: MSI

Sök- och räknemodul, forts

Förkunskaper Java

Tillgångar En existerande implementation av MultiTool Räkneverktyget Tal-till-tal (nya TraSA)

Page 25: Några exjobbsförslag

25Databasteori 2004Växjö universitet: MSI

2d. Stöd för kodningsscheman i MultiTool

Lägg till möjligheten att ladda/spara kodningsscheman och att i vissa fall låsa användaren till att använda dem

Samtliga kodningsvärden måste kunna visas hierarkiskt

Sedan bör delträd kunna låsas så att Kodningsvärden väljs bland löven Inga nya värden kan läggas till utan låsa upp

låset Delträd (scheman) skall kunna sparas

och laddas (importeras)

Page 26: Några exjobbsförslag

26Databasteori 2004Växjö universitet: MSI

3. Transkriptionsstöd

Kan med fördel byggas som en del av MultiTool eftersom en hel del användbar funktionalitet finns där

En transkription består av: En header med bakgrundsinformation En body med själva samtalet

Viktigt att dessa skrivs i korrekt syntax MultiTool kunde med vissa tillägg fungera som

transkriptionsverktyg: Exportera i formatet GTS (Göteborg Transcription

Standard) Mer förenklande funtionalitet

Page 27: Några exjobbsförslag

27Databasteori 2004Växjö universitet: MSI

Transkriptionsstöd, forts

Flera typer av användare1. Vill transkribera utan att synkronisera2. Vill koda exempelvis gester mot en videofil3. Vill transkribera och synkronisera yttrande

för yttrande4. Vill transkribera och synkronisera varje ord5. …

Olika features viktiga för olika användare

Page 28: Några exjobbsförslag

28Databasteori 2004Växjö universitet: MSI

4. Gör något spännande inom IR/IE

Tänk ut något och fråga mig vad jag tror Exempel:

Kan man hitta synonymer i icke-annoterad text? Hur? Hur bra?

Träna upp ett system baserat på LSI för att klara TOEFL-tester (ordkunskap) så bra som möjligt

Page 29: Några exjobbsförslag

29Databasteori 2004Växjö universitet: MSI

Och nu då?

De mer eller mindre konkreta förslagen finns på min hemsida

Även den här presentationen finns länkad under ”Current teaching”

Fundera lite och kom till mig eller Magnus och fråga

Maila går också fint om jag inte är här

Först till kvarn gäller!