Upload
channing-padilla
View
41
Download
5
Embed Size (px)
DESCRIPTION
Några exjobbsförslag. Leif Grönqvist ([email protected]) Språkteknologi & Lingvistik Växjö universitet, GU & GSLT. Upplägg. Lite om vad jag gjort och gör Grundutbildning: datalogi i Göteborg Konsult ett litet tag Doktorand inom GSLT (språkteknologi) Mina forskningsintressen Exjobbsförslag - PowerPoint PPT Presentation
Citation preview
Växjö universitet: MSI Databasteori 2004 1
Några exjobbsförslag
Leif Grönqvist ([email protected])Språkteknologi & LingvistikVäxjö universitet, GU & GSLT
2Databasteori 2004Växjö universitet: MSI
Upplägg
Lite om vad jag gjort och gör Grundutbildning: datalogi i Göteborg Konsult ett litet tag Doktorand inom GSLT (språkteknologi)
Mina forskningsintressen Exjobbsförslag
En datoriserad tesaurus Automatiskt sökindex för böcker Något inom information retrieval/extraction?
3Databasteori 2004Växjö universitet: MSI
Min bakgrund
1986-1989: ”4-årig teknisk” (electrical engineering) 1989-1993: M.Sc. (official translation of “Filosofie
Magister”) in Computing Science, Göteborg University 1989-1993: 62 points in mechanics, electronics, etc. 1994-2001: Work at the Linguistic department in Göteborg
Various projects related to corpus linguistics Some teaching on statistical methods (Göteborg and
Uppsala), and corpus linguistics in Göteborg, Sofia, and Beijing
1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases
1995-1996: Work at the department of Informatics in Göteborg (the Internet Project)
2001-2006: PhD Student in Computer Science / Language Technology
4Databasteori 2004Växjö universitet: MSI
Mina forskningsintressen
Statistiska metoder i språkteknologi Dolda Markovmodeller Korpuslingvistik Maskininlärning Vektorrymdsmodeller för lagring av
semantisk information Samförekomststatistik ”Latent Semantic Indexing” (LSI) Användning av lingvistisk information vid
träning
5Databasteori 2004Växjö universitet: MSI
Några möjliga applikationer av LSI
Automatisk generering av en domänspecifik tesaurus
Nyckelordsextraktion från dokument i en dokumentsamling
Hitta dokument som liknar varandra Hitta dokument som är relaterade till ett
givet dokument eller uppsättning termer
6Databasteori 2004Växjö universitet: MSI
Ett exempel baserat på 50000 tidningsartiklar
stefan edbergedberg 0.918cincinnatis 0.887edbergs 0.883världsfemman 0.883stefans 0.883tennisspelarna 0.863stefan 0.861turneringsseger 0.859queensturneringen 0.858växjöspelaren 0.852grästurnering 0.847
bengt johanssonjohansson 0.852johanssons 0.704bengt 0.678centerledare 0.674miljöcentern 0.667landsbygdscentern 0.667implikationer 0.645ickesocialistisk 0.643centerledaren 0.627regeringsalternativet 0.620vagare 0.616
7Databasteori 2004Växjö universitet: MSI
Dags för ett par konkreta förslag
1. En datoriserad tesaurus Att utforma och bygga en datoriserad tesaurus utifrån en
inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord)
2. Några tillägg till MultiTool 2a. Automatisk alignment: låt datorn hjälpa till att koppla
ihop transkription och mediafil 2b. Fonetikmodul: Beräkna och visualisera
frekvensspektrum och F0 som hjälp vid arbete i MultiTool 2c. Sök- och räknemodul: Lägg till möjligheten att söka efter
och räkna ord och kodningar, eventuellt kombinationer, samt möjlighet att spela upp eller exportera de funna sektionerna
2d. Stöd för kodningsscheman: lägg till möjligheten att ladda/spara kodningsscheman och att i vissa fall låsa användaren till att använda dem
8Databasteori 2004Växjö universitet: MSI
Konkreta förslag, forts
3. Transkriptionsstöd Kan med fördel byggas som en del av
MultiTool eftersom en hel del användbar funktionalitet finns där
4. Något inom information retrieval/extraction? Har inget konkret förslag… Men om
något av det jag pratat om och ni har en egen idé inom IR/IE-området så…
9Databasteori 2004Växjö universitet: MSI
1. Datoriserad tesaurus
Att utforma och bygga en datoriserad tesaurus utifrån en inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord)
10Databasteori 2004Växjö universitet: MSI
Två existerande tesaurusar
Brings (svenska) tesaurus finns inscannad 1000 huvudort Totalt över 100 000 ordformer Substantiv, verb och adjektiv i olika grupper
Roget´s thesaurus (engelska) finns, fast i ett annat format Samma struktur som Bring
11Databasteori 2004Växjö universitet: MSI
Exempel
12Databasteori 2004Växjö universitet: MSI
Vinster med en datorisering
Sökning i tesaurusarna i bokform är ibland lite jobbig: Huvudord går fint Övriga ord finns i indexet men det blir mycket
bläddrande Gränssnittet skulle kunna förenkla sökningen
avsevärt genom markering och klickbara ord Bäst vore om alla ord var huvudord!
Information för att åstadkomma detta finns troligen i datafilerna De mest relaterade orden står först Huvudord med flera betydelser har flera
undergrupper för varje ordklass
13Databasteori 2004Växjö universitet: MSI
Förkunskaper
Att ha gått ca. tre år på programmet räcker som förkunskap men bra att ha är: Goda kunskaper i programmering,
förslagsvis logikprogrammering. Semantik, lexikologi (från kurserna på
programmet) Programmeringsspråket Oz (och
utvecklingsmiljön Mozart) är väl lämpat att använda för den här uppgiften
14Databasteori 2004Växjö universitet: MSI
MultiTool
Flera förslag som syftar till att förbättra MultiTool
Handledare: Jens Allwood, [email protected] Magnus Gunnarsson, [email protected] Leif Grönqvist, [email protected]
Leif eller Magnus är handledare i normal mening, Jens fungerar som kravställare
Även andra användare finns (Anki och Loredana)
Implementation i Java existerar Utvecklad av Leif från början Vidareutvecklad av Magnus och nu i sommar av
Johan Lund
15Databasteori 2004Växjö universitet: MSI
Skärmdump från MultiTool
16Databasteori 2004Växjö universitet: MSI
MultiTools vyer visar info på olika sätt
Mediavyn: spelar upp filmen och/eller ljudet. Användaren kan spola fram och tillbaka för att hitta intressanta delar.
Standardvyn: visar transkriptionen på det sätt de flesta är vana vid, dvs ett yttrande på varje rad. Användaren kan scrolla genom transkriptionen.
Partiturvyn: visar transkriptionen som ett partitur, dvs en rad för varje talare och varje bidrag placerade i tidsordning, liknande noterna på ett notblad så att samtidiga yttranden står i samma kolumn.
Tidsskalevyn: en tidsskala, graderad i minuter och sekunder, där ljudets amplitud i varje tidpunkt kan avläsas.
Kodningsvyn: visar alla olika kodningar hierarkiskt med frekvenser på varje nivå.
17Databasteori 2004Växjö universitet: MSI
Internt i MultiTool
TP: tidpunkter, CP: kodningspunkter Kodningar består av:
Start-CP Slut-CP Talarinitial Kodningsvärde
Ett kodningsvärde är hierarkiskt och den översta nivån kallas ibland för schema
Exempel på kodningar: 1-2, A, text • god morgon 2-3, A, text • allihop 1-2, A, talegenskaper • betoning • avvikande 3-4, C, text • morrn 3-5, B, text • hej anders 5-6, A, text • är klockan tio redan
18Databasteori 2004Växjö universitet: MSI
Internt i MultiTool, forts
Synkroniseringar: CP1 = TP2,45 CP3 = TP4,24 CP4 = TP4,45 CP5 = TP4.70 CP6 = TP6,12
Kodningspunkter behöver inte kopplas till en tidpunkt
En TP har en direkt motsvarighet i mediafilen Kodningspunkter är numrerade från 1 och
uppåt, alltid i kronologisk ordning
19Databasteori 2004Växjö universitet: MSI
2a. Automatisk alignment i MultiTool
Låt datorn hjälpa till att koppla ihop transkription och mediafil
Ett program utvecklat på KTH kan koppla ihop en ordsträng med en ljudfil på ordnivå Problem: överlapp förvirrar programmet Hur vet man vilka synkroniseringar som är rätt och vilka
som bör sorteras bort? Ytterligare ett steg i fonetisk riktning vore att gissa
pauser, vokalljud och yttrandegränser eller till och med andra svårare språkljud, för att kunna synkronisera dessa automatiskt mot transkriptionen
Bra att använda existerande program men också bra om MultiTool kan fungera självständigt
20Databasteori 2004Växjö universitet: MSI
Automatisk alignment, forts
Förkunskaper Java Gärna kunskaper i fonetik
Tillgångar En existerande implementation av MultiTool. Fonetik och fonologi-expertis. Ett alignmentprogram utvecklat på KTH av
Kåre Sjölander som ger hyfsad alignment mellan indata i form av tal och text
21Databasteori 2004Växjö universitet: MSI
2b. Fonetikmodul för MultiTool
Beräkna och visualisera frekvensspektrum och F0 som hjälp vid arbete i MultiTool
Tidsskalevyn ger idag en bild av ljudamplitud vid olika tidpunkter
Det vore intressant att lägga till frekvensspektrum, F0, F1, mm då dessa skulle ge god hjälp vid synkronisering
Flera olika algoritmer existerar så en stor del handlar om att utforska om de kan användas på dialog.
Eventuellt finns en del existerande kod i Java för fonetisk analys så att leta upp något användbart vore en bra ända att börja i.
22Databasteori 2004Växjö universitet: MSI
Fonetikmodul, forts
Förkunskaper Java Gärna kunskaper i fonetik Förståelse för ganska matematiska
algoritmer Tillgångar
En existerande implementation av MultiTool Fonetik och fonologi-expertis Systemet Praat med mängder av
dokumentation – klarar att utföra den analys som behövs
23Databasteori 2004Växjö universitet: MSI
2c. Sök- och räknemodul för MultiTool
Lägg till möjligheten att söka efter och räkna ord och kodningar, eventuellt kombinationer, samt möjlighet att spela upp eller exportera de funna sektionerna
Man vill enkelt kunna söka efter, räkna, och spela upp segment som matchar ett sökuttryck
Viktigt att sökuttrycken inte kräver kunskap i reguljära uttryck eller Prolog
Enkla sökningar (ge mig alla ”bil”) viktigast Kombinationer (ge mig alla överlappade ”mm” i
början på yttranden) också användbart Gränssnittet är viktigt – enkelt men kraftfullt
24Databasteori 2004Växjö universitet: MSI
Sök- och räknemodul, forts
Förkunskaper Java
Tillgångar En existerande implementation av MultiTool Räkneverktyget Tal-till-tal (nya TraSA)
25Databasteori 2004Växjö universitet: MSI
2d. Stöd för kodningsscheman i MultiTool
Lägg till möjligheten att ladda/spara kodningsscheman och att i vissa fall låsa användaren till att använda dem
Samtliga kodningsvärden måste kunna visas hierarkiskt
Sedan bör delträd kunna låsas så att Kodningsvärden väljs bland löven Inga nya värden kan läggas till utan låsa upp
låset Delträd (scheman) skall kunna sparas
och laddas (importeras)
26Databasteori 2004Växjö universitet: MSI
3. Transkriptionsstöd
Kan med fördel byggas som en del av MultiTool eftersom en hel del användbar funktionalitet finns där
En transkription består av: En header med bakgrundsinformation En body med själva samtalet
Viktigt att dessa skrivs i korrekt syntax MultiTool kunde med vissa tillägg fungera som
transkriptionsverktyg: Exportera i formatet GTS (Göteborg Transcription
Standard) Mer förenklande funtionalitet
27Databasteori 2004Växjö universitet: MSI
Transkriptionsstöd, forts
Flera typer av användare1. Vill transkribera utan att synkronisera2. Vill koda exempelvis gester mot en videofil3. Vill transkribera och synkronisera yttrande
för yttrande4. Vill transkribera och synkronisera varje ord5. …
Olika features viktiga för olika användare
28Databasteori 2004Växjö universitet: MSI
4. Gör något spännande inom IR/IE
Tänk ut något och fråga mig vad jag tror Exempel:
Kan man hitta synonymer i icke-annoterad text? Hur? Hur bra?
Träna upp ett system baserat på LSI för att klara TOEFL-tester (ordkunskap) så bra som möjligt
…
29Databasteori 2004Växjö universitet: MSI
Och nu då?
De mer eller mindre konkreta förslagen finns på min hemsida
Även den här presentationen finns länkad under ”Current teaching”
Fundera lite och kom till mig eller Magnus och fråga
Maila går också fint om jag inte är här
Först till kvarn gäller!