64
365 365 Technologie Mowy Modele semantyczne i ontologie Bartosz Ziółko www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot.com/ Wykorzystano materiały MIT, Li Fei -Fei, Aleksandra Pohla, Jana Wicijowskiego, Mariusza Mąsiora i Wikipedię

Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

  • Upload
    buikhue

  • View
    227

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

365 365

Technologie Mowy

Modele semantyczne i ontologie

Bartosz Ziółko

www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot.com/

Wykorzystano materiały MIT, Li Fei-Fei, Aleksandra Pohla,

Jana Wicijowskiego, Mariusza Mąsiora i Wikipedię

Page 2: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Rule-to-rule

Bag-of-words

Latent Semantic Analysis

Wordnet

CYC

366

Page 3: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Rule-to-Rule

Semantic interpretation [aka “syntax directed translation”]: pair syntax, semantic rules.

Generalised Phrase Structure Grammars (GPSG): pair each context free rule with semantic ‘action’; as in compiler theory – due to Knuth, 1968

367

Page 4: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Meanings by compositionality

368

Robert Berwick (MIT)

Page 5: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

But there are exceptions

369

Page 6: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Exceptions - Business class

• Airlines – Business class is luxury, not much to do with making a good business;

• Hotels - business class is a hotel, where you rent a room if you go in business. It is clean and has all useful things but small and nothing to do with luxury.

370 Copyright Singapore Airlines

Page 7: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Human-like and computer-like analysis of expressions

• Kirk: Spock, are there any Romulans in Sector 6471?

• Spock: None, captain.

• Kirk: Are you certain, Spock?

• Spock: A 100% probability, Captain

• [camera rolls] Kirk: Damn your Vulcan ears, Spock, I thought you said there were no Romulans in sector 6471 !

• Spock: But there is no sector 6471…Logic dictates…

371

Page 8: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Bag-of-words

Semantics of NL sentences and phrases can be composed from the semantics of their subparts (for example words) – Principle of Compositionality.

372

Page 9: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Bag-of-words

373 by Li Fei-Fei (Princeton)

Page 10: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Bag-of-words

374 by Li Fei-Fei (Princeton)

Page 11: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Bag-of-words

375 by Li Fei-Fei (Princeton)

Page 12: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Bag-of-words

376 by Li Fei-Fei (Princeton)

Page 13: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Bag-of-words

377 by Li Fei-Fei (Princeton)

Page 14: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Bag-of-words

378 by Li Fei-Fei (Princeton)

Page 15: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

379

Page 16: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

380 380

Vector space model

.xml

Jan Wicijowski

Page 17: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

381 381

Applying Semantic Model to Recognition

word-topic matrix

words

topic

s

hypothesis

vector

similarities

vector

Języki torricelli 1.85172

Język vanimo 0.64407

Język sahu 0.56976

Język wiaki 0.56976

Język yapunda 0.56976

Chesterfield F.C. 0.24345

Andrew Latimer 0.21302

Parnassius hunza 0.21115

Tom Smith 0.17938

Mononukleotyd 0.17189

flawinowy

Jan Wicijowski

Page 18: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

382

Latent Semantic Analysis (LSA)

A row in this matrix will be a vector

corresponding to a term, giving its

relation to each document, a column

in this matrix will be a vector

corresponding to a document, giving

its relation to each term.

The dot product between two term vectors gives the correlation between the terms over the documents.

Page 19: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

383

Latent Semantic Analysis (LSA)

Page 20: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

384

Latent Semantic Analysis (LSA)

Page 21: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

385

Big John has a house. Big John has a black, aggressive cat. The black

aggressive cat has a small mouse. The small mouse is a mammal.

Bag-of-words with graphs

Page 22: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

386

TFIDF (Term Frequency - Inverse Document Frequency)

• TFIDFi,j = ( Ni,j / N*,j ) * log( D / Di ) where

• Ni,j = the number of times word i appears in

document j (the original cell count).

• N*,j = the number of total words in document j (just

add the counts in column j).

• D = the number of documents (the number of

columns).

• Di = the number of documents in which word i

appears (the number of non-zero columns in row i).

Page 24: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Semantyczne zasoby dla języka polskiego

388

Słowosieć

http://plwordnet.pwr.wroc.pl/browser/

◮ Wikipedia and DBPedia

http://dbpedia.org/

◮ Synonims in OpenOffice

http://synonimy.ux.pl/

◮ Wielki Słownik Języka Polskiego

http://www.wsjp.pl/

◮ Słownik Języka Polskiego

http://sjp.pl/

Page 25: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

389

Słowosieć

Elektronika jest

typem sprzętu

Elektronika jest typem nauki

matematyczno-

przyrodniczej i nauki ścisłej

Page 26: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

390

Słowosieć

Automatyka

Informatyka

Mechanika

Inżynieria

Page 27: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

391

Konstruowanie Słowosieci

Page 28: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Ontologie

392

Slajdy Aleksandra Pohla

Po co nam to wszystko ?

Page 29: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

393

Page 30: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

394

Ontologie

RDFS – Resource Description Framework Schema

Page 31: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

395

Ontologie

Page 32: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

396

Ontologie

Page 33: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

397

Ontologie

Page 34: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

398

Ontologie

Page 35: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

399

Ontologie

Page 36: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Definicje ontologii w filozofii i informatyce

Ontologia (filozofia):

Termin wywodzący się z greckiego słowa oznaczającego byt, ale ukuty w XVII w. na oznaczenie gałęzi metafizyki zajmującej się tym co istnieje.

Oksfordzki Słownik Filozoficzny

Ontologia (informatyka):

Formalna specyfikacja konceptualizacji wybranej dziedziny wiedzy.

Tom Gruber

Page 37: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Ogólna charakterystyka ontologii

Elementy definicyjne:

• formalna specyfikacja: CycL, FLogic, KIF, LOOM, OCML,OWL, RDF...

• ...konceptualizacji: indywidua, pojęcia, własności, relacje, funkcje, procesy...

• ...wybranej dziedziny wiedzy:

– ontologie ogólne

– ontologie dziedzinowe

Page 38: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Cyc jako przykład ontologii ogólnej

Cyc – produkt Cycorp®

• Rozpoczęcie prac: 1984

• www.cyc.com

• Największa znana ontologia:

– 300 tyś. pojęć

– 26 tyś. predykatów

– 3 miliony asercji

• 3 wersje: komercyjna, rozwojowa, otwarta

• Zaawansowany silnik inferencyjny

• Leksykon dla języka angielskiego

Page 39: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

CycL – język ontologii

• CycL:

– nadbudowany nad rachunkiem predykatów 2-rzędu

– teoria mnogości ZF

– asercje na meta-poziomie

– operatory modalne

• 2 poziomy języka

– epistemologiczny

– heurystyczny (SubL – dialekt Lispa)

Page 40: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Struktura wiedzy 1.

Pojęcia podstawowe

• #$Thing – korzeń ontologii

• #$Collection – kolekcja wszystkich kolekcji

• #$Individual – kolekcja wszystkich indywiduów

• #$genls – relacja generalizacji

• #$isa – relacja należenia do kolekcji

Page 41: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Struktura wiedzy 2.

Kolekcje i indywidua

• Kolekcje 1-ego rzędu: #$Intangible,#$PartiallyTangilbe, #$TemporalThing, #$SpatialThing

• Kolekcje 2-ego rzędu: #$TemporalStuffType, #$TemporalObjectType, #$ExistingStuffType, #$ExistingObjectType

Page 42: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Struktura wiedzy 3.

• Predykaty

– arność

– typ argumentów

– format argumentów

– relacja genlPreds

przykład (#$colorOfType, #$conceptuallyRelated)

• Funkcje

– pozwalają unikać reifikacji

przykład (#$CapitalFn COUNTRY)

Page 43: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Mikroteorie

• 3 miliony asercji!

• Trudność spełnienia wymogu globalnej niesprzeczności

• Podział wiedzy na mniejsze jednostki – mikroteorie

• predykat #$genlMt

• #$BaseKB – korzeń drzewa mikroteorii

• #$EverythingPSC – suma wszystkich mikroteorii

Page 44: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Leksykon

• Mapowanie pomiędzy pojęciami (#$Dog) a słowami języków naturalnych („dog”)

• Symboliczna reprezentacja słów (X-TheWord)

• Predykat denotacji (#$denotation WORD POS N DENOTATION)

• Bank(1) (#$denotation #$Bank-TheWord #$CountNoun 0 #$Bank-Topographical)

• Bank(2) (#$denotation #$Bank-TheWord #$CountNoun 1 #$BankOrganization)

Page 45: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Architektura Cyc

© Cycorp

Page 46: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Architektura Cyc

• Baza wiedzy

• „Świat”

• Wyciąg operacji, serwer operacji

• Partycje wiedzy

• Silnik inferencyjny

• Interfejs użytkownika

• API

• Narzędzie integracji źródeł wiedzy

Page 47: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Organizacja danych

• „Świat” - obraz pamięci działającej ontologii zapisany w formacie CFASL – może być załadowany z powrotem bez sprawdzania integralności danych

• Wyciąg operacji – zestaw operacji wykonywanych przez użytkownika w czasie pracy z systemem

• Serwer operacji – pośredniczy w wymianie informacji pomiędzy sesjami różnych użytkowników

• Partycja wiedzy – fragment „Świata”

Page 48: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Interfejs użytkownika

Page 49: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Interfejs użytkownika

• Interfejs webowy – pozwala przeglądać ontologią, wprowadzać nowe fakty, zadawać pytania, etc. (HTML + CGI)

• Edytor faktów (Fact Editor) – pozwala wprowadzać fakty osobom, które nie są zaznajomione ze strukturą ontologii (Java)

• Biblioteka zapytań (Query Library) – pozwala tworzyć zapytania i je wykonywać. Wykorzystuje mechanizmy NLP (Java).

Page 50: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Komunikacja ze światem zewnętrznym

• API:

– SubL: protokoły ASCII oraz CFASL przez TCP/IP, brak wsparcia dla wywołań zwrotnych

– Java: nadbudowany nad SubL, zapewnia łatwą integrację z systemami napisanymi w Javie, wspiera wywołania zwrotne

• Wspierane języki RW: CycML, DAML, OWL

• SKSI: narzędzie pozwalające na integrację z bazami danych i stronami internetowymi

Page 51: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Zastosowania Cyc

Page 52: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Zastosowania Cyc - aktualne

• Integracja baz danych

• Integracja baz wiedzy

• Inteligentne wyszukiwanie informacji:

– na podstawie krótkich opisów (np. zdjęcia)

– na stronach WWW

• Rozproszona AI

• Przetwarzanie języka naturalnego

Page 53: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Zastosowania Cyc - potencjalne

• Automatyczne pośrednictwo w sprzedaży dóbr

• Tworzenie inteligentnych interfejsów

• Tłumaczenie maszynowe wysokiej jakości

• Rozpoznawanie mowy wspomagane wiedzą

• Zaawansowane modelowania zachowań użytkowników

• Semantyczny data-mining

• Wsparcie dla e-biznesu

Page 54: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Bazy danych

Wymagania: zmapowanie tabel i ich atrybutów na pojęcia występujące w Cyc.

Rezultat:

• Możliwość wykrycia anomalnych danych poprzez ich analizę z wykorzystaniem wiedzy zdroworozsądkowej.

• Integracja wiedzy występującej w wielu bazach danych:

– wykrycie danych sprzecznych

– generowanie zapytań obejmujących wiele baz danych

Page 55: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

CYC

419

Page 56: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

CYC

420

Page 57: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Przykład CYC

421

Page 58: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Wyszukiwanie informacji 1.

Założenia: baza danych/wiedzy obejmująca tysiące lub setki tysięcy danych niepodlegających analizie tekstowej, zawierających krótkie opisy (np. zdjęcia, filmy, abstrakty)

Rezultat: możliwość inteligentnego wyszukiwania informacji znacznie wykraczającego poza zwykłe mechanizmy dopasowania/zastępowania synonimami.

Page 59: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Wyszukiwanie informacji 2.

Założenie: dziedzinowe bazy wiedzy dostępne przez WWW, implementujące protokół komunikacyjny Cyc

Rezultat: możliwość zaawansowanego wyszukiwania wszelkich informacji dostępnych w dziedzinowych bazach wiedzy (dla użytkownika końcowego wygląda to tak, jakby cała wiedza znajdowała się w Cyc).

Page 60: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Problemy ze stosowaniem ontologii

• Ogromne koszty

• Wiedza zmienia się z czasem

• Ontologie zawierają ograniczoną wiedzę

• Mogą być błędy wynikające z automatycznej ekstrakcji faktów z tekstów

• Ale Watson wygrał w Va Banque z mistrzami

424

Page 61: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Watson gra z mistrzami w Va Banque

425

Page 62: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Przetwarzanie języka naturalnego

Precyzyjne przetwarzanie języka naturalnego wymaga często posiadania wiedzy zdroworozsądkowej:

I saw clouds flying over Zurich.

Widziałem chmury lecące nad Zurychem.

I saw buildings flying over Zurich.

Widziałem domy lecąc nad Zurychem.

Page 63: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Linked Data

427

Page 64: Technologie Mowy Modele semantyczne i ontologiedydaktyka:tmosemantyczne.pdf · Technologie Mowy Modele semantyczne i ontologie ... Ontologia (filozofia): ... –300 tyś. pojęć

Podsumowanie

• Zasada kompozycyjności (fioletowa krowa)

• Koncepcja modelu bag-of-words

• Podstawy LSA

• Orientacja w zagadnieniach związanych z korpusami mowy i tekstów (jak się je robi, ocenia ich jakość, wielkość itp.)

• Implementacje słowników (tekst, SQL, FSA)

• Słowosieć (koniecznie sprawdzić stronę)

• Czym jest ontologia, czyli jak dodać Mruczka do Facebooka

428