Upload
bart-klein
View
145
Download
0
Embed Size (px)
Citation preview
Hoe tagt u ons cultureel erfgoed?
Tagging als aanvulling op traditionele onderwerpsontsluiting.
Bart Klein B*art
2
COLOFON
Hoe tagt u ons cultureel erfgoed?
Tagging als aanvulling op traditionele onderwerpsontsluiting.
“Classification is a way of seeing.” B.H. Kwasnik (1999)
Auteur:
Bart Klein [0629952]
Master scriptie Documentaire Informatiewetenschap (DIW)
Scriptiebegeleider:
Prof. dr. J.S. Mackenzie Owen
Referent:
Dr. Ir. J. Kamps
Universiteit van Amsterdam (UvA)
Leerstoelgroep Archief- en Informatiewetenschap
17 juli 2009
Foto titelblad:
Word Cloud gemaakt met Wordle.net.
Tags:
Scriptie, The Commons, tagging, folksonomie, Library of Congress, Information Retrieval, thesis, vocabulaires,
indexen, social classification, Flickr, IR, foto’s, ontsluiting, web 2.0, democratic indexing.
3
INHOUDSOPGAVE
Colofon ............................................................................................................................................................ 2
Lijst met figuren, tabellen en grafieken ............................................................................................................ 5
Voorwoord ....................................................................................................................................................... 6
Samenvatting ................................................................................................................................................... 7
1 Inleiding.................................................................................................................................................... 8
1.1 Een foto zegt meer dan duizend woorden ............................................................................................ 8
1.2 Interactie met de gebruiker ................................................................................................................... 8
1.3 Library of Congress en Flickr .................................................................................................................. 8
1.4 Onderzoeksvraag ................................................................................................................................... 9
1.5 Leeswijzer ............................................................................................................................................ 10
2 Image retrieval ....................................................................................................................................... 11
2.1 Concept- of text-based retrieval .......................................................................................................... 11
2.2 Content-based image retrieval (CBIR) ................................................................................................. 12
3 Indexeren ............................................................................................................................................... 14
3.1 Information Retrieval .......................................................................................................................... 14
3.2 Indexeringsproces ................................................................................................................................ 14
3.3 Classificaties en indexen ...................................................................................................................... 15
3.4 Trefwoordensystemen en thesauri ..................................................................................................... 16
3.5 Effectiviteit van gecontroleerde vocabulaires ..................................................................................... 17
4 Conceptanalyse ...................................................................................................................................... 19
5 Tagging: indexeren door de gebruiker .................................................................................................... 22
5.1 Tagging als concept ............................................................................................................................. 22
5.2 Relatie met Web 2.0 en het semantic web ......................................................................................... 22
5.3 De architectuur van een taggingsysteem ............................................................................................ 23
5.3.1 Gebruiker......................................................................................................................................... 24
5.3.2 Tags ................................................................................................................................................. 25
5.3.3 Systeem ........................................................................................................................................... 26
5.4 Zoeken met tags .................................................................................................................................. 29
5.5 Tagging en gecontroleerde vocabulaires ............................................................................................. 31
6 Onderzoek naar het taggebruik op Flickr The Commons ......................................................................... 34
6.1 Flickr .................................................................................................................................................... 35
4
6.2 Gerelateerd tagging onderzoek ........................................................................................................... 35
6.3 Op weg naar een tag-raamwerk .......................................................................................................... 36
6.4 Classificeren van tags ........................................................................................................................... 40
6.5 Datacollectie verzamelen .................................................................................................................... 41
6.6 Wie is de gebruiker? ............................................................................................................................ 42
6.7 Hoe is het vocabulair opgebouwd? ..................................................................................................... 43
6.7.1 Overzicht resultaten ........................................................................................................................ 43
6.7.2 Perceptuele attributen .................................................................................................................... 44
6.7.3 Interpretatieve attributen ............................................................................................................... 45
6.7.4 Creativiteit met tags ........................................................................................................................ 46
6.8 Beperkingen ......................................................................................................................................... 47
7 Conclusie ................................................................................................................................................ 48
7.1 Culturele instellingen op zoek naar nieuwe vormen van ontsluiting .................................................. 48
7.2 Taggingsystemen als snelle laag .......................................................................................................... 48
7.3 Tagginsystemen met hulp van onderaf ............................................................................................... 49
7.4 Hoe ver moet je gaan? ......................................................................................................................... 50
7.5 Waarom is tagging een aanvulling? ..................................................................................................... 50
Literatuur ....................................................................................................................................................... 51
5
LIJST MET FIGUREN, TABELLEN EN GRAFIEKEN
Figuur 1. Leeswijzer theoretisch kader ................................................................................................................. 10
Figuur 2. CBIR Zoekmachine .................................................................................................................................. 12
Figuur 3. Information retrieval paradigma ............................................................................................................ 14
Figuur 4. Stappen in subject indexing ................................................................................................................... 15
Figuur 5. Categorie 200: Religion uit de DDC ........................................................................................................ 16
Figuur 6. Foto Ignore door joey Lawrence ( http://www.joeyl.com/)................................................................. 19
Figuur 7. Taggingsysteem ...................................................................................................................................... 23
Figuur 8. Narrow en broad folksonomy ................................................................................................................ 27
Figuur 9. Vorm van Viewable tagging ................................................................................................................... 28
Figuur 10. Mijn Flickr contacten ............................................................................................................................ 29
Figuur 11. Flickr Tagcloud van de Library of Congress .......................................................................................... 30
Figuur 12. Grafiek van representatie systemen uit (Weller 2007) ........................................................................ 32
Figuur 13. Onderzoeksopzet ................................................................................................................................. 34
Figuur 14. Piramide model van Jaimes en Chang .................................................................................................. 37
Figuur 15. Uitsnede uit tag analyse ....................................................................................................................... 41
Tabel 1. Panofsky's levels of meaning ................................................................................................................... 20
Tabel 2. Opties in Flickr ......................................................................................................................................... 35
Tabel 3. Levels of meaning .................................................................................................................................... 38
Tabel 4. Modellen samengevat ............................................................................................................................. 39
Tabel 5. Tag-raamwerk t.b.v. onderzoek .............................................................................................................. 40
Tabel 6. Metadata van API flickr.favorites.getlist ................................................................................................. 41
Tabel 7. Uitwerking van tag-raamwerk ................................................................................................................. 44
Grafiek 1. Datacollectie ......................................................................................................................................... 42
Grafiek 2. Aantal tags geplaatst per gebruiker...................................................................................................... 42
Grafiek 3. Frequentie van getagte foto's .............................................................................................................. 43
6
VOORWOORD
Deze scriptie is geschreven vanuit mijn passie voor fotografie. De fotocamera gaat moet elke vakantie mee op
zware bergtochten waar ook ter wereld. Ondanks het feit dat mijn rugzak al zwaar genoeg is met een tent,
slaapzak, kleding, water en eten voor een week (zo’n 17 kilo) tors ik met alle plezier ook nog eens twee kilo aan
fotomateriaal mee de berg op. Elk avontuur moet op het digitale negatief worden vastgelegd en bij thuiskomst
gedeeld worden met familie en vrienden. In het begin waren vrienden en familie ontzettend enthousiast en
luisterden aandachtig en vol bewondering naar onze avontuurlijke bergtochten. Maar na een paar vakanties
verder waren de foto’s in hun ogen allemaal hetzelfde. Veel gevallen uitspraken zijn: “Ja, alle bergen zijn
hetzelfde.”, “Berggeiten heb je ook in Artis.” of “ Ja leuk, maar hebben jullie niet iets cultureels gedaan?” Het
werd dus hoog tijd om op zoek te gaan naar nieuwe vakantieactiviteiten (verhalen en foto’s die wel weer
indruk maken) of nieuwe vrienden en familie. De voorliefde voor de bergen zal altijd blijven bestaan, dus koos
ik voor het laatste. Niet letterlijk natuurlijk, maar de fotowebsite Flickr bracht wel uitkomst.
Met Flickr kon ik eindelijk al mijn berg foto’s delen met de rest van de wereld zonder commentaar te krijgen
dat de diashow veel te lang en te saai is. Op Flickr vond ik gelijkgestemden die ook verslaafd zijn aan de bergen
en fotografie. De Flickr leden namen zelfs de tijd om te reageren op mijn foto’s. Enthousiast als ik werd ging ik
op zoek naar informatie voor volgende bergtochten. Met behulp van tags zoek ik tegenwoordig naar foto’s,
landkaarten en verhalen over mijn nieuwe reis bestemmingen. Deze tags zijn door de gebruikers geplaatst bij
de foto wat het voor mij mogelijk maakt de foto terug te kunnen vinden. Soms plaats ik een berichtje bij een
foto of vraag ik waar de foto gemaakt is en vraag ik naar informatie over het gebied om goed voorbereid op
stap te gaan.
Culturele instellingen hebben inmiddels ook de website Flickr ontdekt en vragen andere gebruikers ook om
hulp. In dit geval niet naar hulp over nieuwe reisbestemmingen, maar hulp in het mee beschrijven van foto’s uit
hun collecties. Gebruikers krijgen de mogelijkheid om in hun eigen woorden tags en commentaar te leveren bij
een foto. Een geweldig avontuur voor de culturele sector waarin nog vele bergen verzet moeten worden. Maar
de eerste stap is gezet!
B*art
7
SAMENVATTING
Tagging is een nieuwe vorm van information retrieval waarbij een gebruiker een bepaald object labelt met
trefwoorden. Een verzameling van deze trefwoorden wordt een folksonomie genoemd. Culturele instellingen
zien deze nieuwe vorm van retrieval als interessante optie als aanvulling op traditionele ontsluitingsmethoden.
In de scriptie is te lezen hoe tagging zich verhoudt tegenover andere systemen voor onderwerpsontsluiting bij
het indexeren van foto’s en hoe gebruikers foto’s taggen op de fotowebsite Flickr.
Tagging is een nieuwe vorm van concept-based retrieval. Concept-based image retrieval maakt gebruik van een
tekstuele expressie van de foto. Deze tekstuele expressie resulteert in een lijst met woorden die gecontroleerd
of ongecontroleerd zijn. Een folksonomie is ook zo’n woordenlijst waaraan verschillende gebruikers woorden
(tags) hebben toegevoegd. Eén van de belangrijkste eigenschappen van een folksonomie is dat gebruikers
geheel vrij zijn in het toekennen van tags. Nadelen van een taggingsysteem is dat er geen rekening wordt
gehouden met synoniemen, homoniemen, spellingsvarianten en dergelijke. Het grote voordeel van een
taggingsysteem ten opzichte van gecontroleerde vocabulaires is dat het breed toepasbaar is, eenvoudig werkt
en zich aanpast aan de vocabulaires van de gebruikers.
Het onderzoek richt zich op het taggebruik van foto’s in The Commons op Flickr. The Commons is een omgeving
waarin culturele instellingen foto’s kunnen plaatsen. Gebruikers hebben de mogelijkheid om niet alleen de
foto’s te kunnen bekijken, maar kunnen ook actief commentaar leveren en tags plaatsen bij de foto’s. Zo werkt
het ook met de twee collecties van de Library of Congress welke de basis zijn voor het onderzoek. 50 foto’s met
de daarbij behorende tags uit de collectie zijn geanalyseerd op basis van een tag-raamwerk. Dit tag-raamwerk
bestaat uit 15 attributen welke zijn onderverdeeld in twee semantische niveaus, het perceptuele en
interpretatieve niveau. Het raamwerk vindt zijn oorsprong in de conceptanalyse welke door Panofsky en
Shatford grotendeels is vormgegeven.
Uit de analyse blijkt dat 24,4% perceptuele tags zijn. Perceptuele tags vragen niet om specifieke kennis van de
gebruiker en hoeven alleen af te gaan op de visuele kenmerken van een foto. 63,97% van de tags zijn
interpretatieve tags. Deze tags vragen om specifieke kennis van de gebruiker. 17,86% van de tags geven een
beschrijving van objecten. Daarna volgt met 12,28% tags gerelateerd aan menselijke attributen. Veel tags zijn
gericht op een locatie of vertellen de content/verhaal/scene van een foto. Heel weinig tags hebben betrekking
op de visuele kenmerken van een foto.
Taggingsystemen functioneren het beste als aanvulling op bestaande gecontroleerde vocabulaires. De
systemen hebben op deze manier een toegevoegde waarde op elkaar. Om dit te verduidelijk is het pace-
layering model gebruikt. Taggingsystemen zijn in dit model de buitenste snelle flexibelere laag terwijl
gecontroleerde vocabulaires de langzame, binnenste laag zijn. Gecontroleerde vocabulaires zijn de fundering
van een huis en taggingsystemen het interieur welke mee veranderd met de mode. Eventuele aanpassingen
aan taggingsystemen ter verbetering van de retrieval moeten voorzichtig genomen worden. Tenslotte bepalen
de gebruikers de inhoud van het taggingsysteem. Aanpassingen zijn mogelijk door de gebruiker op te leiden en
meer input te vragen. Ook wel tagondersteuning genoemd. Of tekortkomingen in een systeem kunnen
automatisch herkend en opgelost worden.
8
1 INLEIDING
1.1 EEN FOTO ZEGT MEER DAN DUIZEND WOORDEN
Als een foto1 meer dan duizend woorden zegt, dan zou iedere beschrijving van een foto ook uit meer dan
duizend woorden moeten bestaan. Misschien is dit wat overdreven, maar zonder een gedegen beschrijving is
een foto niet vindbaar voor een gebruiker. Een foto op zichzelf is namelijk maar beperkt terug te vinden.
Anders dan bij tekstuele documenten, waarbij de inhoud van de tekst gebruikt wordt voor de ontsluiting, heeft
een foto (bijna) geen inhoudelijke kenmerken op basis waarmee een zoeksysteem de foto terug kan vinden.
Een foto kan alleen worden teruggevonden als er tekstuele informatie gekoppeld wordt aan de foto. Culturele
instellingen, zoals musea, bibliotheken en foto- en audiovisuelearchieven, ontwikkelden systemen voor de
onderwerpsontsluiting van foto’s en gaven hiermee toegang tot hun fotocollecties. Daarbij spanden de culture
instellingen zich in voor het digitaliseren van grote hoeveelheden foto’s. Miljoenen foto’s werden online
beschikbaar gesteld, maar de toegankelijkheid naar deze foto’s is in veel gevallen erg beperkt. Beschrijvingen
van foto’s zijn beperkt omdat culturele instellingen beperkt budget hebben en de foto’s niet te diep ontsluiten.
1.2 INTERACTIE MET DE GEBRUIKER
Culturele instellingen zagen ook deze beperkingen en zochten naar nieuwe mogelijkheden om hun foto’s
beschikbaar te stellen. Een mogelijke oplossing zagen de culturele instellingen in nieuwe ontwikkelingen op het
web die het mogelijk maken om foto’s in een socialere en flexibelere omgeving te presenteren en actief te
delen met de gebruiker2. Het actief delen van foto’s kan resulteren in een open instelling waarin niet alleen
specialisten zich bezighouden met de collectie maar juist de bezoeker gemotiveerd wordt om foto’s te verrijken
en toegankelijk te maken. Het grote publiek kan een actieve rol spelen bij de verrijking van foto’s door hun
kennis, ervaring, mening en verhalen hieraan toe te voegen. Een mogelijke manier om dit te doen is door
reacties te plaatsen of de foto’s te voorzien van trefwoorden. Het labelen van foto’s met trefwoorden, die op
het internet tags worden genoemd, verrijken de huidige, veelal beperkte, beschrijving en vormen nieuwe
zoekingangen voor gebruikers. Het plaatsen van de tags wordt op het web tagging genoemd.
1.3 LIBRARY OF CONGRESS EN FLICKR
Culturele instellingen zien interessante mogelijkheden in het gebruik van tagging en experimenteren, naast hun
traditionele manier van indexeren, hier volop mee. Tagging wordt door Sterling (2005) zelfs gezien als “a
revolution in the art and science of categorization”. Of taggingsystemen de aloude classificatie standaarden
zullen vervangen is nog maar sterk de vraag. Maar het idee dat iedereen een bijdrage kan leveren aan de
beschrijving van een object door tagging wordt in de culturele sector zeker gezien als een mogelijkheid om de
huidige objecten te verrijken met reacties zonder hoge kosten.
“Tagging represents an investment in the museum’s collection by an individual. The visitor adds value
for themselves, for the museum, and for other visitors by revealing different perspectives and
contexts.”(Trant 2006, 86)
Voorbeelden van culturele instellingen die op hun eigen website experimenteren met taggingsystemen zijn het
Powerhouse Museum3, Smithsonian Photography Initiative
4, Steve.Museum
5 en het Brooklyn Museum
6. Het
1 De letterlijke definitie van een foto is een opname of afdruk van een fotografische opname. Een ruimere betekenis van een foto is een
afbeelding welke gedefinieerd kan worden als een beeld van iets dat in de werkelijkheid of gedachte bestaat, voorbeelden hiervan zijn
landkaarten, prenten of tekeningen. Er is gekozen voor de term foto omdat het merendeel van het beeldmateriaal op Flickr bestaat uit
fotografisch materiaal. 2 Paragraaf 5.3.1 gaat verder in op de verschillende type gebruikers.
3 http://www.powerhousemuseum.com
4 http://photography.si.edu/
5 http://www.steve.museum
6 http://www.brooklynmuseum.org
9
nadeel van deze projecten is dat bezoekers specifiek de website van het desbetreffende instelling moet
bezoeken. Een goed alternatief hiervoor is om als instelling te participeren in reeds bestaande sociale websites.
De samenwerking tussen de fotowebsite Flickr en enkele culturele instellingen is hier een goed voorbeeld van.
Flickr is een fotowebsite opgericht in 2004 waarop mensen hun foto’s kunnen delen met anderen. Inmiddels
staan er zo’n 2,3 miljard foto’s op Flickr en komen er per dag 1 miljoen foto’s bij. De kracht van Flickr is de
interactie tussen de leden van de Flickr gemeenschap. 20 miljoen mensen zijn actief op Flickr om hun foto’s te
delen met iedereen. Op 16 januari 2008 startten de Amerikaanse Library of Congress (LOC) en Flickr een
samenwerking onder de naam Flickr The Commons7. The Commons biedt culturele instellingen de mogelijkheid
om foto’s uit hun collectie online op Flickr te plaatsen en te presenteren aan de Flickr gemeenschap. De Flickr
gemeenschap heeft de mogelijkheid om te reageren op deze foto’s door ze toe te voegen aan hun favorieten,
commentaar te leveren of te voorzien van tags. Het project is een groot succes, binnen twee dagen werden
zo’n 20.000 tags toegevoegd aan de collectie. Inmiddels zijn er 23 instellingen, waaronder het Nederlandse
Nationaal Archief, aangesloten bij The Commons.
1.4 ONDERZOEKSVRAAG
Culturele instellingen zoeken naar nieuwe mogelijkheden om hun objecten te presenteren en proberen de
bezoeker hier actief bij te betrekken. Het is niet meer alleen de professional, zoals de bibliothecaris, die
objecten indexeert, maar ook de gebruiker. Er vindt als het ware een verschuiving plaats van een monologe
naar een dialoge methode van indexeren (Rafferty en Hidderley 2007, 398). Deze scriptie onderzoekt de
nieuwe mogelijkheden die tagging biedt voor het indexeren van foto’s wat resulteert in de volgende
onderzoeksvraag:
Hoe verhoudt tagging zich tegenover andere systemen van onderwerpontsluiting in algemene zin en hoe wordt
er getagt in The Commons op Flickr.com in specifieke zin?
Het onderzoek richt zich op drie doelstellingen. Deze doelstellingen worden bereikt door beantwoording van de
deelvragen.
Doelstelling A: Begrip van tagging en de mogelijkheden hiervan.
1. Wat is image retrieval?
2. Wat is onderwerpontsluiting en hoe werken indexeersystemen?
3. Hoe indexeer je een foto?
4. Wat is tagging?
5. Wat is de relatie tussen tagging met andere systemen voor onderwerpsontsluiting?
Doelstelling B: Inzicht in het taggedrag in The Commons op Flickr.
1. Wat is de input van gebruikers:
Wie en hoe vaak taggen gebruikers foto’s in the Commons?
2. Hoe is het vocabulaire van het taggingsysteem opgebouwd?
Doelstelling C: Oriëntatie naar de positie van taggingsystemen ten opzichte van andere vormen van
onderwerpsontsluiting.
1. Zijn taggingsystemen een aanvulling op traditionele vormen van onderwerpsontsluiting?
2. Hoe kunnen huidige tagsystemen verbeterd worden?
7 http://flickr.com/commons
1.5 LEESWIJZER
De scriptie is opgedeeld in twee delen, het eerste deel is het theoretisch kader (hoofdstuk 2 t/m 5) en legt de
basis voor het empirisch onderzoek welke in het tweede deel (hoofdst
leeswijzer voor het theoretisch kader
indexeringsproces, welke uitgesplitst kan worden in
wordt nader uitgewerkt in hoofdstuk 3. De fase va
betekenis (Hoofdstuk 4) en vormt de basis voor het onderzoeksmodel (
conceptanalyse kan plaatsvinden door gebruik te maken van bijvoorbeeld gecontroleerde vocabulaires (
t/m §3.5) of met behulp van folksonomieën (hoofdstuk 5).
naar het taggedrag in Flickr The Commons.
onderzoeksresultaten vertaald naar conclusies en aanbevelingen voor de culturele sector.
FIGUUR 1. LEESWIJZER THEORETISCH KADER
Information Retrieval
Image RetrievalH2 +
CBIR§2.1
ConceptanalyseH4
Levels of MeaningH4 + §6.2
De scriptie is opgedeeld in twee delen, het eerste deel is het theoretisch kader (hoofdstuk 2 t/m 5) en legt de
onderzoek welke in het tweede deel (hoofdstuk 6) wordt behandeld.
wijzer voor het theoretisch kader. Hoofdstuk 2 behandelt de retrieval mogelijkheden voor
indexeringsproces, welke uitgesplitst kan worden in een fase van conceptanalyse en
wordt nader uitgewerkt in hoofdstuk 3. De fase van conceptanalyse gaat in op de verschillende vormen van
en vormt de basis voor het onderzoeksmodel (§6.2). De representatie van de
conceptanalyse kan plaatsvinden door gebruik te maken van bijvoorbeeld gecontroleerde vocabulaires (
folksonomieën (hoofdstuk 5). Hoofdstuk 6 is de uitwerking van het onderzoek
naar het taggedrag in Flickr The Commons. In hoofdstuk 7 wordt de relatie tussen de theorie en de
vertaald naar conclusies en aanbevelingen voor de culturele sector.
THEORETISCH KADER
Information Retrieval≥
Image RetrievalH2 + §3.1
Concept based retrieval
§2.2
IndexeringsprocesH3
Levels of Meaning
RepresentatieH3
Gecontroleerdevocabulaires§3.3 t/m §3.5
FolksonomieënH5
Overeenkomsten
10
De scriptie is opgedeeld in twee delen, het eerste deel is het theoretisch kader (hoofdstuk 2 t/m 5) en legt de
uk 6) wordt behandeld. Figuur 1 dient als
. Hoofdstuk 2 behandelt de retrieval mogelijkheden voor foto’s. Het
conceptanalyse en een representatiefase,
n conceptanalyse gaat in op de verschillende vormen van
6.2). De representatie van de
conceptanalyse kan plaatsvinden door gebruik te maken van bijvoorbeeld gecontroleerde vocabulaires (§3.3
Hoofdstuk 6 is de uitwerking van het onderzoek
wordt de relatie tussen de theorie en de
vertaald naar conclusies en aanbevelingen voor de culturele sector.
Overeenkomsten
&
Verschillen
§5.5
11
2 IMAGE RETRIEVAL
Naast spraak is tekst al vele eeuwen het meest gebruikte middel om te communiceren. De behoefte om te
communiceren via geluid, foto en video is de afgelopen jaren sterk toe genomen. Bibliotheken en andere
informatie-instellingen ontwikkelen systemen voor het opslaan, verwerken en terugvindbaar maken van deze
multimediale informatie. Systemen ontwikkeld voor het indexeren, beschrijven en terugvindbaar maken van
foto’s wordt image retrieval genoemd. In de literatuur wordt onderscheid gemaakt tussen twee vormen (Enser
2000; Trant 2004; Goodrum 2000):
1. Concept- of text-based retrieval
2. Content-based image retrieval (CBIR)
Concept- of text-based retrieval is gebaseerd op een zoeksysteem welke met behulp van tekstuele context
zoeken mogelijk maakt. CBIR richt zich op technische oplossingen op basis van de kenmerken van een foto. In
de volgende paragrafen worden deze twee systemen nader uitgewerkt.
2.1 CONCEPT- OF TEXT-BASED RETRIEVAL
Concept- of text-based retrieval systemen maken gebruik van een catalogus van de fotocollectie. Iedere foto
heeft een eigen record met een identificatiecode eventueel aangevuld met een tekstuele beschrijving van het
object. Zo’n record is een tekstuele surrogaat van de foto. De vastgelegde gegevens over een foto worden
metadata genoemd. Simpel gezegd is metadata data over data. Complexer gezien is metadata informatie over
fysieke of digitale bronnen zoals boeken, documenten, foto’s, standbeelden, enz. Baca e.a. (2000) beschrijven
metadata als:
“The sum total of what one can say about any information object at any level of aggregation.”
Een informatieobject is in deze context iets dat herkend en gemanipuleerd kan worden door mens of machine
als een entiteit. Het object kan bestaan uit één item of een verzameling van meerdere items als in een collectie
of zelfs een complete database. Met andere woorden, er wordt informatie vastgelegd niet alleen over het
digitale surrogaat van het originele object maar ook over de gerelateerde objecten en collecties. De
vastgelegde metadata van een informatieobject kan op verschillende manieren worden ingedeeld. De NISO
(2004) hanteert de volgende indeling van verschillende vormen van metadata:
1. Beschrijvende metadata
2. Structurele metadata
3. Administratieve metadata
4. User metadata
Beschrijvende metadata vertelt iets over de content van het object. Het maakt het mogelijk om het object te
identificeren. Beschrijvende metadata bevat bijvoorbeeld de titel, auteur, samenvatting en trefwoorden. De
structurele metadata beschrijft de relaties tussen de individuele informatieobjecten, zoals de verschillende
hoofdstukken in een boek. De administratieve metadata, zoals de datum van creatie en het file-type, maakt het
mogelijk de objecten te beheren. De user-metadata legt gegevens vast over de patronen van de gebruiker. Wat
zoekt de gebruiker? Welke objecten bekijkt de gebruiker? De vier vormen van metadata zijn geen afzonderlijke
aspecten, de beschrijvende metadata kan ook deel uitmaken van de administratieve metadata. Naast het
toekennen van verschillende vormen van metadata moet een informatiespecialist overwegen op welk niveau
de toegekende metadata moet worden vastgelegd. Een optie is om bij iedere foto afzonderlijk metadata toe te
kennen of de informatiespecialist kan besluiten op het niveau van de collectie gegevens vast te leggen. De keus
ligt in de hand van de specialist en hangt af van beschikbare tijd, geld en kennis. Veelal worden er standaarden
en richtlijnen opgesteld voor de metadata beschrijvingen om er voor te zorgen dat de gebruikers consequent
en eenduidig werken en dat de beschrijvingen uitwisselbaar zijn tussen meerdere instellingen. Culturele
12
instellingen werken met regels voor het opstellen van catalogi zoals de Anglo-American Cataloguing Rules
(AACR)8 en standaarden voor de structuur van de data zoals Encoded Archival Description (EAD)
9 als wel met
standaarden voor het beschrijven van objecten (Baca e.a. 2000). Het toekennen van tags aan een foto kan over
het algemeen gezien worden als beschrijvende metadata. Het geeft tenslotte een beschrijving van het object.
2.2 CONTENT-BASED IMAGE RETRIEVAL (CBIR)
CBIR is volgens Datta e.a. (2008) een technologie die op basis van de visuele content van een foto een bijdrage
levert aan de organisatie van een grote collectie met foto’s. Het vinden van de ‘juiste’ foto gebeurt aan de hand
van primitieve kenmerken van een foto, zoals de kleur of de vorm. De techniek van een foto moet ervoor
zorgen dat de ‘juiste’ foto gevonden kan worden. Door software te ontwikkelen die het mogelijk maakt om
automatisch verschillende vormen en kleuren te identificeren en te indexeren, is het mogelijk voor de
gebruiker hier op te zoeken. Het gaat bij CBIR dus echt om een techniek die een foto kan analyseren en
indexeren op basis van de karakteristieke eigenschappen van een foto zonder gebruik te maken van externe
content.
FIGUUR 2. CBIR ZOEKMACHINE
Eén van de eerste onderzoeken op het gebied van CBIR is terug te vinden in de literatuur van Kato (1992). In de
jaren daarna heeft CBIR veel aandacht gekregen en is er veel energie gestoken in de ontwikkeling van diverse
systemen. Op dit moment komen veel systemen op de markt die gebruik maken van beeld en
gezichtsherkenning, zoals Multicolr Search Lab10
(Figuur 2). Multicolr Search Lab heeft tien miljoen foto’s
geïndexeerd en doorzoekbaar gemaakt met een kleurenpalet. Andere websites die gebruik maken van CBIR zijn
Like.com11
, Polar Rose12
, Tineye13
en Picasa14
. Een systeem als ALIPR15
(Automatic Linguistic Indexing of Pictures
Real-Time) maakt op een andere manier gebruik van CBIR technieken. ALIPR maakt gebruik van een
annotatiesysteem dat vormen herkent en vervolgens hierbij trefwoorden (tags) toevoegt. Een foto met een wit
strand, zee en een palmboom wordt herkend door het systeem als sky, water, plant, beach. De afgelopen jaren
8 http://www.aacr2.org/
9 http://www.loc.gov/ead/
10 http://labs.ideeinc.com/multicolr
11 http://www.like.com
12 http://www.polarrose.com
13 http://www.tineye.com
14 http://Picasaweb.google.com
15 http://ALIPR.com
13
zijn veel succesvolle systemen ontwikkeld en zal het onderzoeksgebied van CBIR zich verder ontwikkelen. Tot
nu toe ligt de nadruk van CBIR-systemen op het niveau van low-level content. Low-level content is de visuele
informatie van een foto zoals vorm, kleur en textuur.
Het higher-level concept, waar op basis van eigen context associaties worden gegeven aan de betekenis, is het
niveau waar de meeste gebruikers hun queries uitvoeren (Eakins 2002). Daarom worden er op tekst
gebaseerde indexeringssystemen gebruikt die het wel mogelijk maken om foto’s te indexeren op het niveau
van higher-level concept, dit zijn concept- of text-based retrieval systemen. In het volgende hoofdstuk komen
standaarden aan bod voor het beschrijven van objecten op basis van concept- of text based retrieval systemen.
14
3 INDEXEREN
Voor bibliotheken en andere culturele instellingen roept het toegang geven tot hun collecties al vele jaren veel
vragen op. De grote hoeveelheden objecten geven problemen in het terugvinden van het gewenste object door
een gebruiker. Een query kan geen resultaten opleveren of juist duizenden treffers. Veel van deze problemen
worden door professionals opgelost door het creëren van classificatie systemen, trefwoordenlijsten, thesauri of
andere vormen van indexen. Deze systemen, gebaseerd op natuurlijke talen, numerieke reeksen en codes om
objecten te beschrijven, bieden een gestructureerde methode om de collectie doorzoekbaar te maken. In dit
hoofdstuk wordt het proces van indexeren en de verschillende indexeringssystemen besproken.
3.1 INFORMATION RETRIEVAL
Information Retrieval (IR) kan beschreven worden als de zoektocht naar relevante informatieobjecten die
overeenkomen aan de informatiebehoefte, welke in een vraag worden vormgegeven. Het onderstaande figuur
geeft het information retrieval paradigma weer (Bruza en Huibers 1996).
FIGUUR 3. INFORMATION RETRIEVAL PARADIGMA
Het information retrieval paradigma beschrijft een persoon (de zoeker) met een bepaalde informatiebehoefte
(N) die hij/zij graag beantwoord wilt hebben. De informatiebehoefte wordt door de zoeker uitgedrukt in de
vorm van een vraag (q), welke vervolgens aan een information retrieval systeem, of een menselijke
tussenpersoon, zoals een bibliothecaris, wordt gesteld. De vraag dient een zo goed mogelijke beschrijving te
zijn van de informatiebehoefte. Tegenover de persoon met zijn/haar vraag staan de informatieobjecten die
gezocht worden. De informatieobjecten zijn bijvoorbeeld documenten, tekeningen of foto’s. Elk
informatieobject is op een bepaalde manier gekenmerkt zodat deze gevonden kunnen worden. De kenmerken
beschrijven een deel van de inhoud van een informatieobject gebaseerd op een specifieke informatietaal. Het
kenmerken van de informatieobjecten wordt het indexeerproces genoemd. Een verzameling kenmerken is een
index. Wanneer de informatiebehoefte is vertaald in een vraag kan deze via een information retrieval systeem
vergeleken worden met de kenmerken van een object. Dit proces wordt matching genoemd. De kenmerken die
het meest relevant zijn voor de specifieke informatiebehoefte worden gepresenteerd.
3.2 INDEXERINGSPROCES
Zoals uit de vorige paragraaf is gebleken worden tijdens het indexeerproces aan ieder informatieobject
bepaalde kenmerken gekoppeld. Wanneer deze kenmerken betrekking hebben op het onderwerp van het
object wordt het indexeerproces ook wel onderwerpontsluiting (subject indexing) genoemd. Het proces van
onderwerpontsluiting verloopt in twee stappen: 1) conceptanalyse en 2) representatie ( Figuur 4).
15
FIGUUR 4. STAPPEN IN SUBJECT INDEXING
De conceptanalyse is het proces waarin besloten wordt waar een object over gaat en wat hier relevant is. Het
resultaat van de conceptanalyse is sterk afhankelijk van de behoeftes en interesses van de gebruiker. 16
Representatie is het proces van het vinden van een set van geschikte indextermen dat de hoofdzaak van de
conceptanalyse weergeeft (Lancaster 2003). De indextermen worden vervolgens vertaald in het vocabulaire en
volgens een vastgestelde syntaxis van een informatietaal. Een informatietaal is een kunstmatige taal voor het
ontsluiten van de inhoud en bepaalde formele aspecten van documenten. Een kunstmatige taal, gebaseerd op
een natuurlijke taal, is een taal specifiek ontwikkeld door iemand of een groep mensen voor een bepaald doel.
De taal die mensen onderling gebruiken om met elkaar te communiceren is een natuurlijke taal. Riesthuis
(1998) hanteert de volgende definitie voor een informatietaal:
"Een informatietaal is een geheel van tekens, een vocabulaire, met de daarbij behorende grammatica,
dat zijn de regels en hulpmiddelen voor de vorming en het gebruik ervan, welke in een bepaalde
omgeving afgesproken zijn voor het analyseren van inhouden van documenten, het vastleggen van de
resultaten van de analyse in een documentatiesysteem en/of het formuleren van vragen aan het
documentatiesysteem."
Het vocabulaire kan bestaan uit een selectie van woorden en woordgroepen, notaties of codes of een
combinatie hiervan. De grammatica is opgebouwd uit semantiek (betekenisleer), morfologie (vormleer), de
syntaxis (leer van de woordvorming/zinsbouw) en de fonologie (klankleer). De fonologie is bij informatietalen
minder van belang. Het vocabulaire en de grammatica bepalen samen de inrichting van het
indexeringssysteem. Informatietalen kunnen traditioneel gezien onderverdeeld worden in een aantal
gecontroleerde vocabulaires: classificatie, indexen, trefwoordensystemen en thesauri. In de volgende
paragrafen volgt een nadere beschrijving van enkele gecontroleerde vocabulaires.
3.3 CLASSIFICATIES EN INDEXEN
Traditionele classificatiesystemen zijn ontwikkeld om bibliotheken op een logische manier te ordenen op basis
van de inhoud van een boek. Het onderwerp van het boek bepaalt waar en op welke plank het fysiek komt te
staan. Classificatiesystemen zijn gecontroleerde informatietalen welke zijn opgebouwd uit notaties die een
algemeen onderwerp beschrijven naar notaties die betrekking hebben op een specifiek aspect. Hiermee
ontstaat een hiërarchische structuur waarin tussen de notaties relaties worden gelegd. Er zijn veel
verschillende classificatieschema’s beschikbaar, zoals de Universal Decimal Classification (UDC)17
en de Dewey
Decimal Classification System (DDC) (Chowdhury 2004, 57-61). Groot nadeel van classificatieschema’s is de
starheid, waardoor het moeilijk is in een steeds maar veranderende wereld nieuwe classificaties toe te voegen.
Een sprekend voorbeeld hiervan haalt Clay Shirky (2005) aan in een artikel op zijn weblog over de waarden van
classificatieschema’s. Shirky refereert naar een categorie (200: Religion) uit de Dewey Decimal Classification
System om hiermee boeken of andere informatieobjecten te kunnen classificeren naar de verschillende
wereldreligies. In deze categorie wordt heel sterk de nadruk gelegd op het christelijke geloof terwijl in de
16
Hoofdstuk 4 gaat verder in op het proces van conceptanalyse. 17
http://www.udcc.org
Feedback Representatie
Conceptanalyse
16
huidige realiteit andere vormen van religie een zeer belangrijke rol spelen. Shirkey toont hiermee de starheid
van de Dewey Decimal System aan (Figuur 5).
Dewey Decimal Classification System
200: Religion
210 Natural theology
220 Bible
230 Christian theology
240 Christian moral & devotional theology
250 Christian orders & local church
260 Christian social theology
270 Christian church history
280 Christian sects & denominations
290 Other religions
FIGUUR 5. CATEGORIE 200: RELIGION UIT DE DDC
Een van de oudste indexen is het iconografische indexsysteem Index of Christian Art18
ontwikkeld door
Professor Charles Rufus Morey, kunsthistoricus aan Princeton University. Vanaf 1917 ontwikkelde de index zich
verder als het systeem voor iconografische beschrijvingen van middeleeuwse kunstvoorwerpen. Deels
overeenkomstig met de index of Christian Art is ICONCLASS19
. ICONCLASS is een onderwerp specifiek
classificatiesysteem voor iconografische beschrijvingen van met name westerse kunst. Het systeem ontwikkeld
door Professor Henri van Waal in Nederland in begin jaren 50 is een hiërarchisch gestructureerde lijst met
definities van objecten, personen, gebeurtenissen en abstracties. Na het overlijden van van Waal in 1972 bleef
de index onafgemaakt achter, echter in de jaren 80 werd ICONCLASS verder afgemaakt en is nu in beheer bij
het Rijksbureau voor Kunsthistorische Documentatie.
3.4 TREFWOORDENSYSTEMEN EN THESAURI
Veel bibliotheken maken gebruik van trefwoordenlijsten en thesauri voor de ontsluiting van hun collecties.
Zowel een trefwoordenlijst als een thesaurus bestaan uit een lijst met alfabetisch gerangschikte termen,
eventueel met kruisverwijzingen en opmerkingen. In de praktijk worden trefwoordenlijsten en thesauri
veelvuldig door elkaar gebruikt, er zijn dan ook overeenkomsten. Een overeenkomst is dat beide systemen
gebruik maken van geordende verzamelingen woorden of woordgroepen, waarvan de vorm en onderlinge
relaties zijn vastgelegd. De trefwoordensystemen bevatten over het algemeen brede onderwerpen omdat ze
oorspronkelijk gebruikt worden als onderwerpscatalogus. Een thesaurus wordt vaak ontwikkeld in een specifiek
domein waarbij de verschillende representaties van een term (synoniemen, homoniemen, spellingsvarianten,
enz.) worden beschreven. Daarbij worden de onderlinge relaties tussen de trefwoorden weergegeven om te
kunnen bepalen hoe een trefwoord zich verhoudt ten opzichte van een ander trefwoord. Dit wordt mogelijk
door bovengeschikte (broader), ondergeschikte (narrow) en gerelateerde termen met elkaar te verbinden
(Chowdhury 2004, 26-27). Het verschil tussen trefwoordsystemen en thesauri is met name het al dan niet
verwerken van de syntaxis ook wel het toepassen van het pre- of postcoördinatie genoemd (Magrijn 2000).
Thesauri werken met termen die tijdens de zoekfase gecombineerd kunnen worden (postcoördinatie). De
termen in een thesaurus bestaan dan ook uit enkelvoudige begrippen, wat wil zeggen dat termen die het
resultaat zijn van het indexeren als losse termen worden opgeslagen. Trefwoordsystemen werken met vaste
combinaties van termen in een voorgeschreven volgorde die door de indexeerder wordt bepaald
(precoördinatie) .
18
http://ica.princeton.edu 19
http://www.iconclass.nl
17
Er zijn initiatieven genomen voor het ontwikkelen van thesauri die aansluiten bij het indexeren van foto’s.
Twee veel gebruikte thesauri zijn de Art and Architecture Thesaurus (AAT)20
en de Library of Congress
Thesaurus of Graphic Materials (LCTGM)21
. De Art and Architecture Thesaurus heeft zijn oorsprong in de jaren
80 bij het Rensselaer Polytechnic Institute en wordt nu onderhouden door het Getty Research Institute. De AAT
is de thesaurus voor het beschrijven van architectonische objecten en onderwerpen. Andere thesauri in beheer
bij het Getty Research Institute zijn de Union List of Artists Names (ULAN22
) en de Thesaurus of Geographic
Names (TGN)23
. De Thesaurus for Graphic Materials (TGM) van de Library of Congress is een tool voor het
indexeren van visuele materialen op object niveau en genre/format. De thesaurus welke afstamt van de Library
of Congress Subject Heading (LCSH)24
, is ontwikkeld door Elisabeth Betz Parker voor de Print en Fotografie
Divisie van de Libary of Congress en bevat meer dan 7000 object termen en 650 genre/format termen om
foto’s, prints en tekeningen mee te indexeren.
3.5 EFFECTIVITEIT VAN GECONTROLEERDE VOCABULAIRES
Indexeersystemen, zoals gecontroleerde vocabulaires, brengen veel voordelen met zich mee. Het is mogelijk
om bijna elk aspect van een foto te beschrijven op elk niveau van complexiteit. Daarbij zijn de
indexeersystemen flexibel en redelijk eenvoudig uit te breiden, echter vraagt dit wel om consistentie tussen
alle gebruikers van de systemen (Eakins en Graham 1999, 21). De norm ANSI/NISO Z39.19 van 2005 draagt bij
aan deze consistentie en bepaalt richtlijnen en overeenkomsten voor het formaat, bouw, het testen,
onderhoud en beheer van gecontroleerde vocabulaires met inbegrip van lijsten, synoniemringen, taxonomieën,
en thesauri (NISO 2005).
Het grootste voordeel is dat de systemen opgebouwd zijn op basis van semantische en hiërarchische relaties.
Dit resulteert in een aantal belangrijke functies van vocabulaire systemen die een sterk positief effect hebben
op de retrieval van objecten. Macgregor & McCulloch (2006) hebben de voordelen van indexeersystemen als
volgt samengevat:
• Het geeft controle aan het gebruik van synoniemen. Eén woord is gekoppeld aan meerdere termen,
bijvoorbeeld ‘auto’, ‘automobiel’ of ‘motorvoertuig’. Het positieve gevolg is dat indexeerders dezelfde
term kiezen voor het beschrijven van een object.
• Het discrimineert tussen homoniemen, wat voor de indexeerder een oplossing geeft voor dezelfde
woorden met een andere betekenis, bijvoorbeeld ‘Java’ als programmeertaal en ‘Java’ van de koffie.
• Het geeft controle over lexicale anomalieën, dat wil zeggen dat het grammaticale variaties voorkomt,
zoals spellingsvarianten, meervoud/enkelvoud, werkwoordconstructies en andere grammaticale
verschillen.
• Het zorgt dat dezelfde of gerelateerde termen worden samengevoegd. Dit wordt ook wel
Genus/Species genoemd, bijvoorbeeld ‘Leninisme’ is een species van ‘communisme’, wat weer een
species is van ‘politieke ideologieën’.
• Het maakt het mogelijk om syntactische relaties te leggen tussen termen, zoals ‘taal’ is gerelateerd
aan ‘indexing’. Deze termen zijn niet hiërarchisch met elkaar verbonden, maar hebben wel een heel
duidelijke relatie met elkaar.
• De structuur biedt mogelijkheden voor het gebruiken van codes en annotaties die gekoppeld worden
aan termen. Het voordeel is dat deze termen voorspelbaar en taal onafhankelijk zijn.
20
http://www.getty.edu/research/conducting_research/vocabularies/aat/index.html 21
http://www.loc.gov/rr/print/tgm1/ 22
http://www.getty.edu/research/conducting_research/vocabularies/ulan/ 23
http://www.getty.edu/research/conducting_research/vocabularies/tgn/ 24
http://www.loc.gov/catdir/cpso/lcc.html
18
Maar om deze vocabulaires te creëren, te gebruiken en te onderhouden wordt veel tijd en energie gevraagd
van de professionele indexeerder. Veel kennis van het onderwerp is noodzakelijk om de index te creëren en te
onderhouden. Naast de totstandkoming van de vocabulaires, is het gebruik ervan een zeer arbeidsintensieve
bezigheid. Eakins & Graham (1999, p.21) verwijzen naar onderzoeken waarin de tijdsduur voor het beschrijven
van een foto is gemeten. Hieruit blijkt dat het beschrijven van een stock foto bij Getty Images ongeveer 7
minuten kost. Maar liefst 40 minuten is gemiddeld nodig om bij Rensselaer Polytechnic een foto te beschrijven
op basis van de AAT.
Een ander belangrijk nadeel van het gebruik van gecontroleerde vocabulaires is de onbetrouwbaarheid. Bij het
indexeren van foto’s bestaat er onder indexeerders een bepaalde spanning, ze willen de uniekheid van de foto
bewaren, maar moeten tegelijkertijd toegang geven op verschillende acces points van waaruit de gebruiker een
foto wilt vinden. Foto’s zijn rijk en bevatten informatie welke bruikbaar is voor onderzoekers van verschillende
disciplines. Vaak is het van tevoren niet duidelijk welk doel de gebruiker voor ogen heeft met de foto, dit doel
kan zelfs volledig anders zijn dan de oorspronkelijke maker voor ogen had (Besser 1990). Choi en Rasmussen
(2003) concluderen dit ook en vatten dit als volgt samen:
“Indeed, describing the subject matter of images is problematic, because the words used to describe
images vary and cannot represent an image entirely. The same visual information might mean
something different to the same person at different times. In addition, different individuals often
interpret the same images differently.”
Om deze reden zijn veel foto’s in collecties minimaal geïndexeerd. Besser (1990) concludeert dan ook dat het
complexer is om een foto te beschrijven dan een boek:
“Two interrelated aspects that make the cataloging of images different from that of books are the
deliberateness in their creation, and their richness and complexity. Most books are written with clearly
defined purposes in mind, and catalogers can expect that most potential users of these books will
approach them from that standpoint.”
Bij een boek is het duidelijk wat de auteur voor bedoelingen heeft. Het boek zelf vertelt het verhaal aan de
hand van de introductie, de achterflap van het boek of de samenvatting. Met dit in het achterhoofd is het
bepalen van het standpunt van de auteur eenvoudiger.25
Bij een foto ontbreekt dit alles en is het moeilijker om
de intenties van de maker vast te stellen en daarbij de intenties van de potentiële gebruiker. Vaak gebeurt het
dat de toegang tot de objecten, die op zich wel goed zijn beschreven, niet nuttig zijn voor de zoeker, omdat zij
om de simpele reden gewoon niet zoeken op die toegang. Het is volgens Enser (2000): “Difficult in determining
the appropriate level of indexing.” Wat er eigenlijk aan de hand is is dat het vocabulaire van de zoeker niet
overeen komt met het vocabulaire van het indexeringssysteem, dit gat wordt ook wel het semantic gap
genoemd. Smeulders e.a. (2000) zien de semantic gap als:
“The lack of coincidence between the information that one can extract from the visual data and the
interpretation that the same data have for a user in a given situation.”
Met andere woorden, de persoon die een bepaalde foto zoekt kan een geheel andere interpretatie hiervan
hebben dan de documentalist die de foto heeft beschreven. Een goede analyse van de inhoud is van groot
belang. Het volgende hoofdstuk gaat nader in op de conceptanalyse van een foto waarin duidelijk wordt dat er
verschillende niveaus van ontsluiting mogelijk zijn.
25
De gemaakte vergelijking tussen boeken en foto’s is in de werkelijkheid wat genuanceerder. Bijvoorbeeld het beschrijven van poëzie is
waarschijnlijk complexer dan een journalistieke foto beschrijven waarbij vooral wie, wat, waar en wanneer van belang is.
19
4 CONCEPTANALYSE
“Een foto zegt meer dan 1000 woorden”, een veelgebruikte uitdrukking om de kracht van een foto ten opzichte
van een tekstuele expressie aan te geven. Maar wat zegt een foto nou echt? Wat ziet de aanschouwer nou echt
in die foto? Het beeld wordt bepaald door allerlei factoren, zoals de context, het humeur en de kennis van de
gebruiker. Het vaststellen van dé betekenis van een foto is ontzettend complex al dan niet onmogelijk. Dit
proces wordt de conceptanalyse genoemd en is de eerste fase van het indexeringsproces.26
Shatford (1986) ziet de subjectiviteit van de indexeerder als het grootste probleem bij het beschrijven van een
foto. Daarbij is de behoefte van iedere gebruiker verschillend. De ene persoon zoekt naar specifieke gebouwen
uit Parijs en de andere gebruiker zoekt ook gebouwen in Parijs maar dan wel de foto’s die specifiek betrekking
hebben op een bepaalde sfeer. De semantische inhoud van een foto is gelaagd en heeft dus meerdere
betekenissen, zelfs voor één persoon op verschillende tijdstippen.
FIGUUR 6. FOTO IGNORE DOOR JOEY LAWRENCE ( HTTP://WWW.JOEYL.COM/)
Zoals al eerder is besproken is de meest belangrijkste methode om toegang te geven tot een foto de
onderwerpontsluiting. Dit lijkt op het eerste gezicht eenvoudig, maar het tegendeel blijkt al snel uit
bovenstaande foto van Joey Lawrence. De eenvoudige vraag wat deze foto beschrijft, ook wel ‘of’ genoemd,
laat al meerdere opties zien. De foto is ‘of’ een man, is ‘of’ een dakloze, dit is wat de foto je vertelt. Mensen en
objecten zijn de eerste laag van of-ness dat op een foto wordt gezien. Maar ook activiteiten, plaats en tijd
beschrijven heel duidelijk een foto. Bij deze foto is het onderwerp bedelen een duidelijke activiteit. Al deze
onderwerpen kunnen vervolgens ook ruimer of juist specifieker worden beschreven. De persoon op de foto is
een man (breed), maar ook een dakloze (heel specifiek), en ook Amerikaan (specifiek). Nog specifieker zou de
naam van deze zwerver zijn indien bekend.
Minder duidelijk dan de of-ness van een foto, maar eigenlijk interessanter, is dat waar het object over gaat. De
about-ness. Het is niet altijd even duidelijk waar een foto over gaat, of soms kan een foto ook over meerdere
dingen gaan. Bovenstaande foto is ‘about’ het zwervend bestaan, maar ook het negeren van de zwerver door
de omstanders. Nog breder kan deze foto gaan over de gevolgen van de kredietcrisis. Aboutness is al vele jaren
een belangrijk begrip in de Information Retrieval. Hutchins (1978) schreef een bekend artikel over dit
26
Paragraaf 3.2 besteed aandacht aan de tweede fase van het indexeringsproces, de representatie van de conceptanalyse.
20
onderwerp. Hij definieerde aboutness op basis van een analyse van de taal en discours van een tekst. Het
uitgangspunt van aboutness is volgens Hutchins dat indexeerders in staat zijn om aan te geven waar een
document of foto over gaat middels het formuleren van een expressie welke de inhoud samenvat.
Eén van de eerste die getracht heeft de verschillende niveaus van aboutness van een foto in kaart te brengen is
de kunsthistoricus Erwin Panofsky (1962; 1982). Het Panofsky’s ‘levels of meaning’-model beschrijft drie
niveaus in de kunst van de Renaissance: de ‘pre-iconografische beschrijving’, de ‘iconografische analyse’ en de
‘iconologische interpretatie’ (Tabel 1).
Object of interpretation Act of interpretation Equipment for interpretation Corrective principle of
interpretation (History of
tradition)
I. Primary or natural subject
matter:
A. Factual
B. Expressional
Constituting the World of
artistic motifs.
Pre-iconographical description
(and pseudo-formal analysis)
Practical experience (familiarity
with objects and events)
History of style (insight into the
manner in which, under varying
historical conditions, objects
and events were expressed by
forms).
II.Secondart or conventional
subject matter, constituting the
world of images, stories and
allegories.
Iconographical analysis Knowledge of literacy sources
(familiarity with specific themes
and concepts).
History of types (insight into
the manner in which, under
varying historical conditions,
specific themes or concepts
were expressed by objects and
events).
III. Intrinsic meaning or content,
constituting the world of
“symbolical” values
Iconological interpretation Synthetic intuition (familarity
with the essential tendencies of
the human mind), conditioned
by personal psychology and
“Weltanschauung.”
History of cultural symptoms or
“symbols” in general (insight
into the manner in which,
under varying historical
conditions, essential tendencies
of the human mind were
expressed by specific themes
and concepts).
TABEL 1. PANOFSKY'S LEVELS OF MEANING
Het pre-iconografische niveau geeft een generieke/algemene beschrijving van de objecten en acties. De
beschrijvingen zijn feitelijk en expressief. Het iconografische niveau is sterk analytisch en beschrijft specifiek
objecten en acties. Het derde niveau is iconologisch en is interpretatief van aard. Van een foto wordt de
intrinsieke waarde benoemd. Bij het beschrijven van een foto op dit niveau is interpretatie van de foto nodig en
deze interpretatie wordt gevoed door kennis en sociale achtergrond.
Shatford (1986) bouwt voort op deze drie niveaus en toont aan dat het model niet alleen van waarde is voor de
kunst van de Renaissance, maar voor alle foto’s. Shatford categoriseert de onderwerpen van een foto in
Generic Of, Specific Of en About. Op het niveau van Generic Of worden algemene objecten en acties
beschreven, zoals auto, lopen, gebouw. Het Specific Of niveau beschrijft de individuele objecten en acties
specifiek, zoals de Westerkerk, Dagboek van Anne Frank. Het About-niveau gaat in op de gevoelswaarde en
symboliek, bijvoorbeeld blij, verdrietig, eerlijkheid en de kerkelijke symboliek van brood en wijn. Shatford voegt
vervolgens nog vier facetten toe aan de drie niveaus: Wie? Wat? Waar? Wanneer? Dit resulteert in een 3x4
matrix wat tegenwoordig het Panofsky/Shatford model wordt genoemd. De matrix is vaak de basis voor het
beschrijven van foto’s en wordt veelvuldig gebruikt in onderzoeken.
Iedere foto heeft zo zijn eigen kenmerken. Om te bepalen welke kenmerken belangrijk zijn voor het
terugvinden van de foto is het volgens Shatford-Layne (1994) belangrijk om deze kenmerken te plaatsen in vier
algemene categorieën. De Biographical attributes bevatten kenmerken over de geboorte van een foto, zoals de
fotograaf, tijd en lokatie en de titel. Ook gegevens over de ‘reis’ van de foto worden hierin opgenomen. Waar is
de foto nu, welke weg heeft de foto afgelegd en wie is de eigenaar? De Subject attributes hebben te maken
met de betekenis van de objecten, mensen, activiteiten of tijd in een foto. Dit attribuut is van een abstracter
karakter dan de andere attributen en heeft betrekking op thema’s en concepten die in een foto worden
21
uitgedrukt. Exemplified attributes gaan over de fysieke eigenschappen van een foto, zoals een ets, foto of
poster. De Relationship attributes refereren naar andere foto of bronnen.
Geconcludeerd kan worden dat foto’s op verschillende niveaus van subjectiviteit en objectiviteit kunnen
worden beschreven. Door de kenmerken van de objecten, de mensen en de evenementen van een foto op
deze verschillende niveaus te ontsluiten wordt het mogelijk om via verschillende wegen en op diverse niveaus
toegang te verlenen tot een foto. In het vorige hoofdstuk zijn verschillende methoden van
onderwerpsontsluiting beschreven welke op basis van de conceptanalyse, beschreven in dit hoofdstuk, vorm
hebben gekregen. Het principe van conceptanalyse heeft ook betrekking op andere methoden van
onderwerpsontsluiting, zoals tagging. De benadering van Panofsky’s ‘levels of meaning’-model vormt de basis
van het onderzoek naar het taggebruik op de fotowebsite Flickr.
22
5 TAGGING: INDEXEREN DOOR DE GEBRUIKER
Tot nu toe is het indexeerproces beschreven vanuit het idee dat culturele instellingen professionele mensen
inhuren voor het beschrijven van culturele objecten. Maar in de huidige online wereld is het ook mogelijk dat
de gebruiker zelf een bijdrage levert aan het indexeerproces. Het online ‘indexeren’ van objecten is een vorm
van labelen en wordt collaborative tagging genoemd. In dit hoofdstuk wordt het concept tagging behandeld
waarbij tagging ten eerste wordt geplaatst in de context van de ontwikkelingen op het internet (§5.2) en ten
tweede wordt beschreven op basis van zijn architectuur (§5.3). Paragraaf 5.4 gaat in op de zoekmogelijkheden
van taggingsystemen. De laatste paragraaf (§5.5) geeft een analyse van de overeenkomsten en verschillen
tussen gecontroleerde vocabulaires en taggingsystemen.
5.1 TAGGING ALS CONCEPT
Collaborative tagging, of simpel gezegd tagging, wordt als dé oplossing gezien voor het organiseren van de
steeds maar groeiende hoeveelheid informatie op het web. Iedereen is het er wel over eens dat professionals
alleen niet meer in staat zijn om alle content op internet te indexeren. Tagging biedt de gebruiker de
mogelijkheid om dit op een eenvoudige manier zelf te doen. Tagging is eigenlijk niet anders dan ‘keywording’,
de gebruiker kan met vrij gekozen trefwoorden (labels of tags) metadata toekennen aan een digitaal object
(Weinberger 2005). Het grote verschil tussen tagging en traditionele keywording systemen is de mogelijkheid
om de tags, gebruikers en bronnen met elkaar te laten interacteren in een social tagging systeem. Dit soort
systemen worden ook wel folksonomieën genoemd. De term, voor het eerst geopperd door Thomas van der
Wal (2007), bestaat uit het woord ‘folk’ en ‘taxonomy’. Eigenlijk is de term niet geheel correct, want de kracht
van een tagging systeem is juist het ontbreken van een vooraf vastgestelde taxonomie. Wel is het zo dat een
tagging systeem afhankelijk is van zijn ‘folks’, omdat zij door hun sociale gedrag en hun taalgebruik bepalen hoe
de tagstructuur eruit komt te zien (Marlow e.a. 2006). Tagging wordt ook wel grassroots classification (Mathes
2004), ethnoclassification (Merholz 2004) of social classification (Hammond e.a. 2005) genoemd.
Folksonomieën zien Al-Khalifa & Davis (2007) als user-generated labeling systems waar het vocabulaire van de
gebruiker wordt gebruikt en niet die van een bibliothecaris. Het is het uitgangspunt geworden voor het zoeken
naar digitale bronnen op het web.
5.2 RELATIE MET WEB 2.0 EN HET SEMANTIC WEB
Tagging is op social websites de standaard methode geworden om online objecten te kunnen managen. Social
websites (bijvoorbeeld YouTube voor video, Delicious voor bookmarks en Flickr voor foto’s) maken het mogelijk
om digitale objecten op te slaan, te beheren en te delen met anderen. Social websites zijn ontstaan uit de
behoefte om online informatie met elkaar te delen, deze nieuwe ontwikkeling op internet wordt web 2.0
genoemd. De term ‘web 2.0’ is ontstaan uit een brainstormsessie tussen O’Reilly en MediaLive International
waaruit geconcludeerd werd dat het web -het web 1.0 van vóór de internethype- alles behalve dood was, maar
levendiger dan ooit (O'Reilly 2005b). De waarde en betekenis van de term web 2.0 is onduidelijk (O'Reilly
2005a). De één ziet web 2.0 als een marketing buzzword en de ander ziet de term als een nieuw tijdperk.
O’Reilly, bedenker van de term, definieert web 2.0 als volgt:
“Web 2.0 is a set of economic, social, and technology trends that collectively form the basis for the next
generation of the Internet — a more mature, distinctive medium characterized by user participation,
openness, and network effects.” (Musser en O'Reilly 2006, 4)
Web 2.0 staat tegenwoordig voor de samensmelting van de woorden producent en consument in prosumers,
waarbij iedereen op het web helemaal vrij en open oneindige mogelijkheden heeft om met elkaar te
communiceren, samen te werken en te creëren.
Tegenover de ontwikkelingen op het gebied van web 2.0 staat de introductie van het Semantic Web. Het
Semantic Web is een vastgelegd raamwerk dat het mogelijk maakt om data te delen en her te gebruiken tussen
applicaties, bedrijven en communities.
presenteren, maar hier ook een waarde en betekenis aan te geven. Mensen én computers moeten de
mogelijkheid krijgen om informatie te genereren en te interpreteren.
volgens Tim Berners-Lee (2001):
“The creation of machine consumable knowledge.”
Om dit mogelijk te maken is een conceptueel raamwerk vereist, een ontologie genoemd.
formele conceptualisatie van een specifiek kennisdomein en
relaties tussen deze termen (Gruber 1993)
Tot nu toe is het succes van het Semantic W
zeer complex is. Aan de andere kant wordt er langzaam vooruitgang geboekt, zo suggereert, James Hendler
(2007), een gerenommeerd Semant
”A little semantics goes a long way.
needed to go a long way on something as mind
Web 2.0 is volgens Hendler het middel om meer toegepast en op een lager niveau om te gaan met de
mogelijkheden van een Semantic Web
en het Semantic Web geen afzonderlijke onderdelen zijn, maar elkaar op veel gebieden kunnen verrijken. De
combinatie van het sociale en gebruiksvriendelijke web 2.0 met het sterk ge
gezamenlijke mash-ups mogelijk ter bevordering van de kennisdeling.
5.3 DE ARCHITECTUUR VAN E
In een taggingsysteem zijn vier elementen
bij een object (3) binnen een systeem
volgende paragrafen nader toegelicht.
FIGUUR 7. TAGGINGSYSTEEM
mmunities. Het Semantic Web maakt het mogelijk om niet alleen de informatie te
presenteren, maar hier ook een waarde en betekenis aan te geven. Mensen én computers moeten de
mogelijkheid krijgen om informatie te genereren en te interpreteren. Het succes voor het Semantic Web is
he creation of machine consumable knowledge.”
Om dit mogelijk te maken is een conceptueel raamwerk vereist, een ontologie genoemd.
eptualisatie van een specifiek kennisdomein en bestaat uit een eindige lijst
(Gruber 1993).
is het succes van het Semantic Web nog erg beperkt omdat het ontwikkelen van deze o
de andere kant wordt er langzaam vooruitgang geboekt, zo suggereert, James Hendler
, een gerenommeerd Semantic Web wetenschapper, in zijn artikel The Dark Side of the Semantic Web:
A little semantics goes a long way. In fact, I’m just now beginning to understand exactly how little is
needed to go a long way on something as mind-bogglingly huge and unorganized
Web 2.0 is volgens Hendler het middel om meer toegepast en op een lager niveau om te gaan met de
een Semantic Web. Ankolekar e.a. (2008) benadrukken nogmaals in hun artikel dat web 2.0
en het Semantic Web geen afzonderlijke onderdelen zijn, maar elkaar op veel gebieden kunnen verrijken. De
combinatie van het sociale en gebruiksvriendelijke web 2.0 met het sterk gestructureerde Semantic
ups mogelijk ter bevordering van de kennisdeling.
E ARCHITECTUUR VAN EEN TAGGINGSYSTEEM
elementen (Figuur 7) te onderscheiden. De gebruiker (1)
binnen een systeem (4) (Smith 2008; Marlow e.a. 2006). Deze vier elementen worden in de
volgende paragrafen nader toegelicht.
23
ijk om niet alleen de informatie te
presenteren, maar hier ook een waarde en betekenis aan te geven. Mensen én computers moeten de
Het succes voor het Semantic Web is
Om dit mogelijk te maken is een conceptueel raamwerk vereist, een ontologie genoemd. Een ontologie is een
eindige lijst van termen en de
t omdat het ontwikkelen van deze ontologieën
de andere kant wordt er langzaam vooruitgang geboekt, zo suggereert, James Hendler
ic Web wetenschapper, in zijn artikel The Dark Side of the Semantic Web:
In fact, I’m just now beginning to understand exactly how little is
bogglingly huge and unorganized as the Web.”
Web 2.0 is volgens Hendler het middel om meer toegepast en op een lager niveau om te gaan met de
benadrukken nogmaals in hun artikel dat web 2.0
en het Semantic Web geen afzonderlijke onderdelen zijn, maar elkaar op veel gebieden kunnen verrijken. De
structureerde Semantic Web maakt
(1) die een tag (2) plaatst
Deze vier elementen worden in de
24
5.3.1 GEBRUIKER
De gebruikers van een taggingsysteem worden in het algemeen taggers genoemd. Eigenlijk is dit onterecht,
want niet iedere gebruiker van een taggingsysteem is een tagger. Dat blijkt wel uit een onderzoek uitgevoerd
door Pew Internet & American Life Project in 2006 naar het gebruik van tagging in de Verenigde Staten27
.
Hieruit blijkt dat 28% van de internet gebruikers wel eens een foto, nieuwsbericht of blogpost heeft getagt.
Daarnaast zegt 7% van de internet gebruikers op een normale dag online content te taggen. Het merendeel van
de internet gebruikers tagt zelf niet maar maakt wel gebruik van taggingsystemen. Voss (2007) suggereert dan
ook om het systeem niet vanuit één soort gebruiker te zien, maar vanuit vier verschillende gebruikers met
ieder een eigen rol en functie:
1. Resource author: persoon dat een object creëert of wijzigt.
2. Resource collector: persoon dat een object toevoegt aan een taggingsysteem.
3. Indexer of tagger: persoon die de objecten tagt.
4. Searcher: Persoon die zoekt naar objecten met behulp van tags.
In de meeste systemen is het mogelijk dat er overlap is tussen deze rollen en mensen kunnen op verschillende
momenten verschillende rollen vervullen. Op de fotosite Flickr kan iemand zijn eigen gemaakte foto uploaden,
voorzien van tags en op een later tijdstip deze foto zoeken. Ook kan deze gebruiker foto’s van anderen taggen
of alleen zoeken. Het gedrag van de gebruiker is grotendeels afhankelijk van de mogelijkheden die het systeem
toelaat, de persoonlijke en de sociale motivatie om input te leveren aan het taggingsysteem, zo concluderen
Marlow e.a. (2006):
“Incentives and motivations for users also play a significant role in affecting the tags that emerge from
social tagging systems.”
Maar wat beweegt een gebruiker om tags te plaatsen? Het taggen van objecten door internetgebruikers kan
zijn om hun eigen verzameling objecten te organiseren of het taggen kan fungeren als een publieke en sociale
activiteit. Daarbij kunnen tags die in eerste instantie als privé geplaatst zijn bij een object een belangrijke rol
spelen voor het terugvinden van dezelfde objecten door andere gebruikers. De motivaties om te taggen
kunnen gecategoriseerd worden volgens twee aspecten: organisatorisch en sociaal. Deze aspecten kunnen
nader worden onderverdeeld in zes motivaties om te taggen (Marlow e.a. 2006):
1. Future retrieval
Het taggen van bronnen voor persoonlijk retrieval. Bijvoorbeeld
voor het schrijven van een scriptie het verzamelen en beheren
van referenties. De tags kunnen ook gebruikt worden als
herinnering of activiteit, met tags als “toread”.
2. Contribution and sharing
Het toevoegen van bronnen met daarbij tags voor bekend en
onbekend publiek.
3. Attract attention
Het trekken van de aandacht met populaire tags. Het gebruik van
tagclouds is een middel om dit te realiseren.
4. Play and competition
Het gebruik van tags op basis van een aantal regels. Een
voorbeeld is de ESP game28
waarbij tags bij een foto van
meerdere personen moeten matchen om punten te verdienen.
5. Self presentation
Het taggen om de eigen identiteit van de tagger uit te dragen,
zoals “seenlive”.
6. Opinion expression
Het gebruik van tags om een bepaalde waarde te hechten aan
een object en dit willen delen met anderen.
27
http://tinyurl.com/226loq 28
Presentatie@google: http://video.google.com/videoplay?docid=-8246463980976635143&q=google+tech+talks
ESP Game: http://images.google.com/imagelabeler/
25
De redenen om te taggen komen voort uit organisatorische redenen en uit sociale overwegingen. Uit
bovenstaande overzicht blijkt dat dit invloed heeft op de type tags die worden geplaatst. De tags kunnen
anders zijn wanneer iemand tagt voor eigen gebruik of juist de tags wilt delen met anderen. Maar die tags
kunnen ook weer nuttig zijn voor andere gebruikers. Welke typen tags gebruikers plaatsen is te lezen in de
volgende paragraaf.
5.3.2 TAGS
Uit de vorige paragraaf is gebleken dat gebruikers verschillende rollen en motivaties hebben bij het gebruik van
tagggingsystemen. Dit heeft invloed op welke tags er worden toegekend door de verschillende gebruikers. In
deze paragraaf staat de vraag centraal hoe de structuur van de tags in een taggingsysteem is opgebouwd.
Een van de bekendste onderzoeken naar de structuur van collaborative taggingsystemen is die van Golder en
Huberman (2006). Voor hun onderzoek maakten ze gebruik van populaire tags en 229 random gebruikers uit de
social bookmarking site Delicious29
. Zij keken naar het dynamische karakter van tags en hun gebruikers over
een bepaalde periode en concludeerden dat het taggebruik bij een bookmark naar verloop van tijd stabiel
werd. Dit kan duiden op een gedeelde overeenkomst van het vocabulaire van een bepaald object. Het resultaat
kan beïnvloed zijn omdat Delicious aanbevelingen geeft voor het taggen gebaseerd op tags van andere
gebruikers. De gebruikers verschillen sterk in taggebruik. De ene gebruiker heeft veel tags in zijn folksonomie
en anderen maar een paar. Volgens de onderzoekers is het taggebruik over het algemeen bedoeld voor
persoonlijk gebruik. Dit neemt niet weg dat tags voor persoonlijk gebruik ook nuttig zijn voor andere
gebruikers. Tags als toread kunnen een mate van populariteit aangeven als gebruikers hetzelfde object
veelvuldig taggen. Golder en Huberman concluderen terecht dat dit voor anderen alleen nuttig is als deze
mensen de betekenis van de tag begrijpen. In totaal definiëren de onderzoekers zeven functies die een tag
kunnen hebben voor bookmarks:
1. Identifying what it is about
Voor het overgrote deel bestaan de tags uit termen van het
onderwerp van de bookmark.
2. Identifying what it is
Tags identificeren wat voor ding de bookmark is, dus een
artikel, blog of boek.
3. Identifying who owns it Tags identificeren wie de content van het getagte object
heeft gemaakt.
4. Refining categories
Deze tags staan niet op zichzelf, maar zijn een verfijning of
een kwalificatie van een bestaande categorie.
5. Identifying qualities or characteristics
Bijvoeglijke naamwoorden zoals scary, funny of stupid geven
de mening over de content van de bookmark.
6. Self reference
Tags beginnend met my kunnen geïdentificeerd worden met
de content van de tagger.
7. Task organizing
Tags bestaan uit een bepaalde opdracht, zoals toread of
jobsearch.
Sen e.a. (2006) verdelen deze zeven categorieën in drie meer algemene categorieën. Ten eerste, Personal tags,
voor eigen gebruik. Meestal worden deze tags gebruikt voor het organiseren van de eigen bronnen (zoals
taken, verwijzingen en tijdmanagement). Subjective tags geven de mening van de tagger over een bepaalde
bron op het web , bijvoorbeeld de tag cool. De derde categorie is factual tags, deze tags beschrijven de
feitelijkheden van een bron zoals mensen, plaatsen of dingen, bijvoorbeeld de tag tutorial. Uit hun analyse van
3263 tags uit de database van MovieLens.com blijkt 63% factual tags, 29% subjective tags en 3% personal tags
te zijn. Al-Khalifa en H. C. Davis (2007) hebben met dezelfde indeling dit onderzoek uitgevoerd met tags van de
29
Social Bookmarking is een methode om via internet bladwijzers of favorieten op te slaan en te delen.
26
social bookmarking website Delicious. Het gebruik van de factual tags kwam in beide taggingsystemen
ongeveer overheen, maar bij Delicious zijn 34% van de tags voor persoonlijk gebruik en maar 4% zijn subjective
tags. De onderzoekers geven zelf al aan dat er een andere classificatie is gebruikt, maar het grootste verschil zit
waarschijnlijk in het soort systeem dat geanalyseerd werd. Op MovieLens.com kunnen gebruikers een film
beoordelen (veelal gebaseerd op subjectiviteit), op Delicious worden bookmarks getagt waar waarschijnlijk
actiever mee wordt omgegaan (bijvoorbeeld als bron bij het schrijven van een scriptie). Hieruit kan
geconcludeerd worden dat de dynamische structuur van de tags enorm kan verschillen per taggingsysteem.
Uit meerdere onderzoeken blijkt dat de tags in een taggingsysteem een vast patroon volgen, de power law
genoemd (Mathes 2004; Guy en Tonkin 2006; Golder en Huberman 2005; Noll en Meinel 2007). Een power law
wil zeggen dat een klein deel van de tags veelvuldig gebruikt wordt, terwijl een grote hoeveelheid tags erg
weinig worden gebruikt. De bekendste power law curve is een wetmatigheid uit de economie en wordt pareto
analyse, of de ’20/80-regel’ genoemd. George Zipf ontdekte in de taalwetenschap dezelfde curve. Woorden
zoals ‘de’ worden veelvuldig gebruikt, terwijl andere woorden veel minder worden gebruikt. De power law
wordt daarom ook vaak Zipf’s law genoemd (Furnas e.a. 1987). Chris Anderson noemde deze power law curve
de longtail en verklaarde hiermee de nieuwe webeconomie.
Het onderhouden van tags op lange termijn is een nog weinig verkend gebied. Medeiros (2008) stipt in zijn
artikel dit probleem aan en citeert Joyce Ogburn die zich tijdens een toespraak afvraagt: 'How tags will age?'
Bates (2006) onderkent hetzelfde probleem en vindt het vreemd dat onderzoekers geen rekening houden met
tags die na verloop van jaren een andere betekenis krijgen. De meeste onderzoeken op het gebied van tagging
richten zich voornamelijk op de opbouw van een folksonomie. De reden waarom wetenschappers dit probleem
nog niet sterk hebben opgepakt ligt waarschijnlijk in het feit dat tagging een recent fenomeen is en weinig
duidelijk is over de ontwikkelingen op lange termijn. De wetenschappers Peters en Weller (2008) signaleren
ook dit probleem en komen met een oplossing. Het goed onderhouden van tags, tag gardening genoemd, is
volgens hun de oplossing voor de verrijking van de folksonomie en een verbreding van gecontroleerde
vocabulaires. Tag gardening is een activiteit die bestaat uit het editen, herontwikkelen, manipuleren en
organiseren van tags. Tag gardening vindt plaats bovenop de huidige folksonomie en wordt achteraf pas
uitgevoerd om de folksonomie te verbeteren. Peters en Weller onderscheiden vier mogelijkheden van tag
gardening:
1. Verwijderen van 'slechte' tags.
2. Verrijken van de folksonomie met weinig gebruikte tags als de tags met hoge frequentie de bronnen niet
voldoende filteren.
3. Combineren van tags die een relatie met elkaar hebben.
4. Combineren van folksonomieën met gecontroleerde vocabulaires en ontologieën.
Tagging is een recent fenomeen waarbij de lange termijn effecten van een taggingsysteem nog maar beperkt
bekend zijn. Maar omdat de tags ongecontroleerd kunnen worden toegekend aan objecten is het noodzakelijk
om een bepaalde mate van controle erop los te laten. Dit kan zowel vooraf waarbij de gebruiker getraind wordt
in het toekennen van tags of achteraf waarbij de tags nader worden geanalyseerd.
5.3.3 SYSTEEM
De vorige paragraaf heeft aandacht besteed aan het ‘gedrag’ van tags. Hoe tags zijn opgebouwd hangt nauw
samen met de inrichting van het systeem. Hieronder wordt toegelicht hoe taggingsystemen opgebouwd
worden en welke factoren hier invloed op hebben (Marlow e.a. 2006). Voorbeelden van websites die gebruik
maken van tagging illustreren de verschillende inrichtingsmogelijkheden.
Tag rechten
Een van de grootste effecten op het tagproces in een taggingsysteem is of de gebruiker alleen zijn eigen
objecten kan taggen of dat men elkaars objecten mag taggen. In een self-tagging systeem, ook wel ‘narrow’
27
folksonomie genoemd, heeft alleen de persoon die een object op de website plaatst de mogelijkheid om tags
te plaatsen bij dit object. Objecten geplaatst door andere gebruikers kunnen niet getagt worden. Een
voorbeeld van zo’n systeem is Flickr. In een free-for-all taggingsysteem, ook wel ‘broad’ folksonomie genoemd,
kunnen veel verschillende personen dezelfde objecten taggen (Figuur 8). Dit kunnen zowel de eigen geplaatste
objecten zijn of objecten geplaatst door anderen. De personen beschrijven de objecten vanuit hun eigen
gezichtspunt door gebruik te maken van dezelfde of compleet andere tags. De website Delicious maakt gebruik
van een ‘broad’ Folksonomie.
FIGUUR 8. NARROW EN BROAD FOLKSONOMY30
Tag ondersteuning
De manier waarop systemen helpen bij het toekennen van tags heeft invloed op de tags die worden toegekend.
Over het algemeen kunnen drie mogelijke manieren van tag-ondersteuning plaatsvinden. De eerste
mogelijkheid is blind tagging waarbij de gebruiker geen andere tags van andere gebruikers te zien krijgt. De
gebruiker bepaalt naar eigen inzicht welke tags toegekend worden. Viewable tagging geeft de tagger
ondersteuning bij het toekennen van tags door de reeds toegekende tags te tonen (Figuur 9). Als laatste optie
is er suggestive tagging waarbij systemen bepaalde tags suggereren om te gebruiken. De gesuggereerde tags
kunnen gebaseerd zijn op reeds gebruikte tags van de gebruiker of reeds gebruikte tags van andere gebruikers
bij het object. De tags kunnen ook op basis van automatische verzamelde contextuele tags worden
gesuggereerd. Het Powerhouse Museum31
experimenteert uitgebreid met de mogelijkheden van automatisch
tags genereren met behulp van Open Calais. Met dit systeem worden gestructureerde tags gegenereerd voor
personen, plaatsnamen, technologieën en bedrijfsnamen.
30
Bron: http://www.vanderwal.net/random/category.php?cat=132 31
http://www.powerhousemuseum.com/dmsblog/index.php/2008/03/31/opac20-opencalais-meets-our-museum-collection-auto-tagging-
and-semantic-parsing-of-collection-data/
28
FIGUUR 9. VORM VAN VIEWABLE TAGGING32
Aggregatie
Het bag-model is een methode die het mogelijk maakt om dezelfde tags van verschillende gebruikers bij één
object te plaatsen. Een voorbeeld hiervan is Delicious waar elke gebruiker kan bepalen welke tags worden
toegekend aan een bookmark (ook al zijn de tags ‘dubbel’). Een voordeel van het bag-model is dat op basis van
het gebruik van dezelfde tags statistische modellen ontwikkeld kunnen worden welke iets zeggen over
bijvoorbeeld de gelijkgestemdheid van de tag bij een object. Als een tag bij een object veelvuldig wordt
gebruikt is de kans groter dat de tag ‘goed’ is. Websites als Flickr en YouTube gebruiken een ander model,
namelijk het set-model. Dit model vraagt de gebruiker om gezamenlijk de tags van een object te bepalen.
Hierbij is het dus niet mogelijk om dezelfde tags te herhalen.
Objecttype
Het ontwikkelen van een taggingsysteem hangt sterk af van welk type objecten er getagt worden. Op dit
moment zijn er systemen te vinden voor het taggen van bookmarks (Delicious), bibliografisch materiaal
(CiteULike), foto’s (Flickr), video (YouTube) en nog andere digitale objecten. Voor de culturele sector zijn
taggingsystemen, zoals Steve.Museum, ontwikkeld voor het taggen van museale objecten33
. Steve.Museum is
een experiment waarbij het mogelijk is om kunstobjecten vanuit verschillende musea te voorzien van tags. De
bezoeker krijgt een foto te zien met een korte beschrijving en wordt gevraagd om tags te plaatsen die
betrekking hebben op het object.
Herkomst van objecten
Objecten kunnen op verschillende manieren toegevoegd worden aan het systeem. Een gebruiker kan zelf
objecten plaatsen op een website, of bepaalt welke objecten beschikbaar worden gesteld of het systeem laat
het vrij welke objecten er getagt kunnen worden.
Connectiviteit van objecten
De manier waarop objecten met elkaar verbonden zijn kan via links of groepen. Webpagina’s zijn bijvoorbeeld
gelinkt met behulp van hyperlinks. Flickr verbindt foto’s met elkaar op basis van groepen. Een groep heeft vaak
betrekking op één onderwerp, bijvoorbeeld Flowers.
32
http://calibrate.eun.org 33
http://www.steve.museum
29
Sociale connectiviteit
De meeste tagsystemen bevatten ook een vorm van sociale connectiviteit. Het is vaak mogelijk om de objecten
geplaatst of getagt door anderen te volgen door elkaars vriend te worden. Het principe is gebaseerd op social
networks zoals Hyves. Het voorbeeld hiernaast (Fout! Verwijzingsbron niet gevonden.) geeft een overzicht van
mijn Flickr contacten. Onderaan staan de nieuwe foto’s van mijn contacten en bovenaan de reacties die mijn
contacten hebben geplaatst bij mijn foto’s.
FIGUUR 10. MIJN FLICKR CONTACTEN
Deze aspecten van een taggingsystemen hebben een sterke invloed op hoe tags worden gebruikt en welke tags
er worden toegekend. Bij de analyse van taggingsystemen dienen deze aspecten meegenomen te worden.
Resultaten van een onderzoek uitgevoerd naar het taggedrag in Delicious kunnen niet geëxtrapoleerd worden
naar bijvoorbeeld Flickr. Ieder systeem heeft zijn eigen type gebruikers, zijn eigen type objecten en een eigen
architectuur.
5.4 ZOEKEN MET TAGS
Er zijn verschillende methoden om te zoeken naar foto’s met behulp van tags. Het is mogelijk om full-text te
zoeken naar tags of men kan zoeken op verschillende visuele manieren. Hieronder wordt een aantal van deze
mogelijkheden die bij Flickr worden gebruikt opgesomd.
Pivot browsing
Pivot browsing is de natuurlijke
bijvoorbeeld verschijnen de namen van gebruikers als hyperlinks. Wanneer geklikt wordt op een g
verschijnt de fotocollectie van deze gebruiker. De
hetzelfde onderwerp. Als gebruiker krijg je de mogelijkheid om op een e
op tags, gebruikers en groepen te klikken.
maakt om iedere keer vanuit een ander gezichtspunt naar de Flickr collectie te kijken.
2006).
Clustering
Flickr probeert met clustering een verzameling soortgelijke
met elkaar hebben. Dit maakt het mogelijk om te zoeken naar specifieke tag combinaties.
zoekt op de tag ‘mountain’ krijgt hij de keus uit twee
Cluster 1: snow, nature, clouds, trees, mountains, blue, tree, sun, forest, white
Cluster 2: sky, landscape, water, green, cloud, sunset, sea, rock, winter, travel
Het grote voordeel is dat het systeem extra tags toevoegt aan de tag
oplevert. In dit voorbeeld richt cluster 1 zich meer op een echt berglandschap zoals de Alpen en lijkt cluster 2
zich meer te richten op heuvels aan de kust.
Tagclouds en andere tag visualisatie
Eén van de meest toegepaste method
verscheen (waarschijnlijk) als eerste in het boek Microserfs van Douglas Coupland
lijst van (de populairste) tags, meestal in alfabetische volgorde, die visueel
grootte van de tag (lettertype formaat) de populariteit bepaalt.
Voor een gebruiker wordt het zo eenvoudiger om een grote collectie van informatie te begrijpen en de tags op
waarde te kunnen inschatten. Net als bij hypertext browsing surft de gebruiker door de collectie, met als grote
verschil dat visuele interfaces, als de tagcloud, een tag wegen en dit op basis van locatie/kleur/grootte visueel
weergeven waardoor een contextuele weergave ontstaat.
FIGUUR 11. FLICKR TAGCLOUD VAN DE LIBRARY OF CONG
34
http://www.flickr.com/photos/tags/mountain/clusters/
manier van zoeken in systemen die gebaseerd zijn op tags.
verschijnen de namen van gebruikers als hyperlinks. Wanneer geklikt wordt op een g
collectie van deze gebruiker. De tags bij de foto’s zijn ook weer gelinkt aan andere foto’s met
Als gebruiker krijg je de mogelijkheid om op een eenvoudige manier rond te kijken door
op tags, gebruikers en groepen te klikken. Alle elementen op een webpagina zijn hyperlinks wat het m
iedere keer vanuit een ander gezichtspunt naar de Flickr collectie te kijken.
Flickr probeert met clustering een verzameling soortgelijke tags bij elkaar te brengen die onderling een relatie
Dit maakt het mogelijk om te zoeken naar specifieke tag combinaties.
krijgt hij de keus uit twee clusters waar hij de beste cluster voor hem kan kiezen
snow, nature, clouds, trees, mountains, blue, tree, sun, forest, white
: sky, landscape, water, green, cloud, sunset, sea, rock, winter, travel
Het grote voordeel is dat het systeem extra tags toevoegt aan de tag mountain en betere zoekresultaten
oplevert. In dit voorbeeld richt cluster 1 zich meer op een echt berglandschap zoals de Alpen en lijkt cluster 2
zich meer te richten op heuvels aan de kust.
clouds en andere tag visualisatie
methoden voor het weergeven van tags is de tagcloud. Het idee van tag
verscheen (waarschijnlijk) als eerste in het boek Microserfs van Douglas Coupland (1995)
lijst van (de populairste) tags, meestal in alfabetische volgorde, die visueel wordt weergegeven waarbij de
te van de tag (lettertype formaat) de populariteit bepaalt. (Hassan-Montero en He
Voor een gebruiker wordt het zo eenvoudiger om een grote collectie van informatie te begrijpen en de tags op
waarde te kunnen inschatten. Net als bij hypertext browsing surft de gebruiker door de collectie, met als grote
suele interfaces, als de tagcloud, een tag wegen en dit op basis van locatie/kleur/grootte visueel
weergeven waardoor een contextuele weergave ontstaat.
N DE LIBRARY OF CONGRESS
http://www.flickr.com/photos/tags/mountain/clusters/
30
anier van zoeken in systemen die gebaseerd zijn op tags. Op Flickr
verschijnen de namen van gebruikers als hyperlinks. Wanneer geklikt wordt op een gebruiker
gelinkt aan andere foto’s met
envoudige manier rond te kijken door
Alle elementen op een webpagina zijn hyperlinks wat het mogelijk
iedere keer vanuit een ander gezichtspunt naar de Flickr collectie te kijken. (Millen en Feinberg
engen die onderling een relatie
Dit maakt het mogelijk om te zoeken naar specifieke tag combinaties. Dus als de gebruiker
waar hij de beste cluster voor hem kan kiezen34
:
snow, nature, clouds, trees, mountains, blue, tree, sun, forest, white
: sky, landscape, water, green, cloud, sunset, sea, rock, winter, travel
en betere zoekresultaten
oplevert. In dit voorbeeld richt cluster 1 zich meer op een echt berglandschap zoals de Alpen en lijkt cluster 2
Het idee van tagclouds
(1995). Een tagcloud is een
wordt weergegeven waarbij de
Montero en Herrero-Solana 2006)
Voor een gebruiker wordt het zo eenvoudiger om een grote collectie van informatie te begrijpen en de tags op
waarde te kunnen inschatten. Net als bij hypertext browsing surft de gebruiker door de collectie, met als grote
suele interfaces, als de tagcloud, een tag wegen en dit op basis van locatie/kleur/grootte visueel
31
Bovenstaande tagcloud (Figuur 11) geeft de top 150 meest populaire tags weer van de fotocollectie van de
Library of Congress op Flickr. De tags zijn alfabetisch gerangschikt en de grootte van de tags geeft de
populariteit aan. De tag ‘Libraryofcongress’ is het populairst, gevolgd door ‘Historicalphotographs’,
‘jackdelano’, ‘largeformat’, en wordt dus het meest gebruikt bij de foto’s. Tagclouds zijn een veelgebruikte
toepassing op de verschillende social software websites (Delicious, Flickr, Technorati en Librarything) en er
wordt ook veelvuldig mee geëxperimenteerd. Er wordt gespeeld met de dikte, grootte of kleur van het
lettertype. Een andere mogelijkheid is de lokatie van de woorden. De tags kunnen alfabetisch, op frequentie of
op een vooraf bepaalde algoritme worden gesorteerd. Ook is het mogelijk om tags op een bepaalde plek in de
cloud te plaatsen (Rivadeneira e.a. 2007, 996).
Ondanks de toenemende populariteit van tagclouds wordt er sterk getwijfeld aan de effectiviteit. Vreemd
genoeg is daar weinig onderzoek naar verricht. Onderzoek van Rivadeneira et al. (2007) wijst uit dat de grote
tags en de tags linksboven in de cloud de hoogste recall hebben. Halvey en Keane (2007) ontdekten dat
alfabetisch gerangschikte trefwoordenlijsten effectiever zijn dan tagclouds. Uit een onderzoek door Kuo et al.
(2007) wordt dit bevestigt. Tagclouds krijgen volgens het onderzoek een hogere ‘satisfaction’ dan de standaard
lijst. De huidige onderzoeken hebben zich vooral gericht op het gebruik van tagclouds als echte zoekmachine
en niet als middel om te browsen. Tagclouds zijn echter zeer geschikt om een eerste indruk te krijgen van de
toegekende tags aan een verzameling afbeeldingen, links of objecten. Verder onderzoek is noodzakelijk om de
ware effectiviteit van een tagcloud aan te tonen.
5.5 TAGGING EN GECONTROLEERDE VOCABULAIRES
In de vorige paragrafen is aandacht besteed aan de architectuur van taggingsystemen. In hoofdstuk 3 is een
beschrijving gegeven van de verschillende soorten gecontroleerde vocabulaires. Het vergelijken van deze twee
systemen voor het beschrijven van foto’s is een logische volgende stap. Tagging en gecontroleerde
vocabulaires kunnen gezien worden als elkaars tegenpolen, maar hebben zeker ook overeenkomsten. Deze
paragraaf gaat hierop verder in en beschrijft de voor- en nadelen van taggingsystemen tegenover die van
gecontroleerde vocabulaires.
De belangrijkste eigenschap van een folksonomie, een verzameling tags, is dat deze is opgebouwd uit een
platte structuur. Er is geen hiërarchie en er zijn geen relaties onderling tussen de termen. Het is wel mogelijk
om gerelateerde tags met elkaar te combineren. Dit is onder andere mogelijk bij Flickr waarbij tags op basis van
een algoritme automatisch worden geclusterd of bij Delicious waar gebruikers zelf tags kunnen bundelen. Bij
gecontroleerde vocabulaires worden termen van tevoren bepaald en de relaties tussen de termen worden
door professionele indexeerders vastgesteld. Figuur 12 toont het verschil in complexiteit van de verschillende
systemen. De mogelijkheid om complexe relaties te leggen tussen termen (kennis) wordt afgezet tegen de
complexiteit van het systeem. In de tabel zijn folksonomieën en ontologieën elkaars uitersten. Ontologieën als
een zeer complex systeem waarin het mogelijk is om tussen termen specifieke relaties te leggen en
folksonomieën als een open simpel systeem zonder relaties tussen de termen. Classificatiesystemen en
thesauri staan tussen deze systemen in.
32
FIGUUR 12. GRAFIEK VAN REPRESENTATIE SYSTEMEN UIT (WELLER 2007)
De eenvoud van het taggingsysteem brengt nadelige consequenties met zich mee. Vooral als je deze nadelen
tegen de sterk gestructureerde gecontroleerde vocabulaires reflecteert (zie de eigenschappen van
gecontroleerde vocabulaires in hoofdstuk 3). Mogelijke nadelen van taggingsystemen zijn (Furnas e.a. 1987;
Guy en Tonkin 2006; Mathes 2004; Golder en Huberman 2006):
• Geen controle over synoniemen. Dit leidt tot tags die allemaal hetzelfde object beschrijven, maar niet
gerelateerd zijn, zoals ‘mac’, ‘macintosh’, ’apple’. Deze woorden zijn synoniemen voor de ‘Apple
Macintosh Computer’.
• Het systeem maakt geen onderscheid in spellingsvarianten of foutieve spelling van één woord.
Woorden in enkelvoud en meervoud kunnen gewoon door elkaar heen worden gebruikt.
• Geen semantische niveaus. Woorden kunnen heel specifiek zijn of juist heel abstract.
• Veelal worden woorden achter elkaar geplakt (gecombineerd) omdat het systeem alleen enkele
woorden als tags accepteert, zoals ‘newyorkcity’ of ‘blackandwhite’.
• Tags kunnen gebruikt worden voor persoonlijk gebruik, zonder dat de betekenis bij overige gebruikers
bekend is. Bij gebruik binnen een community kan het een nuttig middel zijn om objecten onderling te
delen. Zoals bijvoorbeeld de tag ‘toread’ voor interessante bronnen of ‘code4lib’ voor bronnen die
interessant voor een bepaalde community (Tonkin e.a. 2008).
Naast bovenstaande tekortkomingen van een taggingsysteem ten opzichte van gecontroleerde vocabulaires
zijn er ook belangrijke sterktes te noemen. Mathes (2004) ziet twee belangrijke voordelen van een
taggingsysteem: 1) serendipiteit en 2) vocabulaire gebruiker. Deze twee aspecten worden hieronder nader
toegelicht.
Serendipiteit is het vinden van iets onverwachts en bruikbaars terwijl je op zoek bent naar iets totaal anders.
Doordat alle tags, sets, collecties en gebruikers in een systeem als Flickr met elkaar gelinkt zijn ontstaat er een
omgeving waarin het mogelijk is om te browsen en de fotocollectie te exploreren. In het wetenschappelijk
onderzoek naar de kwaliteit van taggingsystemen wordt dit vaak niet als aspect onderzocht. Veelal wordt er
alleen gekeken naar de kwaliteit van de taggingsystemen bij directe zoekopdrachten.
Ondanks het feit dat een verzameling tags bestaat uit synoniemen, homoniemen, spellingsvarianten en
codewoorden, ook wel ‘sloppy’ tags genoemd, zijn deze tags waardevol omdat ze dicht bij het taalgebruik van
de gebruiker staan (Guy en Tonkin 2006). De tags worden bepaald door de gebruiker en niet door professionals
waardoor een vocabulaire ontstaat die zich snel kan aanpassen aan veranderlijk taalgebruik.
33
Uit deze twee sterkten blijkt dat een taggingsysteem anders werkt dan een standaard gecontroleerde
vocabulaire. De gecontroleerde vocabulaire is een systeem welke een traditionele classificatie hanteert en
dwingt de gebruiker een object in een bepaald onderwerp onder te verdelen. Taggingsystemen werken niet
volgens strakke regels waardoor ze de flexibiliteit en creativiteit bieden om foto’s vanuit verschillende
manieren te benaderen. Stewart Butterfield, één van de oprichters van Flickr, ziet de eenvoud van
folksonomieën als grote pluspunt en vergelijkt dit met de complexiteit van een taxonomie:
“I think the lack of hierarchy, synonym control and semantic precision are precisely why it works. Free
typing loose associations is just a lot easier than making a decision about the degree of match to a
predefined category (especially hierarchical ones). It’s like 90% of the value of a ‘proper’ taxonomy but
10 times simpler.” (Butterfield 2004)
Met deze uitspraak van Butterfield wordt precies duidelijk wat het voordeel is. Misschien zijn de percentages
wat overdreven, maar met weinig inspanning kom je een heel eind in de richting van een professionele
taxonomie.
6 ONDERZOEK NAAR HET TA
In de vorige hoofdstukken is een theoretische basis gelegd voor
In hoofdstuk 2 heeft u kunnen lezen welke mogelijkheden er zijn voor de retrieval van
vervolgens de nadruk gelegd op de mogelijkheden van concept based retrieval. Concept based retrieval
gebruik van een tekstuele omschrijving van een
conceptanalyse (lees hoofdstuk 4
hoofdstuk 3). Deze representatie kan pla
verschil tussen gecontroleerde vocabulaires en folksonomieën is beschreven in
Dit hoofdstuk beschrijft het onderzoek uitgevoerd naar het taggedrag in The Commons, een specifie
onderdeel van de fotowebsite Flickr
tags:
1. Wie en hoe vaak taggen geb
2. Hoe is het vocabulaire van
Op basis van deze resultaten wordt het duidelijk wie wat heeft getagt en op welk semantisch niveau de tags
zijn geplaatst. De resultaten geven mogelijk aanleiding voor het verder ontwikkelen van tagsystemen en geven
inzicht in de verschillen en overeenko
Figuur 13 geeft schematisch de onderzoeksopzet weer.
werkt. Paragraaf 6.2 gaat dieper in op
hiervan de resultaten zijn. De andere
is een analyse van 50 foto’s welke door d
foto’s zijn door bezoekers van de website voorzien van tags. Met behulp van software is het mogelijk om de
gegevens uit het Flickr systeem te halen en te importeren in Excel voor
excellijst geanalyseerd op basis van
raamwerk vindt zijn oorsprong in de conceptanalyse bes
de ontwikkelingsfase van het gebruikte tag
van methoden van onderwerpsontsluiting en l
laatste hoofdstuk worden de resultaten uitg
onderzoeksvragen.
FIGUUR 13. ONDERZOEKSOPZET
NDERZOEK NAAR HET TAGGEBRUIK OP FLICKR THE COMMONS
eoretische basis gelegd voor nader onderzoek naar het taggebruik op
heeft u kunnen lezen welke mogelijkheden er zijn voor de retrieval van foto’s
vervolgens de nadruk gelegd op de mogelijkheden van concept based retrieval. Concept based retrieval
gebruik van een tekstuele omschrijving van een foto. Deze tekstuele omschrijving komt tot stand middels een
4) en wordt volgens een afgesproken methode gerepresenteerd (lees
). Deze representatie kan plaatsvinden via gecontroleerde vocabulaires of via folksonomieën.
verschil tussen gecontroleerde vocabulaires en folksonomieën is beschreven in hoofdstuk 5.
beschrijft het onderzoek uitgevoerd naar het taggedrag in The Commons, een specifie
onderdeel van de fotowebsite Flickr. Het onderzoek geeft op een aantal manieren inzic
Wie en hoe vaak taggen gebruikers foto’s in the Commons?
het taggingsysteem opgebouwd?
wordt het duidelijk wie wat heeft getagt en op welk semantisch niveau de tags
zijn geplaatst. De resultaten geven mogelijk aanleiding voor het verder ontwikkelen van tagsystemen en geven
inzicht in de verschillen en overeenkomsten tussen traditionele ontsluitingsmethoden en taggingsystemen.
onderzoeksopzet weer. Paragraaf 6.1 beschrijft hoe het systeem van Flickr
per in op welke gerelateerde tagging onderzoeken er zijn uitgevoerd en wat
De andere paragrafen zijn een verdere uitwerking van het onderzoek.
van 50 foto’s welke door de Library of Congress op de fotowebsite Flickr zijn geplaatst. Deze
foto’s zijn door bezoekers van de website voorzien van tags. Met behulp van software is het mogelijk om de
het Flickr systeem te halen en te importeren in Excel voor verdere bewerking.
xcellijst geanalyseerd op basis van een analyse met behulp van een zogenaamde t
raamwerk vindt zijn oorsprong in de conceptanalyse beschreven in hoofdstuk 4. Paragraaf
de ontwikkelingsfase van het gebruikte tag-raamwerk. Zo’n raamwerk is veelvuldig gebruikt voor de analyse
onderwerpsontsluiting en lijkt een goede methode te zijn voor de analyse van tags.
stuk worden de resultaten uitgewerkt en gekoppeld met de voorgaande theorie en
34
OMMONS
k naar het taggebruik op Flickr.
foto’s. In deze scriptie is
vervolgens de nadruk gelegd op de mogelijkheden van concept based retrieval. Concept based retrieval maakt
foto. Deze tekstuele omschrijving komt tot stand middels een
) en wordt volgens een afgesproken methode gerepresenteerd (lees
via gecontroleerde vocabulaires of via folksonomieën. Het
hoofdstuk 5.
beschrijft het onderzoek uitgevoerd naar het taggedrag in The Commons, een specifiek
inzicht in het gebruik van
wordt het duidelijk wie wat heeft getagt en op welk semantisch niveau de tags
zijn geplaatst. De resultaten geven mogelijk aanleiding voor het verder ontwikkelen van tagsystemen en geven
msten tussen traditionele ontsluitingsmethoden en taggingsystemen.
Paragraaf 6.1 beschrijft hoe het systeem van Flickr
zijn uitgevoerd en wat
paragrafen zijn een verdere uitwerking van het onderzoek. Het onderzoek
e Library of Congress op de fotowebsite Flickr zijn geplaatst. Deze
foto’s zijn door bezoekers van de website voorzien van tags. Met behulp van software is het mogelijk om de
ewerking. Vervolgens is deze
tag-raamwerk. Dit tag-
. Paragraaf 6.3 gaat nader in op
raamwerk. Zo’n raamwerk is veelvuldig gebruikt voor de analyse
voor de analyse van tags. In het
werkt en gekoppeld met de voorgaande theorie en
35
6.1 FLICKR
George Oates, projectleider van Flickr The Commons, ziet de wereld van Flickr als: “A great place to be a
photo.35
” De website is een wereld waarin een foto zich volledig thuis moet voelen en overal en op allerlei
manieren te vinden en te bekijken is. Het is mogelijk om als gebruiker één of meerdere foto’s te uploaden naar
zijn account. Bij iedere foto is het mogelijk om metadata toe te voegen. De mogelijkheden zijn zeer uitgebreid
en worden hieronder in Tabel 2 gepresenteerd.
Titel Titel bij de foto
Description Mogelijkheid tot het geven van een beschrijving onder iedere foto.
Set Een foto kan behoren tot één of meerdere sets. Als het ware een verzameling foto’s in
een album.
Comments Bevat commentaar van bezoekers, waarbij ze kritiek, opmerkingen, links, e.d. kunnen
leveren bij een foto.
Tags De mogelijkheid om tags te plaatsen bij een foto.
Machine tags Deze tags worden automatisch gegenereerd door het systeem.
Add note De mogelijkheid om in de foto een selectie te maken en hierbij commentaar te
plaatsen.
Groups Groepen van mensen met een gedeelde interesse. Een foto over de “bergen” kan
bijvoorbeeld worden toegevoegd aan de groep “Mountains of USA”.
Members De persoon die het account beheert.
Extra informatie
Toevoegen van extra informatie, zoals:
- Copyright (Creative Commons licentie)
- EXif data (date, time, camera, enz.)
- Viewed x times
- Geo-tag (geo-informatie van de lokatie waar de foto is gemaakt.)
TABEL 2. OPTIES IN FLICKR
Een gebruiker kan zoeken, browsen en sociaal netwerken binnen de community van Flickr. Het eenvoudigste
om een foto te zoeken is via full text search. De functie full text search maakt gebruik van de titel, beschrijving
en de tags om de foto’s te doorzoeken. De full text search kan nader verfijnd worden. De Flickr website is
vooral ontwikkeld als een community om foto’s te ontdekken, het moet als het ware een beleving zijn. Dit
heeft Flickr gerealiseerd doordat iedere tag, gebruiker, e.d. gelinkt zijn, waardoor het mogelijk is om door de
pagina’s heen te surfen en op ontdekkingsreis te gaan.
Een specifiek onderdeel op Flickr is The Commons. The Commons werd geïntroduceerd op 16 januari 2008 als
een pilot project in samenwerking met de Library of Congress waarbij 3000 foto’s uit de collectie op Flickr werd
geplaatst. Het project heeft twee belangrijke doelstellingen. Ten eerste het vergroten van de toegang tot
publiekelijke fotocollecties en ten tweede de gebruiker de mogelijkheid geven om informatie en kennis bij te
dragen. Dit bleek zo’n groot succes dat inmiddels 23 instellingen zich hebben aangesloten bij The Commons.
6.2 GERELATEERD TAGGING ONDERZOEK
In de wetenschappelijke literatuur is een bescheiden aantal onderzoeken terug te vinden naar het gebruik van
tags. Nog minder onderzoek is terug te vinden over de analyse van de tags zelf, dus de kwaliteit en betekenis
van het gebruikte woord.
De meeste onderzoeken over tagsystemen komen uit de hoek van de Information Retrieval. Het zou dan ook
een logische stap zijn om het taggingproces in The Commons als zoeksysteem te beschouwen en deze zo ook te
beoordelen op zijn kwaliteit. In de Information Retrieval wordt bij tekstsystemen de kwaliteit gemeten door de
Precision en de Recall te meten. Precision verwijst naar het percentage relevante documenten ten opzichte van
het totale zoekresultaat. Recall verwijst naar het percentage relevante gevonden documenten ten opzichte van
35
http://www.slideshare.net/kennisland/the-commons-on-filckr-a-primer-presentation
36
het totaal aantal relevante documenten in de collectie. Chowdhury (2004, p.73) definieert twee belangrijke
redenen waarom het Precision/Recall-principe bij image-retrieval systemen een mindere meet methode is. Ten
eerste is het niet duidelijk welk niveau van Recall een gebruiker wenst. Een gebruiker is tevreden wanneer
hij/zij uit een set van foto’s browsend de juiste foto kan kiezen. Recall wordt pas belangrijk als de juiste foto
niet wordt gevonden. Ten tweede hebben niet alle relevante items dezelfde waarde. Gevonden items hebben
verschillende niveaus van relevantie. Dit concludeert Fidel (1997) ook,
“precision and recall as used for text retrieval might not be adequate test in image retrieval.”
Zij ziet het meten van de tijd en inspanning die wordt geleverd bij het browsen naar de juiste foto in een set
van foto’s als een goed alternatief voor Precision. Dit gebeurt ook op Flickr. Mensen zoeken niet specifiek naar
één foto, maar naar een foto over een specifiek onderwerp. Zoals bijvoorbeeld een foto over Parijs. Het maakt
niet uit welke, als die maar over Parijs gaat. Al klikkend komen ze op desgewenste foto terecht, pivot browsing
wordt dat genoemd en is reeds besproken in hoofdstuk 5.
Een geheel andere benadering om de kwaliteit van het tagsysteem te onderzoeken is om naar de inhoud van
de tags te kijken. Tags kunnen geëvalueerd worden aan de hand van de National Information Standards
Organization (NISO). Deze richtlijnen worden gebruikt voor de constructie van gecontroleerde vocabulaires. De
vergelijking van tagging met het NISO geeft aan dat de gebruikte tags deels overeenkomen met de richtlijnen.
Aspecten die niet voldoen aan de richtlijnen zijn enkelvoud/meervoud, gekoppelde woorden, homoniemen en
synoniemen (Spiteri 2007). De tags worden zo vergeleken met een traditionele manier van beschrijven. De
tekortkoming hierbij is dat tags maar tot op zekere hoogte vergeleken kunnen worden met professionele
indexen. Aan tags worden totaal geen restricties opgelegd over de te gebruiken trefwoorden.
Het gebruik van spellingcontrole-software voor het controleren van de kwaliteit van tags is een andere optie. In
het onderzoek van Guy & Tonkin (2006) naar het taggebruik op Flick en Delicious wordt spellingcontrole-
software gebruikt. Zij concludeerden dat 40% van de Flickr tags en 28% van de Delicious tags verkeerd gespeld
zijn, een taal gebruikt wordt die niet herkend wordt of gecombineerde woorden zijn. Echter, hierbij is het
probleem dat er meerdere talen worden gebruikt, woorden kunnen niet voorkomen in het woordenboek maar
wel een betekenis hebben en het is de vraag of de spellingcontrole culturele variaties herkent. Een foutieve
spelling hoeft nog niet meteen te betekenen dat een tag nutteloos is.
6.3 OP WEG NAAR EEN TAG-RAAMWERK
Een andere mogelijkheid, welke in deze paragraaf verder wordt uitgewerkt, is het gebruik van een raamwerk
waarin de tags op basis van hun semantische waarde onderverdeeld kunnen worden. Voor deze methode is in
dit onderzoek gekozen. Het voordeel van deze methode is dat de tags onderverdeeld worden in een model op
basis van verschillende semantische niveaus en op onderwerp. Het raamwerk waarin de verschillende tags
onderverdeeld worden is van groot effect op de resultaten van het onderzoek. Om de juiste informatie te
kunnen verzamelen is het dan ook noodzakelijk om dit goed te onderzoeken en bestaande modellen met elkaar
te vergelijken. Er zijn verschillende onderzoeken uitgevoerd die een linguïstisch raamwerk hebben gebruikt om
het zoekgedrag van gebruikers naar foto’s onder te verdelen. Gudivada en Raghavan (1995) maken
onderscheid in de retrieval van foto’s in primitieve (kleur, vorm, textuur) en semantische aspecten (type object
of evenement). Dit onderscheid in het zoekgedrag van gebruikers breidt Eakins (1998) verder uit in drie type
queries: primitive features, logical features en abstract features. Primitieve kenmerken zijn aspecten zoals
kleur, vorm en textuur. Logische kenmerken in queries van een gebruiker zijn gericht op bekende aspecten van
de objecten in de foto. Zoals bijvoorbeeld “Vind een foto met bergbeklimmers die een top beklimmen met
pikkels in hun hand.” Queries op basis van abstracte kenmerken gaan in op de diepere betekenis van objecten
of gebeurtenissen. Bijvoorbeeld een afbeelding over het laatste avondmaal.
37
Jaimes & Chang (2000) stellen een conceptueel piramide model (Zie Figuur 14) voor als middel om alle
verschillende aspecten van visuele informatie te kunnen indexeren. Het model is gebaseerd op gerelateerd
onderzoek uit verschillende onderzoeksrichtingen zoals de psychologie, kunst, bibliotheekwetenschap en
content-based retrieval. De indexing structuur wordt weergegeven als een piramide en bevat tien niveaus voor
visuele en niet visuele informatie. Het model is uitgesplitst in twee delen. De Syntax beschrijft de manier
waarop visuele elementen zijn samengesteld (kleur, textuur). De Semantics beschrijven de betekenis en de
samenhang van deze elementen (objecten, gebeurtenissen). Deze tweedeling is overeenkomstig met het
model van Gudivada en Raghavan (1995) . De eerste vier niveaus beschrijven de syntax van een foto en zijn
waarnemend van aard en specifieke kennis van de wereld is niet noodzakelijk. De resterende zes niveaus
hebben betrekking op de semantiek en vragen wel degelijk om specifieke kennis. Op deze niveaus wordt verder
onderscheid gemaakt in algemene, specifieke en abstracte beschrijvingen. Hoe hoger het niveau hoe meer
kennis er nodig is om een beschrijving te kunnen maken.
FIGUUR 14. PIRAMIDE MODEL VAN JAIMES EN CHANG
Hollink et al. (2004) ontwikkeld een model op basis van verschillende classificatie modellen uit bestaande
literatuur (Jaimes en Chang 2000; Shatford 1986; J.P. Eakins 2002; Armitage en Peter G.B. Enser 1997). Het
model is opgedeeld in drie top levels: Het non-visuele niveau, het perceptuele niveau en het conceptuele
niveau. Op zich gelijk aan bovenstaande modellen, alleen wordt er een non-visuele niveau hieraan toegevoegd.
Binnen deze drie top levels worden classes benoemd voor de verschillende categorieën van de beschrijvingen.
Op het non-visuele niveau worden de classes ingericht op basis van de VRA elementen set. Deze elementen
beschrijven de context van een foto, zoals de datum, lokatie en vervaardiger. Het perceptuele niveau bestaat
uit elementen die direct zijn af te leiden uit de visuele karakteristieken van een foto, zoals kleur en vorm. Op dit
niveau is geen algemene kennis van de wereld of specifieke kennis van het onderwerp noodzakelijk. Het
conceptuele niveau beschrijft de semantische inhoud van een foto. Hollink maakt een onderscheid in drie
subniveaus: een algemene, specifieke en abstracte subniveau. Daarnaast gaat Hollink in op de searcher die de
beschrijvingen gebruikt bij het zoeken naar het object. Het is volgens Hollink belangrijk om de eigenschappen
van de searcher te bestuderen om erachter te komen welke classes van beschrijvingen worden gebruikt. Drie
factoren spelen hierbij een rol: 1) Het domein waarin de gebruiker zoekt. 2) De expertise van de gebruiker. 3)
De taak die de gebruiker uitvoert.
Jörgensen (1996) zag ook het belang in van het zoekgedrag van de gebruiker en liet de gebruiker foto’s
beschrijven voor in een indexeringssysteem. Het onderzoek naar het zoekgedrag van gebruikers leverde een
model op van 12 specifieke attributen voor het beschrijven van foto’s. Attributen zijn bijvoorbeeld objecten,
38
kleur, mensen, lokatie en content/story. Deze attributen kunnen onderverdeeld worden in drie verschillende
types, namelijk Perceptual (P), Interpretive (I) and Reactive (R) attributen. Per attribuut deelt Jörgensen deze
verder in op classes. Perceptuele attributen kunnen direct in relatie worden gebracht met de visuele weergave.
Wat je ziet, beschrijf je direct. Interpretive attributen daarentegen vragen om interpretatie van de perceptuele
attributen en specifieke kennis van of bekendheid met het object om het te kunnen benoemen. Reactieve
attributen geven gebruikers als ze een eigen sterke mening of emotie hebben over de foto of de objecten op de
foto.
Rafferty en Hidderley (2007) exploreren de verschuiving van een monologe naar een dialoge manier van
indexeren in relatie met Flickr. Zij beschrijven in hun artikel obstakels die kunnen ontstaan bij de retrieval van
foto’s door het gebruik van ongecontroleerde tags in Flickr. Zij wijzen op problemen die reeds eerder zijn
beschreven, zoals synoniemen, ambiguïteiten, vaag taalgebruik en persoonlijke tags. De auteurs zien een
democratische benadering als de juiste methode om antwoord te geven op bovenstaande problemen en de
gebruiker zijn vrijheid in het taggen te laten behouden. Het principe van de Democratic Indexing is gebaseerd
op het idee dat individuen een eigen interpretatie van een foto kunnen hebben. Deze eigen interpretatie komt
tot stand door een verschillende focus op delen van de foto en verschillend gebruik van het vocabulaire om een
foto te beschrijven. Elke foto kan beschreven worden op verschillende levels uitgewerkt in Tabel 3. Levels of
meaning. Het model is deels gebaseerd op Panofsky’s manier van foto interpreteren.
Level en categorie Beschrijving Voorbeelden
1.1 Biographical Information about the image as a
document
Photographer/artist, date and
time of creation, color/B&W, size,
title
1.2 Structural contents Significant objects and their
physical relationship within the
picture
Object types, position of object,
relative size (or importance) within
the picture (e.g. car top right)
2.1 Overall content Overall classification of the image Type of image, “landscape”,
“portrait”
2.2 Object content Classification of each object
defined in 1.2
Precise name and details of each
object (if known), Margaret
Thatcher, Ford Orion
3.1 Interpretation of whole image Overall mood Words or phrases to summarize
the image, e.g. “happy”,
“shocking”
3.2 Interpretation of objects Mood of individual objects Margaret Thatcher triumphant,
defeated
TABEL 3. LEVELS OF MEANING
De belangrijkste overeenkomst tussen bovenstaande modellen is de twee- of driedeling tussen de verschillende
semantische niveaus (Zie de tweedeling Syntax/Semantics in Tabel 4). Het eerste semantische niveau is heel
beschrijvend van aard, de tweede vraagt al om meer kennis van de wereld en het derde niveau vraagt om grote
interpretatie van de gebruiker. Enkele modellen geven een vrij algemene indeling hoe een foto geïnterpreteerd
kan worden, de andere modellen zijn juist veel specifieker en geven meer mogelijkheden.
39
Uiteindelijk is gekozen om als basis voor het maken van het tag-raamwerk het model van Jörgensen te kiezen.
De belangrijkste redenen hiervoor zijn ten eerste dat het model duidelijk overlap vertoont met de andere
modellen en ten tweede omdat het model ook een duidelijk onderscheid maakt in de verschillende
onderwerpen in de vorm van attributen. De resultaten uit dit model kunnen geëxtrapoleerd worden naar de
overige modellen (zie Tabel 4) zodat er meerdere conclusies getrokken kunnen worden met behulp van de
andere modellen.
Jaimes & Chang
(2000)
Panofsky/
Shatford (1986)
Eakins (1998) Hollink et
al. (2004)
Jörgensen (1998) Hidderley &
Rafferty (1997)
Non-visual Non-visual 1.1 Bibliographical
Sy
nta
x
Type/technique Primitive
queries
Perceptual Interpretive Art Historical
information
1.2 Structural
content
Global
distribution
Perceptual Color, visual
elements
Local structure Color, visual
elements
Global
Composition
Color, visual
elements,
location
Se
ma
nti
cs
Generic objects Iconography /
generic “of”
Logical
queries
General
conceptual
Perceptual /
Interpretive
Objects,
people
Generic scene Interpretive Content /
Story
Specific objects Iconography /
specific “of”
Specific
conceptual
Interpretive Content /
Story
2.2 Object
content
Specific scene 2.1 Overall
content
Abstract objects Iconology /
“about”
Abstract
queries
Abstract
conceptual
Interpretive Abstract,
people-
related and
reactive
attributes
3.2 Interpretation
of objects
Abstract scene 3.1 Interpretation
of whole image
TABEL 4. MODELLEN SAMENGEVAT
40
6.4 CLASSIFICEREN VAN TAGS
Het tag-raamwerk voor dit onderzoek (Tabel 5) is gebaseerd op het model van Jörgensen maar is op een aantal
punten aangepast. Uit een testsessie waarbij vijf foto’s zijn gebruikt voor nadere analyse bleek dat het model
niet voldeed aan de verwachtingen. De attributen ANIMALS, OBJECT-RELATED ATTRIBUTES, LOCATION SPECIFIC
en LOCATION GENERAL zijn toegevoegd aan het model. De beschrijvingen van de attributen door Jörgensen
was te beperkt en diende voor het onderzoek verder uitgewerkt te worden. De lijst met attributen is met de
andere testpersoon besproken over onduidelijkheden in de terminologie. Dit om zoveel mogelijk eenduidigheid
te krijgen in de te maken keuzes.
PERCEPTUAL ATTRIBUTES Het perceptueel niveau
1. OBJECTS Attribuut objects gaat over objecten, zoals bijvoorbeeld ‘bloem’,
‘auto’, tekst, lichaamsdelen, kleding, e.d.
2. PEOPLE Onder het attribuut people valt bijvoorbeeld ‘man’, ‘woman’ of
‘child’. Maar beschrijft niet de sociale status of de namen van
mensen.
3. ANIMALS Attribuut voor het beschrijven van dieren.
4. COLOR
Color is het attribuut voor kleuren en tinten, zoals ‘blue’ of ‘red’.
5. VISUAL ELEMENTS
Visual elements is het attribuut voor visuele eigenschappen van de
foto. Zoals vorm, textuur, compositie of camerastand, maar
beschrijft niet of het een zwart/wit foto is, dit hoort bij Art
Historical Information.
6. DESCRIPTION Beschrijving van de objecten in de zin van aantal, afmetingen,
dimensie of ruimere beschrijving.
INTERPRETIVE ATTRIBUTES
Interpretive attributes zijn attributen van een hoger niveau. De
tags zijn interpreteerbaar en vragen om specifieke kennis van het
onderwerp op de foto.
7. PEOPLE-RELATED ATTRIBUTES Attribuut voor mensen gerelateerde eigenschappen, zoals relaties,
namen, sociale status of emoties. Bijvoorbeeld ‘dancer’, ‘sad’, ‘Bob
Marley’.
8. OBJECT-RELATED ATTRIBUTES Attribuut wat de objecten beschrijft, niet alleen op basis van de
vorm, maar ook de naam van het object. Bijvoorbeeld Ford voor
een auto.
9. LOCATION GENERAL Attribuut voor de lokatie in algemene zin, zoals bos.
10. LOCATION SPECIFIC Attribuut voor de lokatie in specifieke zin, zoals New York.
11. ART HISTORICAL INFORMATION
Attribuut voor alle tags die betrekking hebben op de historische
context van de foto, zoals de artiest, formaat, style, tijdsperiode,
techniek. Bijvoorbeeld ‘Rembrandt van Rijn’, ‘B&W’, ‘5X3’
12. ABSTRACT CONCEPTS
De attribuut wordt gekozen als de tag een algemene
sfeer/atmosfeer/thema beschrijft van de foto. Bijvoorbeeld
‘ordinair’ of ‘mystiek’.
13. TIME Attribuut geeft de periode aan waarin de foto zich heeft
afgespeeld, bijvoorbeeld 1910.
14. CONTENT/STORY/SCENE
Deze attribuut voor tags die de inhoud/het verhaal van de foto
vertellen. Dit gaat in op een activiteit, gebeurtenis en setting.
Bijvoorbeeld ‘springen’, ‘Nieuwjaarsavond’, ‘fietsen’.
15. EXTERNAL RELATION
External relation geeft de relatie aan met andere foto’s binnen of
buiten de collectie.
TABEL 5. TAG-RAAMWERK T.B.V. ONDERZOEK
Vervolgens kunnen de tags worden bekeken, beoordeeld en aan de hand van het raamwerk gekoppeld worden
aan een attribuut en het daarbij behorend semantisch niveau. Er is voor gekozen om de selectie van alle tags
door twee personen, waaronder de auteur, te laten uitvoeren. Door twee personen de indeling van de tags te
laten uitvoeren wordt het duidelijk waar verschillen in interpretatie van de tags liggen. Wanneer blijkt dat de
ene persoon voor een tag een ander attribuut heeft gekozen kan overlegt worden waarom voor die indeling is
gekozen. Voor een nog nauwkeurige indeling zou de indeling door meer dan twee personen uitgevoerd kunnen
worden, maar uit de resultaten blijkt dat de meeste tags niet tot discussie hebben geleid en hiermee voldoet
aan de gewenste nauwkeurigheid.
41
FIGUUR 15. UITSNEDE UIT TAG ANALYSE
De testpersonen krijgen 50 foto’s in Flickr met de bijbehorende tags te zien. Aan de hand van het raamwerk
selecteren de testpersonen per tag het bijbehorende attribuut (zie Figuur 15). Bij de foto’s krijgen de
testpersonen de titel en de beschrijving gegeven door de Library of Congress bijgevoegd om een beeld te
kunnen vormen van de foto. Vaak komt het voor dat gebruikers tags hebben toegevoegd die alleen te plaatsen
zijn wanneer het commentaar bekend is. De indeling van de ene persoon is verborgen voor de andere persoon.
Achteraf is er over de verschillende indeling gediscussieerd en een beslissing genomen onder welke attribuut
het valt.
6.5 DATACOLLECTIE VERZAMELEN
De fotocollectie van de Library of Congress in The Commons bestond op 23 oktober 2008 uit 4615 foto’s. Eind
2008 waren de foto’s al meer dan 10 miljoen keer bekeken, 67176 tags zijn geplaatst bij de foto’s en 2562 Flickr
leden plaatsten 7166 comments (Springer e.a. 2008). Uit al deze foto’s is op 20 november 2008 een
representatieve selectie gemaakt van 50 foto’s voor nadere analyse. De selectie bestaat uit 2 collecties (sets),
24 zwart-wit foto’s uit de George Grantham Bain News Service collection en 26 kleurenfoto’s uit de collectie
Farm Security Administration/Office of War Information (FSA/OWI) 36
. Deze foto’s zijn random geselecteerd uit
de sets op basis van diversiteit en hoeveelheid aan tags. De foto’s zijn een zo breed mogelijke selectie van
onderwerpen, van portretten tot landschapsfotografie en bevatten 5 tot 75 tags (maximum) per foto.
Van deze 50 foto’s is met behulp van de Flickr API alle metadata verzameld behorende bij die foto’s. Een
Application Programming Interface (API) is een verzameling definities op basis waarvan een
computerprogramma kan communiceren met een ander programma of onderdeel. Met behulp van de Flickr
API Explorer is via de API flickr.favorites.getList de metadata uit de database verkregen. De data gestructureerd
in een xml-bestand is vervolgens geëxporteerd naar Excel. Hierin zijn de volgende metadata beschikbaar (Tabel
6):
Metadata Omschrijving
ID De unieke ID van een foto
ID 2 De unieke ID voor een specifieke tag bij een
specifieke foto
Link Hyperlink naar de foto op de site van Flickr
Authorname Username van de persoon die de tag heeft geplaatst
Author De NSID (unieke ID) van de username
Titel Titel van de foto
Raw tag De originele versie van een tag van een gebruiker
Tag De schone versie van een tag bewerkt door Flickr
Machine tag Tags gebaseerd op speciale syntax
TABEL 6. METADATA VAN API FLICKR.FAVORITES.GETLIST
36
Op http://www.flickr.com/photos/bart3/favorites/ zijn deze foto’s te vinden.
42
6.6 WIE IS DE GEBRUIKER?
De 50 geanalyseerde foto's bevatten in totaal 1657 tags tegenover het totaal aantal tags van 67176 (op 23-10-
2008) in de gehele digitale collectie van de Library of Congress op Flickr. Van de 1657 tags zijn 104 machine
tags. Machine Tags zijn geproduceerd door de LOC zelf om het voor het systeem mogelijk te maken om de
foto's te linken tussen de database van Flickr en die van de LOC. 150 tags met de benaming Library of Congress
zijn door de LOC zelf toegekend. Deze tags zijn uit de dataset verwijderd. Zodoende blijven er 1403 tags over
die meegenomen zijn in de analyse (Grafiek 1).
GRAFIEK 1. DATACOLLECTIE
Wie zijn de mensen achter al deze tags? In totaal zijn er 292 unieke auteurs die de mogelijkheid hebben
genomen om tags te plaatsen bij één of meerdere foto's. Gemiddeld genomen plaatsten de taggers 5,67 tags
bij de foto's, dit varieert van 1 tot 102 tags per tagger. Twee taggers, Emily Barney37
en Marshall Astor –
FoodPornograher38
, plaatsten respectievelijk 102 en 74 tags. Deze taggers die ver boven het gemiddelde
taggen worden powertaggers genoemd. In Grafiek 2 worden de taggers (x-as gebruikers) afgezet tegen het
aantal tags (y-as).
GRAFIEK 2. AANTAL TAGS GEPLAATST PER GEBRUIKER
37
Lees hier haar profiel: http://www.flickr.com/people/ebarney/ 38
Lees hier zijn profiel: http://www.flickr.com/people/lifeontheedge/
6%
B. 9%
A.
85%
C.
Datacollectie
A. Machine tags
B. tags van de LOC
C. Tags voor analyse
0
20
40
60
80
100
120
140
160
Aa
nta
l ta
gs
Aantal taggers (=gebruiker)
Aantal tags geplaats per tagger
De eerste paar gebruikers plaatsen veel tags, de zogenoemde powertaggers, maar daarna neemt het aantal
tags snel af tot enkele tags per gebruiker. Het merendeel van de gebruikers plaatst één tag bij de foto’s
opgenomen in de datacollectie. Het lijkt erop dat deze groep het een keer probeert en er daarna bij laat zitten.
Het valt op dat het overgrote deel van de gebruikers maar één foto hebben getagt
plaatsten bij één foto een tag. Enkele gebruikers
plaatste tags bij elf verschillende foto’s.
de genoemde powertaggers.
GRAFIEK 3. FREQUENTIE VAN GETAGTE FOTO'S
6.7 HOE IS HET VOCABULAIR
Voor de analyse van het vocabulair van
gebaseerd is op het model van Jörgensen en
perceptuele en het interpretatieve niveau.
met wat er op de foto staat. Attributen op het interpretatieve niveau vragen om een bepaalde mate van
interpretatie. Hierbij is specifieke kennis nodig van het object om deze te kunnen benoemen.
onderscheid gemaakt in 15 attributen.
6.7.1 OVERZICHT RESULTATEN
Uit de onderzoeksresultaten blijkt dat het merendeel van de tags zich op het interpretatieve niveau bevinden.
De resultaten van de indeling zijn te vinden in
tags zijn interpretatieve tags en
onderverdeeld in 6 attributen. Hiervan zijn de meeste tags (17,86
attributen mensen (2,32%), dieren (1,90
(0,75%) zijn erg beperkt gebleken. De interpre
63,97% van de tags interpretatief van aard en vraagt om specifieke kennis en/of ervaring van de objecten,
mensen, activiteiten, tijdsperiode en lok
de mensgerelateerde attribuut (12,28%), kunst
(11,23%) en de content/story/scene
tijd (6,31%), object-gerelateerd (4,50%), abstractie (3,77%), generale locatie (2,29%) en de externe relatie
(1,09%). 2,17% van de tags konden niet beoordeeld worden omdat de tags
onbekende woorden bevatten. Van veel onbekende woorden is
0
50
100
150
200
250
1 2 3 4
233
33
10 6
Aa
ntl
a g
eb
ruik
ers
getagte foto's
x gebruikers taggen
De eerste paar gebruikers plaatsen veel tags, de zogenoemde powertaggers, maar daarna neemt het aantal
tags snel af tot enkele tags per gebruiker. Het merendeel van de gebruikers plaatst één tag bij de foto’s
acollectie. Het lijkt erop dat deze groep het een keer probeert en er daarna bij laat zitten.
Het valt op dat het overgrote deel van de gebruikers maar één foto hebben getagt (Grafiek
nkele gebruikers plaatsten (meerdere) tags bij meerdere foto’s.
foto’s. De personen die bij de meest verschillende foto’s
AGTE FOTO'S
OE IS HET VOCABULAIR OPGEBOUWD?
Voor de analyse van het vocabulair van het taggingsysteem wordt gebruik gemaakt van het tag
Jörgensen en maakt een hoofdindeling in twee semantische
nterpretatieve niveau. Attributen op het perceptuele niveau hebben een directe relatie
met wat er op de foto staat. Attributen op het interpretatieve niveau vragen om een bepaalde mate van
s specifieke kennis nodig van het object om deze te kunnen benoemen.
onderscheid gemaakt in 15 attributen.
Uit de onderzoeksresultaten blijkt dat het merendeel van de tags zich op het interpretatieve niveau bevinden.
ltaten van de indeling zijn te vinden in Tabel 7. Uitwerking van tag-raamwerk Tabel
24,45% van de tags zijn perceptuele tags. De perceptuele tags zijn
. Hiervan zijn de meeste tags (17,86%) object gerelateerd, daarna
dieren (1,90%) en kleur (1,27%). De visuele elementen (0,45%)
De interpretatieve tags zijn nader uitgewerkt in 9 attributen. Zoals gezegd is
van de tags interpretatief van aard en vraagt om specifieke kennis en/of ervaring van de objecten,
, tijdsperiode en lokatie. Vier attributen springen boven de overige attributen uit. Dit zijn
e attribuut (12,28%), kunsthistorische attribuut (11,89%), lokatie specifieke attribuut
%) en de content/story/scene attribuut (10,62%). Daarna wordt het snel minder, en
gerelateerd (4,50%), abstractie (3,77%), generale locatie (2,29%) en de externe relatie
(1,09%). 2,17% van de tags konden niet beoordeeld worden omdat de tags in een vreemde taal zijn of
. Van veel onbekende woorden is soms wel de betekenis achterhaald door
5 6 7 8 9 10 11
6 2 3 1 0 1 1 1
getagte foto's
gebruikers taggen x foto's
43
De eerste paar gebruikers plaatsen veel tags, de zogenoemde powertaggers, maar daarna neemt het aantal
tags snel af tot enkele tags per gebruiker. Het merendeel van de gebruikers plaatst één tag bij de foto’s
acollectie. Het lijkt erop dat deze groep het een keer probeert en er daarna bij laat zitten.
Grafiek 3). 233 personen
plaatsten (meerdere) tags bij meerdere foto’s. Eén gebruiker
De personen die bij de meest verschillende foto’s tags plaatsen zijn ook
wordt gebruik gemaakt van het tag-model welke
mantische niveaus, het
Attributen op het perceptuele niveau hebben een directe relatie
met wat er op de foto staat. Attributen op het interpretatieve niveau vragen om een bepaalde mate van
s specifieke kennis nodig van het object om deze te kunnen benoemen. Er wordt
Uit de onderzoeksresultaten blijkt dat het merendeel van de tags zich op het interpretatieve niveau bevinden.
Tabel 7. 63,97% van de
De perceptuele tags zijn
%) object gerelateerd, daarna volgen de
(0,45%) en beschrijvingen
tatieve tags zijn nader uitgewerkt in 9 attributen. Zoals gezegd is
van de tags interpretatief van aard en vraagt om specifieke kennis en/of ervaring van de objecten,
verige attributen uit. Dit zijn
atie specifieke attribuut
en volgen de attributen
gerelateerd (4,50%), abstractie (3,77%), generale locatie (2,29%) en de externe relatie
een vreemde taal zijn of
soms wel de betekenis achterhaald door
44
gebruik te maken van woordenboeken en encyclopedieën. De machine tags en de LOC-tags zijn niet
meegenomen in de beoordeling.
PERCEPTUAL ATTRIBUTES
1. OBJECTS 17,86%
2. PEOPLE 2,32%
3. ANIMALS 1,90%
4. COLOR 1,27%
5. VISUAL ELEMENTS 0,45%
6. DESCRIPTION 0,75%
Totaal 24,45%
INTERPRETIVE ATTRIBUTES
7. PEOPLE-RELATED ATTRIBUTES 12,28%
8. OBJECT-RELATED ATTRIBUTES 4,50%
9. LOCATION GENERAL 2,29%
10. LOCATION SPECIFIC 11,23%
11. ART HISTORICAL INFORMATION 11,89%
12. ABSTRACT CONCEPTS 3,77%
13. TIME 6,31%
14. CONTENT/STORY/SCENE 10,62%
15. EXTERNAL RELATION 1,09%
Totaal 63,97%
Overig 2,17%
Machine tags 6,28%
LOC 3,02%
TABEL 7. UITWERKING VAN TAG-RAAMWERK
6.7.2 PERCEPTUELE ATTRIBUTEN
Zoals gezegd zijn 24,45% van de tags gericht op perceptuele attributen. Deze attributen vragen geen specifieke
kennis van de gebruiker en kunnen alleen op basis van de visuele kenmerken van een foto worden beschreven.
De resultaten van deze attributen worden nader toegelicht.
Objects
Alleen het atrribuut objects scoort met 17,86% erg hoog bij de perceptuele attributen. Gebruikers taggen
bijvoorbeeld car, radio of bike. Gebruikers taggen over het algemeen eenvoudige zaken als objecten in een
foto. Dit is blijkbaar het eerste wat gebruikers opvallen in een foto. Een tagger plaatste een lijst met
fruitsoorten bij een foto die op het eerste niks gezicht niks te maken heeft met de foto. Is dit als grap of is zit er
een bedoeling achter?39
People
De attribuut people is betrekkelijk weinig gebruikt (2,32%), terwijl op bijna alle foto’s mensen zijn terug te
vinden. Een logische verklaring hiervoor is dat er minder kenmerken zijn voor het beschrijven van een mens ten
opzichte van een object.
Animals
Deze attribuut (1,90%) is erg weinig gebruikt, maar dit is te verklaren omdat er relatief weinig dieren op de
foto’s staan. Het percentage kan daarom ook meegenomen worden met de attributen objects of people.
39
http://www.flickr.com/photos/library_of_congress/2722109107
45
Color
De attribuut kleur (1,27%) beschrijft de kleurkenmerken in een foto. Bijvoorbeeld een foto met heel veel gele
kleuren krijgt de tag yellow. Gebruikers taggen weinig kleurkenmerken in een foto. CBIR zou een goede optie
zijn als aanvulling hierop. CBIR software maakt het mogelijk om automatisch kleuren te herkennen en
doorzoekbaar te maken.
Visual elements
Enkele tags (0,45%) geven de visuele elementen van een foto aan. Gebruikte tags hebben betrekking op de
camerastand en compositie van de foto.
Description
Enkele tags (0,75%) zijn blue sky, orange badge of Brown overalls. Eventueel zouden deze beschrijvingen ook
thuis kunnen horen bij de color attribuut. Maar omdat ze betrekking hebben op de beschrijving van een
specifiek object is ervoor gekozen om ze onder de description attribuut te verdelen. Andere gebruikte tags zijn
aantallen van objecten of mensen.
6.7.3 INTERPRETATIEVE ATTRIBUTEN
De meeste tags zijn geplaatst als interpretatieve attributen. 63,97% van de tags vallen onder dit semantische
niveau. Dit resultaat komt overeen met andere studies (Jörgensen 1998, 1999, Hasting 2004). De verschillende
attributen worden hieronder kort besproken.
People-related attributes
Een tag waaruit duidelijk blijkt dat tagging een grote meerwaarde kan hebben op traditionele
ontsluitingsmethode is de tag Rosie the Riveter40
. Rosie the Riveter is het symbool voor alle hardwerkende
Amerikaanse vrouwen in oorlogsfabrieken tijdens de tweede wereldoorlog. In de ontsluiting van de Library of
Congress wordt deze term niet gebruikt, maar bij het grote publiek is dit een bekende term voor vrouwen die
werkten in de oorlogsfabrieken tijdens de oorlog. Veel Flickr gebruiker hebben hun eigen Rosie the Riveter foto
gemaakt41
.
Object-related attributes
Een beperkt aantal tags (4,50%) is gebruikt om object gerelateerde attributen te beschrijven. Dit attribuut zegt
iets over het object, bijvoorbeeld het object auto en gerelateerd aan het object fiat. Het was af en toe erg
moeilijk om hier een eenduidig onderscheid in te maken, er is geprobeerd om object te kiezen als de tag een
algemene categorie beschrijft en object-gerelateerd wanneer een specifiek aspect van het object wordt
gegeven. Een interessante voorbeeld van een tag is birdsnest hat42
. Een tagger gebruikte deze term om zijn
perceptie te geven van een hoed die een mevrouw op heeft. Typisch een tag die de LOC absoluut niet zou
gebruiken, maar misschien wel een aparte zoekingang geeft.
Location general
De location general attribuut geeft de algemene locatie weer zoals Airport of Shipyard. Met 2,29% een beperkt
aantal vergeleken met de location specific attribuut.
Location specific
11,23% van de tags zijn location specific tags en geven een duidelijke locatie aan van waar de foto is gemaakt.
Tags geplaatst bij de foto’s hebben betrekking op een stad, land of streek. Opvallend bij deze tags is dat veel
gebruikers meerdere spellingen geven voor dezelfde stad.
40
Zie http://www.flickr.com/photos/library_of_congress/tags/rosietheriveter/ voor alle foto’s die voorzien zijn van de tag rosie the riveter. 41
http://www.flickr.com/search/?w=all&q=rosietheriveter&m=tags 42
http://flickr.com/photos/library_of_congress/2162932293
46
Art historical information
Dit attribuut is bestemd voor tags die betrekking hebben op de historische context van de foto zoals de
fotograaf, formaat, stijl of techniek. 11,89% van de tags hebben hierop betrekking. Een tagger plaatste
meerdere vertalingen van zwart/wit foto’s.
Abstract concepts
Met 3,77% een beperkte hoeveelheid tags welke een bepaalde sfeer van een foto beschrijven. Het ligt blijkbaar
voor een tagger niet meteen voor de hand om een sfeerimpressie te geven van een foto. Het is ook niet
eenvoudig om een emotie in een tag uit te drukken. In het commentaar op de foto’s gaven de gebruikers wel
regelmatig een algemene sfeer van een foto. Misschien leent deze plek zich hiervoor ook beter.
Time
Een redelijk aantal tags (6,31%) heeft betrekking op het tijdstip van de foto. Over het algemeen werd het
jaartal gebruikt welke bij de beschrijving was gegeven.
Content/Story/Scene
Dit attribuut richt zich op een bepaalde activiteit welke op de foto plaatsvindt. 10,62% van de geplaatste tags
heeft betrekking op de content/story/scene.
External relation
1,09% van de tags legt een relatie met andere foto’s buiten de collectie. De meeste relaties die worden gelegd
naar andere foto’s of informatie wordt meestal beschreven in de comments.
6.7.4 CREATIVITEIT MET TAGS
Eén van de meest opvallende tags die gebruikt worden zijn vertaalde tags. Bijvoorbeeld de tag Mexico wordt in
tien verschillende talen getagt. Dit is een grote verrijking op de beschrijvingen van LOC, deze beschrijving is
namelijk alleen in het Engels. Ook tags als hond en paard worden in meerdere talen vertaald.
Sommige tags waren wel onder een attribuut te plaatsen maar hadden naar de mening van de testpersonen
geen relatie met de foto. Zo was er een persoon die allerlei tags van fruitsoorten plaatsten bij een foto waar
geen fruit op stond. Misschien waren dit persoonlijke tags of gewoon lolligheid maar dit soort tags vervuilen
wel de folksonomie. Taggebruik voor eigen gebruik is bij persoonlijke Flickr pagina’s of bij Delicious natuurlijk
geen probleem, maar de tags in de The Commons dienen een sociaal belang. Echter, het systeem is simpel en
zonder beperkingen, dus zijn dit soort tags mogelijk.
Naast het taggen van een foto is het mogelijk om commentaar te leveren op een foto. Het commentaar wordt
chronologisch onder de foto vermeld. Gebruikers geven commentaar op de foto over hun ervaring met de foto
of geven specifieke informatie over de foto in zijn algemeen of specifieke objecten in de foto. Veelvuldig
plaatsen mensen links naar Wikipedia of specialistische websites om hun reacties met bewijs aan te vullen.
Een enkele keer worden de tags gebruikt als commentaar op een foto. In principe zou de tag thuishoren bij de
comments, maar mensen vinden het misschien juist wel een goede plek om het als tag toe te voegen. Mensen
plaatsen tags als “reminds me of a photo I took 10 years ago”43
en “what people did before TV and internet”.44
De gebruikers geven met deze tags hun mening en (emotionele) ervaring over de foto.
43
Geplaatst door Sebastian-Lewis bij de foto Lunch of a sugar worker on a plantation, vicinity of Puerto Rico? 44
Geplaatst door Firechick bij de foto Mountaineers and farmers trading mules and horses on "Jockey St.," near the Court House, Campton,
Wolfe County, Ky.
47
Ook spreken gebruikers via tags hun twijfels uit over de beschreven metadata van een foto. Zo is er een
gebruiker die de tag “uncertain location” heeft gebruikt om blijkbaar aan te geven dat hij vindt dat de locatie
welke vermeld staat in de beschrijving niet klopt. Een andere gebruiker doet een suggestie voor een locatie
door “maybe Florida?” als tag toe te voegen.
6.8 BEPERKINGEN
Het onderzoek kent enkele beperkingen. Deze worden hieronder nader uitgewerkt. Deze beperkingen hebben
invloed op de onderzoeksresultaten.
Het is complex om de tags in te delen in een tagraamwerk. Termen kunnen onder meerdere attributen worden
onderverdeeld. Dit bleek uit de test uitgevoerd door de twee testpersonen. Na overleg over de verschillen
bleken veel termen dubbel geplaatst te kunnen worden.
De beschrijving van de Library of Congress heeft grote invloed op het taggedrag van de Flickr leden. Uit
onderzoek van LOC blijkt dat 23%-45% van de tags rechtstreeks zijn overgenomen uit de beschrijving van LOC.
De overige tags zijn dus een aanvulling op de bestaande beschrijving. Als de tags alleen worden vergeleken met
de Library of Congress Subject Headings dan is het aantal heel erg toegenomen.
Van een aantal attributen was het moeilijk om voor de twee testpersonen eenduidigheid te krijgen. Dit zijn de
attributen objects, object-related en content/story/scene. Het probleem bij objects en object-related was dat
het moeilijk is om een verschil te maken tussen deze twee attributen. Ze beschrijven beidde objecten, maar op
een ander niveau. Objecten zijn die dingen die men zonder enige kennis van het object weet, bijvoorbeeld
‘bus’. Object-related zijn objecten die specifiek worden beschreven en om gedegen kennis van het object
vragen, zoals ‘seven ton bus’. Een ander voorbeeld ‘Vliegtuig’ als object en ‘Boeing 747’ als object related. De
content/story/scene attribuut is een attribuut die een activiteit omschrijft, dit kunnen zowel
werkwoordsvormen zijn of zijn tijdsgebonden tags. Dit maakt het moeilijk om onderscheid te maken met
andere attributen en is regelmatig gekozen voor andere attributen. De overige attributen zijn op enkele tags na
eenduidig beoordeeld en in dezelfde categorie geplaatst.
48
7 CONCLUSIE
De laatste doelstelling van de scriptie is tot nu toe (deels) onbeantwoord gebleven. In dit laatste hoofdstuk
wordt hier antwoord op gegeven. De doelstelling betreft het oriënteren naar de positie van taggingsystemen
ten opzichte van andere vormen van onderwerpsontsluiting van foto’s. Dit is belangrijk voor culturele
instellingen om hun positie te kunnen bepalen hoe ze in de toekomst taggingsystemen in moeten zetten.
De belangrijke vragen hierbij zijn hoe culturele instellingen in de toekomst om moeten gaan met de traditionele
vormen van onderwerpsontsluiting en tagging? Gaan folksonomieën de traditionele indexeermethodes
vervangen of voldoet de kwaliteit van tagging niet en moeten we toch vasthouden aan thesauri en indexen? Of
kunnen folksonomieën juist als een goede aanvulling hierop dienen?
7.1 CULTURELE INSTELLINGEN OP ZOEK NAAR NIEUWE VORMEN VAN ONTSLUITING
Ten tijde van de introductie van tagging rond 2005 waren de meningen verdeeld. De eerste reacties op de blog-
sites op het internet waren laaiend enthousiast. Folksonomieën zouden het gat opvullen waar traditionele
ontsluitingsmethoden, zoals gecontroleerde vocabulaires, het lieten afweten. De reacties van informatie
specialisten waren minder enthousiast. Dat is ook niet zo vreemd omdat taggingsystemen geen aspecten
bevatten die door informatie specialisten als essentieel worden beschouwd, zoals zorgvuldige hiërarchieën,
gestructureerde metadata en standaarden. Hun onderzoeken waren dan ook vooral gericht op de precision en
recall van de taggingsystemen en toonden daarmee aan dat de zoekfunctionaliteit van taggingsystemen
volgens hun beperkter zijn dan traditionele retrievalsystemen.
Maar langzaam aan neemt de sceptische houding tegenover taggingsystemen af. Culturele instellingen zijn
begonnen met het experimenteren met taggingsystemen op zoek naar nieuwe mogelijkheden om de
toegankelijkheid van hun collectie te vergroten. In een recent onderzoek naar nieuwe mogelijkheden van
bibliografische beschrijvingen en andere vormen van ontsluiting concludeerde De Library of Congress Working
Group on the Future of Bibliographic Control (2008) dan ook dat de strakke standaarden gebruikt in
bibliotheken in de toekomst niet meer gehandhaafd kunnen blijven. De werkgroep adviseerde om op zoek te
gaan naar nieuwe vormen van metadata die geschikt zijn voor een brede groep gebruikers. Zij zien tagging als
mogelijke verrijking op de huidige ontsluitingmethoden.
7.2 TAGGINGSYSTEMEN ALS SNELLE LAAG
Hoe moeten culturele instellingen gebruik gaan maken van taggingsystemen voor de ontsluiting van hun
fotocollecties? Moeten zij de gecontroleerde vocabulaires niet meer gebruiken en zich volledig richten op
tagging? Of kunnen verschillende systemen juist een meerwaarde voor elkaar betekenen? Het beste resultaat
wordt behaald wanneer taggingsystemen als aanvulling op gecontroleerde vocabulaires worden gebruikt en
hiermee een toegevoegde waarde op elkaar hebben.
Met behulp van de pace layering theorie wordt deze bewering beargumenteren. De theorie van pace layering
werd oorspronkelijk ontwikkeld door Stewart Brand om te kunnen verklaren hoe gebouwen zijn opgedeeld in
verschillende bouwlagen. Iedere bouwlaag kan onderverdeeld worden in de mate van snelheid waarin zo’n laag
verandert. Bij een gebouw verandert de fundering heel langzaam, de gevel verandert al iets sneller en het
interieur is nog sterker aan verandering onderhevig. Het achterliggende idee achter pace layering is dat het
goed is voor de ontwikkeling van een complex systeem als de verschillende lagen ieder in hun eigen tempo
veranderen. De snelle lagen veranderen continu en zorgen voor innovatie terwijl de langzame lagen zorgen
voor absorptie en stabiliteit. Door gebouwen op te splitsen in verschillende elementen, op basis van de
snelheid waarin deze veranderen, geeft de architect de mogelijkheid hier afgewogen oplossingen voor te
verzinnen.
49
Morville (2005) gebruikt het pace layering model om aan te tonen dat tagging een toevoeging is op traditionele
ontsluitingsmethoden in plaats van een vervanging van deze systemen. Taggingsystemen zijn in het model de
buitenste laag binnen de informatiearchitectuur, de snelle flexibele laag welke rust op de binnenste laag, de
stabiele fundering van traditionele systemen voor onderwerpsontsluiting. De stabiele binnenste laag draagt bij
aan de uniformiteit en standaardisering van beschrijvingen, terwijl de buitenste flexibele laag toch snel kan
anticiperen op een veranderlijke omgeving. Met andere woorden, de tags die geplaatst worden bij foto’s op
Flickr kunnen bijdragen aan de verbetering van gecontroleerde vocabulaires.
Een goede praktijkvoorbeeld van het doorzijpelen van informatie uit de buitenste laag naar de binnenste laag is
een discussie die werd gevoerd op Flickr over welk type bommenwerper er op de foto stond. Specialistische
kennis van bommenwerpers was in dit geval niet in huis bij het Nationaal Archief, maar een amateur op Flickr
had tot in de puntjes uitgezocht hoe het zat en kwam met bewijzen. Het Nationaal Archief kon na verificatie
van de gegevens hun professionele beschrijvingen verrijken met ‘amateuristiche’ kennis.
7.3 TAGGINSYSTEMEN MET HULP VAN ONDERAF
Een taggingsysteem kent zijn beperkingen qua nauwkeurigheid en eenduidigheid waardoor het zeker niet
voldoet aan de eisen die gesteld worden in traditionele methoden van onderwerpsontsluiting. Veel onderzoek
wordt er dan ook gedaan naar de verbetering van taggingsystemen. Er wordt veelvuldig gezocht naar
mogelijkheden om taggingsystemen bij te sturen vanuit de binnenste laag, de gecontroleerde vocabulaires. De
gecontroleerde vocabulaires en andere vormen van standaarden gaan dus een rol spelen bij het optimaliseren
van het tagproces. Twee manieren waarop de tekortkomingen van taggingsystemen te verhelpen zijn: 1. Door
de gebruiker op te leiden en om meer input te vragen. 2. De tekortkomingen automatisch te herkennen en op
te lossen.
Met de gebruiker opleiden wordt niet bedoeld dat hij een aparte cursus krijgt om als een professional objecten
te kunnen ontsluiten, maar dat de gebruiker wordt ondersteund tijdens het toekennen van tags. Dit wordt tag
ondersteuning genoemd. De gebruiker kan zien wat andere gebruikers hebben getagt of gebruikers kunnen
gebruik maken van thesauri en indexen die de culturele instelling ook gebruiken. Dit kan voor materiaal wat
nog niet ontsloten is een interessante methode zijn om met tagging toch het niveau van professionele
ontsluiting te benaderen. Voor reeds traditioneel ontsloten materiaal is tag ondersteuning minder nuttig
omdat er met de tags een grotere verscheidenheid van termen van onderwerpsontsluiting ontstaat.
De tweede mogelijkheid is een methode om de tekortkomingen van tags automatisch te herkennen en op te
lossen. Dit lijkt een goede methode omdat het de flexibiliteit van het taggen behoudt maar de kwaliteit
verbeterd. Uit het tagonderzoek op Flickr is gebleken dat 24,45% van de tags perceptueel van aard zijn. Deze
tags zouden aangevuld of aangepast kunnen worden met automatisch gegenereerde tags. Zoals in de theorie is
beschreven zijn er tal van systemen die op dit semantisch niveau een goed alternatief zijn op het taggen. Deze
CBIR systemen kunnen objecten, kleuren en vormen automatisch herkennen waardoor het mogelijk wordt om
hierop te zoeken. Een andere mogelijkheid is om het systeem kleurenfoto’s en zwart/wit-foto’s van elkaar te
laten onderscheiden. Uit de onderzoeksresultaten blijkt dat gebruikers vrij beperkt deze elementen taggen.
Veel tags geplaatst bij de foto’s op Flickr zijn overgenomen uit de beschrijving van de Library of Congress. De
Library of Congress constateerden in hun onderzoek dat 23% tot 45% van de tags zijn overgenomen uit deze
beschrijvingen. Het is de vraag of deze gegevens wel als tags moeten worden opgenomen of handmatig door
de gebruikers toegekend moeten worden. Het is mogelijk om deze tags te blokkeren uit de lijst of automatisch
te laten toekennen aan de tags. Het Powerhouse Museum heeft ervoor gekozen om automatisch tags uit de
beschrijvingen te filteren en op te nemen in de lijst van tags. Ze maken hiervoor gebruik van Open Calais, een
systeem dat automatisch belangrijke gegevens als namen, jaartallen en locaties kan filteren en dit vervolgens
als tags opnemen.
50
11% van de tags zijn locatie specifieke zo blijkt uit het tagraamwerk. Deze tags zijn omschrijvingen van locaties
zoals Rocky Mountains of San Francisco. Maar het is eenvoudiger om deze gegevens als geografische locatie op
te nemen. Flickr biedt deze mogelijkheid ook aan om foto’s te geotaggen waarmee het mogelijk is om de
locatie op een kaart te plaatsen. Het zoeken naar locaties is hiermee eenvoudiger en voorkomt je
spellingsvarianten.
7.4 HOE VER MOET JE GAAN?
Een van de grootste twijfels over tagging komt voort uit de angst van het oncontroleerbare. Ten opzichte van
traditionele ontsluitingsmethode heeft tagging weinig controle en heeft de gebruiker de macht over de
beschrijvingen. Gebruikers hebben waarschijnlijk goede bedoelingen, maar is het wel mogelijk voor de
gebruikers om zonder gedegen kennis en opleiding in representatie en ontsluiting foto’s betrouwbaar te
kunnen ontsluiten? Maar is dat wel nodig? Is het erg als er anders getagt wordt dat men verwacht?
Er moet zeer voorzichtig worden opgetreden met het bijsturen van het tagproces. Het taggen moet een simpel,
eenvoudig en doeltreffend systeem zijn wat niet gestuurd moet worden naar standaarden en gecontroleerde
vocabulaires. Het is belangrijk dat het sociale aspect van tagging bewaard blijft. ‘Power to the people’ is de
grootste kracht achter het taggingsysteem wat ten alle tijden gewaarborgd moet blijven. Als men op wat voor
manier dan ook probeert structuur te geven aan het taggen zonder de gebruiker hiervan op de hoogte te
stellen gaat het waarschijnlijk mis. Tagging bevindt zich niet voor niets in de buitenste laag van het pace
layering model, het is flexibel en kan zich snel aanpassen aan zijn omgeving. Bij gebrek aan bepaalde
zoekmogelijkheden ontwikkelen de gebruikers zelf nieuwe opties. Een goed voorbeeld hiervan is het initiatief
van enkele gebruikers op Flickr om bepaalde standaarden te ontwikkelen, zoals ‘me:’ voor tags van jezelf of
‘location:’ voor locatie specifieke tags. Het ontwikkelen van een nieuwe standaard moet vanuit de Flickr
gemeenschap komen en niet worden opgedrongen vanuit een culturele instelling.
7.5 WAAROM IS TAGGING EEN AANVULLING?
Het principe van serendipiteit, het vinden van iets waar niet op werd gezocht, is een belangrijk aspect in image
retrieval. Gebruikers hebben niet altijd een specifieke behoefte, maar bekijken voornamelijk foto’s voor een
bepaalde ervaring en emotie. Als ze al een specifieke wens hebben is dat over het algemeen ook niet één type
foto, maar kunnen meerdere foto’s hetzelfde verhaal vertellen waar de gebruiker naar op zoek was. Om die
reden lijkt het zinvol om gebruikers de mogelijkheid te geven om gebruik te laten maken van meerdere
ontsluitingsmethoden. Gecontroleerde vocabulaires kunnen voor een bepaalde vraag beter functioneren dan
tagging en andersom.
Men vergeet dat het zoeken naar foto’s voor de meeste gebruikers een ervaring is, ze zijn niet op zoek naar die
ene specifieke foto, maar de gebruiker is op zoek naar die ene beleving. Het beleven van het zien van iets
verrassend, iets wat ze nog niet eerder hebben gezien, of iets wat hun emotioneel raakt. Er moet dus een
bepaalde mate van verrassing inzitten en daarom is het sterk aanpassen van de tags aan traditionele
standaarden misschien wel niet noodzakelijk. De systemen gaan waarschijnlijk teveel op elkaar lijken en beperk
je juist de brede zoekmogelijkheden.
Terugkomend op de onderzoeksvraag van deze scriptie is het duidelijk geworden dat taggingsystemen een
nieuwe aanvulling zijn op traditionelere vormen van onderwerpsontsluiting. De kwaliteit van de tags blijkt lastig
te bepalen, maar de tags die worden gegeven bij de foto’s zijn van grote diversiteit en komen grotendeels
overeen met de semantische niveau’s waarop professionals foto’s ontsluiten. De verschillende methoden om
foto’s te ontsluiten bieden verschillende gebruikers met verschillende behoeftes de mogelijkheid om op hun
eigen manier te zoeken in verschillende fotocollecties. Tenslotte zegt één foto meer dan duizend woorden en
zijn er dus ook meer dan duizend woorden nodig om deze foto terug te vinden.
51
LITERATUUR
Al-Khalifa, H. S., en H. C. Davis. 2007. Towards better understanding of folksonomic patterns. In Proceedings of
the 18th conference on Hypertext and hypermedia, 163-166. ACM Press New York, NY, USA.
Ankolekar, A., M. Krötzsch, T. Tran, en D. Vrandecic. 2008. The two cultures: Mashing up Web 2.0 and the
Semantic Web. Web Semantics: Science, Services and Agents on the World Wide Web 6, no. 1
(Februari): 70-75. doi:10.1016/j.websem.2007.11.005.
Armitage, Linda H., en Peter G.B. Enser. 1997. Analysis of user need in image archives. Journal of Information
Science 23, no. 4 (Augustus 1): 287-299. doi:10.1177/016555159702300403.
Baca, M., T. Gill, A.J. Gilliland, M. Whalen, en M.S. Woodley. 2000. Introduction to Metadata: Pathways to
Digital Information. 1e ed. Getty Publications.
http://www.getty.edu/research/conducting_research/standards/intrometadata/.
Bates, M. 2006. Tag-You're It! ONLINE -WESTON THEN WILTON- 30, no. 1: 64.
Berners-Lee, T., J. Hendler, en O. Lassila. 2001. The Semantic Web. Scientific American 284, no. 5: 28-37.
Besser, H. 1990. Visual Access to Visual Images: The UC Berkeley Image Database Project. Status: published or
submitted for publication 38, no. 4: 787-798.
Bruza, P. D., en T. W. C. Huibers. 1996. A study of aboutness in information retrieval. Artificial Intelligence
Review 10, no. 5 (Oktober 1): 381-407. doi:10.1007/BF00130692.
Butterfield, S. 2004. Sylloge. Augustus 4. http://www.sylloge.com/personal/2004/08/folksonomy-social-
classification-great.html.
Choi, Y., en E.M. Rasmussen. 2003. Searching for images: The analysis of users' queries for image retrieval in
American history. Journal of the American Society for Information Science and Technology 54, no. 6:
498-511. doi:10.1002/asi.10237.
Chowdhury, G. 2004. Introduction to modern information retrieval. 2e ed. London: Facet.
Coupland, D. 1995. Microserfs. 1e ed. New York: ReganBooks.
Datta, R., D. Joshi, J. Li, en J. Z. Wang. 2008. Image retrieval: Ideas, influences, and trends of the new age. ACM
Computing Surveys 40, no. 2: 5:1-5:60.
Eakins, J. P., en M. E. Graham. 1999. Content-based Image Retrieval: A report to the JISC Technology
Applications Programme. Institute for Image Data Research, University of Northumbria at Newcastle,
January: 1-60.
Eakins, J.P. 1998. Techniques for image retrieval. Library & information briefings, no. 85: 1-15.
---. 2002. Towards intelligent image retrieval. Pattern Recognition 35, no. 1 (Januari): 3-14. doi:10.1016/S0031-
3203(01)00038-3.
Enser, P. 2000. Visual image retrieval: seeking the alliance of concept-based and content-based paradigms.
Journal of Information Science 26, no. 4 (Augustus 1): 199-210. doi:10.1177/016555150002600401.
Fidel, R. 1997. The image retrieval task: implications for the design and evaluation of image databases. New
Review of Hypermedia and Multimedia 3, no. 1: 181. doi:10.1080/13614569708914689.
Furnas, G. W., T. K. Landauer, L. M. Gomez, en S. T. Dumais. 1987. The vocabulary problem in human-system
communication. Commun. ACM 30, no. 11: 964-971. doi:10.1145/32206.32212.
Golder, S., en B. Huberman. 2006. Usage patterns of collaborative tagging systems. Journal of Information
Science 32, no. 2 (April 1): 198-208. doi:10.1177/0165551506062337.
52
Golder, S., en B. A. Huberman. 2005. The Structure of Collaborative Tagging Systems. Arxiv preprint
cs.DL/0508082. http://arxiv.org/ftp/cs/papers/0508/0508082.pdf.
Goodrum, A. A. 2000. Image Information Retrieval: An Overview of Current Research. Informing Science 3, no.
2: 63-67.
Gruber, T. R. 1993. A translation approach to portable ontology specifications. Knowledge Acquisition 5, no. 2:
199-220.
Gudivada, Venkat N., en Vijay V. Raghavan. 1995. Content-Based Image Retrieval Systems. Computer 28, no. 9:
18-22.
Guy, M., en E. Tonkin. 2006. Tidying up tags. D-Lib Magazine 12, no. 1.
http://www.dlib.org/dlib/january06/guy/01guy.html.
Halvey, Martin J, en Mark T Keane. 2007. An assessment of tag presentation techniques. In Proceedings of the
16th international conference on World Wide Web. Banff, Alberta, Canada: ACM.
Hammond, T., T. Hannay, B. Lund, en J. Scott. 2005. Social Bookmarking Tools (I). D-Lib Magazine 11, no. 4:
1082-9873.
Hassan-Montero, Y., en V. Herrero-Solana. 2006. Improving Tag-Clouds as Visual Information Retrieval
Interfaces. International Conference on Multidisciplinary Information Sciences and Technologies,
InScit2006. http://www.scopus.com/scopus/inward/record.url?eid=2-s2.0-
35948981019&partnerID=40&rel=R7.0.0.
Hendler, J. 2007. The Dark Side of the Semantic Web. IEEE Intelligent Systems 22, no. 1: 2-4.
Hollink, L., A. Th. Schreiber, B. J. Wielinga, en M. Worring. 2004. Classification of user image descriptions.
International Journal of Human-Computer Studies 61, no. 5 (November): 601-626.
doi:10.1016/j.ijhcs.2004.03.002.
Hutchins, W. J. 1978. The concept of ‘aboutness’ in subject indexing. In Aslib Proceedings, 30:172-181. MCB UP
Ltd.
Jaimes, A., en S. F. Chang. 2000. A Conceptual Framework for Indexing Visual Information at Multiple Levels.
IS&T/SPIE Internet Imaging 3964: 2-15.
Jörgensen, C. 1996. Indexing Images: Testing an Image Description Template. In Proceedings of the annual
meeting-American Society for Information Science, 33:209-213. http://www.asis.org/annual-
96/ElectronicProceedings/jorgensen.html.
Kato, T. 1992. Database architecture for content-based image retrieval. Proceedings of SPIE 1662: 112.
Kuo, B.Y.L., T. Hentrich, B.M. Good, en M.D. Wilkinson. 2007. Tag clouds for summarizing web search results. In
Proceedings of the 16th international conference on World Wide Web. Banff, Alberta, Canada: ACM.
Kwasnik, B. H. 1999. The role of classification in knowledge representation and discovery. Library Trends 48, no.
1: 22-47.
Lancaster, F. 2003. Indexing and abstracting in theory and practice. 3e ed. London: Facet.
Macgregor, G., en E. McCulloch. 2006. Collaborative tagging as a knowledge organisation and resource
discovery tool. Library Review 55, no. 5: 291 - 300. doi:10.1108/00242530610667558.
Magrijn, H. 2000. Woordsystemen : theorie en praktijk van thesauri en trefwoordsystemen. 2e ed. Den Haag:
Biblion.
53
Marlow, C., M. Naaman, D. Boyd, en M. Davis. 2006. HT06, tagging paper, taxonomy, Flickr, academic article, to
read. In HYPERTEXT '06: Proceedings of the seventeenth conference on Hypertext and hypermedia, 31-
40. ACM Press. http://dx.doi.org/10.1145/1149941.1149949.
Mathes, A. 2004. Folksonomies-Cooperative Classification and Communication Through Shared Metadata.
Computer Mediated Communication, LIS590CMC (Doctoral Seminar), Graduate School of Library and
Information Science, University of Illinois Urbana-Champaign, December: 1-13.
Medeiros, N. 2008. Screw cap or cork? Keeping tags fresh (and related matters). perspectives 24, no. 2: 77-79.
Merholz, P. 2004. Metadata for the masses. Oktober 19.
http://www.adaptivepath.com/ideas/essays/archives/000361.php.
Millen, D. R., en J. Feinberg. 2006. Using Social Tagging to Improve Social Navigation. In Workshop on the Social
Navigation and Community based Adaptation Technologies.
Morville, P. 2005. Ambient findability. Sebastopol Calif. ;;Farnham: O'Reilly.
Musser, J., en T. O'Reilly. 2006. Web 2.0: Principles and best practices. O'Reilly radar.
http://oreilly.com/catalog/web2report/chapter/web20_report_excerpt.pdf.
NISO. 2004. Understanding Metadata. Bethesda (USA): National Information Standards Organisation.
http://www.niso.org/publications/press/UnderstandingMetadata.pdf.
---. 2005. ANSI/NISO Z39.19 - Guidelines for the Construction, Format, and Management of Monolingual
Controlled Vocabularies . Bethesda: National Information Standards Organization.
Noll, M.G., en C. Meinel. 2007. Authors vs. readers: a comparative study of document metadata and content in
the www. In Proceedings of the 2007 ACM symposium on Document engineering, 177-186. Winnipeg,
Manitoba, Canada: ACM. doi:10.1145/1284420.1284465.
http://portal.acm.org/citation.cfm?id=1284420.1284465.
O'Reilly, T. 2005a. Not 2.0? - O'Reilly Radar. Augustus 5. http://radar.oreilly.com/archives/2005/08/not-
20.html.
---. 2005b. What Is Web 2.0 | O'Reilly Media. September 30.
http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html.
Panofsky, E. 1962. Studies in Iconology Humanistic Themes in the Art of the Renaissance. New York: Harper &
Row.
---. 1982. Meaning in the visual arts. Chicago, Ill.: University of Chicago Press.
Peters, I., en K. Weller. 2008. Tag Gardening for Folksonomy Enrichment and Maintenance. Webology 5, no. 3.
Rafferty, P., en R. Hidderley. 2007. Flickr and democratic indexing: Dialogic approaches to indexing. Aslib
Proceedings: New Information Perspectives 59, no. 4-5: 397-410.
Riesthuis, G. 1998. Zoeken met woorden : hergebruik van onderwerpsontsluiting. [Amsterdam]: Leerstoelgroep
Boek- Archief- en Informatiewetenchap van de Universiteit van Amesterdam.
Rivadeneira, A. W, D. M Gruen, M. J Muller, en D. R Millen. 2007. Getting our head in the clouds: toward
evaluation studies of tagclouds. In Proceedings of the SIGCHI conference on Human factors in
computing systems. San Jose, California, USA: ACM.
Sen, S., S.K. Lam, A.M. Rashid, D. Cosley, D. Frankowski, J. Osterhouse, F.M. Harper, en J. Riedl. 2006. tagging,
communities, vocabulary, evolution. In Proceedings of the 2006 20th anniversary conference on
Computer supported cooperative work, 181-190. Banff, Alberta, Canada: ACM.
doi:10.1145/1180875.1180904. http://portal.acm.org/citation.cfm?id=1180904.
54
Shatford, S. 1986. Analyzing the Subject of a Picture: A Theoretical Approach. Cataloging and Classification
Quarterly 6, no. 3: 39—61.
Shatford-Layne, S. 1994. Some issues in the indexing of images. Journal of the American Society for Information
Science 45, no. 8: 583-588. doi:10.1002/(SICI)1097-4571(199409)45:8<583::AID-ASI13>3.0.CO;2-N.
Shirky, C. 2005. Ontology is Overrated -- Categories, Links, and Tags.
http://shirky.com/writings/ontology_overrated.html.
Smeulders, A. W. M., M. Worring, S. Santini, A. Gupta, en R. Jain. 2000. Content-Based Image Retrieval at the
End of the Early Years. IEEE transactions on pattern analysis and machine intelligence 20, no. 12: 1349-
1380.
Smith, G. 2008. Tagging: People-Powered Metadata for the Social Web. Berkeley CA: New Riders.
Spiteri, L.F. 2007. Structure and form of folksonomy tags: The road to the public library catalogue. Webology
4(2), no. 41 (Juni 5). http://www.webology.ir/2007/v4n2/a41.html.
Springer, M., B. Dulabahn, P. Michel, B. Natanson, D. Reser, D. Woodward, en H. Zinkman. 2008. For the
Common Good:
The Library of Congress
Flickr Pilot Project. Oktober 30. http://www.loc.gov/rr/print/flickr_report_final.pdf.
Sterling, B. 2005. Order out of chaos: What is the best way to tag, bag, and sort data? Give it to the
unorganized masses. http://www.wired.com/wired/archive/13.04/view.html?pg=4.
Tonkin, E., E. M. Corrado, H. L. Moulaison, M. E. I. Kipp, A. Resmini, H. D. Pfeiffer, en Q. Zhang. 2008.
Collaborative and Social Tagging Networks. Ariadne 54. http://www.ariadne.ac.uk/issue54/tonkin-et-
al/.
Trant, J. 2004. Image Retrieval Benchmark Database Service: A Needs Assessment and Preliminary
Development Plan. Archives & Museum Informatics, Canada: 1-57.
---. 2006. Exploring the potential for social tagging and folksonomy in art museums: Proof of concept. New
Review of Hypermedia and Multimedia 12, no. 1: 83-105. doi:10.1080/13614560600802940.
Voss, J. 2007. Tagging, Folksonomy & Co - Renaissance of Manual Indexing? http://arxiv.org/abs/cs/0701072v2.
Wal, T. vander. 2007. Folksonomy. http://vanderwal.net/folksonomy.html.
Weinberger, D. 2005. Tagging and Why it Matters (Mei 13).
http://cyber.law.harvard.edu/sites/cyber.law.harvard.edu/files/07-WhyTaggingMatters.pdf.
Weller, K. 2007. Folksonomies and ontologies: two new players in indexing and knowledge representation. In ,
108-115. http://www.phil-fak.uni-
duesseldorf.de/infowiss/admin/public_dateien/files/35/1197280560weller009p.pdf.
Working Group on the Future of Bibliographic Control. 2008. On the Record: Report of The Library of Congress
Working Group on the Future of Bibliographic Control. Washington DC: Working Group on the Future
of Bibliographic Control, Januari 9. http://www.loc.gov/bibliographic-future/news/lcwg-ontherecord-
jan08-final.pdf.