Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1
ProjektseminarInformetrie
Katrin Scheibe & Wolfgang G. StockSS 2017
2
Studium 2014 oder später begonnen?Aktive Teilnahme (Anwesenheitspflicht)Projektarbeit (benotet) im Portfolio für I3 (empirische Arbeit, in Form eines wissenschaftlichen Artikels, ca. 4 – 6 Seiten, IMRaD-Format, APA-Zitierstil)
Studium vor 2014 begonnen?Aktive Teilnahme (Anwesenheitspflicht)Projektarbeit als BN (unbenotet) (empirische Arbeit, in Form eines wissenschaftlichen Artikels, ca. 4 – 6 Seiten, IMRaD-Format, APA-Zitierstil)
Nachweise
3
Modulhandbuch I3
Nur Hauptfach
4
Forschungsfelder der empirischen Informationswissenschaft / Web Science
Informetrie
InformationInformationsverhalten Informationssystem
NutzerforschungBibliometrie
(Szientometrie, Patento-metrie), Altmetrics
Social Media Metrics
Evaluationsforschung
Nomothetische Informetrie
5
Forschungsfelder der empirischen Informationswissenschaft / Web Science
HCI - Forschung
CH I
Human InteractionComputer
6
Welche Dokumenttypen bevorzugen deutsche Informations-wissenschaftler? (Friedländer, 2014)
Beispiel: Information
7
Wer sind die meistzitierten Informationswissenschaftler im Web of Science? (Friedländer, 2015)
Beispiel: Information
8
Welche sind die Top Posts der Facebook-Gruppe „Kerpener und Ex-Kerpener“ im Jahr 2014? (Stock, 2016)
Beispiel: Information
9
Auf welchen Social Media-Kanälen sind eGovernments von Weltstädten besonders erfolgreich? (Mainka, Hartmann, & Stock, 2015)
Beispiel: Information
10
Typen und Features von stadtbezogenen Apps (Mainka, Hartmann, Meschede, & Stock, 2015)
Beispiel: Information
11
Online-Gründe, jemanden auf Facebook zu entfreunden (Gashi & Knautz, 2016)
Beispiel: Informationsverhalten
12
Einschätzungen der Qualität von Facebook von Facebook-Standard-und -Nicht-Standard-Nutzern (Baran & Stock, 2015)
Beispiel: Informationsverhalten
13
Einfluss von Impression-Management auf Erfolg beim Crowdfunding bei Kickstarter (Lins, Fietkiewicz, & Lutz, 2016)
Beispiel: Informationsverhalten
14
Motive, den Live-Streaming Service YouNow zu nutzen (Scheibe, Fietkiewicz, & Stock, 2016)
Beispiel: Informationsverhalten
15
Rechtsverstöße bei Broadcasts auf YouNow (Honka, Frommelius, Mehlem, Tolles, & Fietkiewicz, 2015)
Beispiel: Informationsverhalten
16
Diagnosen auf Krankheiten über das Internet (Murugadas & Sizov, 2016)
Beispiel: Informationsverhalten
17
Selbsteinschätzung amerikanischer Bibliothekare bzgl. ihrer Ausbildung in Informationskompetenz (Henkel & Stock, 2016)
Beispiel: Informationsverhalten
18
Welche Städte der ölexportierenden Golfstaaten sind am weitesten auf ihrem Weg in die Wissensgesellschaft? (Gremm, Barth, & Stock, 2015)
Beispiel: Informationsverhalten
19
Theoretischer Rahmen zur Beschreibung und Bewertung von Informationssystemen (Schumann & Stock, 2014)
Beispiel: Informationssystem
20
Evaluation von Tag-Clustern im Vergleich zu Tag Clouds (Knautz, Soubusta, & Stock, 2010)
Beispiel: Informationssystem
21
Evaluation von Smart Home-Services in Songdo (Ilhan, Möhlmann, & Stock, 2015)
Beispiel: Informationssystem
22
Nomothetische Informetrie
23
Nomothetische Informetrie
Nomothetische Informetrie
• Konzentrationsgesetze– Zipfsches Gesetz: Verteilung von Worthäufigkeiten in
Texten– Lotkas Gesetz: Verteilung von Publikationen eines
Fachgebiets auf Autoren– Bradfordsches Gesetz: Verteilung von Artikeln eines
Fachgebiets auf Zeitschriften– Garfieldsches Gesetz: Verteilung von Zitationen auf
wissenschaftliche Zeitschriften• Gesetz der zeitlichen Verteilung
– Halbwertzeit: Zeit, nach der die Hälfte einer Literatur-menge nicht mehr benutzt wird
24
Nomothetische Informetrie
Zipfsches Gesetz• George Kingsley Zipf (1902 - 1950)
gegeben: Text (Artikel, Buch, ...)Auszählen der Häufigkeiten jedes WortesOrdnung der Wörter nach Häufigkeit (absteigend)
r * f = Cf = C : r
r =: Rangplatz des Wortesf =: Häufigkeit des WortesC =: Konstante (abhängig vom Text)
25
Nomothetische Informetrie
Zipfsches Gesetz
Beispiel: “Ulysses” (James Joyce)Wort auf Rang 10 kommt 2.653mal vor: C = 26.530Wort auf Rang 20 kommt 1.311mal vor: C = 26.220Wort auf Rang 1.000 kommt 26mal vor: C = 26.000
C (Ulysses) ~ 26.000
Das Gesetz gilt für Hochfrequenzworte, z.T. auch - je nach Text - für alle Worte eines Textes.
George K. Zipf: Human Behavior and the Principle of Least Effort. – Cambridge, MA: Addison-Wesley, 1949.
26
Nomothetische Informetrie
Lotkas GesetzAlfred J. Lotka (1880 - 1949)
gegeben: Fachgebiet mit umfassender Liste der Publikationen zum Fachgebiet (Biblio-graphie, Spezialdatenbank)Auszählen der Publikationsraten für alle AutorenSortieren der Autoren nach der Anzahl der Publikationen Zählen der Autoren mit gleichviel Publikationen
x * y = c oder y = c / x
x =: Anzahl der Publikationeny =: relative Häufigkeit der Autoren mit x Publikationenn, c =: Konstanten (je nach Fachgebiet) [n ~ 2]
n Alfred J. Lotka: The frequency distribution of scientific
productivity. – In: Journal of theWashington Academy of Sciences
16 (1926), 317-323.
n
27
Nomothetische Informetrie
Lotkas GesetzBeispiel: “Journal of Finance”, 1946-1980; insgesamt 1.844
Artikel)1.237 Autoren (67,1%) produzierten je 1 Artikel
295 Autoren (16,0%) produzierten je 2 Artikel140 Autoren (7,6%) produzierten je 3 Artikel63 Autoren (3,4%) produzierten je 4 Artikel41 Autoren (2,2%) produzierten je 5 Artikel
angenommen: n = 2(1 * 1) * 0,671 = 0,671(2 * 2) * 0,160 = 0,640(3 * 3) * 0,076 = 0,684 c ~ 0,6(4 * 4) * 0,034 = 0,544(5 * 5) * 0,022 = 0,550
M. Keenan: Report on the 1987membership survey. – In: Journal of
Finance 43 (1988), 767-777.
28
Nomothetische Informetrie
Lotkas Gesetz (geeicht auf 100 Autoren mit 1 Publikation)Publ.zahl (x) absolute Häufigkeit relative Häufigkeit (y) x2 * y
1 100 64,5% 0,6452 25 16,1% 0,6443 11,1 7,16% 0,6454 6,25 4,03% 0,6455 4 2,58% 0,6456 2,77 1,79% 0,6447 2,04 1,32% 0,6458 1,56 1,01% 0,6459 1,23 0,80% 0,645
10 1 0,645% 0,645
Σ ~ 155 Σ ~ 100%
rund 80%20%
80/20 - Faustregel
29
Nomothetische Informetrie
Lotkas Gesetz
Kreise: empirische DatenLinie: nach Theorie erwartet
Reduktion der Daten auf genau100 Autoren, die 1 Aufsatzpubliziert haben (n = 2)
Derek J. de Solla Price: Little Science, Big Science. –Frankfurt: Suhrkamp, 1974.
30
Nomothetische Informetrie
Bradfordsches GesetzSamuel Clement Bradford (1878 - 1948)
gegeben: Artikel eines FachgebietsZählen der Anzahl der Artikel pro ZeitschriftSortieren der Zeitschriften nach der Anzahl der ArtikelBildung von drei Mengen, die jeweils die gleiche Anzahl der Artikel enthaltendie Anzahl der Zeitschriften in den drei Zonen folgt der Formel
1 : n : n
n =: Konstante (“Bradford Multiplikator”)
2
31
Nomothetische Informetrie
Bradfordsches Gesetzdrei Zonen: Kern - Mitte - Rand
empirisches Beispiel:– Bradford (1934): Schmiermittel (395 Artikel in 164
Zeitschriften)• Kern: 8 Zeitschriften produzieren 110 Artikel• Mitte: die nächsten 29 Zs. produzieren 133 Artikel• Rand: die nächsten 127 Zs. produzieren 152 Artikel
8 : 29 : 127 = 1 : 3,625 : 15,875 ~ 1 : 4 : 16
Samuel C. Bradford: Sources of information on specific subjects. – In: Engineering 137 (1934), 85-86.
32
Nomothetische Informetrie
Garfieldsches GesetzEugene Garfield (geb. 1925)
gegeben: Referenzen aus Quellenzeitschriften der Reihen des ISI (multidisziplinär)Zuordnung von Zitationsraten zu ZeitschriftenSortierung der Zeitschriften nach ZitationsratenKonzentration wie bei Bradford-Zipf:75% aller Zitationen entfallen auf knapp 1.000 Zeitschriften; 84% auf ca. 2.000 ZeitschriftenPraktische Konsequenz: eine Datenbank, die einige Tausend Zeitschriften (nämlich die jeweils meistzitierten) auswertet, ergibt ein repräsentatives Abbild der Wissenschaft; hieran orientiert sich die Quellenauswahl bei SCI, SSCI, A&HCI
Eugene Garfield: The mystery of the transposed journal list – wherein Bradford‘s law of scattering is generalizedaccording to Garfield‘s law of concentration. – In: E.Garfield: Essays of an Information Scientist, Vol 1. –
Philadelphia: ISI Press, 1977, 222-223.
33
Nomothetische Informetrie
Garfieldsches Gesetz
Beispiel: Philosophie (Drei-Zonen-Einteilung wie Bradford)gegeben: 735 Referenzen (Jg. 1975); darin zitierte Zeitschriften: 223
Kern: 6 Zeitschriften (genannt in 245 Zitationen)Mitte: 23 Zeitschriften (genannt in 245 Zitationen)Rand: 194 Zeitschriften (genannt in 245 Zitationen)
also: 6 : 23 : 194 = 1 : 3,8 : 32,3 ~ 1 : 4 : 32 (erwartet: 1 : 4 : 16), demnach: sehr große Randzone
Kernzeitschriften:Journal of PhilosophyPhilosophical Review
AnalysisMind
Philosophy of SciencesAmerican Philosophical Quarterly
34
f (x)
x
f (x) = _____C
xa
Inverses Power Law
ca. 20%
ca. 80 %
Nomothetische Informetrie
Informetrie
35
Nomothetische Informetrie
Folgen alle Verteilungen von Informationen dem Power Law?
Distributions of relevance
00,10,20,30,40,50,60,70,80,9
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
rank
degr
ee o
f rel
evan
ce
informetric inverse logistic dichotomous
f(x) = C / xa
f(x) = e[-C‘(x-1)]b
a ~ 1 ... 2b ~ 3
36
Nomothetische Informetrie
Gesetz der zeitlichen Verteilung: HalbwertszeitAnalogie zum radioaktiven Zerfall
Die Halbwertszeit ist die Zeit, in der die Hälfte eines radioaktiven Stoffes in einen anderen Stoff zerfallen ist. Dieser Prozess ist zufallsabhängig; d.h. man weiß nicht, welches Atom zu welcher Zeit zerfällt. Beispiele für Halbwertszeiten:Uran-238: 4,5 Mrd. Jahre C-14: 5.730 JahreJod-131: 8 Tage
37
Nomothetische Informetrie
Gesetz der zeitlichen Verteilung: Halbwertszeit
gegeben: Zitationen / ReferenzenSortierung der Zitationen nach der ZeitZählen der Anzahl der Zitationen pro Jahr; Zählen der Gesamtanzahl der ZitationenMarkierung des Jahres, an dem die Hälfte (ein Viertel, ein Achtel usw.) der Zitationen erreicht wird
Gesetz: Die Halbwertzeiten sind (bei großen Zahlen) jeweils gleich.
38
Deskriptive Informetrie
39
Deskriptive Informetrie
Informetrie
InformationInformationsverhalten Informationssystem
NutzerforschungBibliometrie
(Szientometrie, Patento-metrie), Altmetrics
Social Media Metrics
Evaluationsforschung
40
Deskriptive Informetrie
Aspekt: Information in WTM-Dokumenten• Beschreibung von Dokumentmengen (auch große Mengen:
„Big data“): Bibliometrie (soweit Wissenschaft: Szientometrie; soweit Technik: Patentometrie)
– Werke eines Wissenschaftlers (Wie viel geschrieben? In welcher Zeit? Worüber? Welche Wirkung?)
– Artikel und Bücher von Angehörigen eines Instituts– Patente und Artikel eines Wirtschaftsunternehmens– Wissenschaftliche Zeitschriften (Wie viele Publikationen? Wie
viele unterschiedliche Autoren? Welche Wirkung?)– Themen (Wann zuerst aufgekommen? Wie verbreiteten sie
sich? Wie lange diskutiert? Welche Autoren?)
41
Deskriptive Informetrie
Aspekt: WTM-Information (Szientometrie/Patentometrie)• Rohdaten: Publikationen und Zitationen
– aus allgemeinwissenschaftlichen Datenbanken: Web of Science, Scopus
– aus Patentdatenbanken: Derwent World Patents Index, Patentscope, (Scopus)
– aus disziplinspezifischen Datenbanken• Recherche
– adäquate Suchargumente• Export / Download• Weiterverarbeitung der Daten
– reinigen– statistisch bearbeiten (Excel, SPSS)
42
Deskriptive Informetrie
Aspekt: Information in Social Media• Beschreibung von Dokumentmengen (auch große Mengen:
„Big data“): Social Media Metrics– Tweets
• Tweets pro Nutzer, Thema usw. in einer Zeiteinheit• Thema, Sentiment• Autoren (Follower, Followees)• Retweets
– Posts bei asynchronen SNSs• Posts pro Nutzer, Thema usw. in einer Zeiteinheit• Likes, Shares, Comments
– Broadcasts bei synchronen SNSs• Länge der Sendung• Anzahl der Zuschauer• Comments, Belohnungen, …
43
Deskriptive Informetrie
Aspekt: Social Media Informationen• Rohdaten
– aus Social Media Diensten • Microblogging (Twitter, Weibo)• asynchrone SNSs (Facebook, Vkontakte, LinkedIn, Xing)• synchrone SNSs (YouNow, Periscope, Ustream, Twitch)• Sharing Services (Videos: YouTube, Bilder: Flickr, Instagram)
• Application Programming Interface (API)– adäquate Suchargumente– Export / Download
• Weiterverarbeitung der Daten– reinigen– statistisch bearbeiten (Excel, SPSS)
44
Deskriptive Informetrie
Aspekt: Social Media Metriken, angewandt auf WTM-Informationen: Altmetrics
• Wird über wissenschaftliche Aktivitäten (Tagung, Artikel, …) bei Social Media berichtet?
• In welchen Disziplinen? Mit welchem Sentiment?
• Was misst überhaupt Altmetrics?
45
Deskriptive Informetrie
Deskriptive Informetrie / Aspekt: Nutzer• Beschreibung von Nutzern und ihrem Informationsverhalten:
– Wer nutzt gewisse Informationsdienste? (Alter, Geschlecht, soziale Gruppe, Herkunft, …)
– Warum nutzen sie die Dienste? (Motive)– Wieviel Zeit verbringen sie dort? – Sind sie ggf. abhängig? (problematisches Nutzerverhalten,
Internet„sucht“, Facebook„sucht“)– Was für Informationsinhalte kreieren und repräsentieren Nutzer?– Entstehen dabei juristische Probleme?– Wie suchen sie?– Wie belohnen sie andere Nutzer?– Nutzergruppenspezifisches Informationsverhalten
• Wissenschaftler• Patienten, …
46
Deskriptive Informetrie
Aspekt: Nutzer• Rohdaten
– Befragung• (Online-)Umfragen• qualitative Interviews
– Beobachtung• sehr einfach bei synchronen Social Media-Diensten
– Experimente (Aufgaben stellen; Situationen simulieren)• ggf. Eye-tracking, Aufzeichnen (Video)
– (Kurzfristige) Ethnographie / Fallforschung• Weiterverarbeitung der Daten
– reinigen– statistisch bearbeiten (Excel, SPSS)
47
Deskriptive Informetrie
Deskriptive Informetrie / Aspekt: Informationssystem• Beschreibung und Bewertung (Evaluation) von
Informationssystemen:– Welche Nutzer hat das System?– Wie nehmen die Nutzer die Qualität des Systems wahr?– Welche objektiven Qualitätskriterien erfüllt das System?– Wie akzeptieren Nutzer das System? Wann und unter welchen
Umständen verlassen sie es?– Wirken kulturelle oder politische Einflüsse auf die Nutzung des
Systems ein?– Gibt es Konfliktpotential bzgl. geltender Gesetze?– Wie steht das System im Kontext von Wettbewerbern da?– Wie hat es sich im Laufe der Zeit entwickelt?
48
Deskriptive Informetrie
Aspekt: Informationssystem• Rohdaten
– Beobachtung der Nutzer– Befragung der Nutzer
• (Online-)Umfragen, u. a. SERVQUAL• qualitative Interviews
– Befragung der Systemersteller• Customer Value Research
– Analysen durch Experten• Usability• Effektivität / Effizienz• Funktionalität• Grad an Gamification
• Weiterverarbeitung der Daten– statistisch bearbeiten (Excel, SPSS)
Informetrie 49
Wissenschaftliche Kommunikation
Informetrie 50
Wissenschaftliche KommunikationSzientometrie
– Vermessung der Wissenschaft, quantitative Analyse wissen-schaftlicher Institutionen
Wissenschaftliche Kommunikation– hier: Einschränkung der Szientometrie auf die quantitative
Analyse wissenschaftlicher Kommunikation und InformationWissenschaftsanalyse
– Beschreibung und Erklärung von Wissenschaft auf der Basis empirischer Erhebungen (falls diachronisch: Wissenschafts-geschichtsschreibung)
Wissenschaftsevaluation– Bewertung von Wissenschaft auf der Basis der
Wissenschaftsanalyse (auch komparativ vorgehend)Finalisierung der Wissenschaft
– Steuerung von Wissenschaft (etwa: durch Mittelverteilung) auf der Basis der Wissenschaftsevaluation
Informetrie 51
Wissenschaftliche Kommunikation
Wissenschaft: Grundlagenforschung, Technische Forschung, Konstruktives Design
Grundlagen-forschung
TechnischeForschung
KonstruktivesDesign
Produkt-innovationen
Prozeß-innovationen Pfeile: Informationsflüsse
Informetrie 52
Wissenschaftliche Kommunikation
Wissenschaft:Bereichswissen (Bsp.:Informationswirtschaft)
Informetrie 53
Wissenschaftliche Kommunikation
Die Forschung-Praxis-Lücken:• Forscher publizieren für Forscher• Praktiker publizieren (wenn
überhaupt) für Praktiker• Folge 1: Forschungsergebnisse
werden in der Praxis suboptimal genutzt
• Folge 2: Forscher interessieren sich nicht für Probleme in der Praxis
• Mögliche Lösung: "Evidenz-basierte Praxis"
Forschung
Praxis
SuboptimalerInformationsflussEvidenz-basierte
Praxis
Informetrie 54
Wissenschaftliche Kommunikation
Szientometrie: Der Ansatz von de Solla PriceWissenschaftsentwicklung: derzeit beobachtbar: exponentielles Wachstum (Zählbasis: # wiss. Zeitschriften; # Abstractzeitschriften)
Derek J. de Solla Price: Little Science, Big Science. – Frankfurt: Suhrkamp, 1974. – (Orig. 1963).
Informetrie 55
Wissenschaftliche Kommunikation
de Solla PriceZahl der Abstracts in vier Wissenschaftsgebieten(halblogarithmische Darstellung)Verdopplungszeiten: ca. 15 Jahre
Informetrie 56
Wissenschaftliche Kommunikation
de Solla PriceWachstum der wissenschaftlichen Manpower und der Gesamtbevölkerung der USA
Informetrie 57
Wissenschaftliche Kommunikation
de Solla PriceVerdopplungszeiten der Anzahl der Wissenschaftler– alle 10 Jahre (alle wissenschaftlichen Mitarbeiter)– alle 15 Jahre (Wissenschaftler mit Abschluss)– alle 20 Jahre (nur „Qualitätswissenschaftler“)
Gegenwartskonzentration der Wissenschaftler– 87,5% aller Wissenschaftler (seit Babylon) leben heute (also 7
von 8)– Vergleich: Gegenwartskonzentration aller Menschen: unter
5%– das Verhältnis der Gegenwartskonzentration von
Wissenschaftlern und Bevölkerung war immer so– ... und immer fühlten sich die Wissenschaftler überfordert: „zu
viele Bücher, zu viele Artikel!“ ...
Informetrie 58
Wissenschaftliche Kommunikation
de Solla PriceWeiterhin exponentielles Wachstum?– exponentielles Wachstum mit Verdopplungszeiten von ca. 15
Jahren führt dazu, dass irgendwann jeder Mensch Wissenschaftler wäre
– diese Behauptung ist unsinnig
– Folgerung: These des exponentiellen Wachs-tums ist falsch
– wahrscheinlicher: logistisches Wachstum
Informetrie 59
Wissenschaftliche Kommunikation
de Solla PriceReaktionsformen des logistischen Wachstums bei Annäherung an den Sättigungswert
Beispiel für Eskalation:Chemische Elemente
Informetrie 60
Wissenschaftliche Kommunikation
de Solla PriceAbfolge von Phasen in der globalen Wissenschaftsentwicklung
• LITTLE SCIENCEPrivatgelehrter, kleine Forschungslabors
• BIG SCIENCEGroßforschung, Teams
• NEW SCIENCEstabile Sättigung; Wissenschaft der „Wissensgesellschaft“
de Solla Price(1922 – 1983)
Informetrie 61
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Die institutionellen Imperative der Wissenschaft nach Robert K. Merton– „Das Ethos der Wissenschaft ist der gefühlsmäßig
abgestimmte Komplex von Werten und Normen, der für die Wissenschaftler als bindend betrachtet wird.“
– Grundfrage: Unter welchen Normen (oder institutionellen Imperativen) „funktioniert“ Wissenschaft optimal? (deshalb: „Funktionalismus“)
– Das Ethos ist nicht kodifiziert– es wird jedoch vom einzelnen Wissenschaftler
internalisiert und durch Sanktionen verstärkt– institutionelles Ziel der Wissenschaft:
Ausweitung gesicherten WissensRobert K. Merton: Science and Technology in a Democratic Order. – In: Journal of Legal and Political
Sociology 1 (1942), 115-126.
Informetrie 62
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Institutionelle Imperative– 1. Universalismus
• Wahrheitsansprüche hängen nicht von personalen oder sozialen Eigenschaften ihrer Protagonisten ab
• Wahrheitsansprüche werden mit Beobachtungen und mit bereits bestätigtem Wissen verglichen
• die Sozialstruktur, die die Wissenschaft umgibt, muss den Universalismus pflegen, z.B. keinen Druck auf Wissenschaftler ausüben, Talenten sollen Karrieren offen stehen; freien Zugang zu wissenschaftlichen Arbeiten gewähren
– 2. Kommunismus• allgemeines Eigentum an den Gütern der Wissenschaft• Eigentumsrechte beschränken sich auf Anerkennung• vollständige und offene Kommunikation; keine Geheimhaltung• verpönt: Privateigentum an wissenschaftlichen Ergebnissen
(aber: Patentwesen? Wissenschaftler in Privatunternehmen?)
Informetrie 63
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Institutionelle Imperative– 3. Uneigennützigkeit
• persönliche Interessen des Wissenschaftlers sind ausgeschlossen
• wechselnde Verantwortlichkeit für wissenschaftliche Ergebnisse
• Es gibt jedoch Konkurrenz in der Wissenschaft. Jeder möchte der erste sein, der ein bestimmtes Ergebnis publiziert (Priorität)
– 4. Organisierter Skeptizismus• Überprüfung wissenschaftlicher Ergebnisse durch andere
Wissenschaftler• unvoreingenommene Prüfung aufgrund empirischer und
logischer Kriterien
Informetrie 64
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Warum halten sich die Wissenschaftler an die Normen?– Ein soziales System ist eine stabile Folge von Interaktions-
mustern,• die um den Austausch eines Gutes organisiert• und von einer Menge Normen geleitet sind.
– Das Gut des Wissenschaftssystems ist die kompetente Reaktion auf (eigene wie fremde) Kreativität, ist Reputation.
– Das Wissenschaftssystem funktioniert nur darum, weil es sein Gut – die Reputation – optimal zirkulieren lässt.
Norman W. Storer: The Social System of Science. – New York: Holt Rinehart and Winston, 1972.
Informetrie 65
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Warum halten sich die Wissenschaftler an die Normen?– Kommunismus: ermutigt zu publizieren (sonst kann das
Gut ja gar nicht entstehen)– Organisierter Skeptizismus: sorgt für die Rückkopplung
durch Zitationen (so bekommt der Publizierende sein Gut)– Uneigennützigkeit hilft, dass der Wissenschaftler nur das
Gut der Wissenschaft und nicht andere Güter anstrebt
• Grundlagen wissenschaftlicher Kommunikation– Publikationen (das „Produkt“ des Wissenschaftssystems)– Zitationen (die „Währung“ des Wissenschaftssystems)
Informetrie 66
Wissenschaftliche Kommunikation
Outputindikatoren: Publikationen (wissenschaftliche Leistung) – Zitationen (wissenschaftliche Wirkung)– Was ist eine Publikation? Was ist eine Publikation?
Gegenstand und Einheit der wissenschaftlichen Leistung– Was ist eine Zitation? Was ist eine Zitation?
Gegenstand und Einheit der wissenschaftlichen Wirkung
Eugene Garfield: Citation Indexing – Its Theory and Application in Science, Technology, and Humanities. –New York [u.a.]: Wiley, 1979.
Blaise Cronin: The Citation Process. The Role and Significance of Citations in Scientific Communication. –London: Taylor Graham, 1984.
Blaise Cronin; Helen Barsky Atkins (Hrsg.): The Web of Knowledge. A Festschrift in Honor of Eugene Garfield. – Medford, NJ: Information Today, 2000. – (ASIS Monograph Series).
Wolfgang G. Stock: Publikation und Zitat. Die problematische Basis empirischer Wissenschaftsforschung. –Köln: FH Köln, 2001. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 29).
Informetrie 67
Wissenschaftliche Kommunikation
Publikationsrate– Zur Einstimmung: Welche Publikationsrate hat
Ludwig Wittgenstein?– Publikationen:
• Logisch-philosophische Abhandlung, 1921 als Aufsatz, 1922 (zweisprachig deutsch/englisch) als Buch
• Wörterbuch für Volksschulen• Leserbrief an Mind• Philosophische Untersuchungen 1952• später: diverse Neuausgaben, Publikation von Skripten,
mehrere Gesamtausgaben
Informetrie 68
Wissenschaftliche Kommunikation
Publikationen– Publikationsrate von Ludwig Wittgenstein:
• # Artikel = 1• # unselbständige Literatur = 2• # Bücher und unselbständige Literatur = 5• # Bücher und unselbständige Literatur bereinigt um
Doppelveröffentlichung = 4• # wissenschaftliche Bücher und unselbständige
Literatur = 2 (keine Doppelveröffentlichung, kein Leserbrief)
• # dokumentarische Bezugseinheiten (bei „Philosophische Untersuchungen“ kapitelweise) = 711
Informetrie 69
Wissenschaftliche Kommunikation
Ist 1 Buch = 1 Artikel in Fachzeitschrift = 1 Leserbrief = 1 Patent?– Dokumenttypen ggf. mit unterschiedlichen Gewichtungsfaktoren
versehen:• Monographie (Autor) – kapitelweise? – Auflage? / Monographie
(Herausgeber)• Artikel in wissenschaftlicher Zeitschrift (mit Peer Review) – Auflage?
– Impact Factor? – aber: Freifahrtenhypothese• Artikel in wissenschaftlicher Zeitschrift (ohne Peer Review)• Letter to the Editor• Hochschulschrift (Bachelor-, Master-, Diplomarbeit; Dissertation,
Habilitationsschrift) – Ansehen der Hochschule?• Rezension / Buchbesprechung• Patent (Gebrauchsmusterschrift; Offenlegungsschrift; Patentschrift)
– in wie vielen Ländern? – wichtige Länder?• Artikel in einer Tageszeitung – regional/überregional? – Auflage?
Informetrie 70
Wissenschaftliche Kommunikation
Freifahrtenhypothese– „Ein Artikel in einer prominenten Zeitschrift ist ‚wertvoller‘ als ein
Artikel, der woanders erscheint. Ein Artikel einer prominenten Zeitschrift wird im Schnitt häufiger zitiert als andere.“
• Nach Per Seglen stimmt die Hypothese in dieser allgemeinen Form nicht.
• Falsch ist der Schluss auf den Einzelfall. „Im Schnitt“ werden prominente Zeitschriften in der Tat häufiger zitiert.
• Verteilung der Zitationsraten von Artikeln einer Zeitschrift: typisch informetrisch, also linksschief. (Die meistzitierte Hälfte der Artikel wird 10mal so häufig zitiert wie die untere Hälfte.)
• Das Arbeiten mit dem arithmetischen Mittel ist also problematisch.Per O. Seglen: Die Evaluierung von Wissenschaftlern anhand des „journal impact“. – In: Peter Weingart,Roswitha Sehringer; Matthias Winterhager (Hrsg.): Indikatoren der Wissenschaft und Technik. Theorie,
Methoden, Anwendungen. – Frankfurt; New York: Campus, 1991, 72-90.
Informetrie 71
Wissenschaftliche Kommunikation
Autorenschaft– ein Autor – ein Dokument: in vielen Disziplinen nicht mehr zutreffend– in diversen Disziplinen: Mehrfachautoren (besonders ausgeprägt in
Hochenergiephysik und Biowissenschaften)• konkreter Beitrag der einzelnen Teammitglieder• Reihenfolge der Namensnennung• „Ehrenautoren“ (Namen, die genannt werden, obwohl die Person
nichts dazu beigetragen hat)• „Ghost Writer“ (Namen, die nicht genannt werden, obwohl die
Person etwas zum Artikel beigetragen hat)• „Hyperauthorship“ (Cronin: „to be an author is not necessarily to be
a writer“ – Co-Autor vs. Acknowledgment)Blaise Cronin: Hyperauthorship: A postmodern perversion or evidence of a structural shift in scholarly
communication practices? – In: Journal of the American Society for Information Science and Technology 52(2001), 558-569.
Informetrie 72
Autoren-schaft:
Beitrag der einzelnen Autoren?
9 Seiten.Über 200 Autoren
Informetrie 73
Wissenschaftliche Kommunikation
Wie Publikationsraten erfassen?– ein Autor / ein Werk: kein Zuschreibungsproblem– Mehrautorenwerke
• jeden Autor mit „1“ zählen (große statistische Probleme bei der Bildung von Aggregaten (etwa: Institut, Land), da für die Gesamtheit ein Wert > 100 herauskommt)
• Division durch Anzahl der Autoren (sagt zwar nichts über den faktischen Anteil aus, ist aber wenigstens statistisch okay)
– Dokumenttyp• nur jeweils genau einen Dokumenttyp vergleichen (etwa:
Zeitschriftenartikel, Patente)• nach Dokumenttyp gewichten
– Offen bleiben „unethisches Verhalten“ der Autoren sowie Acknowledgements
Informetrie 74
Wissenschaftliche Kommunikation
Publikationskennwerte– absolute Anzahl an Publikationen (pro Autor, Institution,
Stadt, Land, ...)• mögliche Probleme:
– Homonyme bei Autorennamen: „Schmitz, W.“– Homonyme bei Städte- bzw. Ländernamen: London
[England] – London, Ontario / Wales – New South Wales– Identifizierung einer Institution (Affiliation-Angaben sind
teilweise verstümmelt) – Wie fein gliedern? Ganze Univ., Institut, Abteilung?
– relative Anzahl an Publikationen (etwa: pro Jahr)– gewichtetes Maß an Publikationsaktivität– Kooperationsstärke (Anzahl an Co-Autoren aus
unterschiedlichen Instituten, Ländern usw.)
75
Wissenschaftliche Kommunikation
Zitationen / Zitationsanalyse
Eugene Garfield
„Vater“ der Zitationsindexierungund Gründer des ISI; später: Thomson Scientific; Teil von Thomson-Reuters; heute: Clarivate Analytics
(Eigentümer: Onex Corp. und Baring Private Equity Asia)
Informetrie 76
Wissenschaftliche Kommunikation
Zitationen und Referenzen
Variante 1:Fuß- oder Endnote
mit Mehrfachnennungderselben Literatur:
a.a.O., Ebd., wie Anm. X,idem, loc. cit., ...
Variante 2:Literaturverzeichnis
teilweise argverstümmelt
77
Wissenschaftliche Kommunikation
Zitationen und Referenzen
78
Wissenschaftliche Kommunikation
Selbstzitation („Inzest“)• von Autoren, Instituten, Zeitschriften, Ländern, ...• bedeutet, dass der Autor die eigenen Publikationen (die des eigenen
Instituts usw.) für einschlägig hält• es ist stets der Fall zu beachten, dass der Autor – außer den eigenen
Werken – wenig Zitierfähiges vorfindet– positiver Fall: Autor bearbeitet wissenschaftliches Neuland– negativer Fall: Autor arbeitet in einem Bereich, den außer ihm keiner
bearbeitet (da längst verlassen, als irrelevant erkannt, ...)
• die Rate der Autorenselbstzitation ist abhängig– von der Disziplin (hoch in Chemie und Physik; gering in der Medizin)– von der Zeit (höher zu Beginn der Zitationsgeschichte)– von der Person
79
Wissenschaftliche Kommunikation
Selbstzitation einer Gruppe (Zitationskartell)• Mitglieder einer informellen Gruppe (invisible college)
zitieren sich gegenseitig
• positiver Fall: gemeinsames Forschungsgebiet
• negativer Fall: man zitiert sich (nach Absprache) gegenseitig, um die eigene Zitationsrate zu erhöhen (Zitationskartelle sind nämlich – im Gegensatz zu Autorselbstzitationen – nur schwer zu erkennen); gilt als „unethisches“ Verhalten
80
Wissenschaftliche Kommunikation
Zitationsnorm• etwa: „Zitiere alles, was Du bei der Vorbereitung und der
Durchführung Deiner wissenschaftlichen Arbeit gelesen hast und zitiere nichts, was Du nicht selbst gelesen hast!“
• Wissenschaftler aus früheren Jahrhunderten kennen eine solche Norm nicht.
• außerhalb von Wissenschaft (sowie Technik und Recht) wird die Norm nicht angewandt (Bsp.: bei Tageszeitungen).
• Das Einhalten der Norm ist kaum erschöpfend zu kontrollieren. Nach MacRoberts & MacRoberts werden nur ca. 30% der eigentlich einschlägigen Publikationen zitiert (Brechen der Norm oder schlicht Unkenntnis?)
M.H.MacRoberts; Barbara R. MacRoberts: Problems of citation analysis. – In: Scientometrics 36 (1996),435-444.
Informetrie 81
Datenquellen bibliometrischer Studien
82
Datenquellen bibliometrischer Studien
Das „Institute for Scientific Information“ (ISI)• erstes Institut, das auf dem Gebiet der Zitationen in der
(akademischen) Grundlagenforschung (kommerziell) arbeitet• gegründet 1960 von Eugene Garfield; Hauptprodukte: Current
Contents (CC); Science Citation Index (SCI)• ab 1992 Teil des Thomson-Konzerns ; Clarivate Analytics• Datenbanken bei Hosts (u. a. DIALOG) und als „Web of Knowledge“
Tony Cawkell; Eugene Garfield: Institute for Scientific Information. – In: Information Services & Use 21 (2001), 79-86.
83
Datenquellen bibliometrischer Studien
– Web of Science• Science Citation Index Expanded (8.900 Zeitschriften; ab 1900)• Social Sciences Citation Index (3.300 Zeitschriften; ab 1900)• Arts and Humanities Citation Index (1.700 Zeitschriften; ab 1975)• Book Citation Index (10.000 Bücher pro Jahr; ab 2005)• Chinese Science Citation Index (1.200 Zeitschriften)• Conference Proceedings Citation Index (jährlich ca. 12.000
Konferenzen; ab 1990)• Derwent Innovations Index (ca. 16 Mio. Patentfamilien; ab 1963)• Data Citation Index (2013: ca. 2 Mio. Datensätze)• Current Chemical Reactions (1 Mio. Reaktionen), Index Chemicus (2,6
Mio. Verbindungen)• Fremdprodukte (Medline, INSPEC, …)
84
Datenquellen bibliometrischer Studien
Web of Science
• Grenzen:• ausgewertet werden beim Web of Science Artikel ausgewählter
Zeitschriften, ausgewählte Bücher, Beiträge in ausgewählten Proceedings und Forschungsdaten
• „ausgewählt“, also nicht „alle“• nicht zu unterschätzen: Tipp- bzw. OCR-Fehler (sowohl beim Autor
wie bei Thomson-Reuters)• ausgewertet werden bei Derwent Patentfamilien der Patent-
anmeldungen und -erteilungen der wichtigsten Patentämter der Welt
85
Datenquellen bibliometrischer Studien
Zitationskennwerte / Zitationsraten
Probleme mit ISI-Daten• die Namensansetzung NAME_INITIALEN VORNAME(N) (etwa:
Cohen J) produziert häufig Homonyme. Warum wird das so gemacht?
• Garfield:– 1960: nur 80 Zeichen auf der Lochkarte zur Verfügung– viele Autoren nennen in der By-Line nur die Initialen– „eigentlich“ speichert ISI Artikelangaben – und die sind exakt
Eugene Garfield; Wolfgang G. Stock: Citation consciousness. – In: Password Nr. 6 (2002), 22-25.
86
Datenquellen bibliometrischer Studien
Zitationskennwerte I: ZitationsratenBeispiel: Nobelpreisträger der Chemie (1950 bis 1967) und deren Zitationsraten (1961 bis 1975); fett: unter den Top 250 im SCI
Eugene Garfield: Citation Indexing – Its Theory and Application in Science, Technology, and Humanities. –New York [u.a.]: Wiley, 1979, 65.
87
Datenquellen bibliometrischer Studien
Zitationskennwerte II: Social Networks• Zitationsstrukturen. IIa. Bibliographic Coupling
A
Z
Y
X
B
„zitiert“
(Zitierende) Dokumente A und B sind bibliographisch gekoppelt, wenn die beidendieselben Dokumente(X, Y, Z) zitieren.
Michael M. Kessler: Bibliographic coupling between scientific papers. – In: American Documentation 14 (1963), 10-25.
Informetrie 88
Datenquellen bibliometrischer Studien
Zitationskennwerte II: Social Networks• Zitationsstrukturen. IIb. Co-Zitationen von Artikeln
A B
Y
X
Z(Zitierte) Dokumente A und B sind co-zitiert, wenn die beidenim Zitationsapparat zitierender Dokumente (X, Y, Z) gemeinsam vorkommen.
„zitiert“
Henry G. Small: Co-citation in scientific literature. – In: Journal of the American Society for Information Science24 (1973), 265-269. – Henry G. Small; Belver C. Griffith: The structure of scientific literature I: Identifying andgraphing specialties. – In: Science Studies 4 (1974), 17-30. – Belver C. Griffith; Henry G. Small; H.J.Stonehill;
S.Dey: The structure of scientific literature II: The macro- and micro-structure of science. – In ScienceStudies 4 (1974), 339-365.
Henry Small
89
Datenquellen bibliometrischer Studien
Zitationskennwerte II: Social Networks• Zitationsstrukturen. IIc. Autor-Co-Zitationen
A B
Y
X
Z(Zitierte) Autoren A und B sind co-zitiert, wenn die beiden Namenim Zitationsapparat zitierender Dokumente (X, Y, Z) gemeinsam vorkommen.
„zitiert“
Howard D. White; Belver C. Griffith: Author cocitation: A literature measure on intellectual structure. – In:Journal of the American Society for Information Science 32 (1981), 163-171.
Howard D. White
90
Datenquellen bibliometrischer Studien
Zitationskennwerte II: Social NetworksZitationsstrukturen. IId. Forschungsfronten
• basiert auf Co-Citations von Artikeln
• Schwellenwert 1: nur hochzitierte Artikel
• Schwellenwert 2: nur häufig co-zitierte Artikelpaare
• Forschungsfront: das entstehende Cluster (als Ganzes)
• Kern: diejenigen Artikel, die im Cluster vorkommen („bahnbrechende“ Arbeiten) – also: die zitierten Artikel
• Teil der Forschungsfront: diejenigen Artikel, die (durch ihre Referenzen) die Cluster bilden – also: die zitierenden Artikel
91
Datenquellen bibliometrischer Studien
Forschungsfront. Beispiel Essential Science Indicators (ESI)
92
Datenquellen bibliometrischer Studien
Forschungsfront. Beispiel: Collagen-Forschung
Henry G. Small: A co-citation model of a scientific specialty: A longitudinal study of collagen research. – In:Social Studies of Science 7 (1977), 139-166.
1970 1971
wenig Veränderungen
Informetrie 93
Datenquellen bibliometrischer Studien
Forschungsfront. Beispiel: Collagen-Forschung
1972 1973
ein zweites, neuesCluster entsteht
das alte Cluster,kaum verändert
nur das neuesCluster „überlebt“
Informetrie 94
Datenquellen bibliometrischer Studien
Forschungsfront. Beispiel: Collagen-Forschung
1974 Das neue Clusterwird größer und
bildet Sub-Cluster.Auch „alte“ (methodisch
orientierte) Artikelgehören wieder zurForschungsfront.
Abbild einer„wissenschaftlichenRevolution“ im Sinne
Thomas S. Kuhnsmit Mitteln der
Zitationsanalyse
95
Datenquellen bibliometrischer Studien
Zitationskennwerte III: Wissenschaftliche Wirkung.
– IIIa. Impact Factor
Welche Wirkung haben Artikel aus dem letzten und vorletzten Jahrgang einer akademischen Zeitschrift im Berichtsjahr?
– IIIb. Immediacy Index
Welche Wirkung haben Artikel aus dem laufenden Jahrgang im Berichtsjahr?
Beide Kennwerte sind ausschließlich für akademische Zeitschriften definiert.
96
Datenquellen bibliometrischer Studien
Journal Citation Reports (JCR)
Wolfgang G. Stock: JCR on the Web. Journal Citation Reports: Ein Impact Factor für Bibliotheken, Verlage undAutoren? – In: Password Nr. 5 (2001), 24-39.
97
Datenquellen bibliometrischer Studien
• Zitationsrate, ArtikelrateAnzahl der Zitationen in einem Berichtsjahr t, die die Zeitschrift Z nennen; Anzahl der Quellenartikel
98
Datenquellen bibliometrischer Studien
• Impact Factor IF. Quotient aus der Anzahl der Zitationen C der Quellenartikel S von Z in t und der Anzahl der Quellenartikel S von Z in den zwei vorangegangenen Jahren t-1 (S1) und t-2 (S2)
IF (Z;t) = C / (S(1) + S(2))
99
Datenquellen bibliometrischer Studien
• Berechnung des Impact Factor für „College & Research Libraries“ 1999– # Quellenartikel in 1998 S(1) = 37– # Quellenartikel in 1997 S(2) = 35– # Zitationen von 1998-er und 1997-er Artikeln
aus „Coll Res Lib“ in 1999 C=76
– IF(Coll Res Lib;1999) = 76 / 37+35 = 1,056
100
Datenquellen bibliometrischer Studien
• Beobachtungszeitraum von zwei Jahren zu kurz, methodisch begünstigt werden aktuelle Zeitschriften, benachteiligt alle anderen
• „Reife“ und „Niedergang“ von Informationen– (1) kurze Reife - kurzer Niedergang– (2) kurze Reife - langsamer Niedergang– (3) langsame Reife - kurzer Niedergang– (4) langsame Reife - langsamer Niedergang
• IF erkennt den Unterschied zwischen (1) und (2) nicht; die Fälle (3) und (4) werden gar nicht erfasst
• Lösungsvorschlag: zusätzliche Impact Factors einführen (5-Jahres-IF; 6-10-Jahres-IF, 10-Jahres-IF)
Wolfgang Glänzel; Urs Schoepflin: A bibliometric study of ageing and reception processes of scientific literature. –In: Journal of Information Science 21 (1995), 37-53.
101
Datenquellen bibliometrischer Studien
• Was heißt: Quellenartikel?– Welche Zitationen werden gezählt? ALLE– Welche Artikel werden gezählt? AUSWAHL– NUR „zitierbare“ Quellen (Originalartikel, technical notes, meeting
abstracts, Reviewartikel) werden als Artikel gezählt.– Übergangen werden alle anderen Dokumenttypen, obwohl diese
auch zitiert werden.– Dies treibt den IF derjenigen Zeitschriften nach oben, in denen viele
„andere“ Dokumenttypen erscheinen (die Zitationen werden im Zähler mitgezählt, die Quellen im Nenner nicht).
H.F.Moed; Th.N. van Leeuwen: Improving the accuracy of Institute for Scientific Information‘s journal impactFactors. – In: Journal of the American Society for Information Science 46 (1995), 461-467.
102
Datenquellen bibliometrischer Studien
• IF einzelner Dokumenttypen nach Moed und van Leeuwen:– Buchbesprechungen 0,03– Corrigenda 0,17– Diskussionsbeiträge 1,07– Editorials 0,53– Letters to the Editor 0,60– Meeting abstracts 0,10– Technical notes 2,43– Reviewartikel 7,28– Originalartikel 3,61– sonstige 0,05
• Durchschnitt 2,60• Durchschnitt ISI-Zählart 3,62
JCR
Quellen-artikel
103
Datenquellen bibliometrischer Studien
• Dokumenttypen– Reviewartikel erhalten im Durchschnitt einen doppelt so hohen
IF wie Originalartikel (7,28 gegen 3,61)– Zeitschriften, die bevorzugt Reviewartikel publizieren, werden
methodisch bevorzugt– Originalartikel berichten über Ergebnisse eigener Forschung
und Entwicklung; Reviewartikel fassen „nur“ bereits bekannte Ergebnisse zusammen. Entsprechend gelten Originalartikel als „wertvoller“
– ISI-Lösung: Angabe der Anteile Original- und Reviewartikel in den Source Data
104
Datenquellen bibliometrischer Studien
• Zeitschriften aus unterschiedlichen Erscheinungs-ländern haben im Durchschnitt andere IF– USA 1,58– Deutschland 0,79– Frankreich 0,39– Russland 0,21
• Erklärung A: USA haben viel mehr Zeitschriften in den JCR und sind deshalb überrepräsentiert (am Rande: EU hat mehr Titel in der Datenbank als USA)
• Erklärung B: die Wirkung amerikanischer Zeitschriften ist in der Tat höher
Guido van Hooydonk: Cost and citation data for 5399 scientific journals in connection with journal price-setting,copyright laws and the use of bibliometric data for project review. – In: Serials Librarian 27 (1995), 45-58.
105
Datenquellen bibliometrischer Studien
• Unterschiedliche Wissenschaftsdisziplinen haben signifikant unterschiedliche IF– alle SCI-Zeitschriften (Stichprobe v.Hooydonk) 1,059– Biowissenschaften 1,439– Ingenieurwissenschaften 0,416
• Vergleiche anhand der IF-Werte über Disziplingrenzen hinweg sind unzulässig.
• Lösung: Einführung eines „Normalisierungsfaktors“; Eichung am Durchschnitt; in den Beispielen:– Biowissenschaften IF * 0,736– Ingenieurwissenschaften IF * 2,546
• Für jede Zeitschrift muss der IF normalisiert werden.
106
Datenquellen bibliometrischer Studien
• Lesertyp (Scanlans Vermutung)– Zeitschriften, die vorwiegend akademische
Wissenschaftler ansprechen, haben i.d.R einen höheren IF als Zeitschriften, die eher Wissenschaftler in der Wirtschaft ansprechen
– Grund: beide Lesertypen lesen, aber nur Akademiker publizieren
– und: ohne Publikation keine Zitation– Lösung: offen (für Informationswissenschaft: widerlegt)
Brian D. Scanlan: Coverage by Current Contents and the validity of impacts factors: ISI from a journal publisher‘sperspective. – In: Serials Librarian 13 (1978) 2/3, 57-66.
107
Datenquellen bibliometrischer Studien
Impact Factor: Neue Indikatoren
• H-Index für Zeitschriften• Gewichtete Indikatoren (analog PageRank)
– Eigenfactor („eigenvector centrality“)– SCImago Journal Rank (basierend auf Scopus)
• Normalisierte Indikatoren– an Zitationen orientiert: z. B. Mean Normalized Journal Score (MNJS) /
CWTS Leiden– an Referenzen orientiert: z. B. Audience Factor oder Source
Normalized Impact per Paper (SNIP)
Haustein, S. (2012). Multidimensional Journal Evaluation. Analyzing Scientific Periodicals beyond theImpact Factor. Berlin, Boston, MA: De Gruyter Saur.
108
Datenquellen bibliometrischer Studien
Zitationskennwerte IV: VeralterungHalbwertszeit (half-life – median age)
– Cited Half-Life: Median des Alters der Zitationen. Wie lange bleiben die Ergebnisse einer Zeitschrift aktuell?
– Citing Half-Life:Median des Alters der Referenzen. Wie alt ist die zitierte Literatur einer Zeitschrift?
• Beim ISI ist die Halbwertszeit ausschließlich für akademische Zeitschriften definiert.
R.E.Burton; R.W.Kebler: The „half-life“ of some scientific and technical literature. – In:American Documentation 11 (1960), 18-22. – R.E.Burton; B.A.Green: Technical reports in physics literature. –
In: Physics Today 14 (1961) 10, 35-37.
109
Datenquellen bibliometrischer Studien
• Cited Half-Life: Zeitraum T, in den 50% aller Zitationen auf die Zeitschrift Z im Jahre t fallen
• Citing Half-Life: Zeitraum T(R), in den 50% aller Referenzen der Zeitschrift Z im Jahre t fallen
110
Datenquellen bibliometrischer Studien
• Berechnung der Halbwertszeit:– Berichtsjahr =: 1– {Gesamtmenge der Zitationen/Referenzen} : 2 = a– „kritisches Jahr“: Jahr in dem der Median der Zitationen/
Referenzen erreicht wird– „subkritisches Jahr“: Jahr vor dem kritischen Jahr: Y– kumulierte Anzahl der Zitationen/Referenzen am Ende des
subkritischen Jahres: b– kumulierte Anzahl der Zitationen/Referenzen am Ende des
kritischen Jahres: c
Half-Life T(Z,t) = Y + (a-b) / (c-b)
111
Datenquellen bibliometrischer Studien
112
Datenquellen bibliometrischer Studien
Summe bis 1992: b=207
Summe bis 1991:c=241
a = 446 : 2 = 223
Subkritisches Jahr
113
Datenquellen bibliometrischer Studien
Cited Half-Life von „Coll Res Libr“ 1999• Gesamtzahl der Zitationen von „Coll Res Libr“ in 1999 ist
446; demnach a = 223• subkritisches Jahr: 1992; demnach Y = 8• Kumulation der Zitationen bis zum Ende des subkritischen
Jahres (1992) b = 207• Kumulation der Zitationen bis zum Ende des kritischen
Jahres (1991) C = 241
T(Coll Res Libr;1999) = 8 + (223-207) / (241-207)= 8 + 16/34 = 8,471
114
Szientometrie
Beispielhafte Ansätze und Ergebnisse der Bibliometrie
115
Szientometrie
deskriptive Informetrie der Information: Aufspüren von neuen Informationen in Datenbanken („Knowledge Mining“)
• Rangordnungen• Zeitreihen• Social Networks• Informationsfluss-
analysendabei – soweit möglich: Vergleich der beschriebenen Verteilungen mit den (nach den informetrischen Gesetzen) erwarteten
116
Szientometrie
• Rangordnungen– Fragestellung: Welches sind die Top-X-Items in einer
Dokumentenmenge?
– Theoretische Basis: Konzentrationsgesetze
– Vorgehen:• Suche nach allen Datensätzen zum Thema• Rangordnung zur gewünschten Ausprägung• Ausgabe der “Hitparade” bis Platz X
– Beispiel 1: Welche Unternehmen sind in der FuE bei Verpackungsmaschinen führend?
117
Szientometrie
Rangordnung der Unternehmen nach Patenten bei Verpackungsmaschinen
Rang absolute H. relative H. Unternehmen1 170 0,74 % Focke & Co GmbH & Co2 153 0,66 % Grace & Co3 126 0,55 % Robert Bosch GmbH4 105 0,45 % Packaging Filling Equip.
N = 22.867 Patentfamilien in der IPC-Unterklasse B65B (nebst aller Unter-begriffe)N’ = 7.448 (unterschiedliche) Unternehmen mit mindestens einem Patent in B65B
118
Szientometrie
• Rangordnungen– Beispiel 2: Deutschsprachige Informations-
wissenschaftler nach Publikations- und Zitationsraten
119
Szientometrie
• Informetrische Zeitreihen– Fragestellung: Wie entwickelt sich ein Aspekt einer
Dokumentmenge im Laufe der Zeit?
– Vorgehen:• Suche nach allen Datensätzen zum Thema• Ausgabe der Inhalte des Feldes “Jahrgang” oder
„Datum“ (mit Angabe der Anzahl der DE)• graphische Aufbereitung als Zeitreihe
(Tabellenkalkulationsprogramm)
– Beispiel 1: Wie viele Patente für Verpackungsmaschinen haben die führenden Unternehmen pro Jahr zwischen 1981 und 1993 angemeldet?
120
Szientometrie
Patentaktivitäten der führenden Unternehmen bei Verpackungsmaschinen
0
10
20
30
40
50
60
70
80
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
Pate
ntan
mel
dung
en p
ro J
ahr
BoschFockeGrace
121
Szientometrie
• Informetrische Zeitreihen– Beispiel 2: Wie hat sich der Output der Informations-
wissenschaft in den letzten Jahren entwickelt?
122
Szientometrie
• Social Networks / ungerichtete Graphen– Fragestellung: Gibt es in einer Dokumentenmenge
zusammengehörige Komplexe? Bsp.: kooperierende Autoren oder Institute; gemeinsam auftretenden Themen; gemeinsame Referenzen oder Zitationen
– Vorgehen:• Suche nach allen Datensätzen zum Thema• Auswertung der passenden Felder• Aufbereitung als Netzwerkgraph
– Beispiel: Wie hängen die Forschungsthemen der Krones AG im Bereich der Etikettiermaschinen zusammen?
123
Szientometrie
Thematisches Cluster der Artikel von Krones-Mitarbeitern im Bereich der Etikettiermaschinen
(im Bild der Deskriptoren der Datenbank DOMA)
124
Szientometrie
• Informationsflussgraph / Gerichtete Graphen
– Fragestellung: Fließen innerhalb einer Dokumentenmenge Informationen (welche?, wieviele?) von A nach B?
• Gerichtete Graphen: Zitationen, Retweets, Likes/Shares/Comments, Downloads
• Graphische Aufbereitung als Informationsflussgraph
– Beispiel: Woher stammen die Technologieinformationen der Krones AG? Wohin fließen die Technologieinformationen von Krones?
125
Szientometrie
Wissensimport und -export bei der Krones AG (im Bild von Derwent World Patents Index bei Orbit)
126
PatentometrieBeispielhafte Ansätze und Ergebnisse der
Bibliometrie
127
Patentometrie
Leistung und Wirkung in technischen Disziplinen• Leitindikatoren:• (1) Patente
– Anmeldungen– Auslandsanmeldungen– Patenterteilungen im Inland– Patenterteilungen im Ausland
• (2) Referenzen in Patenten– Referenzen auf andere Patente– Referenzen auf wissenschaftliche Literatur
• (3) Zitationen von PatentenFrancis Narin: Patent bibliometrics. – In: Scientometrics 30 (1994), 147-155.
Francis Narin; D.Olivastro: Technology indicators based on patents and patent citations. – In: A.F.J.van Raan(Hrsg.): Handbook of Quantitative Studies of Science and Technology. – Amsterdam: Elsevier Science,
1988, 465-507.
128
Patentometrie
Leistung und Wirkung in technischen Disziplinen• Wissenschaftsbindung der Technik• Anzahl der Nicht-Patent-Referenzen in Patenten (NPL-
Referenzen)• Je höher die durchschnittliche Zahl der NPL pro Patent, desto
höher ist die Wissenschaftsbindung der jeweiligen Menge von Patenten
• Wissenschaftsbindung– technische Disziplinen– Länder– Unternehmen
Hariolf Grupp; Ulrich Schmoch: Wissenschaftsbindung der Technik. – Heidelberg: Physica, 1992.
129
Patentometrie
Leistung und Wirkung in technischen Disziplinen• Wissenschaftsbindung der Technik: USA versus Deutschland
Wissenschaftsbindung überWeltdurchschnitt
Wissenschaftsbindung unterWeltdurchschnitt
Informetrie 130
Patentometrie
Leistung und Wirkung in technischen Disziplinen
• Wissenschaftsbindung von Disziplinen (Abweichungen vom Durchschnitt aller Disziplinen. Quelle: Europäisches Patentamt, Patentanmeldungen 1989 – 1992)
Ulrich Schmoch: Indicators and the relations between science and technology. – In: Scientometrics 38 (1997),
103-116.
131
Patentometrie
Informetrische Indikatoren der Patentliteratur
Wichtigste Institution: The Patent Board. Früher: CHI Research, Inc. Patentanalysen von börsennotierten Unternehmen, Städten und Ländern
Francis Narin: Tech-Line Background Paper. – Haddon Heights, NJ: CHI Research, 1999. –Anthony F. Breitzman; Francis Narin: Method and apparatus für choosing a stock portfolio, based on
patent indicators. – Patent Nr. US 6,175,824. – Priorität: 14.7.1999. – Patentinhaber: CHI Research, Inc.
Francis Narin
President CHI (1968 – 2004)
132
Patentometrie
Informetrische Indikatoren der Patentliteratur• Gibt es einen Zusammenhang zwischen Patentindikatoren
und dem Börsenwert eines Unternehmens?• Wissenschaftsbindung
der Patente korreliert mit Börsenwert
• Citation Impact korreliert mit Börsenwert
133
Patentometrie
Informetrische Indikatoren der Patentliteratur• Anzahl der (erteilten) Patente eines Unternehmens in einem
Zeitintervall (etwa: 5 Jahre)• jährliches Wachstum der Anzahl der Patente (in %)• Voraussetzung: Identifikation des Unternehmens
134
Patentometrie
Informetrische Indikatoren der Patentliteratur• Zitationen pro Patent: Zitationen, die ein Patent eines
Prioritätsjahres im Laufe seiner Geschichte anhäuft (empirisches Ergebnis: ein „durchschnittliches“ us-amerikanisches Patent hat nach 6 Jahren rund 5 Zitationen in der US PTO-Datenbank)
• Anzahl der Zitationen eines Patentes pro Jahr: Pioniere, Ehren-halle und historische Relevanz
135
Patentometrie
Informetrische Indikatoren der Patentliteratur• Current Impact Index (CII) eines Unternehmens: Anzahl der
Zitationen auf Patente eines Unternehmens (mit Priorität aus den letzten 5 Jahren) im Berichtsjahr, relativiert auf die durchschnittliche Zitationsrate einer Disziplin (1 bedeutet demnach: genau wie der Durchschnitt; 2: doppelt so viele Zitationen wie der Durchschnitt; ½: die Hälfte des Durchschnitts)
• Bestimmungswerte: – (1) Anzahl der Patente eines Unternehmens sowie der Disziplin in den
Jahren t-1, t-2, ..., t-5– (2) Anzahl der Zitationen im Jahr t auf die Patente unter (1)– (3) durchschnittliche Anzahl der Zitationen pro Patent in t für das
Unternehmen ZR(U) und für alle Patente der Disziplin ZR(D) in den Jahren t-1, t-2, ..., t-5;
– (4) Quotient Q = ZR(U) : ZR(D) (für die 5 Jahre) – (5) gewichtete Summe der Anzahl der Patente in einem Jahr mal Q, geteilt
durch die Summe der Anzahl der Patente über die 5 Jahre
136
Patentometrie
Current Impact Index (CII) eines Unternehmens. Beispiel
Schritt 1
Schritt 2
137
Patentometrie
Current Impact Index (CII) eines Unternehmens. Beispiel
Schritt 3
Schritt 4
Schritt 5
138
Patentometrie
Informetrische Indikatoren der Patentliteratur
• Technische Stärke eines Unternehmens:
Produkt aus der Anzahl der Patente in einem Jahr mit dem Current Impact Index dieses Jahres
139
Patentometrie
Informetrische Indikatoren der Patentliteratur
• Halbwertszeit der Zitationen von Patenten in anderen Patenten („Technology Cycle Time“ TCT). Beispiele (US PTO) für Disziplinen:– Telecommunications 5,7– Computers and Peripherals 5,8– Semiconductors and Electronic 6,0– ...– Wood and Paper 12,3– Machinery 12,3– Aerospace and Parts 13,2
140
Patentometrie
Informetrische Indikatoren der Patentliteratur• Wissenschaftsbindung der Technik eines Unternehmens
(„Science Linkage“)durchschnittliche Anzahl der Referenzen auf wissenschaftliche Literatur bei den Patenten eines Unternehmens. Beispiele (US PTO) für Disziplinen:– Biotechnology 14,4– Pharmaceuticals 7,3– Agriculture 3,3– Chemicals 2,7– Medical Electronics 2,2– ...– Machinery 0,1– Motor Vehicles and Parts 0,1
141
Patentometrie
Informetrische Indikatoren der Patentliteratur
• Wissenschaftsstärke eines Unternehmens („Science Strength“ SS)Produkt aus der Anzahl der Patente eines Unternehmens und der durchschnittlichen Wissenschaftsbindung
142
Patentometrie
Beispiel: IBM (1990 – 1999)
143
Informationsverhalten
Nutzerforschung
144
Informationsverhalten
• „Informationsverhalten“ (information behavior): Gesamtheit menschlichen Verhaltens beim Umgang mit Informationen
• „Informationsproduktionsverhalten“ (information production behavior): Informationsverhalten beim Kreieren und Repräsentieren von Informationen
• „Informationsrezeptionsverhalten“ (information reception behavior): Verhalten beim Rezipieren von Informationen
• Sonderformen im Kontext mit Information Retrieval:– „Informationssuchverhalten“ (information seeking behavior):
Informationsverhalten beim Suchen nach Informationen (egal, wo)
– „Informationsrechercheverhalten“ (information searching behavior): Verhalten beim Suchen in einem konkreten System (etwa: Gebrauch Boole‘scher Operatoren)
145
Informationsverhalten
• Medien- und Informationsverhalten: Lasswell-Formel
– Who Says
– What
– In Which Channel
– To Whom
– With What Effect?
• orientiert vor allem am SenderHarold Dwight Lasswell
146
Informationsverhalten
• Uses and Gratification Theory– Zuschauer werden als aktiv wahrgenommen
– Zuschauer verfolgen Ziele
– Motive, Informationen bzw. Medien zu konsumieren, folgen der Erwartung von Belohnungen
– Medien sind im Wettbewerb um die Zuschauer
– Belohnungen:• Information
• Unterhaltung
• Sozialisieren
• Selbstdarstellung Elihu Katz (1926 -)
147
Informationsverhalten
• Informationsverhalten bei Social Media
148
Informationsverhalten
• Informationsverhalten bei asynchronen Social Network Services
Writing a post
Post: Text, image,video
Post: Text, image,video
Reading the post
Liking, sharing, commenting the post
Number of likes
Writing a post;answering comments
149
Informationsverhalten
• Informationsverhalten bei synchronen Social Network Services
Broadcasting live
Live stream Live stream
Watching the broadcast
Chatting, giving hearts, gifts
Level, reputation
Broadcasting live, reacting on chats
Coins, bars
150
Informationsverhalten
Informationsverhalten. Erhebungstechniken
• Interview• Fragebogen• Beobachtung• Dokumentenanalyse• Selbstaufschreibung• Logfile-Analysen
151
Informationsverhalten
Interview• i.d.R.:
halbstandar-disiert
• mit Leitfaden• angestrebt:
qualitative Auswertung
Götz Schmidt: Methode und Techniken der Organisation. – Gießen: Verl. Dr. Götz Schmidt, 12. Aufl., 2001.
152
Informationsverhalten
Interview mit Leitfaden
Ablauf
Philipp Mayring: Einführung in die qualitative Sozialforschung. – Weinheim: Beltz, 5.Aufl., 2002.
153
Informationsverhalten
Interview• Autoritätsanspruch• häufigste Form: neutrales Interview
Quelle: Schmidt
154
Informationsverhalten
Interview• Wo? Interviewort
in vertrauter Umgebung des Befragten (Arbeitszimmer, Besprechungsraum, ...)
• Wann? Interviewzeitnach Vereinbarung (wann halt beide Parteien Zeit haben)
• Wie lange?½ - 2 Stunden – kann beträchtlich schwanken
• Wer? Interviewernur geschulte Interviewer – mit Fachkenntnissen – soziale Fertigkeiten (Schaffen gelöster Gesprächsatmosphäre)– Kompetenz in der Sache (bei Rückfragen)
155
Informationsverhalten
Interview• Wen? Die Interviewten (Experten / Laien)
– Repräsentative Stichprobe (10 … 20 Personen)– Stichprobe so groß wie möglich: um Aussagekraft zu erhöhen– Stichprobe so klein wie möglich: um Kosten zu sparen
• Aufzeichnung des Interviews– Notizen im Leitfaden (Fragebogen) während des Interviews– danach: Kurzprotokoll– Aufzeichnung des Gespräches auf Band (vorher Einver-
ständnis einholen)• kann problematisch sein, wenn Probanden von Aufzeichnungs-
geräten verunsichert werden• wäre aber nötig wegen wiederholter Abspielmöglichkeit
– Transkribierung
156
Informationsverhalten
Interview: Fragen• Aufbau des Interviews
– nur solche Fragen, die nicht auch auf anderem Wege erfasst werden könnten
– keine Fragen wiederholen– Fragen klar und unmissverständlich formulieren– vom Allgemeinen zum Besonderen– bei Antwortvorgaben: sind diese angemessen?– ggf. Filterfragen (Bedingungen)– enthält das Interview genügend Abwechslung (Motivation der
Befragten)?– können verzerrte Antworten auftreten?– Achtung: Fragen können „ausstrahlen“ (Beispiel: Haben Sie bei der
Einführung von X mitgewirkt? Antwort: ja. Nächste Frage: Finden Sie X innovativ? Antwort: ??)
157
Informationsverhalten
Interview: Auswertung• Ausgang: Transkript des Interviews• bei halb-standardisiertem Interview:
– Kategorien sind bekannt (Struktur des Leitfadens)– Aussagen zu den einzelnen Kategorien bündeln
• bei anderen Interviewformen (vor allem: beim narrativen Interview):– Content-Analyse zur Bildung von Kategorien (min. 2 Forscher
kodieren getrennt voneinander); Code-Buch erstellen (ggf. iterativ)
– Aussagen zu den einzelnen Kategorien bündeln• Ziel: aus den einzelnen Daten Hypothesen bzw. theoretische
Aussagen ableiten („grounded theory“)
158
Informationsverhalten
Fragebogen
• eignet sich u.U. für die Befragung einer homogenen Gruppe
• erfordert gute Strukturierbarkeit der Fragen
• Fragen müssen selbsterklärend sein
• angestrebt: quantitative Auswertung
159
Informationsverhalten
Fragebogen• Vorgehen:
– Pretest (5 … 10 Personen)
– Fragebogen auf Papier/E-Mail: Adressliste vorhanden (Anschreiben - Verschicken - Ausfüllanweisung - rücklauf-steigende Maßnahmen bei Briefen: frankierter Rückumschlag, Sonderbriefmarke, ...)
– digitaler Fragebogen (z. B. UmfrageOnline): Adressliste unbekannt; Verteilung über digitale Kanäle (z.B. Facebook oder Foren –allerdings problematisch, da nicht repräsentativ)
– Rücklauf (telefonisches / schriftliches Erinnern); mind. 100 komplett ausgefüllte Fragebögen, besser mehr als 1.000
160
Informationsverhalten
Umfragewerkzeug
161
Informationsverhalten
Fragebogen: Fragearten: offene / geschlossene Fragen
Quelle: Fank
162
Informationsverhalten
Fragebogen: Fragearten: Rangfragen
163
Informationsverhalten
Fragebogen: Fragearten: Hypothetische Situation
164
Informationsverhalten
Fragebogen: Kontrollfragen
– Variation einer gleichen Frage an unterschiedlichen Stellen im Fragebogen
– möglicher Vorteil: Überprüfung der Wahrheit der Antwort
– großer Nachteil: Verwirrung, Misstrauen
– abzuraten!
165
Informationsverhalten
Fragebogen: Skalen bei geschlossenen Fragen (Likert-Skala)– gerade Anzahl von Antwortoptionen (4, 6, 8, 10 Optionen):
zwingt zu positiven bzw. negativen Antworten
– ungerade Anzahl von Antwortoptionen (3, 5, 7 Optionen): lässt einen neutralen Wert in der Mitte zu
166
Informationsverhalten
Auswertung von Daten auf einer Likert-Skala: Mittelwerte und Streuungsmaße– eigentlich: Ordinalskala
• Auswertung: Median / Interquartilsabstand
– wenn die Abstände zwischen den Zahlenwerte gleich groß sind: Intervallskala
• Auswertung: arithmetisches Mittel*, Standardabweichung, Korrelationen
• *: arithmetisches Mittel: nur bei annähernder Normalverteilung der Einzeldaten; auf Schiefe überprüfen; ggf. Kolmogorow-Smirnow-Test
167
Informationsverhalten
Auswertung von Daten auf einer Likert-Skala– Normalverteilung: arithmetisches Mittel darf berechnet werden
168
Informationsverhalten
Auswertung von Daten auf einer Likert-Skala– Wenn keine Normalverteilung vorliegt: arithmetisches Mittel darf
NICHT berechnet werden (aber Median und Modus)
169
Informationsverhalten
Test auf Unabhängigkeit zweier Stichproben zum selben Merkmal: Student‘s t-Test
Beispiel: Bestehen signifikante Unterschiede zwischen der Intelligenz von Männern und Frauen?
pro Stichprobe: min. 30 (besser: 50) Fälle
170
Informationsverhalten
Zusammenhang zwischen zwei Merkmalen: Korrelation nach Pearson
Beispiel: Hängen Intelligenz und Körpergröße zusammen?
Vor.: intervallskalierte Daten
171
Informationsverhalten
Konsistenz einer Skala– Messen unterschiedliche Items (e1, …, ek) jeweils T?
– Cronbachs Alpha (Korrelation der Komponenten)
172
Analyse und Evaluationvon Informationssystemen
173
Analyse und Evaluation von Informationssystemen
Aufgabe:Messung der Qualität von IS
Ziel:Verbesserung der IS
Methodenbündel aus:• Information Systems Research (Wirtschaftsinformatik)• Marketingforschung• Wissensmanagement• Evaluationsforschung für Retrievalsysteme
174
Analyse und Evaluation von Informationssystemen
Technology Acceptance Model
Davis, F.D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of informationtechnology. MIS Quarterly, 13(3), 319-339.
175
Analyse und Evaluation von Informationssystemen
Technology Acceptance Model
Adams, D.A., Nelson, R.R., & Todd, P.A. (1992). Perceived usefulness, ease of use, and usage ofinformation technology. A replication. MIS Quarterly, 16(2), 227-247.
später hinzugefügt:
Vertrauen (E-Commerce)
Spaß (Social Media)
176
Analyse und Evaluation von Informationssystemen
Unified Theory of Acceptance and Use of Technology (UTAUT)
Venkatesh, V., Morris, M. G., Davis, G. B., & Davis, F. D. (2003). User acceptance of information technology: Toward a unified view. MIS Quarterly, 27(3), 425-478.
177
Analyse und Evaluation von Informationssystemen
Model of Adoption of Technology in Households (MATH)
Brown, S. A., & Venkatesh, V. (2005). Model of adoption of technology in households: A baseline model test and extension incorporating household life cycle. MIS Quarterly, 29(3), 399–426.
178
Analyse und Evaluation von Informationssystemen
IS Success Model
DeLone, W., & McLean, E. (2002). The DeLone and McLean model of information systems success.A ten-year update. Journal of Management Information Systems, 19(4), 9-30.
Informetrie 179
Analyse und Evaluation von Informationssystemen
Knowledge Management Success Model
Jennex, M.E., & Olfman, L. (2006). A model of knowledge management success. International Journalof Knowledge Management, 2(3), 51-68.
Informetrie 180
Analyse und Evaluation von Informationssystemen
181
Analyse und Evaluation von Informationssystemen
Objektive Qualität des InformationssystemsEffektivität / Effizienz
• Effektivität: Die richtigen Dinge tun– Macht ein IS die richtigen Dinge? Für was ist es überhaupt
gut?– Bei Retrievalsystemen: Recall und Precision
• Effizienz: Die Dinge richtig tun– Bei IS i.d.R.: Schnell sein
182
Analyse und Evaluation von Informationssystemen
Effektivität von Retrievalsystemen: Recall / Precision– Mengentheoretische Betrachtung (A: relevante Dokumente;
B: Dokumente in Treffermenge)
C.J. van Rijsbergen: Information Retrieval. – 2nd. Ed. –London; Boston: Butterworth, 1979.
Treffer
FalloutVerlust
Ballast
183
Analyse und Evaluation von Informationssystemen
Effektivität: Die „klassischen“ Kennwerte zur Bewertung von Retrievalsystemen– Haben wir alle Datensätze gefunden, die
handlungsrelevantes Wissen beinhalten? (Vollständigkeit; Recall)
Recall R = a / (a + c)– Haben wir nur solche Datensätze gefunden?
(Genauigkeit, Precision)Precision P = a / (a + b)
a =: gefundene relevante Trefferb =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast)c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden
Gerard Salton; Michael J. McGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. –Hamburg [u.a.]: McGraw-Hill, 1983. – Kap. 5: Die Bewertung von Retrievalsystemen, 167-210.
Salton
184
Analyse und Evaluation von Informationssystemen
Das Effektivitätsmaß von v.Rijsbergen– E: Effektivität; R: Recall; P: Precision– α: Wert zwischen 0 und 1– α = 0 : Effektivität wird auf Recall (1-R) reduziert– α = 1 : Effektivität wird auf Precision (1-P) reduziert– α = ½ : Effektivität beruht ausgewogen auf R und P
van Rijsbergen
E ist zwischen 0 (beste Effektivität) und 1 (unendlich schlechte Effektivität) definiert.
185
Analyse und Evaluation von Informationssystemen
Recall/Precision bei Systemen mit Relevance Ranking– Definition eines Cut-off-Wertes X (etwa: X=25, d.h. die
Top 25 Treffer)– Precision
• rangspezifische Precision (Wie groß ist die Precision auf Rang 1, Rang 2 usw.?): P@n
• rangunabhängige Precision (Wie groß ist die durchschnitt-liche Precision bis zum Cut-off-Wert X?)
• MAP (Mean Average Precision)• Problemfall: a = 0. Wie groß ist die Precision?
wenn a=0 und c=0, dann gilt P = 1wenn a=0 und c>0, dann gilt P = 0
– Recall hier stets: Wie groß ist der durchschnittliche Recall bei einem Cut-off-Wert X?
186
Analyse und Evaluation von Informationssystemen
MAP (Mean Average Precision)
Ranking für Query 1 (insgesamt 5 relevante Dok.)Rang 1 2 3 4 5 6 7 8 9 10r/nr r nr r nr nr r nr nr r rRecall 0,2 0,2 0,4 0,4 0,4 0,6 0,6 0,6 0,8 1Prec. 1,0 0,5 0,67 0,5 0,4 0,5 0,43 0,38 0,44 0,5Average Precision: (1,0 + 0,67 + 0,5 + 0,44 + 0,5) / 5 = 0,62
Ranking für Query 2 (insgesamt 3 relevante Dok.)Rang 1 2 3 4 5 6 7 8 9 10r/nr nr r nr nr r nr r nr nr nrRecall 0 0,33 0,33 0,33 0,67 0,67 1 1 1 1Prec. 0 0,5 0,33 0,25 0,4 0,33 0,43 0,38 0,33 0,3Average Precision: (0,5 + 0,4 + 0,43) / 3 = 0,44
Mean Average Precision: (0,62 + 0,44) / 2 = 0,53
187
Analyse und Evaluation von Informationssystemen
Absoluter und relativer Recall– absoluter Recall: Problemfall der Formel ist c. Woher
weiß ich, was ich NICHT gefunden habe, was aber relevant wäre? Der absolute Recall kann nur bei kleinen überschaubaren Datenbasen berechnet werden.
– Alternative: Wir gehen von einer kompletten Literaturliste (etwa Review Article) zu einem Thema aus und recherchieren zu diesem Thema.
– relativer Recall: nicht ein System wird isoliert betrachtet, sondern mehrere Systeme gleichzeitig („Pooling-Methode“; z.B. bei TReC). c‘ ist die Anzahl der Dokumente in der Vereinigungsmenge der relevanten Treffer c(1), c(2) usw. aller betrachteter Systeme
– relativer Recall R = a / c‘,wobei c‘ = |c(1) ∪ c(2) ∪ ... ∪ c(n)| bei n Systemen
188
Analyse und Evaluation von Informationssystemen
Availability (Verfügbarkeit)– Term eingeführt in der empirischen Bibliothekswissenschaft
– bei Retrievaltests: Wie hoch ist die relative Häufigkeit, dass ein Retrievalsystem ein bekanntes Dokument („Known Item“) findet?
– A: Availability; Dgef: # der gefundenen Known Items (bei Relevance Ranking: bis Cut-off-Wert); D: # aller gesuchten Known Items
A = Dgef / D
Paul B. Kantor: Availability analysis. – In: Journal of the American Society for Information Science 27(1976), 311-319.
Mechtild Stock; Wolfgang G. Stock: Internet-Suchwerkzeuge im Vergleich. Teil 1: Retrievaltest mit KnownItem Searches. – In: Password Nr. 11 (2000), 23-31.
189
Analyse und Evaluation von Informationssystemen
Empirische Analysen von Informationssystemen: TReC– Text Retrieval Conferences
– Vorhalten einer (sehr großen) Datenbasis– Vorhalten von Suchfragen – Vorhalten von Relevanzurteilen
– Systeme werden mit der TReC-Datenbasis und den Suchfragen konfrontiert (sowohl die Datenbasis als auch die Formulierung der Suchfragen können dem System angepasst werden)
– Erhebung von relativem Recall und Precision (Zuordnung der jeweiligen Werte)
190
Analyse und Evaluation von Informationssystemen
Typische Suchanfrage bei TReC
Number: 066Domain: Science and TechnologyTopic: Natural Language ProcessingDescription: Document will identify a type of natural language processing
technology which is being developed or marketed in the U.S.Narrative: A relevant document will identify a company or institution
developing or marketing a natural language processing technology, identify the technology, and identify one or more features of the company’s product.
Concept(s): 1. natural language processing; 2. translation, language, dictionary, font; 3. software applications
Factors: Nationality: U.S.
191
Analyse und Evaluation von Informationssystemen
Bewerter bei TReC
3 Bewerter pro AnfrageMehrheit „gewinnt“
Inter-Indexer Konsistenz (alle 3 Bewerter): ca. 30%Inter-Indexer Konsistenz (paarweise): knapp 50%
Informetrie 192
Analyse und Evaluation von Informationssystemen
Informetrie 193
Analyse und Evaluation von Informationssystemen
• Funktionalität– Beispiel Retrievalsystem
• Begin: Auswahloptionen der Datenbanken• Expand: Optionen des Arbeitens mit invertierten Dateien• Select: Suchoptionen• Type: Markieren und Sortieren von Treffern,
Ausgabeschnittstellen• Pull- und Push-Service
– Beispiel Social Network Service• Timeline: Posts erstellen• Friends: Befreunden / Entfreunden / Blockieren• Feedback: Likes, Shares, Comments• Gruppen• Live-streaming• Messenger
Informetrie 194
Analyse und Evaluation von Informationssystemen
Informetrie 195
Analyse und Evaluation von Informationssystemen
• Gamification / Game Mechanics
– Punkte (ggf. Fortschrittsbalken): Leistungen belohnen– Level: Aufstiegsstufen anzeigen– Badges: Statussymbole anzeigen– Challenges, Quests: Herausforderungen stellen– Virtuelle Güter: (Spiel-)Geld erwerben– Leaderboards: Ranglisten erstellen– Gifting: andere Spieler belohnen
• Grundidee: Gamification bindet Nutzer an ein IS
Informetrie 196
Analyse und Evaluation von Informationssystemen
Informetrie 197
Analyse und Evaluation von Informationssystemen
• Usability eines IS
– Gebrauchstauglichkeit, Benutzbarkeit und Benutzerfreundlichkeit eines IS im Sinne des Endnutzes („normale“ Menschen)
– Ziel: leichte Benutzbarkeit; Nutzer nicht frustrieren
– Herkunft der Usability-Forschung: Softwareergonomie bzw. Human-Computer-Interaction
Jakob Nielsen: Usability Engineering. – Boston: AP Professional, 1994. - Jakob Nielsen: Designing Web Usability. –München: Markt + Technik, 2001. - Jakob Nielsen; Marie Tahir: Homepage Usability: 50 Websites Deconstructed. –Indianapolis: New Riders, 2002. – Jakob Nielsen; Robert L. Mack (Hrsg.): Usability Inspection Methods. – New York
[u.a.]: Wiley, 1994. – Jeffrey Rubin: Handbook of Usability Testing. – New York [u.a.]: Wiley, 1994. -Werner Schweibenz; Frank Thissen: Qualität im Web. Benutzerfreundliche Webseiten durch Usability Evaluation. –
Berlin [u.a.]: Springer, 2002. – (X.media.press).
Informetrie 198
Analyse und Evaluation von Informationssystemen
• Usability. MethodenTask Based Testing– Entwurf typischer Aufgaben für die Website– Testpersonen auswählen, die der Zielgruppe der
Website entsprechen– Testpersonen bearbeiten die Aufgaben– Versuchsleiter beobachten Testpersonen und notieren
ReaktionenThinking-Aloud-Test– analog Task Based Testing– zusätzlich: Testpersonen sprechen ihre Gedanken aus– Aufnahme der Tests (Video; Tonband)
Informetrie 199
Analyse und Evaluation von Informationssystemen
• Beispiel: Task Based Testing mit Thinking-aloud-Test der Website des Landtages NRW (Nicola Roßmann)– 40 Testpersonen. Arbeit an der Website unter
konstanten Bedingungen– Aufgabenbeispiel 1: Wie heißen die direkt gewählten
Abgeordneten der Wahlkreis in Köln?– Klicks bis zur richtigen Webseite: kürzester Weg 3;
Testpersonen: arithm. Mittel: 3,7 (N=40); Abbrüche: keiner; Suchzeit arithm. Mittel: 86 Sek. (N=40)
– Thinking aloud: Orientierungsprobleme auf der Wahlkreiskarte. Wie schließt man Wahlkreisanzeigen?
– Ergebnis: bis auf Detailprobleme okayNicola Roßmann; Website – Usability Landtag NRW. – Köln: FH Köln / FB Informationswissenschaft, 2002. –
(Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 34)
Informetrie 200
Analyse und Evaluation von Informationssystemen
Thinking aloud:„Wie bekomme ich den
hervorgehobenen Wahlkreis wieder weg?“
Informetrie 201
Analyse und Evaluation von Informationssystemen
• Usability. Beispiel: Task Based Testing mit Thinking-aloud-Test der Website des Landtages NRW – Aufgabenbeispiel 2: Wie lautet der 1. Tagesordnungs-
punkt der Ausschusssitzung des Ausschusses für Kinder, Jugend und Familie vom 29.11.2001?
– Klicks bis zur richtigen Webseite: kürzester Weg 6; Testpersonen: arithm. Mittel: 13,6 (N=26); Abbrüche: 14; Suchzeit arithm. Mittel: 331 Sek. (N=26)
– Thinking aloud: Navigation irreführend (scharfe Kritik der Probanden); erforderlicher Klick auf „Aktuelles“ wird nicht eingesehen; Link im Text versteckt
– Ergebnis: Handlungsbedarf! Navigation (Verlinkung und Ankertexte) muss geändert werden
Informetrie 202
Analyse und Evaluation von Informationssystemen
Thinking aloud:
„Wie soll ich so einenLink sehen?“
Informetrie 203
Analyse und Evaluation von Informationssystemen
Informetrie 204
Analyse und Evaluation von Informationssystemen
• Dimensionen der Informationsqualität der Dokumente– Zugänglichkeit (accessibility, downloadable)– Aktualität– Korrektheit / Zuverlässigkeit– Relevanz (applicable, helpful)– Glaubhaftigkeit (believability)– Vollständigkeit– Objektivität– Angemessenheit– Darstellung (readable, consistent, formal structure)– Verständlichkeit– Quelle
Parker, M.B. et al. (2006): An evaluation of information quality frameworks for the World Wide Web. – In:Proceedings of the 8th Annual Conference on WWW Applications.
Informetrie 205
Analyse und Evaluation von Informationssystemen
Dimensionen der Qualität der Surrogate
– Anzahl der Datensätze / Abdeckungsgrad– Dateitypen– Aktualität– Richtigkeit– Auswertungstiefe (Feldschema / Anteil mit Inhalt gefüllter Felder)– inhaltliche Erschließung
• eingesetzte Methoden• Indexierungstiefe (Indexierungsspezifität, Indexierungsbreite)• Indexierungskonsistenz: # der Deskriptoren, die beide Indexer
A und B dem Dokument zugeordnet haben / # der Deskriptoren, die A bzw. B insgesamt dem Dokument zugeordnet haben
Informetrie 206
Analyse und Evaluation von Informationssystemen
Informetrie 207
Analyse und Evaluation von Informationssystemen
1. Ereignisorientierte Qualitätsmessmethoden • sequentielle Ereignismethode; • Critical-Incident-Technik; • Beschwerdeanalyse; • Frequenz-Relevanz-Analyse für Probleme (FRAP)
2. Merkmalsorientierte Qualitätsmessmethoden • SERVQUAL-Ansatz• Penalty-Reward-Faktoren
Michaela Göcke: Kundenorientiertes Qualitätsmanagement bei Informations-dienstleistern. - In: Password Nr. 9 (1999), 22-30.
208
Analyse und Evaluation von Informationssystemen
Parken vorder
Bibliothek
Außenansichtder
Bibliothek
Betretender
Bibliothek
Suchen derrichtigenAbteilung
Ansprechen desInformationsbibliothekars
(Äußerung des Informationswunsches)Interview
Durchführungder
Recherche
Überprüfung undAufbereitung der
Ergebnisse
Übermittlung derErgebnisse
Verlassen derBibliothek
Abfahrt vomParkplatz
Auswahl derInformationsmittel
Festlegung derSuchstrategie
Line ofVisibility
Sequentielle
Ereignis-
methode
Informetrie 209
Analyse und Evaluation von Informationssystemen
Ereignis ZufriedenstellendeAusprägung
Nicht zufriedenstellendeAusprägung
Termineinhaltung Als ich denInformationsvermittler auf dieDringlichkeit meiner inAuftrag gegebenen Recherchehinwies, kümmerte er sichsofort darum, und innerhalbder nächsten 2 Stunden lagendie von mir gewünschtenErgebnisse vor
Obwohl ich denInformationsvermittler aufdie Dringlichkeit der von mirin Auftrag gegebenenRecherche hinwies, erhieltich die von mir gewünschtenErgebnisse nicht zumvereinbarten Termin
Antwort auf Fehler bei derErstellung einer Kernleistung
Als die Ergebnisse einerkostenpflichtigen Recherchesich als lückenhaft erwiesen,führte derInformationsvermittlerkostenlos eine zweiteRecherche durch
Als sich die Ergebnisse einervon mir in Auftraggegebenen Recherche alsunzureichend und fehlerhafterwiesen, gab man mir vonSeiten der Informations-vermittlungsstelle zuverstehen, ich allein seiaufgrund meinerunzureichenden Angabenhierfür verantwortlich
CriticalIncidentTechnik
Informetrie 210
Analyse und Evaluation von Informationssystemen
Problemrelevanz hoch
FELD B FELD A * Datenbankinkonsistenz fehlerhafte Sortierung bei Ranking * * fehlerhafte Suchprofile * fehlerhafte Help-Desk-Auskünfte
Problemfrequenz selten häufig
Rechtschreibefehler in Abstracts * unübersichtliche Suchoberfläche *
FELD D FELD C
nur Initialen der Vornamen * gering
Frequenz-Relevanz-AnalysefürProbleme(FRAP)
Informetrie 211
Analyse und Evaluation von Informationssystemen
Beispiel für eine Doppelskala (Item 14)
Lehne ich Stimme ich vollkommen ab vollkommen zu
Mitarbeiter einer hervorragendenInformationsvermittlungsstelle sind stetsgleichbleibend höflich zu ihren Kunden
1 2 3 4 5 6 7
Mitarbeiter der Informationsstelle XY sindstets gleichbleibend höflich zu ihren Kunden
1 2 3 4 5 6 7
SERVQUAL - Ansatz
Charakteristisch: Doppelskala1. Erwartete Dienstleistung (Einstellung)2. Erlebte Dienstleistung (Zufriedenheit)
erfasst wird die DIFFERENZ der Noten beider Skalen
Informetrie 212
Analyse und Evaluation von Informationssystemen
Penalty-Reward-Faktoren• Penalty-Faktoren („Standard“): Erfüllung wird erwartet; Nichterfüllung
verärgert den Kunden• Reward-Faktoren („Zusatzleistungen“): Erfüllung wird nicht unbedingt
erwartet; Nichterfüllung dementsprechend nicht schlimm; Erfüllung (selbst auf niedrigem Qualitätsstand) wird als positiv erlebt
• Vorgehen:– Einschätzung der Gesamtqualität der Informationsdienstleistungen
(„sehr zufrieden“ (1) ... „unzufrieden“ (7))– Einschätzung einzelner Dimensionen („viel besser als erwartet“ (1) ...
„viel schlechter als erwartet“ (7))– Penalty-Faktoren: Globalurteil steigt nicht mit Dimensionsurteil, fällt
aber mit Dimensionsurteil– Reward-Faktoren: Globalurteil steigt mit Dimensionsurteil, fällt aber
nicht mit Dimensionsurteil
Informetrie 213
Analyse und Evaluation von Informationssystemen
Informetrie 214
Analyse und Evaluation von Informationssystemen
Wahrgenommene Qualität des Informationssystems
• Einfachheit (aus TAM): Fragebogen (7-Punkt Likert-Skala): „Die Nutzung des Informationssystems ist für mich klar und verständlich.“
• Nützlichkeit (aus TAM): „Wenn ich das System nutze, kann ich gewisse Aufgaben am Arbeitsplatz schneller und bequemer lösen.“
• Vertrauen: „Das System und dessen Betreiber werden meine persönlichen Daten nicht missbrauchen.“
• Spaß: „Die Nutzung des Systems bereitet mir Freude.“
3 … 5 Fragen pro Dimension; Cronbachs Alpha berechnen!
Informetrie 215
Analyse und Evaluation von Informationssystemen
Informetrie 216
Analyse und Evaluation von Informationssystemen
• Nutzer– Anzahl– Nutzungshäufigkeit (Rangplatz der Webseiten national /
international)– Verteilung der Nutzer auf Staaten
• Datenquelle: Alexa.com (Beispiel: Vkontakte)
Informetrie 217
Analyse und Evaluation von Informationssystemen
Nutzer
• Informationsbedarf: Interviews / Fragebogen• Informationsverhalten
– Informationsproduktion: Beobachtung, Interviews / Fragebogen
– Informationssuchverhalten: Beobachtung– Informationsrezeptionsverhalten: Beobachtung, Interviews /
Fragebogen• Stand der Informationskompetenz: Tests
Informetrie 218
Analyse und Evaluation von Informationssystemen
Informetrie 219
Analyse und Evaluation von Informationssystemen
Akzeptanz
– Adaption: Wie ist jemand auf das System gestoßen? – Nutzung: insb. Nutzungszeit (etwa pro Tag)– Ende der Nutzung: Gründe– Einfluss auf das (Informations-)verhalten: Hat sich durch die
Nutzung des Systems das Verhalten geändert?– Verbreitung des Systems: Netzwerkeffekte, Standard
Methoden: i.d.R. Fragebogen
Informetrie 220
Analyse und Evaluation von Informationssystemen