Projektseminar Informetrie - uni-duesseldorf.de · – Warum nutzen sie die Dienste? (Motive) – Wieviel Zeit verbringen sie dort? – Sind sie ggf. abhängig? (problematisches Nutzerverhalten,

1

ProjektseminarInformetrie

Katrin Scheibe & Wolfgang G. StockSS 2017

2

Studium 2014 oder später begonnen?Aktive Teilnahme (Anwesenheitspflicht)Projektarbeit (benotet) im Portfolio für I3 (empirische Arbeit, in Form eines wissenschaftlichen Artikels, ca. 4 – 6 Seiten, IMRaD-Format, APA-Zitierstil)

Studium vor 2014 begonnen?Aktive Teilnahme (Anwesenheitspflicht)Projektarbeit als BN (unbenotet) (empirische Arbeit, in Form eines wissenschaftlichen Artikels, ca. 4 – 6 Seiten, IMRaD-Format, APA-Zitierstil)

Nachweise

3

Modulhandbuch I3

Nur Hauptfach

4

Forschungsfelder der empirischen Informationswissenschaft / Web Science

Informetrie

InformationInformationsverhalten Informationssystem

NutzerforschungBibliometrie

(Szientometrie, Patento-metrie), Altmetrics

Social Media Metrics

Evaluationsforschung

Nomothetische Informetrie

5

Forschungsfelder der empirischen Informationswissenschaft / Web Science

HCI - Forschung

CH I

Human InteractionComputer

6

Welche Dokumenttypen bevorzugen deutsche Informations-wissenschaftler? (Friedländer, 2014)

Beispiel: Information

7

Wer sind die meistzitierten Informationswissenschaftler im Web of Science? (Friedländer, 2015)


8

Welche sind die Top Posts der Facebook-Gruppe „Kerpener und Ex-Kerpener“ im Jahr 2014? (Stock, 2016)


9

Auf welchen Social Media-Kanälen sind eGovernments von Weltstädten besonders erfolgreich? (Mainka, Hartmann, & Stock, 2015)


10

Typen und Features von stadtbezogenen Apps (Mainka, Hartmann, Meschede, & Stock, 2015)


11

Online-Gründe, jemanden auf Facebook zu entfreunden (Gashi & Knautz, 2016)

Beispiel: Informationsverhalten

12

Einschätzungen der Qualität von Facebook von Facebook-Standard-und -Nicht-Standard-Nutzern (Baran & Stock, 2015)


13

Einfluss von Impression-Management auf Erfolg beim Crowdfunding bei Kickstarter (Lins, Fietkiewicz, & Lutz, 2016)


14

Motive, den Live-Streaming Service YouNow zu nutzen (Scheibe, Fietkiewicz, & Stock, 2016)


15

Rechtsverstöße bei Broadcasts auf YouNow (Honka, Frommelius, Mehlem, Tolles, & Fietkiewicz, 2015)


16

Diagnosen auf Krankheiten über das Internet (Murugadas & Sizov, 2016)


17

Selbsteinschätzung amerikanischer Bibliothekare bzgl. ihrer Ausbildung in Informationskompetenz (Henkel & Stock, 2016)


18

Welche Städte der ölexportierenden Golfstaaten sind am weitesten auf ihrem Weg in die Wissensgesellschaft? (Gremm, Barth, & Stock, 2015)


19

Theoretischer Rahmen zur Beschreibung und Bewertung von Informationssystemen (Schumann & Stock, 2014)

Beispiel: Informationssystem

20

Evaluation von Tag-Clustern im Vergleich zu Tag Clouds (Knautz, Soubusta, & Stock, 2010)


21

Evaluation von Smart Home-Services in Songdo (Ilhan, Möhlmann, & Stock, 2015)


22


23



• Konzentrationsgesetze– Zipfsches Gesetz: Verteilung von Worthäufigkeiten in

Texten– Lotkas Gesetz: Verteilung von Publikationen eines

Fachgebiets auf Autoren– Bradfordsches Gesetz: Verteilung von Artikeln eines

Fachgebiets auf Zeitschriften– Garfieldsches Gesetz: Verteilung von Zitationen auf

wissenschaftliche Zeitschriften• Gesetz der zeitlichen Verteilung

– Halbwertzeit: Zeit, nach der die Hälfte einer Literatur-menge nicht mehr benutzt wird

24


Zipfsches Gesetz• George Kingsley Zipf (1902 - 1950)

gegeben: Text (Artikel, Buch, ...)Auszählen der Häufigkeiten jedes WortesOrdnung der Wörter nach Häufigkeit (absteigend)

r * f = Cf = C : r

r =: Rangplatz des Wortesf =: Häufigkeit des WortesC =: Konstante (abhängig vom Text)

25


Zipfsches Gesetz

Beispiel: “Ulysses” (James Joyce)Wort auf Rang 10 kommt 2.653mal vor: C = 26.530Wort auf Rang 20 kommt 1.311mal vor: C = 26.220Wort auf Rang 1.000 kommt 26mal vor: C = 26.000

C (Ulysses) ~ 26.000

Das Gesetz gilt für Hochfrequenzworte, z.T. auch - je nach Text - für alle Worte eines Textes.

George K. Zipf: Human Behavior and the Principle of Least Effort. – Cambridge, MA: Addison-Wesley, 1949.

26


Lotkas GesetzAlfred J. Lotka (1880 - 1949)

gegeben: Fachgebiet mit umfassender Liste der Publikationen zum Fachgebiet (Biblio-graphie, Spezialdatenbank)Auszählen der Publikationsraten für alle AutorenSortieren der Autoren nach der Anzahl der Publikationen Zählen der Autoren mit gleichviel Publikationen

x * y = c oder y = c / x

x =: Anzahl der Publikationeny =: relative Häufigkeit der Autoren mit x Publikationenn, c =: Konstanten (je nach Fachgebiet) [n ~ 2]

n Alfred J. Lotka: The frequency distribution of scientific

productivity. – In: Journal of theWashington Academy of Sciences

16 (1926), 317-323.

n

27


Lotkas GesetzBeispiel: “Journal of Finance”, 1946-1980; insgesamt 1.844

Artikel)1.237 Autoren (67,1%) produzierten je 1 Artikel

295 Autoren (16,0%) produzierten je 2 Artikel140 Autoren (7,6%) produzierten je 3 Artikel63 Autoren (3,4%) produzierten je 4 Artikel41 Autoren (2,2%) produzierten je 5 Artikel

angenommen: n = 2(1 * 1) * 0,671 = 0,671(2 * 2) * 0,160 = 0,640(3 * 3) * 0,076 = 0,684 c ~ 0,6(4 * 4) * 0,034 = 0,544(5 * 5) * 0,022 = 0,550

M. Keenan: Report on the 1987membership survey. – In: Journal of

Finance 43 (1988), 767-777.

28


Lotkas Gesetz (geeicht auf 100 Autoren mit 1 Publikation)Publ.zahl (x) absolute Häufigkeit relative Häufigkeit (y) x2 * y

1 100 64,5% 0,6452 25 16,1% 0,6443 11,1 7,16% 0,6454 6,25 4,03% 0,6455 4 2,58% 0,6456 2,77 1,79% 0,6447 2,04 1,32% 0,6458 1,56 1,01% 0,6459 1,23 0,80% 0,645

10 1 0,645% 0,645

Σ ~ 155 Σ ~ 100%

rund 80%20%

80/20 - Faustregel

29


Lotkas Gesetz

Kreise: empirische DatenLinie: nach Theorie erwartet

Reduktion der Daten auf genau100 Autoren, die 1 Aufsatzpubliziert haben (n = 2)

Derek J. de Solla Price: Little Science, Big Science. –Frankfurt: Suhrkamp, 1974.

30


Bradfordsches GesetzSamuel Clement Bradford (1878 - 1948)

gegeben: Artikel eines FachgebietsZählen der Anzahl der Artikel pro ZeitschriftSortieren der Zeitschriften nach der Anzahl der ArtikelBildung von drei Mengen, die jeweils die gleiche Anzahl der Artikel enthaltendie Anzahl der Zeitschriften in den drei Zonen folgt der Formel

1 : n : n

n =: Konstante (“Bradford Multiplikator”)

2

31


Bradfordsches Gesetzdrei Zonen: Kern - Mitte - Rand

empirisches Beispiel:– Bradford (1934): Schmiermittel (395 Artikel in 164

Zeitschriften)• Kern: 8 Zeitschriften produzieren 110 Artikel• Mitte: die nächsten 29 Zs. produzieren 133 Artikel• Rand: die nächsten 127 Zs. produzieren 152 Artikel

8 : 29 : 127 = 1 : 3,625 : 15,875 ~ 1 : 4 : 16

Samuel C. Bradford: Sources of information on specific subjects. – In: Engineering 137 (1934), 85-86.

32


Garfieldsches GesetzEugene Garfield (geb. 1925)

gegeben: Referenzen aus Quellenzeitschriften der Reihen des ISI (multidisziplinär)Zuordnung von Zitationsraten zu ZeitschriftenSortierung der Zeitschriften nach ZitationsratenKonzentration wie bei Bradford-Zipf:75% aller Zitationen entfallen auf knapp 1.000 Zeitschriften; 84% auf ca. 2.000 ZeitschriftenPraktische Konsequenz: eine Datenbank, die einige Tausend Zeitschriften (nämlich die jeweils meistzitierten) auswertet, ergibt ein repräsentatives Abbild der Wissenschaft; hieran orientiert sich die Quellenauswahl bei SCI, SSCI, A&HCI

Eugene Garfield: The mystery of the transposed journal list – wherein Bradford‘s law of scattering is generalizedaccording to Garfield‘s law of concentration. – In: E.Garfield: Essays of an Information Scientist, Vol 1. –

Philadelphia: ISI Press, 1977, 222-223.

33


Garfieldsches Gesetz

Beispiel: Philosophie (Drei-Zonen-Einteilung wie Bradford)gegeben: 735 Referenzen (Jg. 1975); darin zitierte Zeitschriften: 223

Kern: 6 Zeitschriften (genannt in 245 Zitationen)Mitte: 23 Zeitschriften (genannt in 245 Zitationen)Rand: 194 Zeitschriften (genannt in 245 Zitationen)

also: 6 : 23 : 194 = 1 : 3,8 : 32,3 ~ 1 : 4 : 32 (erwartet: 1 : 4 : 16), demnach: sehr große Randzone

Kernzeitschriften:Journal of PhilosophyPhilosophical Review

AnalysisMind

Philosophy of SciencesAmerican Philosophical Quarterly

34

f (x)

x

f (x) = _____C

xa

Inverses Power Law

ca. 20%

ca. 80 %


Informetrie

35


Folgen alle Verteilungen von Informationen dem Power Law?

Distributions of relevance

00,10,20,30,40,50,60,70,80,9

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

rank

degr

ee o

f rel

evan

ce

informetric inverse logistic dichotomous

f(x) = C / xa

f(x) = e[-C‘(x-1)]b

a ~ 1 ... 2b ~ 3

36


Gesetz der zeitlichen Verteilung: HalbwertszeitAnalogie zum radioaktiven Zerfall

Die Halbwertszeit ist die Zeit, in der die Hälfte eines radioaktiven Stoffes in einen anderen Stoff zerfallen ist. Dieser Prozess ist zufallsabhängig; d.h. man weiß nicht, welches Atom zu welcher Zeit zerfällt. Beispiele für Halbwertszeiten:Uran-238: 4,5 Mrd. Jahre C-14: 5.730 JahreJod-131: 8 Tage

37


Gesetz der zeitlichen Verteilung: Halbwertszeit

gegeben: Zitationen / ReferenzenSortierung der Zitationen nach der ZeitZählen der Anzahl der Zitationen pro Jahr; Zählen der Gesamtanzahl der ZitationenMarkierung des Jahres, an dem die Hälfte (ein Viertel, ein Achtel usw.) der Zitationen erreicht wird

Gesetz: Die Halbwertzeiten sind (bei großen Zahlen) jeweils gleich.

38

Deskriptive Informetrie

39


Informetrie

InformationInformationsverhalten Informationssystem

NutzerforschungBibliometrie

(Szientometrie, Patento-metrie), Altmetrics

Social Media Metrics

Evaluationsforschung

40


Aspekt: Information in WTM-Dokumenten• Beschreibung von Dokumentmengen (auch große Mengen:

„Big data“): Bibliometrie (soweit Wissenschaft: Szientometrie; soweit Technik: Patentometrie)

– Werke eines Wissenschaftlers (Wie viel geschrieben? In welcher Zeit? Worüber? Welche Wirkung?)

– Artikel und Bücher von Angehörigen eines Instituts– Patente und Artikel eines Wirtschaftsunternehmens– Wissenschaftliche Zeitschriften (Wie viele Publikationen? Wie

viele unterschiedliche Autoren? Welche Wirkung?)– Themen (Wann zuerst aufgekommen? Wie verbreiteten sie

sich? Wie lange diskutiert? Welche Autoren?)

41


Aspekt: WTM-Information (Szientometrie/Patentometrie)• Rohdaten: Publikationen und Zitationen

– aus allgemeinwissenschaftlichen Datenbanken: Web of Science, Scopus

– aus Patentdatenbanken: Derwent World Patents Index, Patentscope, (Scopus)

– aus disziplinspezifischen Datenbanken• Recherche

– adäquate Suchargumente• Export / Download• Weiterverarbeitung der Daten

– reinigen– statistisch bearbeiten (Excel, SPSS)

42


Aspekt: Information in Social Media• Beschreibung von Dokumentmengen (auch große Mengen:

„Big data“): Social Media Metrics– Tweets

• Tweets pro Nutzer, Thema usw. in einer Zeiteinheit• Thema, Sentiment• Autoren (Follower, Followees)• Retweets

– Posts bei asynchronen SNSs• Posts pro Nutzer, Thema usw. in einer Zeiteinheit• Likes, Shares, Comments

– Broadcasts bei synchronen SNSs• Länge der Sendung• Anzahl der Zuschauer• Comments, Belohnungen, …

43


Aspekt: Social Media Informationen• Rohdaten

– aus Social Media Diensten • Microblogging (Twitter, Weibo)• asynchrone SNSs (Facebook, Vkontakte, LinkedIn, Xing)• synchrone SNSs (YouNow, Periscope, Ustream, Twitch)• Sharing Services (Videos: YouTube, Bilder: Flickr, Instagram)

• Application Programming Interface (API)– adäquate Suchargumente– Export / Download

• Weiterverarbeitung der Daten– reinigen– statistisch bearbeiten (Excel, SPSS)

44


Aspekt: Social Media Metriken, angewandt auf WTM-Informationen: Altmetrics

• Wird über wissenschaftliche Aktivitäten (Tagung, Artikel, …) bei Social Media berichtet?

• In welchen Disziplinen? Mit welchem Sentiment?

• Was misst überhaupt Altmetrics?

45


Deskriptive Informetrie / Aspekt: Nutzer• Beschreibung von Nutzern und ihrem Informationsverhalten:

– Wer nutzt gewisse Informationsdienste? (Alter, Geschlecht, soziale Gruppe, Herkunft, …)

– Warum nutzen sie die Dienste? (Motive)– Wieviel Zeit verbringen sie dort? – Sind sie ggf. abhängig? (problematisches Nutzerverhalten,

Internet„sucht“, Facebook„sucht“)– Was für Informationsinhalte kreieren und repräsentieren Nutzer?– Entstehen dabei juristische Probleme?– Wie suchen sie?– Wie belohnen sie andere Nutzer?– Nutzergruppenspezifisches Informationsverhalten

• Wissenschaftler• Patienten, …

46


Aspekt: Nutzer• Rohdaten

– Befragung• (Online-)Umfragen• qualitative Interviews

– Beobachtung• sehr einfach bei synchronen Social Media-Diensten

– Experimente (Aufgaben stellen; Situationen simulieren)• ggf. Eye-tracking, Aufzeichnen (Video)

– (Kurzfristige) Ethnographie / Fallforschung• Weiterverarbeitung der Daten

– reinigen– statistisch bearbeiten (Excel, SPSS)

47


Deskriptive Informetrie / Aspekt: Informationssystem• Beschreibung und Bewertung (Evaluation) von

Informationssystemen:– Welche Nutzer hat das System?– Wie nehmen die Nutzer die Qualität des Systems wahr?– Welche objektiven Qualitätskriterien erfüllt das System?– Wie akzeptieren Nutzer das System? Wann und unter welchen

Umständen verlassen sie es?– Wirken kulturelle oder politische Einflüsse auf die Nutzung des

Systems ein?– Gibt es Konfliktpotential bzgl. geltender Gesetze?– Wie steht das System im Kontext von Wettbewerbern da?– Wie hat es sich im Laufe der Zeit entwickelt?

48


Aspekt: Informationssystem• Rohdaten

– Beobachtung der Nutzer– Befragung der Nutzer

• (Online-)Umfragen, u. a. SERVQUAL• qualitative Interviews

– Befragung der Systemersteller• Customer Value Research

– Analysen durch Experten• Usability• Effektivität / Effizienz• Funktionalität• Grad an Gamification

• Weiterverarbeitung der Daten– statistisch bearbeiten (Excel, SPSS)

Informetrie 49

Wissenschaftliche Kommunikation

Informetrie 50

Wissenschaftliche KommunikationSzientometrie

– Vermessung der Wissenschaft, quantitative Analyse wissen-schaftlicher Institutionen

Wissenschaftliche Kommunikation– hier: Einschränkung der Szientometrie auf die quantitative

Analyse wissenschaftlicher Kommunikation und InformationWissenschaftsanalyse

– Beschreibung und Erklärung von Wissenschaft auf der Basis empirischer Erhebungen (falls diachronisch: Wissenschafts-geschichtsschreibung)

Wissenschaftsevaluation– Bewertung von Wissenschaft auf der Basis der

Wissenschaftsanalyse (auch komparativ vorgehend)Finalisierung der Wissenschaft

– Steuerung von Wissenschaft (etwa: durch Mittelverteilung) auf der Basis der Wissenschaftsevaluation

Informetrie 51


Wissenschaft: Grundlagenforschung, Technische Forschung, Konstruktives Design

Grundlagen-forschung

TechnischeForschung

KonstruktivesDesign

Produkt-innovationen

Prozeß-innovationen Pfeile: Informationsflüsse

Informetrie 52


Wissenschaft:Bereichswissen (Bsp.:Informationswirtschaft)

Informetrie 53


Die Forschung-Praxis-Lücken:• Forscher publizieren für Forscher• Praktiker publizieren (wenn

überhaupt) für Praktiker• Folge 1: Forschungsergebnisse

werden in der Praxis suboptimal genutzt

• Folge 2: Forscher interessieren sich nicht für Probleme in der Praxis

• Mögliche Lösung: "Evidenz-basierte Praxis"

Forschung

Praxis

SuboptimalerInformationsflussEvidenz-basierte

Praxis

Informetrie 54


Szientometrie: Der Ansatz von de Solla PriceWissenschaftsentwicklung: derzeit beobachtbar: exponentielles Wachstum (Zählbasis: # wiss. Zeitschriften; # Abstractzeitschriften)

Derek J. de Solla Price: Little Science, Big Science. – Frankfurt: Suhrkamp, 1974. – (Orig. 1963).

Informetrie 55


de Solla PriceZahl der Abstracts in vier Wissenschaftsgebieten(halblogarithmische Darstellung)Verdopplungszeiten: ca. 15 Jahre

Informetrie 56


de Solla PriceWachstum der wissenschaftlichen Manpower und der Gesamtbevölkerung der USA

Informetrie 57


de Solla PriceVerdopplungszeiten der Anzahl der Wissenschaftler– alle 10 Jahre (alle wissenschaftlichen Mitarbeiter)– alle 15 Jahre (Wissenschaftler mit Abschluss)– alle 20 Jahre (nur „Qualitätswissenschaftler“)

Gegenwartskonzentration der Wissenschaftler– 87,5% aller Wissenschaftler (seit Babylon) leben heute (also 7

von 8)– Vergleich: Gegenwartskonzentration aller Menschen: unter

5%– das Verhältnis der Gegenwartskonzentration von

Wissenschaftlern und Bevölkerung war immer so– ... und immer fühlten sich die Wissenschaftler überfordert: „zu

viele Bücher, zu viele Artikel!“ ...

Informetrie 58


de Solla PriceWeiterhin exponentielles Wachstum?– exponentielles Wachstum mit Verdopplungszeiten von ca. 15

Jahren führt dazu, dass irgendwann jeder Mensch Wissenschaftler wäre

– diese Behauptung ist unsinnig

– Folgerung: These des exponentiellen Wachs-tums ist falsch

– wahrscheinlicher: logistisches Wachstum

Informetrie 59


de Solla PriceReaktionsformen des logistischen Wachstums bei Annäherung an den Sättigungswert

Beispiel für Eskalation:Chemische Elemente

Informetrie 60


de Solla PriceAbfolge von Phasen in der globalen Wissenschaftsentwicklung

• LITTLE SCIENCEPrivatgelehrter, kleine Forschungslabors

• BIG SCIENCEGroßforschung, Teams

• NEW SCIENCEstabile Sättigung; Wissenschaft der „Wissensgesellschaft“

de Solla Price(1922 – 1983)

Informetrie 61


Wissenschaftssoziologie. Die institutionellen Imperative der Wissenschaft nach Robert K. Merton– „Das Ethos der Wissenschaft ist der gefühlsmäßig

abgestimmte Komplex von Werten und Normen, der für die Wissenschaftler als bindend betrachtet wird.“

– Grundfrage: Unter welchen Normen (oder institutionellen Imperativen) „funktioniert“ Wissenschaft optimal? (deshalb: „Funktionalismus“)

– Das Ethos ist nicht kodifiziert– es wird jedoch vom einzelnen Wissenschaftler

internalisiert und durch Sanktionen verstärkt– institutionelles Ziel der Wissenschaft:

Ausweitung gesicherten WissensRobert K. Merton: Science and Technology in a Democratic Order. – In: Journal of Legal and Political

Sociology 1 (1942), 115-126.

Informetrie 62


Wissenschaftssoziologie. Institutionelle Imperative– 1. Universalismus

• Wahrheitsansprüche hängen nicht von personalen oder sozialen Eigenschaften ihrer Protagonisten ab

• Wahrheitsansprüche werden mit Beobachtungen und mit bereits bestätigtem Wissen verglichen

• die Sozialstruktur, die die Wissenschaft umgibt, muss den Universalismus pflegen, z.B. keinen Druck auf Wissenschaftler ausüben, Talenten sollen Karrieren offen stehen; freien Zugang zu wissenschaftlichen Arbeiten gewähren

– 2. Kommunismus• allgemeines Eigentum an den Gütern der Wissenschaft• Eigentumsrechte beschränken sich auf Anerkennung• vollständige und offene Kommunikation; keine Geheimhaltung• verpönt: Privateigentum an wissenschaftlichen Ergebnissen

(aber: Patentwesen? Wissenschaftler in Privatunternehmen?)

Informetrie 63


Wissenschaftssoziologie. Institutionelle Imperative– 3. Uneigennützigkeit

• persönliche Interessen des Wissenschaftlers sind ausgeschlossen

• wechselnde Verantwortlichkeit für wissenschaftliche Ergebnisse

• Es gibt jedoch Konkurrenz in der Wissenschaft. Jeder möchte der erste sein, der ein bestimmtes Ergebnis publiziert (Priorität)

– 4. Organisierter Skeptizismus• Überprüfung wissenschaftlicher Ergebnisse durch andere

Wissenschaftler• unvoreingenommene Prüfung aufgrund empirischer und

logischer Kriterien

Informetrie 64


Wissenschaftssoziologie. Warum halten sich die Wissenschaftler an die Normen?– Ein soziales System ist eine stabile Folge von Interaktions-

mustern,• die um den Austausch eines Gutes organisiert• und von einer Menge Normen geleitet sind.

– Das Gut des Wissenschaftssystems ist die kompetente Reaktion auf (eigene wie fremde) Kreativität, ist Reputation.

– Das Wissenschaftssystem funktioniert nur darum, weil es sein Gut – die Reputation – optimal zirkulieren lässt.

Norman W. Storer: The Social System of Science. – New York: Holt Rinehart and Winston, 1972.

Informetrie 65


Wissenschaftssoziologie. Warum halten sich die Wissenschaftler an die Normen?– Kommunismus: ermutigt zu publizieren (sonst kann das

Gut ja gar nicht entstehen)– Organisierter Skeptizismus: sorgt für die Rückkopplung

durch Zitationen (so bekommt der Publizierende sein Gut)– Uneigennützigkeit hilft, dass der Wissenschaftler nur das

Gut der Wissenschaft und nicht andere Güter anstrebt

• Grundlagen wissenschaftlicher Kommunikation– Publikationen (das „Produkt“ des Wissenschaftssystems)– Zitationen (die „Währung“ des Wissenschaftssystems)

Informetrie 66


Outputindikatoren: Publikationen (wissenschaftliche Leistung) – Zitationen (wissenschaftliche Wirkung)– Was ist eine Publikation? Was ist eine Publikation?

Gegenstand und Einheit der wissenschaftlichen Leistung– Was ist eine Zitation? Was ist eine Zitation?

Gegenstand und Einheit der wissenschaftlichen Wirkung

Eugene Garfield: Citation Indexing – Its Theory and Application in Science, Technology, and Humanities. –New York [u.a.]: Wiley, 1979.

Blaise Cronin: The Citation Process. The Role and Significance of Citations in Scientific Communication. –London: Taylor Graham, 1984.

Blaise Cronin; Helen Barsky Atkins (Hrsg.): The Web of Knowledge. A Festschrift in Honor of Eugene Garfield. – Medford, NJ: Information Today, 2000. – (ASIS Monograph Series).

Wolfgang G. Stock: Publikation und Zitat. Die problematische Basis empirischer Wissenschaftsforschung. –Köln: FH Köln, 2001. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 29).

Informetrie 67


Publikationsrate– Zur Einstimmung: Welche Publikationsrate hat

Ludwig Wittgenstein?– Publikationen:

• Logisch-philosophische Abhandlung, 1921 als Aufsatz, 1922 (zweisprachig deutsch/englisch) als Buch

• Wörterbuch für Volksschulen• Leserbrief an Mind• Philosophische Untersuchungen 1952• später: diverse Neuausgaben, Publikation von Skripten,

mehrere Gesamtausgaben

Informetrie 68


Publikationen– Publikationsrate von Ludwig Wittgenstein:

• # Artikel = 1• # unselbständige Literatur = 2• # Bücher und unselbständige Literatur = 5• # Bücher und unselbständige Literatur bereinigt um

Doppelveröffentlichung = 4• # wissenschaftliche Bücher und unselbständige

Literatur = 2 (keine Doppelveröffentlichung, kein Leserbrief)

• # dokumentarische Bezugseinheiten (bei „Philosophische Untersuchungen“ kapitelweise) = 711

Informetrie 69


Ist 1 Buch = 1 Artikel in Fachzeitschrift = 1 Leserbrief = 1 Patent?– Dokumenttypen ggf. mit unterschiedlichen Gewichtungsfaktoren

versehen:• Monographie (Autor) – kapitelweise? – Auflage? / Monographie

(Herausgeber)• Artikel in wissenschaftlicher Zeitschrift (mit Peer Review) – Auflage?

– Impact Factor? – aber: Freifahrtenhypothese• Artikel in wissenschaftlicher Zeitschrift (ohne Peer Review)• Letter to the Editor• Hochschulschrift (Bachelor-, Master-, Diplomarbeit; Dissertation,

Habilitationsschrift) – Ansehen der Hochschule?• Rezension / Buchbesprechung• Patent (Gebrauchsmusterschrift; Offenlegungsschrift; Patentschrift)

– in wie vielen Ländern? – wichtige Länder?• Artikel in einer Tageszeitung – regional/überregional? – Auflage?

Informetrie 70


Freifahrtenhypothese– „Ein Artikel in einer prominenten Zeitschrift ist ‚wertvoller‘ als ein

Artikel, der woanders erscheint. Ein Artikel einer prominenten Zeitschrift wird im Schnitt häufiger zitiert als andere.“

• Nach Per Seglen stimmt die Hypothese in dieser allgemeinen Form nicht.

• Falsch ist der Schluss auf den Einzelfall. „Im Schnitt“ werden prominente Zeitschriften in der Tat häufiger zitiert.

• Verteilung der Zitationsraten von Artikeln einer Zeitschrift: typisch informetrisch, also linksschief. (Die meistzitierte Hälfte der Artikel wird 10mal so häufig zitiert wie die untere Hälfte.)

• Das Arbeiten mit dem arithmetischen Mittel ist also problematisch.Per O. Seglen: Die Evaluierung von Wissenschaftlern anhand des „journal impact“. – In: Peter Weingart,Roswitha Sehringer; Matthias Winterhager (Hrsg.): Indikatoren der Wissenschaft und Technik. Theorie,

Methoden, Anwendungen. – Frankfurt; New York: Campus, 1991, 72-90.

Informetrie 71


Autorenschaft– ein Autor – ein Dokument: in vielen Disziplinen nicht mehr zutreffend– in diversen Disziplinen: Mehrfachautoren (besonders ausgeprägt in

Hochenergiephysik und Biowissenschaften)• konkreter Beitrag der einzelnen Teammitglieder• Reihenfolge der Namensnennung• „Ehrenautoren“ (Namen, die genannt werden, obwohl die Person

nichts dazu beigetragen hat)• „Ghost Writer“ (Namen, die nicht genannt werden, obwohl die

Person etwas zum Artikel beigetragen hat)• „Hyperauthorship“ (Cronin: „to be an author is not necessarily to be

a writer“ – Co-Autor vs. Acknowledgment)Blaise Cronin: Hyperauthorship: A postmodern perversion or evidence of a structural shift in scholarly

communication practices? – In: Journal of the American Society for Information Science and Technology 52(2001), 558-569.

Informetrie 72

Autoren-schaft:

Beitrag der einzelnen Autoren?

9 Seiten.Über 200 Autoren

Informetrie 73


Wie Publikationsraten erfassen?– ein Autor / ein Werk: kein Zuschreibungsproblem– Mehrautorenwerke

• jeden Autor mit „1“ zählen (große statistische Probleme bei der Bildung von Aggregaten (etwa: Institut, Land), da für die Gesamtheit ein Wert > 100 herauskommt)

• Division durch Anzahl der Autoren (sagt zwar nichts über den faktischen Anteil aus, ist aber wenigstens statistisch okay)

– Dokumenttyp• nur jeweils genau einen Dokumenttyp vergleichen (etwa:

Zeitschriftenartikel, Patente)• nach Dokumenttyp gewichten

– Offen bleiben „unethisches Verhalten“ der Autoren sowie Acknowledgements

Informetrie 74


Publikationskennwerte– absolute Anzahl an Publikationen (pro Autor, Institution,

Stadt, Land, ...)• mögliche Probleme:

– Homonyme bei Autorennamen: „Schmitz, W.“– Homonyme bei Städte- bzw. Ländernamen: London

[England] – London, Ontario / Wales – New South Wales– Identifizierung einer Institution (Affiliation-Angaben sind

teilweise verstümmelt) – Wie fein gliedern? Ganze Univ., Institut, Abteilung?

– relative Anzahl an Publikationen (etwa: pro Jahr)– gewichtetes Maß an Publikationsaktivität– Kooperationsstärke (Anzahl an Co-Autoren aus

unterschiedlichen Instituten, Ländern usw.)

75


Zitationen / Zitationsanalyse

Eugene Garfield

„Vater“ der Zitationsindexierungund Gründer des ISI; später: Thomson Scientific; Teil von Thomson-Reuters; heute: Clarivate Analytics

(Eigentümer: Onex Corp. und Baring Private Equity Asia)

Informetrie 76


Zitationen und Referenzen

Variante 1:Fuß- oder Endnote

mit Mehrfachnennungderselben Literatur:

a.a.O., Ebd., wie Anm. X,idem, loc. cit., ...

Variante 2:Literaturverzeichnis

teilweise argverstümmelt

77


Zitationen und Referenzen

78


Selbstzitation („Inzest“)• von Autoren, Instituten, Zeitschriften, Ländern, ...• bedeutet, dass der Autor die eigenen Publikationen (die des eigenen

Instituts usw.) für einschlägig hält• es ist stets der Fall zu beachten, dass der Autor – außer den eigenen

Werken – wenig Zitierfähiges vorfindet– positiver Fall: Autor bearbeitet wissenschaftliches Neuland– negativer Fall: Autor arbeitet in einem Bereich, den außer ihm keiner

bearbeitet (da längst verlassen, als irrelevant erkannt, ...)

• die Rate der Autorenselbstzitation ist abhängig– von der Disziplin (hoch in Chemie und Physik; gering in der Medizin)– von der Zeit (höher zu Beginn der Zitationsgeschichte)– von der Person

79


Selbstzitation einer Gruppe (Zitationskartell)• Mitglieder einer informellen Gruppe (invisible college)

zitieren sich gegenseitig

• positiver Fall: gemeinsames Forschungsgebiet

• negativer Fall: man zitiert sich (nach Absprache) gegenseitig, um die eigene Zitationsrate zu erhöhen (Zitationskartelle sind nämlich – im Gegensatz zu Autorselbstzitationen – nur schwer zu erkennen); gilt als „unethisches“ Verhalten

80


Zitationsnorm• etwa: „Zitiere alles, was Du bei der Vorbereitung und der

Durchführung Deiner wissenschaftlichen Arbeit gelesen hast und zitiere nichts, was Du nicht selbst gelesen hast!“

• Wissenschaftler aus früheren Jahrhunderten kennen eine solche Norm nicht.

• außerhalb von Wissenschaft (sowie Technik und Recht) wird die Norm nicht angewandt (Bsp.: bei Tageszeitungen).

• Das Einhalten der Norm ist kaum erschöpfend zu kontrollieren. Nach MacRoberts & MacRoberts werden nur ca. 30% der eigentlich einschlägigen Publikationen zitiert (Brechen der Norm oder schlicht Unkenntnis?)

M.H.MacRoberts; Barbara R. MacRoberts: Problems of citation analysis. – In: Scientometrics 36 (1996),435-444.

Informetrie 81

Datenquellen bibliometrischer Studien

82


Das „Institute for Scientific Information“ (ISI)• erstes Institut, das auf dem Gebiet der Zitationen in der

(akademischen) Grundlagenforschung (kommerziell) arbeitet• gegründet 1960 von Eugene Garfield; Hauptprodukte: Current

Contents (CC); Science Citation Index (SCI)• ab 1992 Teil des Thomson-Konzerns ; Clarivate Analytics• Datenbanken bei Hosts (u. a. DIALOG) und als „Web of Knowledge“

Tony Cawkell; Eugene Garfield: Institute for Scientific Information. – In: Information Services & Use 21 (2001), 79-86.

83


– Web of Science• Science Citation Index Expanded (8.900 Zeitschriften; ab 1900)• Social Sciences Citation Index (3.300 Zeitschriften; ab 1900)• Arts and Humanities Citation Index (1.700 Zeitschriften; ab 1975)• Book Citation Index (10.000 Bücher pro Jahr; ab 2005)• Chinese Science Citation Index (1.200 Zeitschriften)• Conference Proceedings Citation Index (jährlich ca. 12.000

Konferenzen; ab 1990)• Derwent Innovations Index (ca. 16 Mio. Patentfamilien; ab 1963)• Data Citation Index (2013: ca. 2 Mio. Datensätze)• Current Chemical Reactions (1 Mio. Reaktionen), Index Chemicus (2,6

Mio. Verbindungen)• Fremdprodukte (Medline, INSPEC, …)

84


Web of Science

• Grenzen:• ausgewertet werden beim Web of Science Artikel ausgewählter

Zeitschriften, ausgewählte Bücher, Beiträge in ausgewählten Proceedings und Forschungsdaten

• „ausgewählt“, also nicht „alle“• nicht zu unterschätzen: Tipp- bzw. OCR-Fehler (sowohl beim Autor

wie bei Thomson-Reuters)• ausgewertet werden bei Derwent Patentfamilien der Patent-

anmeldungen und -erteilungen der wichtigsten Patentämter der Welt

85


Zitationskennwerte / Zitationsraten

Probleme mit ISI-Daten• die Namensansetzung NAME_INITIALEN VORNAME(N) (etwa:

Cohen J) produziert häufig Homonyme. Warum wird das so gemacht?

• Garfield:– 1960: nur 80 Zeichen auf der Lochkarte zur Verfügung– viele Autoren nennen in der By-Line nur die Initialen– „eigentlich“ speichert ISI Artikelangaben – und die sind exakt

Eugene Garfield; Wolfgang G. Stock: Citation consciousness. – In: Password Nr. 6 (2002), 22-25.

86


Zitationskennwerte I: ZitationsratenBeispiel: Nobelpreisträger der Chemie (1950 bis 1967) und deren Zitationsraten (1961 bis 1975); fett: unter den Top 250 im SCI

Eugene Garfield: Citation Indexing – Its Theory and Application in Science, Technology, and Humanities. –New York [u.a.]: Wiley, 1979, 65.

87


Zitationskennwerte II: Social Networks• Zitationsstrukturen. IIa. Bibliographic Coupling

A

Z

Y

X

B

„zitiert“

(Zitierende) Dokumente A und B sind bibliographisch gekoppelt, wenn die beidendieselben Dokumente(X, Y, Z) zitieren.

Michael M. Kessler: Bibliographic coupling between scientific papers. – In: American Documentation 14 (1963), 10-25.

Informetrie 88


Zitationskennwerte II: Social Networks• Zitationsstrukturen. IIb. Co-Zitationen von Artikeln

A B

Y

X

Z(Zitierte) Dokumente A und B sind co-zitiert, wenn die beidenim Zitationsapparat zitierender Dokumente (X, Y, Z) gemeinsam vorkommen.

„zitiert“

Henry G. Small: Co-citation in scientific literature. – In: Journal of the American Society for Information Science24 (1973), 265-269. – Henry G. Small; Belver C. Griffith: The structure of scientific literature I: Identifying andgraphing specialties. – In: Science Studies 4 (1974), 17-30. – Belver C. Griffith; Henry G. Small; H.J.Stonehill;

S.Dey: The structure of scientific literature II: The macro- and micro-structure of science. – In ScienceStudies 4 (1974), 339-365.

Henry Small

89


Zitationskennwerte II: Social Networks• Zitationsstrukturen. IIc. Autor-Co-Zitationen

A B

Y

X

Z(Zitierte) Autoren A und B sind co-zitiert, wenn die beiden Namenim Zitationsapparat zitierender Dokumente (X, Y, Z) gemeinsam vorkommen.

„zitiert“

Howard D. White; Belver C. Griffith: Author cocitation: A literature measure on intellectual structure. – In:Journal of the American Society for Information Science 32 (1981), 163-171.

Howard D. White

90


Zitationskennwerte II: Social NetworksZitationsstrukturen. IId. Forschungsfronten

• basiert auf Co-Citations von Artikeln

• Schwellenwert 1: nur hochzitierte Artikel

• Schwellenwert 2: nur häufig co-zitierte Artikelpaare

• Forschungsfront: das entstehende Cluster (als Ganzes)

• Kern: diejenigen Artikel, die im Cluster vorkommen („bahnbrechende“ Arbeiten) – also: die zitierten Artikel

• Teil der Forschungsfront: diejenigen Artikel, die (durch ihre Referenzen) die Cluster bilden – also: die zitierenden Artikel

91


Forschungsfront. Beispiel Essential Science Indicators (ESI)

92


Forschungsfront. Beispiel: Collagen-Forschung

Henry G. Small: A co-citation model of a scientific specialty: A longitudinal study of collagen research. – In:Social Studies of Science 7 (1977), 139-166.

1970 1971

wenig Veränderungen

Informetrie 93



1972 1973

ein zweites, neuesCluster entsteht

das alte Cluster,kaum verändert

nur das neuesCluster „überlebt“

Informetrie 94



1974 Das neue Clusterwird größer und

bildet Sub-Cluster.Auch „alte“ (methodisch

orientierte) Artikelgehören wieder zurForschungsfront.

Abbild einer„wissenschaftlichenRevolution“ im Sinne

Thomas S. Kuhnsmit Mitteln der

Zitationsanalyse

95


Zitationskennwerte III: Wissenschaftliche Wirkung.

– IIIa. Impact Factor

Welche Wirkung haben Artikel aus dem letzten und vorletzten Jahrgang einer akademischen Zeitschrift im Berichtsjahr?

– IIIb. Immediacy Index

Welche Wirkung haben Artikel aus dem laufenden Jahrgang im Berichtsjahr?

Beide Kennwerte sind ausschließlich für akademische Zeitschriften definiert.

96


Journal Citation Reports (JCR)

Wolfgang G. Stock: JCR on the Web. Journal Citation Reports: Ein Impact Factor für Bibliotheken, Verlage undAutoren? – In: Password Nr. 5 (2001), 24-39.

97


• Zitationsrate, ArtikelrateAnzahl der Zitationen in einem Berichtsjahr t, die die Zeitschrift Z nennen; Anzahl der Quellenartikel

98


• Impact Factor IF. Quotient aus der Anzahl der Zitationen C der Quellenartikel S von Z in t und der Anzahl der Quellenartikel S von Z in den zwei vorangegangenen Jahren t-1 (S1) und t-2 (S2)

IF (Z;t) = C / (S(1) + S(2))

99


• Berechnung des Impact Factor für „College & Research Libraries“ 1999– # Quellenartikel in 1998 S(1) = 37– # Quellenartikel in 1997 S(2) = 35– # Zitationen von 1998-er und 1997-er Artikeln

aus „Coll Res Lib“ in 1999 C=76

– IF(Coll Res Lib;1999) = 76 / 37+35 = 1,056

100


• Beobachtungszeitraum von zwei Jahren zu kurz, methodisch begünstigt werden aktuelle Zeitschriften, benachteiligt alle anderen

• „Reife“ und „Niedergang“ von Informationen– (1) kurze Reife - kurzer Niedergang– (2) kurze Reife - langsamer Niedergang– (3) langsame Reife - kurzer Niedergang– (4) langsame Reife - langsamer Niedergang

• IF erkennt den Unterschied zwischen (1) und (2) nicht; die Fälle (3) und (4) werden gar nicht erfasst

• Lösungsvorschlag: zusätzliche Impact Factors einführen (5-Jahres-IF; 6-10-Jahres-IF, 10-Jahres-IF)

Wolfgang Glänzel; Urs Schoepflin: A bibliometric study of ageing and reception processes of scientific literature. –In: Journal of Information Science 21 (1995), 37-53.

101


• Was heißt: Quellenartikel?– Welche Zitationen werden gezählt? ALLE– Welche Artikel werden gezählt? AUSWAHL– NUR „zitierbare“ Quellen (Originalartikel, technical notes, meeting

abstracts, Reviewartikel) werden als Artikel gezählt.– Übergangen werden alle anderen Dokumenttypen, obwohl diese

auch zitiert werden.– Dies treibt den IF derjenigen Zeitschriften nach oben, in denen viele

„andere“ Dokumenttypen erscheinen (die Zitationen werden im Zähler mitgezählt, die Quellen im Nenner nicht).

H.F.Moed; Th.N. van Leeuwen: Improving the accuracy of Institute for Scientific Information‘s journal impactFactors. – In: Journal of the American Society for Information Science 46 (1995), 461-467.

102


• IF einzelner Dokumenttypen nach Moed und van Leeuwen:– Buchbesprechungen 0,03– Corrigenda 0,17– Diskussionsbeiträge 1,07– Editorials 0,53– Letters to the Editor 0,60– Meeting abstracts 0,10– Technical notes 2,43– Reviewartikel 7,28– Originalartikel 3,61– sonstige 0,05

• Durchschnitt 2,60• Durchschnitt ISI-Zählart 3,62

JCR

Quellen-artikel

103


• Dokumenttypen– Reviewartikel erhalten im Durchschnitt einen doppelt so hohen

IF wie Originalartikel (7,28 gegen 3,61)– Zeitschriften, die bevorzugt Reviewartikel publizieren, werden

methodisch bevorzugt– Originalartikel berichten über Ergebnisse eigener Forschung

und Entwicklung; Reviewartikel fassen „nur“ bereits bekannte Ergebnisse zusammen. Entsprechend gelten Originalartikel als „wertvoller“

– ISI-Lösung: Angabe der Anteile Original- und Reviewartikel in den Source Data

104


• Zeitschriften aus unterschiedlichen Erscheinungs-ländern haben im Durchschnitt andere IF– USA 1,58– Deutschland 0,79– Frankreich 0,39– Russland 0,21

• Erklärung A: USA haben viel mehr Zeitschriften in den JCR und sind deshalb überrepräsentiert (am Rande: EU hat mehr Titel in der Datenbank als USA)

• Erklärung B: die Wirkung amerikanischer Zeitschriften ist in der Tat höher

Guido van Hooydonk: Cost and citation data for 5399 scientific journals in connection with journal price-setting,copyright laws and the use of bibliometric data for project review. – In: Serials Librarian 27 (1995), 45-58.

105


• Unterschiedliche Wissenschaftsdisziplinen haben signifikant unterschiedliche IF– alle SCI-Zeitschriften (Stichprobe v.Hooydonk) 1,059– Biowissenschaften 1,439– Ingenieurwissenschaften 0,416

• Vergleiche anhand der IF-Werte über Disziplingrenzen hinweg sind unzulässig.

• Lösung: Einführung eines „Normalisierungsfaktors“; Eichung am Durchschnitt; in den Beispielen:– Biowissenschaften IF * 0,736– Ingenieurwissenschaften IF * 2,546

• Für jede Zeitschrift muss der IF normalisiert werden.

106


• Lesertyp (Scanlans Vermutung)– Zeitschriften, die vorwiegend akademische

Wissenschaftler ansprechen, haben i.d.R einen höheren IF als Zeitschriften, die eher Wissenschaftler in der Wirtschaft ansprechen

– Grund: beide Lesertypen lesen, aber nur Akademiker publizieren

– und: ohne Publikation keine Zitation– Lösung: offen (für Informationswissenschaft: widerlegt)

Brian D. Scanlan: Coverage by Current Contents and the validity of impacts factors: ISI from a journal publisher‘sperspective. – In: Serials Librarian 13 (1978) 2/3, 57-66.

107


Impact Factor: Neue Indikatoren

• H-Index für Zeitschriften• Gewichtete Indikatoren (analog PageRank)

– Eigenfactor („eigenvector centrality“)– SCImago Journal Rank (basierend auf Scopus)

• Normalisierte Indikatoren– an Zitationen orientiert: z. B. Mean Normalized Journal Score (MNJS) /

CWTS Leiden– an Referenzen orientiert: z. B. Audience Factor oder Source

Normalized Impact per Paper (SNIP)

Haustein, S. (2012). Multidimensional Journal Evaluation. Analyzing Scientific Periodicals beyond theImpact Factor. Berlin, Boston, MA: De Gruyter Saur.

108


Zitationskennwerte IV: VeralterungHalbwertszeit (half-life – median age)

– Cited Half-Life: Median des Alters der Zitationen. Wie lange bleiben die Ergebnisse einer Zeitschrift aktuell?

– Citing Half-Life:Median des Alters der Referenzen. Wie alt ist die zitierte Literatur einer Zeitschrift?

• Beim ISI ist die Halbwertszeit ausschließlich für akademische Zeitschriften definiert.

R.E.Burton; R.W.Kebler: The „half-life“ of some scientific and technical literature. – In:American Documentation 11 (1960), 18-22. – R.E.Burton; B.A.Green: Technical reports in physics literature. –

In: Physics Today 14 (1961) 10, 35-37.

109


• Cited Half-Life: Zeitraum T, in den 50% aller Zitationen auf die Zeitschrift Z im Jahre t fallen

• Citing Half-Life: Zeitraum T(R), in den 50% aller Referenzen der Zeitschrift Z im Jahre t fallen

110


• Berechnung der Halbwertszeit:– Berichtsjahr =: 1– {Gesamtmenge der Zitationen/Referenzen} : 2 = a– „kritisches Jahr“: Jahr in dem der Median der Zitationen/

Referenzen erreicht wird– „subkritisches Jahr“: Jahr vor dem kritischen Jahr: Y– kumulierte Anzahl der Zitationen/Referenzen am Ende des

subkritischen Jahres: b– kumulierte Anzahl der Zitationen/Referenzen am Ende des

kritischen Jahres: c

Half-Life T(Z,t) = Y + (a-b) / (c-b)

111


112


Summe bis 1992: b=207

Summe bis 1991:c=241

a = 446 : 2 = 223

Subkritisches Jahr

113


Cited Half-Life von „Coll Res Libr“ 1999• Gesamtzahl der Zitationen von „Coll Res Libr“ in 1999 ist

446; demnach a = 223• subkritisches Jahr: 1992; demnach Y = 8• Kumulation der Zitationen bis zum Ende des subkritischen

Jahres (1992) b = 207• Kumulation der Zitationen bis zum Ende des kritischen

Jahres (1991) C = 241

T(Coll Res Libr;1999) = 8 + (223-207) / (241-207)= 8 + 16/34 = 8,471

114

Szientometrie

Beispielhafte Ansätze und Ergebnisse der Bibliometrie

115

Szientometrie

deskriptive Informetrie der Information: Aufspüren von neuen Informationen in Datenbanken („Knowledge Mining“)

• Rangordnungen• Zeitreihen• Social Networks• Informationsfluss-

analysendabei – soweit möglich: Vergleich der beschriebenen Verteilungen mit den (nach den informetrischen Gesetzen) erwarteten

116

Szientometrie

• Rangordnungen– Fragestellung: Welches sind die Top-X-Items in einer

Dokumentenmenge?

– Theoretische Basis: Konzentrationsgesetze

– Vorgehen:• Suche nach allen Datensätzen zum Thema• Rangordnung zur gewünschten Ausprägung• Ausgabe der “Hitparade” bis Platz X

– Beispiel 1: Welche Unternehmen sind in der FuE bei Verpackungsmaschinen führend?

117

Szientometrie

Rangordnung der Unternehmen nach Patenten bei Verpackungsmaschinen

Rang absolute H. relative H. Unternehmen1 170 0,74 % Focke & Co GmbH & Co2 153 0,66 % Grace & Co3 126 0,55 % Robert Bosch GmbH4 105 0,45 % Packaging Filling Equip.

N = 22.867 Patentfamilien in der IPC-Unterklasse B65B (nebst aller Unter-begriffe)N’ = 7.448 (unterschiedliche) Unternehmen mit mindestens einem Patent in B65B

118

Szientometrie

• Rangordnungen– Beispiel 2: Deutschsprachige Informations-

wissenschaftler nach Publikations- und Zitationsraten

119

Szientometrie

• Informetrische Zeitreihen– Fragestellung: Wie entwickelt sich ein Aspekt einer

Dokumentmenge im Laufe der Zeit?

– Vorgehen:• Suche nach allen Datensätzen zum Thema• Ausgabe der Inhalte des Feldes “Jahrgang” oder

„Datum“ (mit Angabe der Anzahl der DE)• graphische Aufbereitung als Zeitreihe

(Tabellenkalkulationsprogramm)

– Beispiel 1: Wie viele Patente für Verpackungsmaschinen haben die führenden Unternehmen pro Jahr zwischen 1981 und 1993 angemeldet?

120

Szientometrie

Patentaktivitäten der führenden Unternehmen bei Verpackungsmaschinen

0

10

20

30

40

50

60

70

80

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

Pate

ntan

mel

dung

en p

ro J

ahr

BoschFockeGrace

121

Szientometrie

• Informetrische Zeitreihen– Beispiel 2: Wie hat sich der Output der Informations-

wissenschaft in den letzten Jahren entwickelt?

122

Szientometrie

• Social Networks / ungerichtete Graphen– Fragestellung: Gibt es in einer Dokumentenmenge

zusammengehörige Komplexe? Bsp.: kooperierende Autoren oder Institute; gemeinsam auftretenden Themen; gemeinsame Referenzen oder Zitationen

– Vorgehen:• Suche nach allen Datensätzen zum Thema• Auswertung der passenden Felder• Aufbereitung als Netzwerkgraph

– Beispiel: Wie hängen die Forschungsthemen der Krones AG im Bereich der Etikettiermaschinen zusammen?

123

Szientometrie

Thematisches Cluster der Artikel von Krones-Mitarbeitern im Bereich der Etikettiermaschinen

(im Bild der Deskriptoren der Datenbank DOMA)

124

Szientometrie

• Informationsflussgraph / Gerichtete Graphen

– Fragestellung: Fließen innerhalb einer Dokumentenmenge Informationen (welche?, wieviele?) von A nach B?

• Gerichtete Graphen: Zitationen, Retweets, Likes/Shares/Comments, Downloads

• Graphische Aufbereitung als Informationsflussgraph

– Beispiel: Woher stammen die Technologieinformationen der Krones AG? Wohin fließen die Technologieinformationen von Krones?

125

Szientometrie

Wissensimport und -export bei der Krones AG (im Bild von Derwent World Patents Index bei Orbit)

126

PatentometrieBeispielhafte Ansätze und Ergebnisse der

Bibliometrie

127

Patentometrie

Leistung und Wirkung in technischen Disziplinen• Leitindikatoren:• (1) Patente

– Anmeldungen– Auslandsanmeldungen– Patenterteilungen im Inland– Patenterteilungen im Ausland

• (2) Referenzen in Patenten– Referenzen auf andere Patente– Referenzen auf wissenschaftliche Literatur

• (3) Zitationen von PatentenFrancis Narin: Patent bibliometrics. – In: Scientometrics 30 (1994), 147-155.

Francis Narin; D.Olivastro: Technology indicators based on patents and patent citations. – In: A.F.J.van Raan(Hrsg.): Handbook of Quantitative Studies of Science and Technology. – Amsterdam: Elsevier Science,

1988, 465-507.

128

Patentometrie

Leistung und Wirkung in technischen Disziplinen• Wissenschaftsbindung der Technik• Anzahl der Nicht-Patent-Referenzen in Patenten (NPL-

Referenzen)• Je höher die durchschnittliche Zahl der NPL pro Patent, desto

höher ist die Wissenschaftsbindung der jeweiligen Menge von Patenten

• Wissenschaftsbindung– technische Disziplinen– Länder– Unternehmen

Hariolf Grupp; Ulrich Schmoch: Wissenschaftsbindung der Technik. – Heidelberg: Physica, 1992.

129

Patentometrie

Leistung und Wirkung in technischen Disziplinen• Wissenschaftsbindung der Technik: USA versus Deutschland

Wissenschaftsbindung überWeltdurchschnitt

Wissenschaftsbindung unterWeltdurchschnitt

Informetrie 130

Patentometrie

Leistung und Wirkung in technischen Disziplinen

• Wissenschaftsbindung von Disziplinen (Abweichungen vom Durchschnitt aller Disziplinen. Quelle: Europäisches Patentamt, Patentanmeldungen 1989 – 1992)

Ulrich Schmoch: Indicators and the relations between science and technology. – In: Scientometrics 38 (1997),

103-116.

131

Patentometrie

Informetrische Indikatoren der Patentliteratur

Wichtigste Institution: The Patent Board. Früher: CHI Research, Inc. Patentanalysen von börsennotierten Unternehmen, Städten und Ländern

Francis Narin: Tech-Line Background Paper. – Haddon Heights, NJ: CHI Research, 1999. –Anthony F. Breitzman; Francis Narin: Method and apparatus für choosing a stock portfolio, based on

patent indicators. – Patent Nr. US 6,175,824. – Priorität: 14.7.1999. – Patentinhaber: CHI Research, Inc.

Francis Narin

President CHI (1968 – 2004)

132

Patentometrie

Informetrische Indikatoren der Patentliteratur• Gibt es einen Zusammenhang zwischen Patentindikatoren

und dem Börsenwert eines Unternehmens?• Wissenschaftsbindung

der Patente korreliert mit Börsenwert

• Citation Impact korreliert mit Börsenwert

133

Patentometrie

Informetrische Indikatoren der Patentliteratur• Anzahl der (erteilten) Patente eines Unternehmens in einem

Zeitintervall (etwa: 5 Jahre)• jährliches Wachstum der Anzahl der Patente (in %)• Voraussetzung: Identifikation des Unternehmens

134

Patentometrie

Informetrische Indikatoren der Patentliteratur• Zitationen pro Patent: Zitationen, die ein Patent eines

Prioritätsjahres im Laufe seiner Geschichte anhäuft (empirisches Ergebnis: ein „durchschnittliches“ us-amerikanisches Patent hat nach 6 Jahren rund 5 Zitationen in der US PTO-Datenbank)

• Anzahl der Zitationen eines Patentes pro Jahr: Pioniere, Ehren-halle und historische Relevanz

135

Patentometrie

Informetrische Indikatoren der Patentliteratur• Current Impact Index (CII) eines Unternehmens: Anzahl der

Zitationen auf Patente eines Unternehmens (mit Priorität aus den letzten 5 Jahren) im Berichtsjahr, relativiert auf die durchschnittliche Zitationsrate einer Disziplin (1 bedeutet demnach: genau wie der Durchschnitt; 2: doppelt so viele Zitationen wie der Durchschnitt; ½: die Hälfte des Durchschnitts)

• Bestimmungswerte: – (1) Anzahl der Patente eines Unternehmens sowie der Disziplin in den

Jahren t-1, t-2, ..., t-5– (2) Anzahl der Zitationen im Jahr t auf die Patente unter (1)– (3) durchschnittliche Anzahl der Zitationen pro Patent in t für das

Unternehmen ZR(U) und für alle Patente der Disziplin ZR(D) in den Jahren t-1, t-2, ..., t-5;

– (4) Quotient Q = ZR(U) : ZR(D) (für die 5 Jahre) – (5) gewichtete Summe der Anzahl der Patente in einem Jahr mal Q, geteilt

durch die Summe der Anzahl der Patente über die 5 Jahre

136

Patentometrie

Current Impact Index (CII) eines Unternehmens. Beispiel

Schritt 1

Schritt 2

137

Patentometrie

Current Impact Index (CII) eines Unternehmens. Beispiel

Schritt 3

Schritt 4

Schritt 5

138

Patentometrie


• Technische Stärke eines Unternehmens:

Produkt aus der Anzahl der Patente in einem Jahr mit dem Current Impact Index dieses Jahres

139

Patentometrie


• Halbwertszeit der Zitationen von Patenten in anderen Patenten („Technology Cycle Time“ TCT). Beispiele (US PTO) für Disziplinen:– Telecommunications 5,7– Computers and Peripherals 5,8– Semiconductors and Electronic 6,0– ...– Wood and Paper 12,3– Machinery 12,3– Aerospace and Parts 13,2

140

Patentometrie

Informetrische Indikatoren der Patentliteratur• Wissenschaftsbindung der Technik eines Unternehmens

(„Science Linkage“)durchschnittliche Anzahl der Referenzen auf wissenschaftliche Literatur bei den Patenten eines Unternehmens. Beispiele (US PTO) für Disziplinen:– Biotechnology 14,4– Pharmaceuticals 7,3– Agriculture 3,3– Chemicals 2,7– Medical Electronics 2,2– ...– Machinery 0,1– Motor Vehicles and Parts 0,1

141

Patentometrie


• Wissenschaftsstärke eines Unternehmens („Science Strength“ SS)Produkt aus der Anzahl der Patente eines Unternehmens und der durchschnittlichen Wissenschaftsbindung

142

Patentometrie

Beispiel: IBM (1990 – 1999)

143

Informationsverhalten

Nutzerforschung

144


• „Informationsverhalten“ (information behavior): Gesamtheit menschlichen Verhaltens beim Umgang mit Informationen

• „Informationsproduktionsverhalten“ (information production behavior): Informationsverhalten beim Kreieren und Repräsentieren von Informationen

• „Informationsrezeptionsverhalten“ (information reception behavior): Verhalten beim Rezipieren von Informationen

• Sonderformen im Kontext mit Information Retrieval:– „Informationssuchverhalten“ (information seeking behavior):

Informationsverhalten beim Suchen nach Informationen (egal, wo)

– „Informationsrechercheverhalten“ (information searching behavior): Verhalten beim Suchen in einem konkreten System (etwa: Gebrauch Boole‘scher Operatoren)

145


• Medien- und Informationsverhalten: Lasswell-Formel

– Who Says

– What

– In Which Channel

– To Whom

– With What Effect?

• orientiert vor allem am SenderHarold Dwight Lasswell

146


• Uses and Gratification Theory– Zuschauer werden als aktiv wahrgenommen

– Zuschauer verfolgen Ziele

– Motive, Informationen bzw. Medien zu konsumieren, folgen der Erwartung von Belohnungen

– Medien sind im Wettbewerb um die Zuschauer

– Belohnungen:• Information

• Unterhaltung

• Sozialisieren

• Selbstdarstellung Elihu Katz (1926 -)

147


• Informationsverhalten bei Social Media

148


• Informationsverhalten bei asynchronen Social Network Services

Writing a post

Post: Text, image,video

Post: Text, image,video

Reading the post

Liking, sharing, commenting the post

Number of likes

Writing a post;answering comments

149


• Informationsverhalten bei synchronen Social Network Services

Broadcasting live

Live stream Live stream

Watching the broadcast

Chatting, giving hearts, gifts

Level, reputation

Broadcasting live, reacting on chats

Coins, bars

150


Informationsverhalten. Erhebungstechniken

• Interview• Fragebogen• Beobachtung• Dokumentenanalyse• Selbstaufschreibung• Logfile-Analysen

151


Interview• i.d.R.:

halbstandar-disiert

• mit Leitfaden• angestrebt:

qualitative Auswertung

Götz Schmidt: Methode und Techniken der Organisation. – Gießen: Verl. Dr. Götz Schmidt, 12. Aufl., 2001.

152


Interview mit Leitfaden

Ablauf

Philipp Mayring: Einführung in die qualitative Sozialforschung. – Weinheim: Beltz, 5.Aufl., 2002.

153


Interview• Autoritätsanspruch• häufigste Form: neutrales Interview

Quelle: Schmidt

154


Interview• Wo? Interviewort

in vertrauter Umgebung des Befragten (Arbeitszimmer, Besprechungsraum, ...)

• Wann? Interviewzeitnach Vereinbarung (wann halt beide Parteien Zeit haben)

• Wie lange?½ - 2 Stunden – kann beträchtlich schwanken

• Wer? Interviewernur geschulte Interviewer – mit Fachkenntnissen – soziale Fertigkeiten (Schaffen gelöster Gesprächsatmosphäre)– Kompetenz in der Sache (bei Rückfragen)

155


Interview• Wen? Die Interviewten (Experten / Laien)

– Repräsentative Stichprobe (10 … 20 Personen)– Stichprobe so groß wie möglich: um Aussagekraft zu erhöhen– Stichprobe so klein wie möglich: um Kosten zu sparen

• Aufzeichnung des Interviews– Notizen im Leitfaden (Fragebogen) während des Interviews– danach: Kurzprotokoll– Aufzeichnung des Gespräches auf Band (vorher Einver-

ständnis einholen)• kann problematisch sein, wenn Probanden von Aufzeichnungs-

geräten verunsichert werden• wäre aber nötig wegen wiederholter Abspielmöglichkeit

– Transkribierung

156


Interview: Fragen• Aufbau des Interviews

– nur solche Fragen, die nicht auch auf anderem Wege erfasst werden könnten

– keine Fragen wiederholen– Fragen klar und unmissverständlich formulieren– vom Allgemeinen zum Besonderen– bei Antwortvorgaben: sind diese angemessen?– ggf. Filterfragen (Bedingungen)– enthält das Interview genügend Abwechslung (Motivation der

Befragten)?– können verzerrte Antworten auftreten?– Achtung: Fragen können „ausstrahlen“ (Beispiel: Haben Sie bei der

Einführung von X mitgewirkt? Antwort: ja. Nächste Frage: Finden Sie X innovativ? Antwort: ??)

157


Interview: Auswertung• Ausgang: Transkript des Interviews• bei halb-standardisiertem Interview:

– Kategorien sind bekannt (Struktur des Leitfadens)– Aussagen zu den einzelnen Kategorien bündeln

• bei anderen Interviewformen (vor allem: beim narrativen Interview):– Content-Analyse zur Bildung von Kategorien (min. 2 Forscher

kodieren getrennt voneinander); Code-Buch erstellen (ggf. iterativ)

– Aussagen zu den einzelnen Kategorien bündeln• Ziel: aus den einzelnen Daten Hypothesen bzw. theoretische

Aussagen ableiten („grounded theory“)

158


Fragebogen

• eignet sich u.U. für die Befragung einer homogenen Gruppe

• erfordert gute Strukturierbarkeit der Fragen

• Fragen müssen selbsterklärend sein

• angestrebt: quantitative Auswertung

159


Fragebogen• Vorgehen:

– Pretest (5 … 10 Personen)

– Fragebogen auf Papier/E-Mail: Adressliste vorhanden (Anschreiben - Verschicken - Ausfüllanweisung - rücklauf-steigende Maßnahmen bei Briefen: frankierter Rückumschlag, Sonderbriefmarke, ...)

– digitaler Fragebogen (z. B. UmfrageOnline): Adressliste unbekannt; Verteilung über digitale Kanäle (z.B. Facebook oder Foren –allerdings problematisch, da nicht repräsentativ)

– Rücklauf (telefonisches / schriftliches Erinnern); mind. 100 komplett ausgefüllte Fragebögen, besser mehr als 1.000

160


Umfragewerkzeug

161


Fragebogen: Fragearten: offene / geschlossene Fragen

Quelle: Fank

162


Fragebogen: Fragearten: Rangfragen

163


Fragebogen: Fragearten: Hypothetische Situation

164


Fragebogen: Kontrollfragen

– Variation einer gleichen Frage an unterschiedlichen Stellen im Fragebogen

– möglicher Vorteil: Überprüfung der Wahrheit der Antwort

– großer Nachteil: Verwirrung, Misstrauen

– abzuraten!

165


Fragebogen: Skalen bei geschlossenen Fragen (Likert-Skala)– gerade Anzahl von Antwortoptionen (4, 6, 8, 10 Optionen):

zwingt zu positiven bzw. negativen Antworten

– ungerade Anzahl von Antwortoptionen (3, 5, 7 Optionen): lässt einen neutralen Wert in der Mitte zu

166


Auswertung von Daten auf einer Likert-Skala: Mittelwerte und Streuungsmaße– eigentlich: Ordinalskala

• Auswertung: Median / Interquartilsabstand

– wenn die Abstände zwischen den Zahlenwerte gleich groß sind: Intervallskala

• Auswertung: arithmetisches Mittel*, Standardabweichung, Korrelationen

• *: arithmetisches Mittel: nur bei annähernder Normalverteilung der Einzeldaten; auf Schiefe überprüfen; ggf. Kolmogorow-Smirnow-Test

167


Auswertung von Daten auf einer Likert-Skala– Normalverteilung: arithmetisches Mittel darf berechnet werden

168


Auswertung von Daten auf einer Likert-Skala– Wenn keine Normalverteilung vorliegt: arithmetisches Mittel darf

NICHT berechnet werden (aber Median und Modus)

169


Test auf Unabhängigkeit zweier Stichproben zum selben Merkmal: Student‘s t-Test

Beispiel: Bestehen signifikante Unterschiede zwischen der Intelligenz von Männern und Frauen?

pro Stichprobe: min. 30 (besser: 50) Fälle

170


Zusammenhang zwischen zwei Merkmalen: Korrelation nach Pearson

Beispiel: Hängen Intelligenz und Körpergröße zusammen?

Vor.: intervallskalierte Daten

171


Konsistenz einer Skala– Messen unterschiedliche Items (e1, …, ek) jeweils T?

– Cronbachs Alpha (Korrelation der Komponenten)

172

Analyse und Evaluationvon Informationssystemen

173

Analyse und Evaluation von Informationssystemen

Aufgabe:Messung der Qualität von IS

Ziel:Verbesserung der IS

Methodenbündel aus:• Information Systems Research (Wirtschaftsinformatik)• Marketingforschung• Wissensmanagement• Evaluationsforschung für Retrievalsysteme

174


Technology Acceptance Model

Davis, F.D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of informationtechnology. MIS Quarterly, 13(3), 319-339.

175


Technology Acceptance Model

Adams, D.A., Nelson, R.R., & Todd, P.A. (1992). Perceived usefulness, ease of use, and usage ofinformation technology. A replication. MIS Quarterly, 16(2), 227-247.

später hinzugefügt:

Vertrauen (E-Commerce)

Spaß (Social Media)

176


Unified Theory of Acceptance and Use of Technology (UTAUT)

Venkatesh, V., Morris, M. G., Davis, G. B., & Davis, F. D. (2003). User acceptance of information technology: Toward a unified view. MIS Quarterly, 27(3), 425-478.

177


Model of Adoption of Technology in Households (MATH)

Brown, S. A., & Venkatesh, V. (2005). Model of adoption of technology in households: A baseline model test and extension incorporating household life cycle. MIS Quarterly, 29(3), 399–426.

178


IS Success Model

DeLone, W., & McLean, E. (2002). The DeLone and McLean model of information systems success.A ten-year update. Journal of Management Information Systems, 19(4), 9-30.

Informetrie 179


Knowledge Management Success Model

Jennex, M.E., & Olfman, L. (2006). A model of knowledge management success. International Journalof Knowledge Management, 2(3), 51-68.

Informetrie 180


181


Objektive Qualität des InformationssystemsEffektivität / Effizienz

• Effektivität: Die richtigen Dinge tun– Macht ein IS die richtigen Dinge? Für was ist es überhaupt

gut?– Bei Retrievalsystemen: Recall und Precision

• Effizienz: Die Dinge richtig tun– Bei IS i.d.R.: Schnell sein

182


Effektivität von Retrievalsystemen: Recall / Precision– Mengentheoretische Betrachtung (A: relevante Dokumente;

B: Dokumente in Treffermenge)

C.J. van Rijsbergen: Information Retrieval. – 2nd. Ed. –London; Boston: Butterworth, 1979.

Treffer

FalloutVerlust

Ballast

183


Effektivität: Die „klassischen“ Kennwerte zur Bewertung von Retrievalsystemen– Haben wir alle Datensätze gefunden, die

handlungsrelevantes Wissen beinhalten? (Vollständigkeit; Recall)

Recall R = a / (a + c)– Haben wir nur solche Datensätze gefunden?

(Genauigkeit, Precision)Precision P = a / (a + b)

a =: gefundene relevante Trefferb =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast)c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden

Gerard Salton; Michael J. McGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. –Hamburg [u.a.]: McGraw-Hill, 1983. – Kap. 5: Die Bewertung von Retrievalsystemen, 167-210.

Salton

184


Das Effektivitätsmaß von v.Rijsbergen– E: Effektivität; R: Recall; P: Precision– α: Wert zwischen 0 und 1– α = 0 : Effektivität wird auf Recall (1-R) reduziert– α = 1 : Effektivität wird auf Precision (1-P) reduziert– α = ½ : Effektivität beruht ausgewogen auf R und P

van Rijsbergen

E ist zwischen 0 (beste Effektivität) und 1 (unendlich schlechte Effektivität) definiert.

185


Recall/Precision bei Systemen mit Relevance Ranking– Definition eines Cut-off-Wertes X (etwa: X=25, d.h. die

Top 25 Treffer)– Precision

• rangspezifische Precision (Wie groß ist die Precision auf Rang 1, Rang 2 usw.?): P@n

• rangunabhängige Precision (Wie groß ist die durchschnitt-liche Precision bis zum Cut-off-Wert X?)

• MAP (Mean Average Precision)• Problemfall: a = 0. Wie groß ist die Precision?

wenn a=0 und c=0, dann gilt P = 1wenn a=0 und c>0, dann gilt P = 0

– Recall hier stets: Wie groß ist der durchschnittliche Recall bei einem Cut-off-Wert X?

186


MAP (Mean Average Precision)

Ranking für Query 1 (insgesamt 5 relevante Dok.)Rang 1 2 3 4 5 6 7 8 9 10r/nr r nr r nr nr r nr nr r rRecall 0,2 0,2 0,4 0,4 0,4 0,6 0,6 0,6 0,8 1Prec. 1,0 0,5 0,67 0,5 0,4 0,5 0,43 0,38 0,44 0,5Average Precision: (1,0 + 0,67 + 0,5 + 0,44 + 0,5) / 5 = 0,62

Ranking für Query 2 (insgesamt 3 relevante Dok.)Rang 1 2 3 4 5 6 7 8 9 10r/nr nr r nr nr r nr r nr nr nrRecall 0 0,33 0,33 0,33 0,67 0,67 1 1 1 1Prec. 0 0,5 0,33 0,25 0,4 0,33 0,43 0,38 0,33 0,3Average Precision: (0,5 + 0,4 + 0,43) / 3 = 0,44

Mean Average Precision: (0,62 + 0,44) / 2 = 0,53

187


Absoluter und relativer Recall– absoluter Recall: Problemfall der Formel ist c. Woher

weiß ich, was ich NICHT gefunden habe, was aber relevant wäre? Der absolute Recall kann nur bei kleinen überschaubaren Datenbasen berechnet werden.

– Alternative: Wir gehen von einer kompletten Literaturliste (etwa Review Article) zu einem Thema aus und recherchieren zu diesem Thema.

– relativer Recall: nicht ein System wird isoliert betrachtet, sondern mehrere Systeme gleichzeitig („Pooling-Methode“; z.B. bei TReC). c‘ ist die Anzahl der Dokumente in der Vereinigungsmenge der relevanten Treffer c(1), c(2) usw. aller betrachteter Systeme

– relativer Recall R = a / c‘,wobei c‘ = |c(1) ∪ c(2) ∪ ... ∪ c(n)| bei n Systemen

188


Availability (Verfügbarkeit)– Term eingeführt in der empirischen Bibliothekswissenschaft

– bei Retrievaltests: Wie hoch ist die relative Häufigkeit, dass ein Retrievalsystem ein bekanntes Dokument („Known Item“) findet?

– A: Availability; Dgef: # der gefundenen Known Items (bei Relevance Ranking: bis Cut-off-Wert); D: # aller gesuchten Known Items

A = Dgef / D

Paul B. Kantor: Availability analysis. – In: Journal of the American Society for Information Science 27(1976), 311-319.

Mechtild Stock; Wolfgang G. Stock: Internet-Suchwerkzeuge im Vergleich. Teil 1: Retrievaltest mit KnownItem Searches. – In: Password Nr. 11 (2000), 23-31.

189


Empirische Analysen von Informationssystemen: TReC– Text Retrieval Conferences

– Vorhalten einer (sehr großen) Datenbasis– Vorhalten von Suchfragen – Vorhalten von Relevanzurteilen

– Systeme werden mit der TReC-Datenbasis und den Suchfragen konfrontiert (sowohl die Datenbasis als auch die Formulierung der Suchfragen können dem System angepasst werden)

– Erhebung von relativem Recall und Precision (Zuordnung der jeweiligen Werte)

190


Typische Suchanfrage bei TReC

Number: 066Domain: Science and TechnologyTopic: Natural Language ProcessingDescription: Document will identify a type of natural language processing

technology which is being developed or marketed in the U.S.Narrative: A relevant document will identify a company or institution

developing or marketing a natural language processing technology, identify the technology, and identify one or more features of the company’s product.

Concept(s): 1. natural language processing; 2. translation, language, dictionary, font; 3. software applications

Factors: Nationality: U.S.

191


Bewerter bei TReC

3 Bewerter pro AnfrageMehrheit „gewinnt“

Inter-Indexer Konsistenz (alle 3 Bewerter): ca. 30%Inter-Indexer Konsistenz (paarweise): knapp 50%

Informetrie 192


Informetrie 193


• Funktionalität– Beispiel Retrievalsystem

• Begin: Auswahloptionen der Datenbanken• Expand: Optionen des Arbeitens mit invertierten Dateien• Select: Suchoptionen• Type: Markieren und Sortieren von Treffern,

Ausgabeschnittstellen• Pull- und Push-Service

– Beispiel Social Network Service• Timeline: Posts erstellen• Friends: Befreunden / Entfreunden / Blockieren• Feedback: Likes, Shares, Comments• Gruppen• Live-streaming• Messenger

Informetrie 194


Informetrie 195


• Gamification / Game Mechanics

– Punkte (ggf. Fortschrittsbalken): Leistungen belohnen– Level: Aufstiegsstufen anzeigen– Badges: Statussymbole anzeigen– Challenges, Quests: Herausforderungen stellen– Virtuelle Güter: (Spiel-)Geld erwerben– Leaderboards: Ranglisten erstellen– Gifting: andere Spieler belohnen

• Grundidee: Gamification bindet Nutzer an ein IS

Informetrie 196


Informetrie 197


• Usability eines IS

– Gebrauchstauglichkeit, Benutzbarkeit und Benutzerfreundlichkeit eines IS im Sinne des Endnutzes („normale“ Menschen)

– Ziel: leichte Benutzbarkeit; Nutzer nicht frustrieren

– Herkunft der Usability-Forschung: Softwareergonomie bzw. Human-Computer-Interaction

Jakob Nielsen: Usability Engineering. – Boston: AP Professional, 1994. - Jakob Nielsen: Designing Web Usability. –München: Markt + Technik, 2001. - Jakob Nielsen; Marie Tahir: Homepage Usability: 50 Websites Deconstructed. –Indianapolis: New Riders, 2002. – Jakob Nielsen; Robert L. Mack (Hrsg.): Usability Inspection Methods. – New York

[u.a.]: Wiley, 1994. – Jeffrey Rubin: Handbook of Usability Testing. – New York [u.a.]: Wiley, 1994. -Werner Schweibenz; Frank Thissen: Qualität im Web. Benutzerfreundliche Webseiten durch Usability Evaluation. –

Berlin [u.a.]: Springer, 2002. – (X.media.press).

Informetrie 198


• Usability. MethodenTask Based Testing– Entwurf typischer Aufgaben für die Website– Testpersonen auswählen, die der Zielgruppe der

Website entsprechen– Testpersonen bearbeiten die Aufgaben– Versuchsleiter beobachten Testpersonen und notieren

ReaktionenThinking-Aloud-Test– analog Task Based Testing– zusätzlich: Testpersonen sprechen ihre Gedanken aus– Aufnahme der Tests (Video; Tonband)

Informetrie 199


• Beispiel: Task Based Testing mit Thinking-aloud-Test der Website des Landtages NRW (Nicola Roßmann)– 40 Testpersonen. Arbeit an der Website unter

konstanten Bedingungen– Aufgabenbeispiel 1: Wie heißen die direkt gewählten

Abgeordneten der Wahlkreis in Köln?– Klicks bis zur richtigen Webseite: kürzester Weg 3;

Testpersonen: arithm. Mittel: 3,7 (N=40); Abbrüche: keiner; Suchzeit arithm. Mittel: 86 Sek. (N=40)

– Thinking aloud: Orientierungsprobleme auf der Wahlkreiskarte. Wie schließt man Wahlkreisanzeigen?

– Ergebnis: bis auf Detailprobleme okayNicola Roßmann; Website – Usability Landtag NRW. – Köln: FH Köln / FB Informationswissenschaft, 2002. –

(Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 34)

Informetrie 200


Thinking aloud:„Wie bekomme ich den

hervorgehobenen Wahlkreis wieder weg?“

Informetrie 201


• Usability. Beispiel: Task Based Testing mit Thinking-aloud-Test der Website des Landtages NRW – Aufgabenbeispiel 2: Wie lautet der 1. Tagesordnungs-

punkt der Ausschusssitzung des Ausschusses für Kinder, Jugend und Familie vom 29.11.2001?

– Klicks bis zur richtigen Webseite: kürzester Weg 6; Testpersonen: arithm. Mittel: 13,6 (N=26); Abbrüche: 14; Suchzeit arithm. Mittel: 331 Sek. (N=26)

– Thinking aloud: Navigation irreführend (scharfe Kritik der Probanden); erforderlicher Klick auf „Aktuelles“ wird nicht eingesehen; Link im Text versteckt

– Ergebnis: Handlungsbedarf! Navigation (Verlinkung und Ankertexte) muss geändert werden

Informetrie 202


Thinking aloud:

„Wie soll ich so einenLink sehen?“

Informetrie 203


Informetrie 204


• Dimensionen der Informationsqualität der Dokumente– Zugänglichkeit (accessibility, downloadable)– Aktualität– Korrektheit / Zuverlässigkeit– Relevanz (applicable, helpful)– Glaubhaftigkeit (believability)– Vollständigkeit– Objektivität– Angemessenheit– Darstellung (readable, consistent, formal structure)– Verständlichkeit– Quelle

Parker, M.B. et al. (2006): An evaluation of information quality frameworks for the World Wide Web. – In:Proceedings of the 8th Annual Conference on WWW Applications.

Informetrie 205


Dimensionen der Qualität der Surrogate

– Anzahl der Datensätze / Abdeckungsgrad– Dateitypen– Aktualität– Richtigkeit– Auswertungstiefe (Feldschema / Anteil mit Inhalt gefüllter Felder)– inhaltliche Erschließung

• eingesetzte Methoden• Indexierungstiefe (Indexierungsspezifität, Indexierungsbreite)• Indexierungskonsistenz: # der Deskriptoren, die beide Indexer

A und B dem Dokument zugeordnet haben / # der Deskriptoren, die A bzw. B insgesamt dem Dokument zugeordnet haben

Informetrie 206


Informetrie 207


1. Ereignisorientierte Qualitätsmessmethoden • sequentielle Ereignismethode; • Critical-Incident-Technik; • Beschwerdeanalyse; • Frequenz-Relevanz-Analyse für Probleme (FRAP)

2. Merkmalsorientierte Qualitätsmessmethoden • SERVQUAL-Ansatz• Penalty-Reward-Faktoren

Michaela Göcke: Kundenorientiertes Qualitätsmanagement bei Informations-dienstleistern. - In: Password Nr. 9 (1999), 22-30.

208


Parken vorder

Bibliothek

Außenansichtder

Bibliothek

Betretender

Bibliothek

Suchen derrichtigenAbteilung

Ansprechen desInformationsbibliothekars

(Äußerung des Informationswunsches)Interview

Durchführungder

Recherche

Überprüfung undAufbereitung der

Ergebnisse

Übermittlung derErgebnisse

Verlassen derBibliothek

Abfahrt vomParkplatz

Auswahl derInformationsmittel

Festlegung derSuchstrategie

Line ofVisibility

Sequentielle

Ereignis-

methode

Informetrie 209


Ereignis ZufriedenstellendeAusprägung

Nicht zufriedenstellendeAusprägung

Termineinhaltung Als ich denInformationsvermittler auf dieDringlichkeit meiner inAuftrag gegebenen Recherchehinwies, kümmerte er sichsofort darum, und innerhalbder nächsten 2 Stunden lagendie von mir gewünschtenErgebnisse vor

Obwohl ich denInformationsvermittler aufdie Dringlichkeit der von mirin Auftrag gegebenenRecherche hinwies, erhieltich die von mir gewünschtenErgebnisse nicht zumvereinbarten Termin

Antwort auf Fehler bei derErstellung einer Kernleistung

Als die Ergebnisse einerkostenpflichtigen Recherchesich als lückenhaft erwiesen,führte derInformationsvermittlerkostenlos eine zweiteRecherche durch

Als sich die Ergebnisse einervon mir in Auftraggegebenen Recherche alsunzureichend und fehlerhafterwiesen, gab man mir vonSeiten der Informations-vermittlungsstelle zuverstehen, ich allein seiaufgrund meinerunzureichenden Angabenhierfür verantwortlich

CriticalIncidentTechnik

Informetrie 210


Problemrelevanz hoch

FELD B FELD A * Datenbankinkonsistenz fehlerhafte Sortierung bei Ranking * * fehlerhafte Suchprofile * fehlerhafte Help-Desk-Auskünfte

Problemfrequenz selten häufig

Rechtschreibefehler in Abstracts * unübersichtliche Suchoberfläche *

FELD D FELD C

nur Initialen der Vornamen * gering

Frequenz-Relevanz-AnalysefürProbleme(FRAP)

Informetrie 211


Beispiel für eine Doppelskala (Item 14)

Lehne ich Stimme ich vollkommen ab vollkommen zu

Mitarbeiter einer hervorragendenInformationsvermittlungsstelle sind stetsgleichbleibend höflich zu ihren Kunden

1 2 3 4 5 6 7

Mitarbeiter der Informationsstelle XY sindstets gleichbleibend höflich zu ihren Kunden

1 2 3 4 5 6 7

SERVQUAL - Ansatz

Charakteristisch: Doppelskala1. Erwartete Dienstleistung (Einstellung)2. Erlebte Dienstleistung (Zufriedenheit)

erfasst wird die DIFFERENZ der Noten beider Skalen

Informetrie 212


Penalty-Reward-Faktoren• Penalty-Faktoren („Standard“): Erfüllung wird erwartet; Nichterfüllung

verärgert den Kunden• Reward-Faktoren („Zusatzleistungen“): Erfüllung wird nicht unbedingt

erwartet; Nichterfüllung dementsprechend nicht schlimm; Erfüllung (selbst auf niedrigem Qualitätsstand) wird als positiv erlebt

• Vorgehen:– Einschätzung der Gesamtqualität der Informationsdienstleistungen

(„sehr zufrieden“ (1) ... „unzufrieden“ (7))– Einschätzung einzelner Dimensionen („viel besser als erwartet“ (1) ...

„viel schlechter als erwartet“ (7))– Penalty-Faktoren: Globalurteil steigt nicht mit Dimensionsurteil, fällt

aber mit Dimensionsurteil– Reward-Faktoren: Globalurteil steigt mit Dimensionsurteil, fällt aber

nicht mit Dimensionsurteil

Informetrie 213


Informetrie 214


Wahrgenommene Qualität des Informationssystems

• Einfachheit (aus TAM): Fragebogen (7-Punkt Likert-Skala): „Die Nutzung des Informationssystems ist für mich klar und verständlich.“

• Nützlichkeit (aus TAM): „Wenn ich das System nutze, kann ich gewisse Aufgaben am Arbeitsplatz schneller und bequemer lösen.“

• Vertrauen: „Das System und dessen Betreiber werden meine persönlichen Daten nicht missbrauchen.“

• Spaß: „Die Nutzung des Systems bereitet mir Freude.“

3 … 5 Fragen pro Dimension; Cronbachs Alpha berechnen!

Informetrie 215


Informetrie 216


• Nutzer– Anzahl– Nutzungshäufigkeit (Rangplatz der Webseiten national /

international)– Verteilung der Nutzer auf Staaten

• Datenquelle: Alexa.com (Beispiel: Vkontakte)

Informetrie 217


Nutzer

• Informationsbedarf: Interviews / Fragebogen• Informationsverhalten

– Informationsproduktion: Beobachtung, Interviews / Fragebogen

– Informationssuchverhalten: Beobachtung– Informationsrezeptionsverhalten: Beobachtung, Interviews /

Fragebogen• Stand der Informationskompetenz: Tests

Informetrie 218


Informetrie 219


Akzeptanz

– Adaption: Wie ist jemand auf das System gestoßen? – Nutzung: insb. Nutzungszeit (etwa pro Tag)– Ende der Nutzung: Gründe– Einfluss auf das (Informations-)verhalten: Hat sich durch die

Nutzung des Systems das Verhalten geändert?– Verbreitung des Systems: Netzwerkeffekte, Standard

Methoden: i.d.R. Fragebogen

Informetrie 220


Documents

Projektseminar Informetrie - uni-duesseldorf.de · – Warum nutzen sie die Dienste? (Motive) – Wieviel Zeit verbringen sie dort? – Sind sie ggf. abhängig? (problematisches Nutzerverhalten,