Upload
adrianwilke
View
1.589
Download
2
Tags:
Embed Size (px)
DESCRIPTION
Citation preview
Knowledge Awareness in Artefact-Actor-Networks
Analyse wissenschaftlicher Publikationen
Adrian Wilkeinfo@[REMOVE]adrianwilke.de
Didaktik der InformatikUniversität Paderborn
26. November 2010
Inhalt
Übersicht
Open access journalsWelche Publikations-Daten bieten sich für AAN an?
Austausch von MetadatenDatenformate für Publikationen
AAN: Fallbeispiel PublikationenAktuelle Entwicklung in unserem System
Daten-Extraktion aus PDF-DateienSpezielle Parser und Maschinelles Lernen
Scientometrics, Bibliometrics, Citation AnalysisMöglichkeiten der Analyse
PG knowAAN: Analyse wissenschaftlicher Publikationen 2
Open access journals
Open access journalsWas für Daten können wir für AAN nutzen?
PG knowAAN: Analyse wissenschaftlicher Publikationen 3
Quellen: [Wikc, BWL+10] Open access journals
Open access journals
Was ist das?I Wissenschaftliche Fachzeitschriften (Peer-Review-Verfahren)I Freier Zugang (reiner Internetzugang)I Primäre Veröffentlichung: 8,5% (2008)I Parallelveröffentlichung oder Selbstarchivierung: 11,9% (2008)
Pro-ArgumenteI Autoren: Mehr Leser und mehr ZitierungenI Leser aus wissenschaftlichem Bereich: Finanzielle MittelI Allgemein: Freier Zugang für alle Interessierten
PG knowAAN: Analyse wissenschaftlicher Publikationen 4
Quellen: [BWL+10] Open access journals
Studie 2010: Zugreifbare Artikel aus 2008
PG knowAAN: Analyse wissenschaftlicher Publikationen 5
Quellen: [Lun, Reg] Open access journals
Interessante Sammlungen
I Directory of Open Access Journals (DOAJ)I 5.700 Zeitschriften, 2.400 davon mit Artikel-MetadatenI Insgesamt 480.000 ArtikelI Informatik: 236 Zeitschriften
I Elektronische Zeitschriftenbibliothek der Uni RegensburgI 51.000 Titel, davon 6.900 reine Online-ZeitschriftenI 26.000 Fachzeitschriften sind im Volltext frei zugänglichI Informatik: 451 Zeitschriften im Volltext frei zugänglich
PG knowAAN: Analyse wissenschaftlicher Publikationen 6
Austausch von Metadaten
Okay, Daten vorhanden. Und jetzt?
Austausch von MetadatenDatenformate für Publikationen
PG knowAAN: Analyse wissenschaftlicher Publikationen 7
Quellen: [Mik, Dub, BM, Kar, RSS] Austausch von Metadaten
Bibliography Management using RSS Technology (BuRST)
I Entwicklung: STELLAR - ein EU Projekt:Sustaining Technology Enhanced Learning at a LARge scale
I Genutzte Standards und Vokabularien:I Dublin Core Metadata Element Set, Version 1.1I Friend of a Friend (FOAF)I Semantic Web for Research Communities (SWRC) 0.3I RDF Site Summary (RSS) 1.0
I Soll im AAN System für Import und Export genutzt werden
PG knowAAN: Analyse wissenschaftlicher Publikationen 8
Quellen: [Mik, Dub, BM, Kar, RSS] Austausch von Metadaten
Dublin Core Beispiel-Elemente SWRC Beispiel-Elemente
I typeI language
I titleI subject
I creatorI publisher
I sourceI relation
I date
I ArticleI ThesisI MiscI BookI InBook
I authorI monthI abstractI keywordsI isbn
PG knowAAN: Analyse wissenschaftlicher Publikationen 9
BuRST Beispiel Austausch von Metadaten
<item rdf:about="http://know-center.tugraz.at/papers/16" xml:lang="en"><title>A Storyboard of the APOSDLE Vision</title><link>http://www.aposdle.tugraz.at/content/download/288/1411/file/lindstaedt_mayer_APOSDLE_poster_p.pdf</link><description>Lindstaedt, S. N., Mayer, H. (2006): A Storyboard ofthe APOSDLE Vision.</description><dc:date>2009-10-27T14:40:18+01:00</dc:date><burst:publication>
<swrc:InProceedings><swrc:title>A Storyboard of the APOSDLE Vision</swrc:title><swrc:author>
<swrc:Person><swrc:name>Lindstaedt, Stefanie N.</swrc:name></swrc:Person>
</swrc:author><swrc:booktitle>Proceedings of the First European Conferenceon Technology Enhanced Learning</swrc:booktitle><swrc:year>2006</swrc:year><swrc:month>10</swrc:month>
</swrc:InProceedings></burst:publication>
</item>
PG knowAAN: Analyse wissenschaftlicher Publikationen 10
Quellen: [OAI] Austausch von Metadaten
The Open Archives InitiativeProtocol for Metadata Harvesting
I OAI-PMH oder einfach OAI-ProtocolI Nutzt XML und HTTPI Aktuelle Version: 2.0 (2002)I Metadaten dargestellt in Dublin CoreI Genutzt vom Directory of Open Access Journals (DOAJ)I Übergabe eines Verbs, z.B. ListSets, ListRecords, GetRecord
http://www.doaj.org/oai?verb=ListRecords&metadataPrefix=oai_dc&set=Technology_and_Engineering
PG knowAAN: Analyse wissenschaftlicher Publikationen 11
OAI-Protocol Beispiel Austausch von Metadaten
<record><header><identifier>oai:doaj.org:2067-3957</identifier><datestamp>2010-05-12T20:19:24Z</datestamp>
</header><metadata><oai_dc:dc xsi: [...] oai_dc.xsd"><dc:title>Brain. Broad Research in Artificial Intelligence and Neuroscience
</dc:title><dc:identifier>http://brain.edusoft.ro/index.php/brain</dc:identifier><dc:identifier>issn: 2067-3957</dc:identifier><dc:publisher>EduSoft publishing</dc:publisher><dc:date>2009</dc:date><dc:language>English</dc:language><dc:subject>artificial intelligence</dc:subject><dc:subject>LCC: RC321-571</dc:subject><dc:subject>LCC: RC346-429</dc:subject><dc:subject>DoajSubjectTerm: Computer Science</dc:subject></oai_dc:dc>
</metadata></record>
PG knowAAN: Analyse wissenschaftlicher Publikationen 12
AAN: Fallbeispiel Publikationen
Daten gibts. Die Übergabe kriegen wir hin. Und nun?
AAN: Fallbeispiel PublikationenAktuelle Entwicklung in unserem System
PG knowAAN: Analyse wissenschaftlicher Publikationen 13
Quellen: [WS] AAN: Fallbeispiel Publikationen
PG knowAAN: Analyse wissenschaftlicher Publikationen 14
Daten-Extraktion aus PDF-Dateien
Was, wenn eine Veröffentlichung nicht in XML zur Verfügungsteht?
Daten-Extraktion aus PDF-DateienSpezielle Parser und Maschinelles Lernen
PG knowAAN: Analyse wissenschaftlicher Publikationen 15
Quellen: [Kan, Kud] Daten-Extraktion aus PDF-Dateien
ParsCit
I Nutzt CRF++: Yet Another CRF toolkitI Conditional Random Field, Taggen von sequentiellen DatenI Zur Informationsextraktion von natürlichsprachigen TextenI Training/Lernverfahren: Eingabe und Ausgabe vorgeben
I Schritte:1. PDF → Text (pdftotext)2. Text → XML (ParsCit Extraktion)
I Jetzt oder im Anschluß: Präsentation generierter Dateien
PG knowAAN: Analyse wissenschaftlicher Publikationen 16
Scientometrics, Bibliometrics, Citation Analysis
Publikationen sind im System. Was machen wir damit?
Scientometrics, Bibliometrics, Citation Analysis
Möglichkeiten der Analyse
PG knowAAN: Analyse wissenschaftlicher Publikationen 17
Scientometrics, Bibliometrics, Citation Analysis
Scientometrics, Bibliometrics, Citation Analysis
I Szientometrie untersucht das wissenschaftliche Forschen. Es soll unterAnderem die Frage beantwortet werden, wie und warum sich einbestimmter Wissenschaftsbereich entwickelt. Ein oft verwendetesWerkzeug ist die
I Bibliometrie quantitative Untersuchung von Publikationen, Autoren undInstitutionen wie Bibliotheken mittels statistischer Verfahren. Ein Gebietist die
I Zitationsanalyse beschäftigt sich im Wesentlichen mit Beziehungenzwischen zitierten und zitierenden Arbeiten.http://de.wikipedia.org/wiki/{Szientometrie, Bibliometrie, Zitationsanalyse}
PG knowAAN: Analyse wissenschaftlicher Publikationen 18
Scientometrics, Bibliometrics, Citation Analysis
Metriken, Maße, Verfahren
I ZitationsanalyseI Co-Authorship (Mehrautorenschaft)I Co-Citation Coupling (Kopplung von Kozitationen)I Bibliographic Coupling (Bibliografische Kopplung)
I Semantische ÄhnlichkeitI SemSim Algorithmus
I Bibliometrisches MaßeI h-Index (Hirsch-Index)I g-Index
PG knowAAN: Analyse wissenschaftlicher Publikationen 19
Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis
Co-Authorship (Mehrautorenschaft)
Gemeinsame Autoren einer Arbeit.→ Grad der Zusammenarbeit.
C BDAA B DA
Publikation Autor
Co-A(A,B) Co-A(A,C) Co-A(A,D) Co-A(B,D) Co-A( , )2 1 1 1
PG knowAAN: Analyse wissenschaftlicher Publikationen 20
Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis
PG knowAAN: Analyse wissenschaftlicher Publikationen 21
Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis
Co-Citation Coupling (Kopplung von Kozitationen)
Gemeinsame Zitation zweier Dokumente in einem Artikel.→ Thematisch verwandte Inhalte (älterer Arbeiten).
C(A,B) C(A,C) C(A,D) C(A,E) C(B,C) C(B,D) C( , )2 1 1 1 1 1
PG knowAAN: Analyse wissenschaftlicher Publikationen 22
Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis
PG knowAAN: Analyse wissenschaftlicher Publikationen 23
Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis
Bibliographic Coupling (Bibliografische Kopplung)
Zwei Dokumente zitieren eine gemeinsame Arbeit→ Thematisch verwandte Inhalte (neuerer Arbeiten).
BC(1,2) BC(1,3) BC(2,3)2 1
PG knowAAN: Analyse wissenschaftlicher Publikationen 24
Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis
PG knowAAN: Analyse wissenschaftlicher Publikationen 25
Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis
SemSim Algorithmus (semantische Ähnlichkeit)
PG knowAAN: Analyse wissenschaftlicher Publikationen 26
Quellen: [Wikb] Scientometrics, Bibliometrics, Citation Analysis
h-Index (Hirsch-Index), bibliometrisches Maß
I Anzahl Paper, die jeweils mindestens h Zitierungen haben
1. Nach Zitierungs-Häufigkeit absteigend sortieren2. Durchzählen, bis h-tes Paper weniger als h Zitierungen
PG knowAAN: Analyse wissenschaftlicher Publikationen 27
Quellen: [Wika] Scientometrics, Bibliometrics, Citation Analysis
g-Index, bibliometrisches Maß
1. Menge von Artikeln, absteigend sortiert nach Zitierungen
2. Höchste Zahl, so dassdie Summe der ersten g Artikel mindestens g2 Zitierungen hat
Artikel (g) Zitierungen Summe g*g1 20 20 12 10 30 43 7 37 94 5 42 165 3 45 256 2 47 367 1 48 49
PG knowAAN: Analyse wissenschaftlicher Publikationen 28
Vielen Dank
Vielen Dank!
Quellen Open access journals
Formate BuRST, OAI-Protocol
AAN DOAJ Ontologie
PDF Extraktion ParsCit
Bibliometrische Maße Co-Authorship, H-Index, ...
PG knowAAN: Analyse wissenschaftlicher Publikationen 29
Literatur
Literatur I
[BM] Dan Brickley and Libby Miller.The Friend of a Friend (FOAF) project.http://www.foaf-project.org/.23. November 2010.
[BWL+10] Bo-Christer Björk, Patrik Welling, Mikael Laakso, Peter Majlender, Turid Hedlund, and Guðni Guðnason.Open access to the scientific journal literature: Situation 2009.PLoS ONE, 5(6), 2010.http://dx.doi.org/10.1371%2Fjournal.pone.0011273.
[Dub] Dublin Core Metadata Initiative.Dublin Core Metadata Element Set, Version 1.1.http://dublincore.org/documents/2010/10/11/dces/.11. Oktober 2010.
[Kan] Min-Yen Kan.ParsCit: An open-source CRF Reference String Parsing Package.http://web.archive.org/web/20080521213729/wing.comp.nus.edu.sg/parsCit/.21. Mai 2008.
[Kar] Karlsruher Institut für Technologie.SWRC Ontology.http://ontoware.org/swrc/.11. Oktober 2010.
[Kud] Taku Kudo.CRF++: Yet Another CRF toolkit.http://crfpp.sourceforge.net/.26. November 2010.
[Lun] Lund University Libraries.Directory of Open Access Journals.http://www.doaj.org/.23. November 2010.
PG knowAAN: Analyse wissenschaftlicher Publikationen 30
Literatur
Literatur II
[Mik] Peter Mika.Bibliography Management using RSS Technology (BuRST).http://www.cs.vu.nl/~pmika/research/burst/BuRST.html.14. Mai 2005.
[OAI] OAI: Open Archives Initiative.OAI: Protocol for Metadata Harvesting.http://www.openarchives.org/pmh/.23. November 2010.
[Reg] Universitätsbibliothek Regensburg.Elektronische Zeitschriftenbibliothek: Informatik.http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?colors=1¬ation=SQ-SU.23. November 2010.
[Rei] Wolfgang Reinhardt.ABIS2010 Small-scale study – Bibliometrics.http://thales.cs.upb.de/smallscalestudies/abis2010/bibliometrics.html.24. November 2010.
[RSS] RSS-DEV Working Group.RDF Site Summary (RSS) 1.0.http://web.resource.org/rss/1.0/spec.09. Juni 2008.
[Wika] Wikipedia.g-index.http://en.wikipedia.org/wiki/G-index.25. November 2010.
[Wikb] Wikipedia.H-Index.http://de.wikipedia.org/wiki/H-Index.25. November 2010.
PG knowAAN: Analyse wissenschaftlicher Publikationen 31
Literatur
Literatur III
[Wikc] Wikipedia.Open access journal.http://en.wikipedia.org/wiki/Open_access_journal.23. November 2010.
[WS] Adrian Wilke and Naiara Escudero Sanchez.Tools for Awareness in Distributed Research Networks.http://fsln10two.pbworks.com/w/page/31918658/Tools-for-Awareness-in-Distributed-Research-Networks.25. November 2010.
PG knowAAN: Analyse wissenschaftlicher Publikationen 32