24
Apuntamentos sobre o xornalismo de precisión (de computación ou de datos) Carlos Neira Cortizas

Apuntamentos sobre o xornalismo de precisión

Embed Size (px)

DESCRIPTION

Presentación empregada nunha charla sobre xornalismo computacional ou de datos para o alumnado de último curso de Ciencias da Comunicación da USC

Citation preview

Page 1: Apuntamentos sobre o xornalismo de precisión

Apuntamentos sobre o xornalismo de

precisión (de computación ou de datos)

Carlos Neira Cortizas

Page 2: Apuntamentos sobre o xornalismo de precisión

Contidos

Estatística e xornalismo

Formación adicional

Procedemento

Fundamentos do traballo con datos e BD

Fontes de datos e Open Data

Obtención e tratamento de datos

Software de análise de datos

Visualización de datos

Page 3: Apuntamentos sobre o xornalismo de precisión

Estatística e xornalismo

Teoría: O novo xornalismo de precisión (Meyer)

Práctica: o 20% das novas con cifras teñen erros, a maioría de gráficos son inapropiados Erros máis comúns:

Selección de datos irrelevantes ou menos relevantes

Sumas incompletas

Confusión de magnitudes, díxitos significantes

Confusión de medidas (absolutas/relativas, nivel/variación, posición/dispersión)

Avaliación de series temporais (estacionalidade, ciclo, tendencia)

Non consideración ou malinterpretación das marxes de erro en enquisas

Correlación (lineal) non implica causación

Escolla incorrecta do tipo de gráfico, escala, etiquetado, cor…

Suxestión de comparacións incongruentes

Exceso de detalles e adornos

Exemplos: Malaprensa, Junk charts

Page 4: Apuntamentos sobre o xornalismo de precisión

Estatística e xornalismo

Exercicios: Textos: Curso de

ética xornalística

Gráficos: Tables2Graphs, ChartChooser

Debate: Os/as xornalistas

odian as matemáticas (?) Letras ou ciencias vs.

letras e ciencias

Nivel da educación en España (informe PISA)

Criterio editorial > rigor profesional e científico

Page 5: Apuntamentos sobre o xornalismo de precisión

Formación adicional

Formación transversal Bases de datos, GIS

Estatística, minaría de datos

Internet, web, redes sociais, APIs, the cloud

Expresións regulares, programación, algoritmos

Desenvolvemento de aplicativos

Deseño gráfico, infografía, visualización de datos

Idiomas: inglés técnico

Formación especializada Socioloxía

Politoloxía

Economía financeira, macroeconomía

Page 6: Apuntamentos sobre o xornalismo de precisión

Procedemento

Noticia descritiva: táboas e gráficos de usar e tirar

Folla de cálculo e base de datos

Noticia(s) en profundidade: construción de bases de datos persoais e explotación demorada

Aplicativos especializados

Formar un equipo ou buscar asesoramento nos ámbitos que se precisan e non se dominan

Recursos / Imprescindible

O 80% do traballo vaise na recompilación e preparación de datos e non na análise

Tempo / Paciencia

Page 7: Apuntamentos sobre o xornalismo de precisión

Fundamentos do traballo con datos

Infinidade de libros sobre análise de datos

Bastantes menos sobre a obtención e o tratamento de datos

Introduction to Data Technologies (Paul Murrell)

Programación (code is poetry)

HTML / CSS

Almacenamento de datos

Metadatos

XML

Bases de datos

Consultas

SQL

Procesamento de datos

Expresións regulares

Page 8: Apuntamentos sobre o xornalismo de precisión

Bases de datos

Datos Estruturados

Semiestruturados

Sen estrutura

Bases de datos SQL Clientes:

MS Access, OpenOffice Base, Kexi

Servidores: MySQL, PostgreSQL, Microsoft SQL Server, Oracle, SQLite, MariaDB,

DB2, Informix…

Bases de datos NoSQL BigTable (Google)

DynamoDB (Amazon)

CouchDB, Cassandra, Hadoop, Hbase (Apache)

MongoDB, SimpleDB, Lotus Domino, InfinityDB…

Page 9: Apuntamentos sobre o xornalismo de precisión

Fontes de datos

Institutos e Oficinas de Estatística: IGE, INE, Eurostat

Organismos gobernamentais: Ministerios, IEF

Fundacións e institucións económicas: IEEG Barrié, NCG, La Caixa, BBVA, FUNCAS, Instituto L.R. Klein, Ardán, Camerdata, BCE, OCDE, World Bank

Lobbies económicos, de pago (a información é poder)

Google Public Data (+ fontes en inglés)

Portais colaborativos de datos e buscadores especializados: Freebase, Zanran

Copias históricas de contidos estáticos de sitios cambiados ou desaparecidos: Archive

Page 10: Apuntamentos sobre o xornalismo de precisión

Open Data

Power to the people + business

Parte de filosofía máis ampla: open-source governance, ética hacker

Acceso universal á información, e gratuíto (non ao „repago‟)

Ecosistemas e comunidades abertas e colaborativas, participación e decisión

RISP (reutilización información sector público), devolución ao público

Datos estruturados, estándares abertos, linked data e interoperabilidade

O licenciamento debe permitir un uso comercial, xerar negocio cos datos

A situación aquí e hoxe:

As iniciativas parten do ámbito tecnolóxico e non do estatístico ou administrativo

Máis datos pechados que abertos

>50% dos datos xa estaban en organismos estatísticos e rexistros administrativos

Publícanse táboas e frecuencias marxinais e non datos en bruto, matrices ou microdatos

Publícanse formatos non abertos e/ou non automatizables (por ex.: PDF)

Marco lexislativo timorato, Lei de Transparencia en curso = oportunidade perdida

Page 11: Apuntamentos sobre o xornalismo de precisión

Open Data

Recursos

Data.gov: EUA / Obama, pioneiros

CPEIG: Colexio Profesional de Enxeñaría en Informática de Galicia

Organiza o I Concurso OpenData

Abert@s (portal da Xunta de Galicia)

Datos.gob.es (portal da Administración Xeral do Estado)

Parte do proxecto Aporta

Fundación CTIC

Publica o Catálogo mundial de datos abertos

Asociación Pro Bono Público

Organiza o Desafío AbreDatos

Media-lab Prado: experiencias TIC comunitarias e procomún

CKan: aplicativo para instalar un servidor propio de datos abertos

Page 12: Apuntamentos sobre o xornalismo de precisión

GIS

Datos xeolocalizados

Todos os datos das ciencias sociais (persoas) son xeorreferenciables

A difusión e a ubicuidade acadadas polas TIC (portátiles, smartphones, tablets, GPS, redes sen fíos, etc.) estenden a produción de datos a calquera lugar

A tecnoloxía e as redes sociais facilitan a creación masiva de datos (big data) sobre calquera actividade humana

Na internet os datos (e non a publicidade) son a primeira fonte de ingresos, de xeración de negocio e de innovación

Software libre: gvSIG, GRASS

Servizos web: Google Maps e Google Earth, OpenStreetMap, IkiMap

Datos: GeoCommons, Natural Earth, CNIG-IGN, IET Xunta

Actualidade: La Cartoteca

Page 13: Apuntamentos sobre o xornalismo de precisión

Obtención e tratamento de datos

Mundo analóxico „Picado‟ de datos e OCR de texto, listados e táboas numéricas

Almacenamento masivo En soporte óptico: DVDs do Censo, BDs electorais do Ministerio do

Interior…

Pantalla Webscraping: Scrapy / Scraper Wiki

Rede (I) Copia

Descarga directa

Clonador de sitios: HTTrack

Clonador de sitios desaparecidos: Warrick sobre Archive.org…

Xeración Formularios públicos: Google Docs > Google Drive

Sistema profesional e multilingüe de enquisas: LimeSurvey

Page 14: Apuntamentos sobre o xornalismo de precisión

Obtención e tratamento de datos

Rede (II) Sindicación de contidos

Fluxo personalizado de noticias: por ex.: RSS de Google News das noticias con “xornalismo”

Planet agregando noticias nun CMS: FeedWordPress para WordPress

Agregación, contaxe e visualización de palabras/etiquetas máis frecuentes: FeedVis

Xerador de RSS para webs sen sindicación: OpenDapper

Ferramentas avanzadas

Tubaxes e filtros para xerar datos estruturados: Yahoo Pipes

Depuración e limpeza de datos: Google Refine, DataCleaner

Repositorio/Xestor de contidos xornalísticos cun CMS: ManagingNews sobre Drupal

Distribución OpenSuse para xornalismo de datos: Computational Journalism Server

Page 15: Apuntamentos sobre o xornalismo de precisión

Obtención e tratamento de datos

Rede (e III)

Combinando a análise de datos coa programación e o desenvolvemento

APIs: social networks & crowdsourcing: Google, Facebook, Twitter, Nestoria

Natural language processing & sentiment analysis: TweetFeel (en), Tuitómetro (es), Daedalus (gl)

Algorithms, machine learning & recommendation systems: Netflix Prize

Enterprise data & Public data = Big Data

Page 16: Apuntamentos sobre o xornalismo de precisión

Software de análise de datos

Complementos

MS Excel templates & macros (BiPlot, Colored Bar Chart, Geocoding tool, Interactive Regression, Motion charts)

MS Excel add-ins (Analyse-It, Arma, ChartTools, CleanCharts, ErrorBars, Excellent Analytics, FuzzyLookup, LOESS utility, PowerPivot, SolverStat, XLMiner, XLStat, XY Chart Labeler)

Paquetes estatísticos e matemáticos

Matlab, R, SAS, SOFA, SPSS, Statistica

Aplicativos de minaría de datos

Enterprise Miner (SAS), Orange, RapidMiner, SPSS Modeller (IBM)

Paquetes de intelixencia de negocio

Cognos 8 BI / DB2 Data Warehouse (IBM), Data Mining (Oracle), Knime, Netweaver Business Warehouse (SAP), Pentaho

Solucións

Gate (textmining)

Paquetes de integración

Weka, Keel, Tanagra

Bibliotecas de minaría de datos

Especialidades

Prototipos de investigación

Page 17: Apuntamentos sobre o xornalismo de precisión

Visualización de datos

Nomes: Edward Tufte, o gurú da visualización de datos

Hans Rosling, Gapminder e o boom da representación de datos na rede

Xocas G.V., un galego nas infografías do NYT

Exemplos: Complexidade: Bestiario, The Observatory of Economic Complexity,

Visual Complexity, Visualizing.org,

Interacción: Build Last.fm, TouchGraph for Facebook, Twitterfall

Tempo real: Infomous, NewsMap

Ferramentas: Gephi, Google Fusion Tables, ManyEyes, Tableau, Wordle

Actualidade: Blogs de visualización de datos

Page 18: Apuntamentos sobre o xornalismo de precisión

Visualización de datos

Page 19: Apuntamentos sobre o xornalismo de precisión

Visualización de datos

Page 20: Apuntamentos sobre o xornalismo de precisión

Visualización de datos

Page 21: Apuntamentos sobre o xornalismo de precisión

Visualización de datos

Page 22: Apuntamentos sobre o xornalismo de precisión

Exemplos

Manifestación do 17 de Maio de 2012 na Praza da Quintana Asistencia:

Organización: 25.000 persoas

Real: +/- 3.500 persoas

Recursos: Asistencia

Fotografías panorámicas e de perímetro

Manifestómetro (blog)

Manifestómetro (medidor)

Aberración: „Sempre se dixo que…‟ na Quintana caben

15.000 persoas

Iso supón, coa praza limpa de obstáculos, 4,5 persoas / m2

3 veces a media histórica

Page 23: Apuntamentos sobre o xornalismo de precisión

Exemplos

Sondaxes electorais áutonómicas en Galicia Comportamento:

Subestiman sistematicamente ao PP

O 75% das enquisas poñían por diante do PP a suma de PSOE e BNG, e en só 1 de 3 resultados reais isto aconteceu.

Hai cociñas demoscópicas que engordan sistematicamente ao PP, e iso fai que, ás veces, atinen

Recursos: BD construída ao longo de 12 anos

Folla de cálculo e complementos

Blog para a difusión

Interpretación: Cos últimos datos a posibilidade de que o

PP perda a Xunta son mínimas