View
186
Download
5
Embed Size (px)
DESCRIPTION
Los retos a los que se enfrenta un científico de datos en la era del Big Data son múltiples: recuperación de información, procesamiento del lenguaje natural, aprendizaje automático, programación distribuída, bases de datos no-sql, y un largo etcétera. Cuando el científico de datos además trabaja en la empresa tiene que orientar todos los resultados de sus investigaciones hacia la consecución de los objetivos empresariales, esto es, incrementar el valor económico. Las decisiones y los plazos por lo tanto van ligados a incrementar una función económica y no sólo a empujar el estado de la cuestión. Por otro lado, la evaluación de los resultados se efectua de manera totalmente subjetiva en base a la percepción de usuarios no siempre doctos en la materia. El resultado es por tanto que el científico de datos en la empresa tiene que desarrollar una dualidad de skills que combinan lo técnico con lo no-técnico, sufriendo una maraña de sentimientos contradictorios como euforia ante el reto y desesperación ante los imposibles.
Citation preview
Dualidad onda-partícula del científico de datos en la empresa
consulting, s.a.au
torit
as
2
Mundo Científico vs. Mundo Empresarial
consulting, s.a.au
torit
as
3
@kicorangel
www.kicorangel.com
AUTORITASAutoritas es una consultora tecnológica con profesionales multidisciplinares de diferentes países del mundo:- Ingenieros en Informática y Telecomunicaciones- Psicólogos- Economistas- Abogados- Politólogos
Nuestra sede central está en Madrid (España), y tenemos oficinas en Argentina, Brasil, Chile, México, Panamá y Reino Unido.
AUTORITAS
Nos especializamos en :- Español- Portugués- Inglés
Estamos empezando a trabajar con:- Italiano- Alemán- Francés
AUTORITAS
La formación y la comunicación son muy importantes para nosotros.
La Escucha Activa es una nueva disciplina y nosotros estamos comprometidos con su difusión y formación a los profesionales interesados en el campo.
Iberolabs
AUTORITAS
consulting, s.a.au
torit
as
8
‣ COSMOS es la herramienta de Escucha Activa que ha desarrollado Autoritas Consulting. “Active Listening is more than paying attention” Margaret Mead
‣ COSMOS da orden al caos de Internet y proporciona una metodología para encontrar oportunidades
‣ COSMOS ayuda a las organizaciones a tocar Internet mediante la extracción de conocimiento para el proceso de toma de decisiones
TWWWW
FB
TECHNOLOGICALPLATFORM
DESIGN
ACTION
TRAINING
INFLUENCERS
REPUTATION
INSPIRATION
DIAGNOSIS
METRICS
CONTENTS
INNOVATION
STRATEGY
“ACTIVE LISTENING”
¿Qué es Cosmos?
consulting, s.a.au
torit
as
9
La Escucha Activa es...
‣ COSMOS trabaja con todo el universo de Internet, cubriendo todas las necesidades que una institución pueda tener:
‣ ¿Qué dicen de nosotros?
‣ ¿Qué impacto tiene lo que nosotros decimos?
‣ ¿De dónde nos podemos inspirar?
‣ ¿En qué está interesado nuestro target?
consulting, s.a.au
torit
as
10
No sólo consiste en responder preguntas...
...sino también en saber qué nuevas preguntas plantear
consulting, s.a.au
torit
as
11
TOMA DE DECISIONES
ESTRATEGIA
RECUPERACIÓN DE INFORMACIÓN
FILTRADO, LIMPIEZAY ELIMINACIÓN DE RUIDO
EXTRACCIÓN DECONOCIMIENTO
InteligenciaSocial
Negocio
Ciclo de la Inteligencia Social de Negocio
consulting, s.a.au
torit
as
12
Recuperación de Información...
...y limpieza
consulting, s.a.au
torit
as
13
OBJETIVO: Recuperar todo lo que hay que recuperar y sin recuperar nada que no
se deba recuperar
consulting, s.a.au
torit
as
14
• > 500 millones de usuarios de Facebook• > 150 millones de usuarios de Twitter• > 90 millones de Webs• > 150 millones de blogs• aprox. 1000 exabytes anuales
EXCESO DE INFORMACIÓN DESESTRUCTURADA
Algunas cifras... (antiguas)
consulting, s.a.au
torit
as
15
Orígenes de información (canales)
consulting, s.a.au
torit
as
16
API vs. Crawler
‣API restringe el acceso a los datos: Facilitan sólo una muestra de la información existente y accesible a través de buscador‣API restringe la cantidad de peticiones realizables‣Crawler requiere infraestructura y solución a problemas IR (periodicidad, fechas, idiomas, almacenamiento...)‣Crawler puede generar problemas legales
API gratuita vs. pago
‣Restricción de resultados: las APIs gratuítas restringen en exceso los resultados frente a la interfaz del buscador‣Limitaciones de licencia de las APIs gratuítas, no permitiendo por ejemplo la reordenación, mezclado y almacenamiento de datos
consulting, s.a.au
torit
as
17
Organizar orígenes
Históricode 53MMde noticias
27MM deblogs
consulting, s.a.au
torit
as
18
(Re)Clasificar lo recuperado¿Qué pasa cuando entra una noticia desde
un buscador generalista?
¿Qué canal es la url que se enlaza desde otro canal?
¿Cómo diferenciar un blog de una web corporativa?
¿Cómo determinar de qué dominio es una determinada página?
Identificar
Acotar
Clasificar
Desambiguar
consulting, s.a.au
torit
as
19
Sección de anuncios sin
relevancia para el contenido
Sección de última hora que
distorsiona la semántica de la
página
Contenido útil
Recuperar contenido útil
consulting, s.a.au
torit
as
20
Inglésestoy sin internet ¬¨¬¨ fuuuuck!!!
Finlandés... euskocaja, como euskolabel, euskotren, euskomueble... XDDD
PortuguésFlowah Powah!
AlemánVierrrrrrrrrrrrnes, egunon!!
Modelos del lenguaje vs. n-Gramms vs. Machine Learning
Filtrar por idioma
consulting, s.a.au
torit
as
21
Geografía de origen vs. geografía de contenido vs. geografía de perfil
Filtrar por geografía
consulting, s.a.au
torit
as
22
resultados
elimina url prescindibles
filtra palabras
marca url’s como SpamElimina url’s
Quita de la ‘vista’ los antitesauros
filtra #hastags
filtra influenciadores
filtra localizaciones
Otros filtros
consulting, s.a.au
torit
as
23
TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE
NOCHE DE ELECCIONES GENERALES
216.000 documentos analizados‣Tweets: 176.815‣Posts: 7.034‣News: 2013‣Facebook: 2.184‣Multimedia: 671
283.000 etiquetas generadas1.900.000 términos indexados
Elevado número de usuarios concurrentes
Por supuesto, en ¡¡tiempo real!!
consulting, s.a.au
torit
as
24
Creo que he resuelto el:
consulting, s.a.au
torit
as
25
Evaluación de la Recuperación de Información...
...en la ciencia
consulting, s.a.au
torit
as
26
7.000 recuperados 54 incorrectos 99.23% precisión
3.000 recuperados50 no recuperados
98.36% alcance
Evaluación de la Recuperación de Información...
...en la empresa
¡¡Estamos perdiendo
credibilidad!!
consulting, s.a.au
torit
as
27
Pero es que... la recuperación de
información NO es una contabilidad
No me des excusas...
consulting, s.a.au
torit
as
28
=10100¡¡Pero Google
siempre exagera!
...porque Google dice...
consulting, s.a.au
torit
as
29
BUGSAnte un “fallo” técnico lo primero que se busca...
...no es la solución, es al culpable
consulting, s.a.au
torit
as
30
EL TÉCNICO SOPORTA
EL SOPORTE TÉCNICO
consulting, s.a.au
torit
as
31
Extracción de conocimiento...
consulting, s.a.au
torit
as
32
No sólo consiste en responder preguntas...
...sino también en saber qué nuevas preguntas plantear
consulting, s.a.au
torit
as
33
ORDEN¿Qué? -> E.g. Conceptualización de marcas
¿De qué está hablando la gente?
consulting, s.a.au
torit
as
34
ORDEN¿De qué hablan, de la consonante, del lenguaje de programación o de la empresa de telecomunicaciones gallega?
consulting, s.a.au
torit
as
35
ORDEN¿Cuándo? -> E.g. Gestión de crisis
¿Cuándo suceden las cosas?
consulting, s.a.au
torit
as
36
ORDEN
Si la fecha va en la url es fácil saberla
Eso es relativo, esta URL es de Julio o de
Enero:http://xxx/07/01/2010/
crawler-403-forbidden.html
consulting, s.a.au
torit
as
37
ORDEN¿Dónde? -> Varias perspectivas
¿Dónde ocurre una conversación?
¿De dónde se habla en una conversación?
consulting, s.a.au
torit
as
38
ORDEN¿Cómo? -> No sólo sentiment analysis
La polaridad es sólo una dimensión, la emocional, la de valores, DAFO... todas ellas responden a la cuestión ¿cómo?
consulting, s.a.au
torit
as
39
ORDEN
Un ejemplo: “La prima de riesgo en España está a 235”¿Positivo, negativo, neutro o none?
consulting, s.a.au
torit
as
40
ORDEN
Un ejemplo: “La prima de riesgo en España está a 235”¿Positivo, negativo, neutro o none?
Mi pregunta: ¿Para quién?- ¿Para el presidente del país?- ¿Para el líder de la oposición?- ¿Para el director del Banco de España?- ¿Para el inversor extranjero?- ¿Para el capitalista nacional?- ¿Para el que tiene una hipoteca?
consulting, s.a.au
torit
as
41
ORDEN¿Quién? -> Análisis de Red Social
Si quiero transmitir con éxito un mensaje, ¿quién me puede ayudar?
Si hay un conflicto,¿a quién tengo que vigilar?
consulting, s.a.au
torit
as
42
ORDEN¿Por qué? -> Author Profiling
EMOTIONAL PROFILE
GENDERAGE GROUP
NATIVE LANGUAGE
... ¡y mucho mucho más!
consulting, s.a.au
torit
as
43
ORDENLA SOLUCIÓN
ES EL BIG DATA
¡Todo el mundo lo dice!
consulting, s.a.au
torit
as
44
ORDEN
VOLUMEN
VELOCIDAD
VARIEDAD
VIRALIDAD
VISCOSIDAD
¡Busca a Neo!
¡¡¡NOOOO!!! El Big Data es el problema...
consulting, s.a.au
torit
as
45
ORDENLas dimensiones del orden
consulting, s.a.au
torit
as
46
Biografía Localización Idioma
TIME LINE
Un ejemplo: Lo que creemos tener en Twitter...
consulting, s.a.au
torit
as
47
Biografía Localización Idioma
• No se rellena• No contiene
información significativa• No se corresponde
con la realidad de sus intereses
• No se rellena• Se rellena con una
ubicación falsa• Se actualiza con la
posición GPS• Ambigüedad de
ubicación
• No se rellena• Se deja por defecto
EN• Se rellena con info.
falsa• Se escribe en
diferentes idiomas
La terminología utilizada dista de cualquier lengua oficial. PSEUDO-ARGOTTL
...donde no todo lo que reluce es oro
consulting, s.a.au
torit
as
48
La realidad de Internet
consulting, s.a.au
torit
as
49
Un ejemplo, ¿quién es Milton Friedman?
consulting, s.a.au
torit
as
50
Los rumores de la red...
consulting, s.a.au
torit
as
51
Comunidades compartidas
• 997 usuarios• 111.000 relaciones
consulting, s.a.au
torit
as
52
¿Y un análisis lingüístico?
consulting, s.a.au
torit
as
53
Precisión vs. coste computacional
0
375000
750000
1125000
1500000
Approach 1 Approach 4 Approach 7 Approach 10 Approach 13 Approach 16 Approach 19
10.2
6 m
inut
es28
.83
min
utes
38.3
1 m
inut
es54
.03
min
utes
1.04
hou
rs1.
09 h
ours
2.66
hou
rs3.
25 h
ours
4.66
hou
rs4.
86 h
ours
5.08
hou
rs5.
13 h
ours
6.37
hou
rs6.
56 h
ours
6.82
hou
rs17
.88
hour
s4.
44 d
ays
5.19
day
s6.
68 d
ays
9.90
day
s11
.78
days
0
10
20
30
40
Approach 1 Approach 4 Approach 7 Approach 10 Approach 13 Approach 16 Approach 19
29.06
34.72
39.86
24.20
28.34 27.98
35.06
25.1427.03
38.58
31.25 32.34
7.87
24.6522.87
27.03
32.22
24.67
33.04
15.40
19.82
%
s
consulting, s.a.au
torit
as
54
Grandes retos para el científico de datos...
...con grandes problemas más allá de la ciencia
consulting, s.a.au
torit
as
55
+Skills técnicos Skills “no-técnicos”
consulting, s.a.au
torit
as
56
SKILLS
TÉCNICOS
Aprendizaje Automático: Para
inferir nuevos modelos a partir de los datos
existentes, para dotar de inteligencia a nuestras
aplicaciones
Recuperación de Información: Para
acceder a las enormes cantidades de
información disponibles en Internet
Data Mining: Para identificar patrones válidos, novedosos,
potencialmente útiles y deseablemente
comprensibles a partir de los datos
Natural Language Processing: Porque el contenido textual de la Web está escrito en el
lenguaje humano
Data Visualization
Collective Intelligence
System Architecture
User eXperience
Social Investigation
Social Network Analysis
consulting, s.a.au
torit
as
57
SKILLS NO TÉCNICOShttp://t.co/D6KHALU3Zm
consulting, s.a.au
torit
as
http://es.slideshare.net/linkedin-talent-solutions/the-modern-recruiter-is-part-artist-part-scientist-infographic
La dualidad onda-partícula del
científico de datos en la empresa
@kicorangel