90
ENDIZAJ ES P DE TEXT S BIG DA MÉTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLÍTICAS DE CTI: redes sociales, minería de textos y clustering Octavio Lerena DT 16

CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

APRENDIZAJE AUTOMAacuteTICOANAacuteLISIS DE REDES SOCIALES POLIacuteTICAS PUacuteBLICAS

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAMEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTIredes sociales mineriacutea de textos y clusteringOctavio Lerena

DT16

DT16

CIE

CTI

CENTRO INTERDISCIPLINARIO DE ESTUDIOS EN CIENCIA TECNOLOGIacuteA E INNOVACIOacuteN

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTIredes sociales mineriacutea de textos y clustering

D O C U M E N T O D E T R A B A J O N ordm 1 6

Octavio Lerena

Godoy Cruz 2390 - pb (c1425fqd) caba(54-11) 4899-5500 int 5684wwwciectiorgar infociectiorgar Seguinos en ciecti Buscanos en ciecti

Lerena Octavio Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti redes sociales mineriacutea de textos y clustering Octavio Lerena - 1a ed - Ciudad Autoacutenoma de Buenos Aires ciecti 2019 Libro digital pdf

Archivo Digital descarga y online isbn 978-987-4193-34-6

1 Anaacutelisis de Datos 2 Procesamiento de Datos 3 Poliacuteticas Puacuteblicas I Tiacutetulo cdd 00571

La investigacioacuten que dio base a este estudio finalizoacute en enero de 2019

copy 2019 ciecti

Queda hecho el depoacutesito que marca la ley 11723

Se autoriza la reproduccioacuten total o parcial de esta obra para fines educativos u otros fines no comerciales siempre que se cite la fuente

AUTORIDADES

Presidente

Gustavo Lugones

Directora general

Ruth Ladenheim

EQUIPO EDITORIALCoordinacioacuten editorial

Fernando Porta

Apoyo a la coordinacioacuten

Celeste De Marco

Equipo de investigacioacuten

Octavio Lerena

Edicioacuten

Mara Sessa

Disentildeo editorial

Lea Aacutegreda

api Application Programming Interfaces ars anaacutelisis de redes socialesasrs anaacutelisis semaacutentico de redes socialescti ciencia tecnologiacutea e innovacioacutenemir Reglamento sobre la Infraestructura de los Mercados Europeosergm modelado de grafos exponenciales aleatoriosgis sistemas de informacioacuten geograacutefica i+d investigacioacuten y desarrolloia inteligencia artificialic ingenieriacutea del conocimientoiel Iacutendice de Especializacioacuten Leacutexica inf innovacioacuten a nivel de la firmamt mineriacutea de textosssi Software y Servicios Informaacuteticosue universidad-empresa

SIGLAS

IacuteNDICE

Resumen 9

Resumo 10

Abstract 11

Introduccioacuten 13

Datos masivos fuentes y usuarios 14

Fuentes generadoras de datos masivos 15

Los policy-makers como usuarios 18

Redes sociales mineriacutea de textos y clustering 20

Anaacutelisis de redes sociales 20

Mineriacutea de textos 28

Clustering 31

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis

de coocurrencia de teacuterminos 36

Redes sociales y comunidades temaacuteticas 37

Mineriacutea de textos clustering de teacuterminos clave 54

Conclusiones 69

Anexo 73

Robustez una evaluacioacuten de las relaciones entre comunidades

de contribuciones y clusters de teacuterminos 73

Bibliografiacutea 79

D O C U M E N T O D E T R A B A J O CIECTI 9

RESUMEN

Si bien la actividad humana ha generado datos desde los albores de la civilizacioacuten durante las uacuteltimas deacutecadas el volumen de datos disponibles ha crecido a un ritmo pasmoso En la actualidad muacuteltiples fuentes de datos masivos pueden utilizarse para extraer informacioacuten y generar conocimientos valiosos que respalden la toma de decisiones y disminuyan la in-certidumbre El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales que son el objeto de la disciplina co-nocida como ciencia de datos

Este es el primer volumen de una serie de documentos que abordan distintos meacutetodos y aplicaciones de la ciencia de datos para respaldar la toma de decisiones en materia de poliacute-ticas puacuteblicas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para favorecer poliacuteticas basadas en la evidencia y contribuir a la planificacioacuten estrateacutegica de instituciones y gobiernos

En este documento nos proponemos tres objetivos En primer lugar sensibilizar acerca de la importancia de los grandes datos para las poliacuteticas de cti En segundo lugar describir las teacutecnicas de anaacutelisis de redes sociales mineriacutea de textos y clustering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas Y en tercer lugar dar cuenta del meacutetodo im-plementado en dos aplicaciones cienciomeacutetricas de dichas teacutecnicas realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas

Las tres teacutecnicas relevadas en este documento pueden utilizarse para obtener conocimien-to valioso en aacutereas criacuteticas como la cienciometriacutea la vigilancia tecnoloacutegica y la inteligencia competitiva Asimismo la informacioacuten cuantitativa provista por estos tipos de anaacutelisis pue-de aplicarse tanto para evaluar el desempentildeo de las actividades de investigacioacuten como para respaldar la gestioacuten de las poliacuteticas de cti

Palabras clavepoliacuteticas puacuteblicas

anaacutelisis de redes sociales

aprendizaje automaacutetico

Big Data

ciencia de datos

mineriacutea de textos

clustering

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 0

RESUMO

Embora a atividade humana tenha gerado dados desde o iniacutecio da civilizaccedilatildeo nas uacuteltimas deacutecadas o volume de dados disponiacuteveis cresceu a um ritmo impressionante Atualmente vaacuterias fontes de ldquodados maciccedilos podem ser usadas para extrair informaccedilotildees e gerar conhe-cimento valioso para apoiar a tomada de decisotildees e reduzir a incerteza O processamento e anaacutelise dos dados maciccedilos satildeo baseados em uma seacuterie de teacutecnicas e capacidades individuais e organizacionais que satildeo o objeto da disciplina conhecida como ciecircncia de dados

Este eacute o primeiro volume de uma seacuterie de documentos que abordam diferentes meacutetodos e aplicaccedilotildees de dados cientiacuteficos para apoiar a tomada de decisatildeo em poliacuteticas puacuteblicas com ecircnfase na ciecircncia tecnologia e inovaccedilatildeo (cti) Desta forma busca produzir conhecimento para favorecer poliacuteticas baseadas em evidecircncias e contribuir para o planejamento estrateacutegi-co de instituiccedilotildees e governos

Neste documento propomos trecircs objetivos Primeiro conscientize sobre a importacircncia do big data para as poliacuteticas de cti Segundo descrever as teacutecnicas de anaacutelise de redes sociais mineraccedilatildeo de texto e clustering com destaque para alguns dos seus usos potenciais para a poliacutetica puacuteblica E terceiro para dar conta do meacutetodo implementado em duas aplicaccedilotildees cienciomeacutetricos realizadas pelo ciecti com base em dados de publicaccedilotildees cientiacuteficas

As trecircs teacutecnicas pesquisadas neste documento podem ser usadas para obter conhecimento valioso em aacutereas criacuteticas como cienciometria vigilacircncia tecnoloacutegica e inteligecircncia competi-tiva Aleacutem disso as informaccedilotildees quantitativas fornecidas por esses tipos de anaacutelises podem ser aplicadas tanto para avaliar o desempenho de atividades de pesquisa quanto para apoiar o gerenciamento de poliacuteticas de cti

Palavras-chavepoliacuteticas puacuteblicas

anaacutelise de redes sociais

aprendizagem automaacutetica

Big Data

Data Science

mineraccedilatildeo de dados e textos

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 2: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

CENTRO INTERDISCIPLINARIO DE ESTUDIOS EN CIENCIA TECNOLOGIacuteA E INNOVACIOacuteN

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTIredes sociales mineriacutea de textos y clustering

D O C U M E N T O D E T R A B A J O N ordm 1 6

Octavio Lerena

Godoy Cruz 2390 - pb (c1425fqd) caba(54-11) 4899-5500 int 5684wwwciectiorgar infociectiorgar Seguinos en ciecti Buscanos en ciecti

Lerena Octavio Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti redes sociales mineriacutea de textos y clustering Octavio Lerena - 1a ed - Ciudad Autoacutenoma de Buenos Aires ciecti 2019 Libro digital pdf

Archivo Digital descarga y online isbn 978-987-4193-34-6

1 Anaacutelisis de Datos 2 Procesamiento de Datos 3 Poliacuteticas Puacuteblicas I Tiacutetulo cdd 00571

La investigacioacuten que dio base a este estudio finalizoacute en enero de 2019

copy 2019 ciecti

Queda hecho el depoacutesito que marca la ley 11723

Se autoriza la reproduccioacuten total o parcial de esta obra para fines educativos u otros fines no comerciales siempre que se cite la fuente

AUTORIDADES

Presidente

Gustavo Lugones

Directora general

Ruth Ladenheim

EQUIPO EDITORIALCoordinacioacuten editorial

Fernando Porta

Apoyo a la coordinacioacuten

Celeste De Marco

Equipo de investigacioacuten

Octavio Lerena

Edicioacuten

Mara Sessa

Disentildeo editorial

Lea Aacutegreda

api Application Programming Interfaces ars anaacutelisis de redes socialesasrs anaacutelisis semaacutentico de redes socialescti ciencia tecnologiacutea e innovacioacutenemir Reglamento sobre la Infraestructura de los Mercados Europeosergm modelado de grafos exponenciales aleatoriosgis sistemas de informacioacuten geograacutefica i+d investigacioacuten y desarrolloia inteligencia artificialic ingenieriacutea del conocimientoiel Iacutendice de Especializacioacuten Leacutexica inf innovacioacuten a nivel de la firmamt mineriacutea de textosssi Software y Servicios Informaacuteticosue universidad-empresa

SIGLAS

IacuteNDICE

Resumen 9

Resumo 10

Abstract 11

Introduccioacuten 13

Datos masivos fuentes y usuarios 14

Fuentes generadoras de datos masivos 15

Los policy-makers como usuarios 18

Redes sociales mineriacutea de textos y clustering 20

Anaacutelisis de redes sociales 20

Mineriacutea de textos 28

Clustering 31

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis

de coocurrencia de teacuterminos 36

Redes sociales y comunidades temaacuteticas 37

Mineriacutea de textos clustering de teacuterminos clave 54

Conclusiones 69

Anexo 73

Robustez una evaluacioacuten de las relaciones entre comunidades

de contribuciones y clusters de teacuterminos 73

Bibliografiacutea 79

D O C U M E N T O D E T R A B A J O CIECTI 9

RESUMEN

Si bien la actividad humana ha generado datos desde los albores de la civilizacioacuten durante las uacuteltimas deacutecadas el volumen de datos disponibles ha crecido a un ritmo pasmoso En la actualidad muacuteltiples fuentes de datos masivos pueden utilizarse para extraer informacioacuten y generar conocimientos valiosos que respalden la toma de decisiones y disminuyan la in-certidumbre El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales que son el objeto de la disciplina co-nocida como ciencia de datos

Este es el primer volumen de una serie de documentos que abordan distintos meacutetodos y aplicaciones de la ciencia de datos para respaldar la toma de decisiones en materia de poliacute-ticas puacuteblicas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para favorecer poliacuteticas basadas en la evidencia y contribuir a la planificacioacuten estrateacutegica de instituciones y gobiernos

En este documento nos proponemos tres objetivos En primer lugar sensibilizar acerca de la importancia de los grandes datos para las poliacuteticas de cti En segundo lugar describir las teacutecnicas de anaacutelisis de redes sociales mineriacutea de textos y clustering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas Y en tercer lugar dar cuenta del meacutetodo im-plementado en dos aplicaciones cienciomeacutetricas de dichas teacutecnicas realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas

Las tres teacutecnicas relevadas en este documento pueden utilizarse para obtener conocimien-to valioso en aacutereas criacuteticas como la cienciometriacutea la vigilancia tecnoloacutegica y la inteligencia competitiva Asimismo la informacioacuten cuantitativa provista por estos tipos de anaacutelisis pue-de aplicarse tanto para evaluar el desempentildeo de las actividades de investigacioacuten como para respaldar la gestioacuten de las poliacuteticas de cti

Palabras clavepoliacuteticas puacuteblicas

anaacutelisis de redes sociales

aprendizaje automaacutetico

Big Data

ciencia de datos

mineriacutea de textos

clustering

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 0

RESUMO

Embora a atividade humana tenha gerado dados desde o iniacutecio da civilizaccedilatildeo nas uacuteltimas deacutecadas o volume de dados disponiacuteveis cresceu a um ritmo impressionante Atualmente vaacuterias fontes de ldquodados maciccedilos podem ser usadas para extrair informaccedilotildees e gerar conhe-cimento valioso para apoiar a tomada de decisotildees e reduzir a incerteza O processamento e anaacutelise dos dados maciccedilos satildeo baseados em uma seacuterie de teacutecnicas e capacidades individuais e organizacionais que satildeo o objeto da disciplina conhecida como ciecircncia de dados

Este eacute o primeiro volume de uma seacuterie de documentos que abordam diferentes meacutetodos e aplicaccedilotildees de dados cientiacuteficos para apoiar a tomada de decisatildeo em poliacuteticas puacuteblicas com ecircnfase na ciecircncia tecnologia e inovaccedilatildeo (cti) Desta forma busca produzir conhecimento para favorecer poliacuteticas baseadas em evidecircncias e contribuir para o planejamento estrateacutegi-co de instituiccedilotildees e governos

Neste documento propomos trecircs objetivos Primeiro conscientize sobre a importacircncia do big data para as poliacuteticas de cti Segundo descrever as teacutecnicas de anaacutelise de redes sociais mineraccedilatildeo de texto e clustering com destaque para alguns dos seus usos potenciais para a poliacutetica puacuteblica E terceiro para dar conta do meacutetodo implementado em duas aplicaccedilotildees cienciomeacutetricos realizadas pelo ciecti com base em dados de publicaccedilotildees cientiacuteficas

As trecircs teacutecnicas pesquisadas neste documento podem ser usadas para obter conhecimento valioso em aacutereas criacuteticas como cienciometria vigilacircncia tecnoloacutegica e inteligecircncia competi-tiva Aleacutem disso as informaccedilotildees quantitativas fornecidas por esses tipos de anaacutelises podem ser aplicadas tanto para avaliar o desempenho de atividades de pesquisa quanto para apoiar o gerenciamento de poliacuteticas de cti

Palavras-chavepoliacuteticas puacuteblicas

anaacutelise de redes sociais

aprendizagem automaacutetica

Big Data

Data Science

mineraccedilatildeo de dados e textos

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 3: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

Godoy Cruz 2390 - pb (c1425fqd) caba(54-11) 4899-5500 int 5684wwwciectiorgar infociectiorgar Seguinos en ciecti Buscanos en ciecti

Lerena Octavio Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti redes sociales mineriacutea de textos y clustering Octavio Lerena - 1a ed - Ciudad Autoacutenoma de Buenos Aires ciecti 2019 Libro digital pdf

Archivo Digital descarga y online isbn 978-987-4193-34-6

1 Anaacutelisis de Datos 2 Procesamiento de Datos 3 Poliacuteticas Puacuteblicas I Tiacutetulo cdd 00571

La investigacioacuten que dio base a este estudio finalizoacute en enero de 2019

copy 2019 ciecti

Queda hecho el depoacutesito que marca la ley 11723

Se autoriza la reproduccioacuten total o parcial de esta obra para fines educativos u otros fines no comerciales siempre que se cite la fuente

AUTORIDADES

Presidente

Gustavo Lugones

Directora general

Ruth Ladenheim

EQUIPO EDITORIALCoordinacioacuten editorial

Fernando Porta

Apoyo a la coordinacioacuten

Celeste De Marco

Equipo de investigacioacuten

Octavio Lerena

Edicioacuten

Mara Sessa

Disentildeo editorial

Lea Aacutegreda

api Application Programming Interfaces ars anaacutelisis de redes socialesasrs anaacutelisis semaacutentico de redes socialescti ciencia tecnologiacutea e innovacioacutenemir Reglamento sobre la Infraestructura de los Mercados Europeosergm modelado de grafos exponenciales aleatoriosgis sistemas de informacioacuten geograacutefica i+d investigacioacuten y desarrolloia inteligencia artificialic ingenieriacutea del conocimientoiel Iacutendice de Especializacioacuten Leacutexica inf innovacioacuten a nivel de la firmamt mineriacutea de textosssi Software y Servicios Informaacuteticosue universidad-empresa

SIGLAS

IacuteNDICE

Resumen 9

Resumo 10

Abstract 11

Introduccioacuten 13

Datos masivos fuentes y usuarios 14

Fuentes generadoras de datos masivos 15

Los policy-makers como usuarios 18

Redes sociales mineriacutea de textos y clustering 20

Anaacutelisis de redes sociales 20

Mineriacutea de textos 28

Clustering 31

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis

de coocurrencia de teacuterminos 36

Redes sociales y comunidades temaacuteticas 37

Mineriacutea de textos clustering de teacuterminos clave 54

Conclusiones 69

Anexo 73

Robustez una evaluacioacuten de las relaciones entre comunidades

de contribuciones y clusters de teacuterminos 73

Bibliografiacutea 79

D O C U M E N T O D E T R A B A J O CIECTI 9

RESUMEN

Si bien la actividad humana ha generado datos desde los albores de la civilizacioacuten durante las uacuteltimas deacutecadas el volumen de datos disponibles ha crecido a un ritmo pasmoso En la actualidad muacuteltiples fuentes de datos masivos pueden utilizarse para extraer informacioacuten y generar conocimientos valiosos que respalden la toma de decisiones y disminuyan la in-certidumbre El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales que son el objeto de la disciplina co-nocida como ciencia de datos

Este es el primer volumen de una serie de documentos que abordan distintos meacutetodos y aplicaciones de la ciencia de datos para respaldar la toma de decisiones en materia de poliacute-ticas puacuteblicas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para favorecer poliacuteticas basadas en la evidencia y contribuir a la planificacioacuten estrateacutegica de instituciones y gobiernos

En este documento nos proponemos tres objetivos En primer lugar sensibilizar acerca de la importancia de los grandes datos para las poliacuteticas de cti En segundo lugar describir las teacutecnicas de anaacutelisis de redes sociales mineriacutea de textos y clustering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas Y en tercer lugar dar cuenta del meacutetodo im-plementado en dos aplicaciones cienciomeacutetricas de dichas teacutecnicas realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas

Las tres teacutecnicas relevadas en este documento pueden utilizarse para obtener conocimien-to valioso en aacutereas criacuteticas como la cienciometriacutea la vigilancia tecnoloacutegica y la inteligencia competitiva Asimismo la informacioacuten cuantitativa provista por estos tipos de anaacutelisis pue-de aplicarse tanto para evaluar el desempentildeo de las actividades de investigacioacuten como para respaldar la gestioacuten de las poliacuteticas de cti

Palabras clavepoliacuteticas puacuteblicas

anaacutelisis de redes sociales

aprendizaje automaacutetico

Big Data

ciencia de datos

mineriacutea de textos

clustering

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 0

RESUMO

Embora a atividade humana tenha gerado dados desde o iniacutecio da civilizaccedilatildeo nas uacuteltimas deacutecadas o volume de dados disponiacuteveis cresceu a um ritmo impressionante Atualmente vaacuterias fontes de ldquodados maciccedilos podem ser usadas para extrair informaccedilotildees e gerar conhe-cimento valioso para apoiar a tomada de decisotildees e reduzir a incerteza O processamento e anaacutelise dos dados maciccedilos satildeo baseados em uma seacuterie de teacutecnicas e capacidades individuais e organizacionais que satildeo o objeto da disciplina conhecida como ciecircncia de dados

Este eacute o primeiro volume de uma seacuterie de documentos que abordam diferentes meacutetodos e aplicaccedilotildees de dados cientiacuteficos para apoiar a tomada de decisatildeo em poliacuteticas puacuteblicas com ecircnfase na ciecircncia tecnologia e inovaccedilatildeo (cti) Desta forma busca produzir conhecimento para favorecer poliacuteticas baseadas em evidecircncias e contribuir para o planejamento estrateacutegi-co de instituiccedilotildees e governos

Neste documento propomos trecircs objetivos Primeiro conscientize sobre a importacircncia do big data para as poliacuteticas de cti Segundo descrever as teacutecnicas de anaacutelise de redes sociais mineraccedilatildeo de texto e clustering com destaque para alguns dos seus usos potenciais para a poliacutetica puacuteblica E terceiro para dar conta do meacutetodo implementado em duas aplicaccedilotildees cienciomeacutetricos realizadas pelo ciecti com base em dados de publicaccedilotildees cientiacuteficas

As trecircs teacutecnicas pesquisadas neste documento podem ser usadas para obter conhecimento valioso em aacutereas criacuteticas como cienciometria vigilacircncia tecnoloacutegica e inteligecircncia competi-tiva Aleacutem disso as informaccedilotildees quantitativas fornecidas por esses tipos de anaacutelises podem ser aplicadas tanto para avaliar o desempenho de atividades de pesquisa quanto para apoiar o gerenciamento de poliacuteticas de cti

Palavras-chavepoliacuteticas puacuteblicas

anaacutelise de redes sociais

aprendizagem automaacutetica

Big Data

Data Science

mineraccedilatildeo de dados e textos

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 4: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

AUTORIDADES

Presidente

Gustavo Lugones

Directora general

Ruth Ladenheim

EQUIPO EDITORIALCoordinacioacuten editorial

Fernando Porta

Apoyo a la coordinacioacuten

Celeste De Marco

Equipo de investigacioacuten

Octavio Lerena

Edicioacuten

Mara Sessa

Disentildeo editorial

Lea Aacutegreda

api Application Programming Interfaces ars anaacutelisis de redes socialesasrs anaacutelisis semaacutentico de redes socialescti ciencia tecnologiacutea e innovacioacutenemir Reglamento sobre la Infraestructura de los Mercados Europeosergm modelado de grafos exponenciales aleatoriosgis sistemas de informacioacuten geograacutefica i+d investigacioacuten y desarrolloia inteligencia artificialic ingenieriacutea del conocimientoiel Iacutendice de Especializacioacuten Leacutexica inf innovacioacuten a nivel de la firmamt mineriacutea de textosssi Software y Servicios Informaacuteticosue universidad-empresa

SIGLAS

IacuteNDICE

Resumen 9

Resumo 10

Abstract 11

Introduccioacuten 13

Datos masivos fuentes y usuarios 14

Fuentes generadoras de datos masivos 15

Los policy-makers como usuarios 18

Redes sociales mineriacutea de textos y clustering 20

Anaacutelisis de redes sociales 20

Mineriacutea de textos 28

Clustering 31

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis

de coocurrencia de teacuterminos 36

Redes sociales y comunidades temaacuteticas 37

Mineriacutea de textos clustering de teacuterminos clave 54

Conclusiones 69

Anexo 73

Robustez una evaluacioacuten de las relaciones entre comunidades

de contribuciones y clusters de teacuterminos 73

Bibliografiacutea 79

D O C U M E N T O D E T R A B A J O CIECTI 9

RESUMEN

Si bien la actividad humana ha generado datos desde los albores de la civilizacioacuten durante las uacuteltimas deacutecadas el volumen de datos disponibles ha crecido a un ritmo pasmoso En la actualidad muacuteltiples fuentes de datos masivos pueden utilizarse para extraer informacioacuten y generar conocimientos valiosos que respalden la toma de decisiones y disminuyan la in-certidumbre El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales que son el objeto de la disciplina co-nocida como ciencia de datos

Este es el primer volumen de una serie de documentos que abordan distintos meacutetodos y aplicaciones de la ciencia de datos para respaldar la toma de decisiones en materia de poliacute-ticas puacuteblicas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para favorecer poliacuteticas basadas en la evidencia y contribuir a la planificacioacuten estrateacutegica de instituciones y gobiernos

En este documento nos proponemos tres objetivos En primer lugar sensibilizar acerca de la importancia de los grandes datos para las poliacuteticas de cti En segundo lugar describir las teacutecnicas de anaacutelisis de redes sociales mineriacutea de textos y clustering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas Y en tercer lugar dar cuenta del meacutetodo im-plementado en dos aplicaciones cienciomeacutetricas de dichas teacutecnicas realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas

Las tres teacutecnicas relevadas en este documento pueden utilizarse para obtener conocimien-to valioso en aacutereas criacuteticas como la cienciometriacutea la vigilancia tecnoloacutegica y la inteligencia competitiva Asimismo la informacioacuten cuantitativa provista por estos tipos de anaacutelisis pue-de aplicarse tanto para evaluar el desempentildeo de las actividades de investigacioacuten como para respaldar la gestioacuten de las poliacuteticas de cti

Palabras clavepoliacuteticas puacuteblicas

anaacutelisis de redes sociales

aprendizaje automaacutetico

Big Data

ciencia de datos

mineriacutea de textos

clustering

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 0

RESUMO

Embora a atividade humana tenha gerado dados desde o iniacutecio da civilizaccedilatildeo nas uacuteltimas deacutecadas o volume de dados disponiacuteveis cresceu a um ritmo impressionante Atualmente vaacuterias fontes de ldquodados maciccedilos podem ser usadas para extrair informaccedilotildees e gerar conhe-cimento valioso para apoiar a tomada de decisotildees e reduzir a incerteza O processamento e anaacutelise dos dados maciccedilos satildeo baseados em uma seacuterie de teacutecnicas e capacidades individuais e organizacionais que satildeo o objeto da disciplina conhecida como ciecircncia de dados

Este eacute o primeiro volume de uma seacuterie de documentos que abordam diferentes meacutetodos e aplicaccedilotildees de dados cientiacuteficos para apoiar a tomada de decisatildeo em poliacuteticas puacuteblicas com ecircnfase na ciecircncia tecnologia e inovaccedilatildeo (cti) Desta forma busca produzir conhecimento para favorecer poliacuteticas baseadas em evidecircncias e contribuir para o planejamento estrateacutegi-co de instituiccedilotildees e governos

Neste documento propomos trecircs objetivos Primeiro conscientize sobre a importacircncia do big data para as poliacuteticas de cti Segundo descrever as teacutecnicas de anaacutelise de redes sociais mineraccedilatildeo de texto e clustering com destaque para alguns dos seus usos potenciais para a poliacutetica puacuteblica E terceiro para dar conta do meacutetodo implementado em duas aplicaccedilotildees cienciomeacutetricos realizadas pelo ciecti com base em dados de publicaccedilotildees cientiacuteficas

As trecircs teacutecnicas pesquisadas neste documento podem ser usadas para obter conhecimento valioso em aacutereas criacuteticas como cienciometria vigilacircncia tecnoloacutegica e inteligecircncia competi-tiva Aleacutem disso as informaccedilotildees quantitativas fornecidas por esses tipos de anaacutelises podem ser aplicadas tanto para avaliar o desempenho de atividades de pesquisa quanto para apoiar o gerenciamento de poliacuteticas de cti

Palavras-chavepoliacuteticas puacuteblicas

anaacutelise de redes sociais

aprendizagem automaacutetica

Big Data

Data Science

mineraccedilatildeo de dados e textos

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 5: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

api Application Programming Interfaces ars anaacutelisis de redes socialesasrs anaacutelisis semaacutentico de redes socialescti ciencia tecnologiacutea e innovacioacutenemir Reglamento sobre la Infraestructura de los Mercados Europeosergm modelado de grafos exponenciales aleatoriosgis sistemas de informacioacuten geograacutefica i+d investigacioacuten y desarrolloia inteligencia artificialic ingenieriacutea del conocimientoiel Iacutendice de Especializacioacuten Leacutexica inf innovacioacuten a nivel de la firmamt mineriacutea de textosssi Software y Servicios Informaacuteticosue universidad-empresa

SIGLAS

IacuteNDICE

Resumen 9

Resumo 10

Abstract 11

Introduccioacuten 13

Datos masivos fuentes y usuarios 14

Fuentes generadoras de datos masivos 15

Los policy-makers como usuarios 18

Redes sociales mineriacutea de textos y clustering 20

Anaacutelisis de redes sociales 20

Mineriacutea de textos 28

Clustering 31

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis

de coocurrencia de teacuterminos 36

Redes sociales y comunidades temaacuteticas 37

Mineriacutea de textos clustering de teacuterminos clave 54

Conclusiones 69

Anexo 73

Robustez una evaluacioacuten de las relaciones entre comunidades

de contribuciones y clusters de teacuterminos 73

Bibliografiacutea 79

D O C U M E N T O D E T R A B A J O CIECTI 9

RESUMEN

Si bien la actividad humana ha generado datos desde los albores de la civilizacioacuten durante las uacuteltimas deacutecadas el volumen de datos disponibles ha crecido a un ritmo pasmoso En la actualidad muacuteltiples fuentes de datos masivos pueden utilizarse para extraer informacioacuten y generar conocimientos valiosos que respalden la toma de decisiones y disminuyan la in-certidumbre El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales que son el objeto de la disciplina co-nocida como ciencia de datos

Este es el primer volumen de una serie de documentos que abordan distintos meacutetodos y aplicaciones de la ciencia de datos para respaldar la toma de decisiones en materia de poliacute-ticas puacuteblicas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para favorecer poliacuteticas basadas en la evidencia y contribuir a la planificacioacuten estrateacutegica de instituciones y gobiernos

En este documento nos proponemos tres objetivos En primer lugar sensibilizar acerca de la importancia de los grandes datos para las poliacuteticas de cti En segundo lugar describir las teacutecnicas de anaacutelisis de redes sociales mineriacutea de textos y clustering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas Y en tercer lugar dar cuenta del meacutetodo im-plementado en dos aplicaciones cienciomeacutetricas de dichas teacutecnicas realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas

Las tres teacutecnicas relevadas en este documento pueden utilizarse para obtener conocimien-to valioso en aacutereas criacuteticas como la cienciometriacutea la vigilancia tecnoloacutegica y la inteligencia competitiva Asimismo la informacioacuten cuantitativa provista por estos tipos de anaacutelisis pue-de aplicarse tanto para evaluar el desempentildeo de las actividades de investigacioacuten como para respaldar la gestioacuten de las poliacuteticas de cti

Palabras clavepoliacuteticas puacuteblicas

anaacutelisis de redes sociales

aprendizaje automaacutetico

Big Data

ciencia de datos

mineriacutea de textos

clustering

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 0

RESUMO

Embora a atividade humana tenha gerado dados desde o iniacutecio da civilizaccedilatildeo nas uacuteltimas deacutecadas o volume de dados disponiacuteveis cresceu a um ritmo impressionante Atualmente vaacuterias fontes de ldquodados maciccedilos podem ser usadas para extrair informaccedilotildees e gerar conhe-cimento valioso para apoiar a tomada de decisotildees e reduzir a incerteza O processamento e anaacutelise dos dados maciccedilos satildeo baseados em uma seacuterie de teacutecnicas e capacidades individuais e organizacionais que satildeo o objeto da disciplina conhecida como ciecircncia de dados

Este eacute o primeiro volume de uma seacuterie de documentos que abordam diferentes meacutetodos e aplicaccedilotildees de dados cientiacuteficos para apoiar a tomada de decisatildeo em poliacuteticas puacuteblicas com ecircnfase na ciecircncia tecnologia e inovaccedilatildeo (cti) Desta forma busca produzir conhecimento para favorecer poliacuteticas baseadas em evidecircncias e contribuir para o planejamento estrateacutegi-co de instituiccedilotildees e governos

Neste documento propomos trecircs objetivos Primeiro conscientize sobre a importacircncia do big data para as poliacuteticas de cti Segundo descrever as teacutecnicas de anaacutelise de redes sociais mineraccedilatildeo de texto e clustering com destaque para alguns dos seus usos potenciais para a poliacutetica puacuteblica E terceiro para dar conta do meacutetodo implementado em duas aplicaccedilotildees cienciomeacutetricos realizadas pelo ciecti com base em dados de publicaccedilotildees cientiacuteficas

As trecircs teacutecnicas pesquisadas neste documento podem ser usadas para obter conhecimento valioso em aacutereas criacuteticas como cienciometria vigilacircncia tecnoloacutegica e inteligecircncia competi-tiva Aleacutem disso as informaccedilotildees quantitativas fornecidas por esses tipos de anaacutelises podem ser aplicadas tanto para avaliar o desempenho de atividades de pesquisa quanto para apoiar o gerenciamento de poliacuteticas de cti

Palavras-chavepoliacuteticas puacuteblicas

anaacutelise de redes sociais

aprendizagem automaacutetica

Big Data

Data Science

mineraccedilatildeo de dados e textos

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 6: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

IacuteNDICE

Resumen 9

Resumo 10

Abstract 11

Introduccioacuten 13

Datos masivos fuentes y usuarios 14

Fuentes generadoras de datos masivos 15

Los policy-makers como usuarios 18

Redes sociales mineriacutea de textos y clustering 20

Anaacutelisis de redes sociales 20

Mineriacutea de textos 28

Clustering 31

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis

de coocurrencia de teacuterminos 36

Redes sociales y comunidades temaacuteticas 37

Mineriacutea de textos clustering de teacuterminos clave 54

Conclusiones 69

Anexo 73

Robustez una evaluacioacuten de las relaciones entre comunidades

de contribuciones y clusters de teacuterminos 73

Bibliografiacutea 79

D O C U M E N T O D E T R A B A J O CIECTI 9

RESUMEN

Si bien la actividad humana ha generado datos desde los albores de la civilizacioacuten durante las uacuteltimas deacutecadas el volumen de datos disponibles ha crecido a un ritmo pasmoso En la actualidad muacuteltiples fuentes de datos masivos pueden utilizarse para extraer informacioacuten y generar conocimientos valiosos que respalden la toma de decisiones y disminuyan la in-certidumbre El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales que son el objeto de la disciplina co-nocida como ciencia de datos

Este es el primer volumen de una serie de documentos que abordan distintos meacutetodos y aplicaciones de la ciencia de datos para respaldar la toma de decisiones en materia de poliacute-ticas puacuteblicas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para favorecer poliacuteticas basadas en la evidencia y contribuir a la planificacioacuten estrateacutegica de instituciones y gobiernos

En este documento nos proponemos tres objetivos En primer lugar sensibilizar acerca de la importancia de los grandes datos para las poliacuteticas de cti En segundo lugar describir las teacutecnicas de anaacutelisis de redes sociales mineriacutea de textos y clustering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas Y en tercer lugar dar cuenta del meacutetodo im-plementado en dos aplicaciones cienciomeacutetricas de dichas teacutecnicas realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas

Las tres teacutecnicas relevadas en este documento pueden utilizarse para obtener conocimien-to valioso en aacutereas criacuteticas como la cienciometriacutea la vigilancia tecnoloacutegica y la inteligencia competitiva Asimismo la informacioacuten cuantitativa provista por estos tipos de anaacutelisis pue-de aplicarse tanto para evaluar el desempentildeo de las actividades de investigacioacuten como para respaldar la gestioacuten de las poliacuteticas de cti

Palabras clavepoliacuteticas puacuteblicas

anaacutelisis de redes sociales

aprendizaje automaacutetico

Big Data

ciencia de datos

mineriacutea de textos

clustering

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 0

RESUMO

Embora a atividade humana tenha gerado dados desde o iniacutecio da civilizaccedilatildeo nas uacuteltimas deacutecadas o volume de dados disponiacuteveis cresceu a um ritmo impressionante Atualmente vaacuterias fontes de ldquodados maciccedilos podem ser usadas para extrair informaccedilotildees e gerar conhe-cimento valioso para apoiar a tomada de decisotildees e reduzir a incerteza O processamento e anaacutelise dos dados maciccedilos satildeo baseados em uma seacuterie de teacutecnicas e capacidades individuais e organizacionais que satildeo o objeto da disciplina conhecida como ciecircncia de dados

Este eacute o primeiro volume de uma seacuterie de documentos que abordam diferentes meacutetodos e aplicaccedilotildees de dados cientiacuteficos para apoiar a tomada de decisatildeo em poliacuteticas puacuteblicas com ecircnfase na ciecircncia tecnologia e inovaccedilatildeo (cti) Desta forma busca produzir conhecimento para favorecer poliacuteticas baseadas em evidecircncias e contribuir para o planejamento estrateacutegi-co de instituiccedilotildees e governos

Neste documento propomos trecircs objetivos Primeiro conscientize sobre a importacircncia do big data para as poliacuteticas de cti Segundo descrever as teacutecnicas de anaacutelise de redes sociais mineraccedilatildeo de texto e clustering com destaque para alguns dos seus usos potenciais para a poliacutetica puacuteblica E terceiro para dar conta do meacutetodo implementado em duas aplicaccedilotildees cienciomeacutetricos realizadas pelo ciecti com base em dados de publicaccedilotildees cientiacuteficas

As trecircs teacutecnicas pesquisadas neste documento podem ser usadas para obter conhecimento valioso em aacutereas criacuteticas como cienciometria vigilacircncia tecnoloacutegica e inteligecircncia competi-tiva Aleacutem disso as informaccedilotildees quantitativas fornecidas por esses tipos de anaacutelises podem ser aplicadas tanto para avaliar o desempenho de atividades de pesquisa quanto para apoiar o gerenciamento de poliacuteticas de cti

Palavras-chavepoliacuteticas puacuteblicas

anaacutelise de redes sociais

aprendizagem automaacutetica

Big Data

Data Science

mineraccedilatildeo de dados e textos

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 7: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

D O C U M E N T O D E T R A B A J O CIECTI 9

RESUMEN

Si bien la actividad humana ha generado datos desde los albores de la civilizacioacuten durante las uacuteltimas deacutecadas el volumen de datos disponibles ha crecido a un ritmo pasmoso En la actualidad muacuteltiples fuentes de datos masivos pueden utilizarse para extraer informacioacuten y generar conocimientos valiosos que respalden la toma de decisiones y disminuyan la in-certidumbre El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales que son el objeto de la disciplina co-nocida como ciencia de datos

Este es el primer volumen de una serie de documentos que abordan distintos meacutetodos y aplicaciones de la ciencia de datos para respaldar la toma de decisiones en materia de poliacute-ticas puacuteblicas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para favorecer poliacuteticas basadas en la evidencia y contribuir a la planificacioacuten estrateacutegica de instituciones y gobiernos

En este documento nos proponemos tres objetivos En primer lugar sensibilizar acerca de la importancia de los grandes datos para las poliacuteticas de cti En segundo lugar describir las teacutecnicas de anaacutelisis de redes sociales mineriacutea de textos y clustering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas Y en tercer lugar dar cuenta del meacutetodo im-plementado en dos aplicaciones cienciomeacutetricas de dichas teacutecnicas realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas

Las tres teacutecnicas relevadas en este documento pueden utilizarse para obtener conocimien-to valioso en aacutereas criacuteticas como la cienciometriacutea la vigilancia tecnoloacutegica y la inteligencia competitiva Asimismo la informacioacuten cuantitativa provista por estos tipos de anaacutelisis pue-de aplicarse tanto para evaluar el desempentildeo de las actividades de investigacioacuten como para respaldar la gestioacuten de las poliacuteticas de cti

Palabras clavepoliacuteticas puacuteblicas

anaacutelisis de redes sociales

aprendizaje automaacutetico

Big Data

ciencia de datos

mineriacutea de textos

clustering

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 0

RESUMO

Embora a atividade humana tenha gerado dados desde o iniacutecio da civilizaccedilatildeo nas uacuteltimas deacutecadas o volume de dados disponiacuteveis cresceu a um ritmo impressionante Atualmente vaacuterias fontes de ldquodados maciccedilos podem ser usadas para extrair informaccedilotildees e gerar conhe-cimento valioso para apoiar a tomada de decisotildees e reduzir a incerteza O processamento e anaacutelise dos dados maciccedilos satildeo baseados em uma seacuterie de teacutecnicas e capacidades individuais e organizacionais que satildeo o objeto da disciplina conhecida como ciecircncia de dados

Este eacute o primeiro volume de uma seacuterie de documentos que abordam diferentes meacutetodos e aplicaccedilotildees de dados cientiacuteficos para apoiar a tomada de decisatildeo em poliacuteticas puacuteblicas com ecircnfase na ciecircncia tecnologia e inovaccedilatildeo (cti) Desta forma busca produzir conhecimento para favorecer poliacuteticas baseadas em evidecircncias e contribuir para o planejamento estrateacutegi-co de instituiccedilotildees e governos

Neste documento propomos trecircs objetivos Primeiro conscientize sobre a importacircncia do big data para as poliacuteticas de cti Segundo descrever as teacutecnicas de anaacutelise de redes sociais mineraccedilatildeo de texto e clustering com destaque para alguns dos seus usos potenciais para a poliacutetica puacuteblica E terceiro para dar conta do meacutetodo implementado em duas aplicaccedilotildees cienciomeacutetricos realizadas pelo ciecti com base em dados de publicaccedilotildees cientiacuteficas

As trecircs teacutecnicas pesquisadas neste documento podem ser usadas para obter conhecimento valioso em aacutereas criacuteticas como cienciometria vigilacircncia tecnoloacutegica e inteligecircncia competi-tiva Aleacutem disso as informaccedilotildees quantitativas fornecidas por esses tipos de anaacutelises podem ser aplicadas tanto para avaliar o desempenho de atividades de pesquisa quanto para apoiar o gerenciamento de poliacuteticas de cti

Palavras-chavepoliacuteticas puacuteblicas

anaacutelise de redes sociais

aprendizagem automaacutetica

Big Data

Data Science

mineraccedilatildeo de dados e textos

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 8: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 0

RESUMO

Embora a atividade humana tenha gerado dados desde o iniacutecio da civilizaccedilatildeo nas uacuteltimas deacutecadas o volume de dados disponiacuteveis cresceu a um ritmo impressionante Atualmente vaacuterias fontes de ldquodados maciccedilos podem ser usadas para extrair informaccedilotildees e gerar conhe-cimento valioso para apoiar a tomada de decisotildees e reduzir a incerteza O processamento e anaacutelise dos dados maciccedilos satildeo baseados em uma seacuterie de teacutecnicas e capacidades individuais e organizacionais que satildeo o objeto da disciplina conhecida como ciecircncia de dados

Este eacute o primeiro volume de uma seacuterie de documentos que abordam diferentes meacutetodos e aplicaccedilotildees de dados cientiacuteficos para apoiar a tomada de decisatildeo em poliacuteticas puacuteblicas com ecircnfase na ciecircncia tecnologia e inovaccedilatildeo (cti) Desta forma busca produzir conhecimento para favorecer poliacuteticas baseadas em evidecircncias e contribuir para o planejamento estrateacutegi-co de instituiccedilotildees e governos

Neste documento propomos trecircs objetivos Primeiro conscientize sobre a importacircncia do big data para as poliacuteticas de cti Segundo descrever as teacutecnicas de anaacutelise de redes sociais mineraccedilatildeo de texto e clustering com destaque para alguns dos seus usos potenciais para a poliacutetica puacuteblica E terceiro para dar conta do meacutetodo implementado em duas aplicaccedilotildees cienciomeacutetricos realizadas pelo ciecti com base em dados de publicaccedilotildees cientiacuteficas

As trecircs teacutecnicas pesquisadas neste documento podem ser usadas para obter conhecimento valioso em aacutereas criacuteticas como cienciometria vigilacircncia tecnoloacutegica e inteligecircncia competi-tiva Aleacutem disso as informaccedilotildees quantitativas fornecidas por esses tipos de anaacutelises podem ser aplicadas tanto para avaliar o desempenho de atividades de pesquisa quanto para apoiar o gerenciamento de poliacuteticas de cti

Palavras-chavepoliacuteticas puacuteblicas

anaacutelise de redes sociais

aprendizagem automaacutetica

Big Data

Data Science

mineraccedilatildeo de dados e textos

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 9: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

D O C U M E N T O D E T R A B A J O CIECTI 1 1

ABSTRACT

Although human activity has generated data since the dawn of civilization during the last decades the volume of data available has grown at a staggering pace Nowadays based on multiple sources of ldquomassive datardquo information may be extracted and valuable knowl-edge may be generated supporting decision making and reducing uncertainty Both the processing and analysis of massive data are based on a series of techniques and individual and organizational capacities which are the research subject of the discipline known as Data Science

This is the first volume of a series of documents that address different methods and ap-plications of Data Science to support public policy decision making with an emphasis on those related to Science Technology and Innovation (sti) Therefore we seek to produce knowledge contributing to strategic planning in institutions and governments by pro-moting the implementation of evidence-based policies

In this document we propose three objectives First to raise awareness about the impor-tance of Big Data for sti policies Second to describe the techniques of Social Network Analysis Text Mining and clustering with emphasis on some of their potential uses for public policy And third to account for the method implemented in two scientomet-ric applications of these techniques carried out by ciecti based on data from scientific publications

The three techniques surveyed in this document can provide valuable knowledge in criti-cal areas such as scientometrics technological surveillance and competitive intelligence Quantitative information may be used to evaluate the performance of research activities and to support the management of sti policies

Keywordspublic policies

social network analysis

machine learning

Big Data

Data Science

text mining

clustering

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 10: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

D O C U M E N T O D E T R A B A J O CIECTI 1 3

IntroduccioacutenDesde el advenimiento de las tecnologiacuteas de la informacioacuten humanos y artefactos nos constituimos crecientemente en fuentes generadoras de grandes voluacutemenes de datos susceptibles de ser valorizados Cuando el tamantildeo de un conjunto de datos excede al que puede procesar el software o el hardware estaacutendar se alude a estos como ldquodatos masivosrdquo o ldquograndes datosrdquo (Parks 2014 Power 2014) Los datos masivos constituyen un nuevo tipo de recurso estrateacutegico en la era digital y un factor clave para impulsar la innovacioacuten y ge-nerar valor (Einav y Levin 2014 Grover et al 2018)

Sin embargo los datos masivos deben ser procesados y analizados para que la informa-cioacuten deacute lugar a un conocimiento valioso que permita eventualmente mejorar procesos contribuir a la toma de decisiones y disminuir la incertidumbre de tal modo que impacte sobre la competitividad de las firmas y el sistema en su conjunto

El procesamiento y anaacutelisis de los datos masivos se sustentan en una serie de teacutecnicas y capacidades individuales y organizacionales (McAbee et al 2017) que son el objeto de la disciplina conocida como ciencia de datos Se trata de un campo de investigacioacuten interdis-ciplinaria1 que desarrolla y utiliza procesos y sistemas analiacuteticos para extraer conocimien-to de fuentes de informacioacuten cada vez maacutes grandes o complejas (nih 2018)

Las aplicaciones de las teacutecnicas analiacuteticas de la ciencia de datos pueden orientarse a enti-dades puacuteblicas o privadas Desde el sector puacuteblico se plantean dos retos El primer desa-fiacuteo consiste en articular y promover praacutecticas innovadoras vinculadas al uso de estas teacutec-nicas que generen valor en el sector privado esto implica identificar oportunidades para el desarrollo tecnoloacutegico y la innovacioacuten en los distintos campos de la ciencia de datos2 El segundo desafiacuteo reside en utilizar directamente estas teacutecnicas para la planificacioacuten el monitoreo y la evaluacioacuten de poliacuteticas puacuteblicas Esta serie de documentos se concentraraacute en el segundo de estos retos el que se asocia a la aplicacioacuten de las teacutecnicas de ciencia de datos en las poliacuteticas con eacutenfasis en las de ciencia tecnologiacutea e innovacioacuten (cti) De esta manera se busca producir conocimiento para contribuir a la planificacioacuten estrateacutegica ins-titucional y gubernamental y a la gestioacuten de la informacioacuten el monitoreo y la evaluacioacuten en las propias instituciones puacuteblicas

1 El procesamiento y anaacutelisis de los datos masivos requieren articular un conjunto amplio de teacutecnicas provenientes de disciplinas tales como ciencias de la computacioacuten matemaacuteticas estadiacutestica y econometriacutea

2 Este primer desafiacuteo ha sido objeto de estudio de Malvicino y Yoguel (2017) quienes analizan las oportunidades y los retos que Big Data plantea para un paiacutes en desarrollo como la Argentina El disentildeo de poliacuteticas efectivas orientadas a sectores intensivos en conocimiento tecnoloacutegico e informacional asiacute como tambieacuten el fortalecimiento de los organismos puacuteblicos de ciencia y tecnologiacutea son centrales para identificar oportunidades de desarrollo tecnoloacutegico e innovacioacuten en los distintos campos de la ciencia de datos

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 11: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 4

3 El ars es un conjunto de teacutecnicas orientadas a estudiar las relaciones entre entidades interdependientes

Las redes sociales que son el objeto de estas teacutecnicas existen desde mucho

antes del surgimiento de internet Solo cuando las interacciones sociales bajo

estudio estaacuten mediadas por redes en liacutenea entonces la red social se convierte

en una red de medios sociales o social media Por tanto las plataformas de

social media como Twitter y Facebook necesariamente son redes sociales

Sin embargo no toda red social es una forma de social media

En los subsiguientes voluacutemenes daremos cuenta de distintas teacutecnicas analiacuteticas de la ciencia de datos aplicadas sobre conjuntos de datos masivos provenientes de distintas fuentes En este primer documento se proponen tres objetivos rsaquo Sensibilizar acerca de la importancia de los ldquograndes datosrdquo para las poliacuteticas de cti rsaquo Describir las teacutecnicas de anaacutelisis de redes sociales (ars)3 mineriacutea de textos (mt) y clus-

tering con eacutenfasis en algunos de sus usos potenciales para las poliacuteticas puacuteblicas rsaquo Describir el meacutetodo implementado en dos investigaciones bibliomeacutetricas explorato-

rias realizadas por el ciecti a partir de datos de publicaciones cientiacuteficas mediante la utilizacioacuten de las tres teacutecnicas mencionadas

El presente trabajo se estructura de la siguiente manera En la primera seccioacuten se abordan el concepto de datos masivos las principales fuentes que los generan y su importancia creciente para la toma de decisiones En la segunda se caracteriza cada una de las tres teacutecnicas en las que se concentra este primer volumen ndashel ars la mt y el clusteringndash y se detallan algunos de sus usos potenciales para las poliacuteticas puacuteblicas La tercera seccioacuten de-sarrolla dos aplicaciones cienciomeacutetricas de dichas teacutecnicas centradas en el anaacutelisis de la literatura acadeacutemica sobre por un lado las relaciones universidad-empresa y por el otro los procesos de innovacioacuten al nivel de la firma Finalmente se exponen las conclusiones

Datos masivos fuentes y usuariosLa actividad humana genera datos a cada instante En la actualidad maacutes de 4200 millo-nes de personas tienen acceso a internet y son por tanto fuentes generadoras de datos en la medida en que proveen un vasto conjunto de informacioacuten relativa a sus actividades y preferencias La transicioacuten hacia la conectividad universal parece avanzar a un ritmo pas-moso y ya genera amplios voluacutemenes de datos de los que puede extraerse conocimiento valioso En este marco la explotacioacuten de esos datos se constituye en una preocupacioacuten de primer orden para la vida econoacutemica de las proacuteximas deacutecadas La ciencia de datos coloca el foco precisamente en el desafiacuteo de extraer conocimiento de datos carentes de signifi-cado y valor econoacutemico a priori en otras palabras es la ciencia abocada a aprender de los datos para respaldar una mejor toma de decisiones y resolver problemas

D O C U M E N T O D E T R A B A J O CIECTI 1 5

4 Asimismo dada la multiplicidad de fuentes de datos existentes los datos que se generan pueden ser intersujetos o intrasujetos Mientras los primeros se relacionan con la capacidad de recabar datos de muchos sujetos en un instante los uacuteltimos aluden a la capacidad de recabar continuamente datos de un mismo sujeto (por ejemplo datos biomeacutetricos de un sensor de ejercicio)

Los datos masivos estaacuten cambiando no solo la forma de comunicarnos y de trabajar sino ademaacutes el modo de interactuar con los elementos que nos rodean Desde un principio la literatura que ha abordado el fenoacutemeno emergente de los grandes datos los caracteriza con base en atributos como su volumen velocidad y variedad Se trata de datos a gran es-cala cuya administracioacuten impone requisitos exigentes en teacuterminos de recursos de almace-namiento y capacidad de coacutemputo La frecuencia de actualizacioacuten y el tiempo requerido para el procesamiento de los datos son variables criacuteticas Dado que estos se generan en forma continua el anaacutelisis debe completarse antes de que los resultados obtenidos pier-dan vigencia y por tanto dejen de ser uacutetiles para la toma de decisiones (Power 2016) Por otra parte estos datos son generados por fuentes diversas y pueden adoptar muacuteltiples formas incluidos texto audio video y posts en redes sociales A su vez pueden ser estruc-turados semiestructurados o no estructurados (McAbee et al 2017) Esta gran heteroge-neidad en la representacioacuten de los datos se hace extensiva a su interpretacioacuten semaacutentica4

Fuentes generadoras de datos masivos

Los datos masivos pueden provenir de una multiplicidad de fuentes y la lista de fuentes posibles se ampliacutea continuamente (veacutease Chakraborty y Joseph 2017) Cabe clasificar los datos en tres grupos seguacuten el tipo de fuente que los genera En primer lugar se encuen-tran los datos en liacutenea generados por humanos en forma consciente y a menudo volun-taria En segundo lugar estaacuten los microdatos generados en la gestioacuten y provisioacuten de ser-vicios Finalmente maacutes allaacute de la actividad humana tambieacuten son fuentes generadoras de datos a gran escala distintos tipos de artefactos y sensores que capturan el comporta-miento de entidades no humanas

datos online generados por humanos

Las fuentes de datos disponibles para ser explotadas por la ciencia de datos van mucho maacutes allaacute de las redes sociales en liacutenea (Bakshy et al 2012 Anstead y OrsquoLoughlin 2015) y los metadatos provenientes de teleacutefonos correos electroacutenicos o mensajeriacutea instantaacute-nea (Blumenstock et al 2015) En el contexto de internet los mercados online son una fuente de datos muy proliacutefica sobre todo aquellos dedicados a bienes raiacuteces comercio

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 6

5 Los preacutestamos p2p (acroacutenimo del ingleacutes peer-to-peer ldquode paresrdquo) son una modalidad de acceso al creacutedito que se establece entre particulares mediante

el uso de plataformas en liacutenea

minorista o preacutestamos p2p5 (Bholat y Atz 2016) En la misma liacutenea los datos moacuteviles y aso-ciados a apps permiten detectar tendencias y cambios demograacuteficos y tecnoloacutegicos (Mbiti y Well 2011)

Los datos de social media minusprovenientes de redes sociales en liacuteneaminus son una fuente de da-tos en raacutepida expansioacuten A modo de ejemplo los mensajes escritos por los usuarios en las redes sociales son datos que sirven de insumo para conocer el estado de la opinioacuten puacuteblica respecto de un tema de actualidad El llamado ldquoanaacutelisis del sentimientordquo (Zhang et al 2018) clasifica los posicionamientos de los usuarios en funcioacuten del leacutexico empleado para referirse a la cuestioacuten y por esa viacutea mide la reaccioacuten de las redes sociales frente a los temas emergentes (Tetlock 2007) El procesamiento de esos datos da lugar a la iden-tificacioacuten de patrones agregados en la red que dan cuenta de procesos que no podriacutean derivarse de la observacioacuten de los individuos aislados Estos datos pueden utilizarse para determinar la evolucioacuten de la imagen positiva de un candidato a la luz de declaraciones y apariciones puacuteblicas concretas en el marco de una campantildea poliacutetica o bien dar cuenta del nivel de conformidad de los clientes de un servicio con mayor grado de cobertura que una encuesta tradicional

Tambieacuten las publicaciones cientiacuteficas en siacute mismas se convierten en este marco en un cuerpo de datos que puede ser analizado y estudiado (Donoho 2017) La comunicacioacuten cientiacutefica escrita ndashbajo la forma de artiacuteculos o patentesndash contiene un conjunto de datos que pueden ayudar a revelar patrones y a conocer mejor al autor asiacute como tambieacuten las tendencias agregadas Muacuteltiples decisiones dejan rastros que revelan las preferencias y la intencionalidad de los autores de una contribucioacuten cientiacutefica Como veremos maacutes adelan-te la forma en que una contribucioacuten cita a otras y el uso particular que hace del lenguaje permite construir bases de datos de relaciones entre contribuciones utilizando el anaacutelisis de redes sociales y la mineriacutea de textos Mediante estas teacutecnicas es posible conocer a queacute comunidad temaacutetica pertenece un documento ndashhaciendo uso del clusteringndash y capturar tendencias en un campo de estudio determinado

Los datos bibliograacuteficos y gran parte de los datos de social media son un ejemplo de co-municacioacuten escrita en que el usuario de la red expresa sus preferencias de manera inten-cional Sin embargo en la mayoriacutea de los casos los datos no pertenecen a esta clase Un

D O C U M E N T O D E T R A B A J O CIECTI 1 7

6 El Reglamento sobre la Infraestructura de los Mercados Europeos (emir por sus siglas en ingleacutes) es un marco regulatorio aprobado por la Autoridad Europea de Valores y Mercados destinado a supervisar todas las transacciones de derivados otc (Over The Counter) y operaciones de cambio realizadas por contrapartes de la Unioacuten Europea

ejemplo son los metadatos de la telefoniacutea celular Cuando un individuo circula por un centro comercial llevando su teleacutefono moacutevil consigo y este busca sentildeales de Wi-Fi puede estar proveyendo datos respecto de sus caracteriacutesticas si se da el caso de que existen sen-sores para capturar esos datos El hecho de que un individuo se detenga en determinadas vidrieras y no en otras el recorrido que sigue antes o despueacutes de realizar una compra doacutende se detiene y por cuaacutento tiempo queacute rubros son los que retienen maacutes su atencioacuten cuaacuteles marcas etc son datos que distan de ser triviales en tanto permiten por ejemplo construir distintos perfiles de consumidores que visitan el centro comercial incluso aun-que los propios sujetos nunca hayan brindado consentimiento expreso para que esos da-tos sean usados

microdatos generados en la gestioacuten y provisioacuten de servicios

Otro grupo de fuentes de datos se asocian a los microdatos provistos por scanners en las transacciones de los comercios minoristas (Harding y Lovenheim 2017) y a los datos de alta frecuencia como los ticks del mercado bursaacutetil y los datos de sistemas de pago (Kiri-lenko et al 2017)

En el sector privado los microdatos provistos por el comercio minorista han sido utiliza-dos por las empresas en distintas industrias para gestionar la renovacioacuten de stocks me-diante algoritmos de inteligencia artificial Ya se han implementado teacutecnicas de este tipo para monitorear un conjunto de variables que puede afectar las ventas incluidas las ven-tas pasadas o previsiones meteoroloacutegicas

Tambieacuten son importantes como fuentes de datos los datos regulatorios tales como los de emir6 (Cielinska et al 2017) y Solvency ii (Comisioacuten Europea 2014) datos de gobierno abierto (The Economist 2015) datos administrativos sobre demografiacutea y declaraciones de impuestos (Connelly et al 2016) y los generados en la banca minorista respecto de esta-dos financieros preacutestamos e hipotecas (Bracke y Tenreyo 2016)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI1 8

datos generados por no humanos

Finalmente un conjunto de fuentes se asocia a sensores que capturan por ejemplo la frecuencia y la intensidad de uso de servicios puacuteblicos como la electricidad (Harding y Lamarche 2016) datos logiacutesticos ndashcargas enviacuteos entregasndash (Chan et al 2016) de infraes-tructura ndashtraacutefico viajes y transportendash (Daas et al 2015) datos ambientales como las geoi-maacutegenes granulares (Njuguna y McSharry 2017) y diversos datos asociados a la ldquointernet de las cosasrdquo como medidores inteligentes y dispositivos portaacutetiles (Albert y Rajagopal 2013) En efecto la mayoriacutea de los dispositivos con los que interactuamos en el diacutea a diacutea es-taraacuten conectados a internet Actualmente esto sucede con los celulares y televisores pero las distintas tecnologiacuteas asociadas a la inteligencia artificial y la ciencia de datos pueden extenderse a muacuteltiples aplicaciones En particular la produccioacuten agriacutecola viacutea ldquoagricultura de precisioacutenrdquo es uno de los sectores maacutes dinaacutemicos en el uso de esta tecnologiacutea

Los policy-makers como usuarios

Una vez capturados los datos masivos deben ser procesados Las teacutecnicas analiacuteticas de la ciencia de datos permiten valorizar los datos masivos en la medida en que el conocimien-to generado contribuya a resolver problemas Por ello los usuarios uacuteltimos son los en-cargados de tomar decisiones sea en el aacutembito privado (managers) o en las instituciones puacuteblicas (policy-makers)

Los grandes datos dan cuenta de una coleccioacuten de datos con complejidad diversidad he-terogeneidad y alto valor potencial que son difiacuteciles de procesar y analizar en un tiempo razonable Por lo tanto su anaacutelisis para la toma de decisiones inteligentes requiere ante todo generar capacidades Frente a este desafiacuteo la Argentina tiene la ventaja de contar con un sector de Software y Servicios Informaacuteticos (ssi) que ha logrado posicionarse entre los maacutes dinaacutemicos de la regioacuten (Barletta et al 2016) Si bien el sector de ssi local es fuerte-mente heterogeacuteneo y las habilidades y saberes criacuteticos se distribuyen muy desigualmente entre las firmas (Obaya et al 2019) ha seguido en las uacuteltimas deacutecadas una trayectoria de crecimiento sostenido que dio lugar a la acumulacioacuten de capacidades teacutecnicas reales y potenciales

D O C U M E N T O D E T R A B A J O CIECTI 1 9

Crear valor a partir de Big Data exige cambios no solo en la forma de procesar los datos sino sobre todo en la forma de pensar y de plantear los problemas (Malvicino y Yoguel 2017 McAbee et al 2017) Este uacuteltimo desafiacuteo interpela especialmente a los principales usuarios potenciales de los nuevos conocimientos generados los policy-makers (Cate 2014 Einav y Levin 2014 Khoury y Ioannidis 2014 Lazer et al 2014 Mergel et al 2016 Ali et al 2016 De-Arteaga et al 2018 Cronemberger y Gil-Garciacutea 2019 Hong et al 2019)

En los uacuteltimos antildeos los datos masivos se volvieron un asunto crucial tanto para las co-munidades cientiacuteficas como para los gobiernos de varios paiacuteses En esa liacutenea el Consejo de Estado del gobierno chino anuncioacute en 2015 su Plataforma de Accioacuten para la Promo-cioacuten de Big Data un hito en el proceso de catching up de China en el campo de la valori-zacioacuten de los datos masivos Esta plataforma promueve la integracioacuten de todos los datos transdepartamentales y establece plataformas nacionales de datos masivos bajo el con-trol estatal orientadas a proveer servicios para la investigacioacuten acadeacutemica el puacuteblico en general y en especial las industrias La plataforma abarca un amplio espectro de aacutereas gubernamentales empresas e instituciones y se ha concebido como un disentildeo de alto nivel basado en tres plataformas nacionales National Data Opening Platform Trans-De-partmental Data Sharing Platform e Internet based National Data Service Platform

Hacia 2020 el gobierno chino se propone completar diez proyectos clave de Big Data para las tres plataformas con miras a proveer aplicaciones en diversas aacutereas puacuteblicas incluidos servicios de creacutedito transporte salud empleo seguridad social geografiacutea cultura edu-cacioacuten ciencia y tecnologiacutea agricultura medio ambiente seguridad calidad de produc-tos servicios estadiacutesticos y meteoroloacutegicos Estos proyectos abarcan un amplio espectro de departamentos gubernamentales industrias e instituciones acadeacutemicas y educativas Ademaacutes de los datos accesibles en internet estos proyectos comprenden los datos a gran escala producidos y utilizados por el acelerado proceso de informatizacioacuten chino que in-cluye datos comerciales y gubernamentales (Shi et al 2017)

La iniciativa del gobierno chino sugiere que la materializacioacuten de los potenciales benefi-cios para los paiacuteses en desarrollo requiere la elaboracioacuten de poliacuteticas activas y especiacuteficas que tengan en cuenta la generacioacuten y apropiacioacuten de rentas informacionales el manejo

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 0

7 De acuerdo con Wasserman y Faust (2007) el ars es ldquoun modo preciso de

definir conceptos sociales importantes una alternativa teoacuterica al supuesto de actores sociales independientes y un

marco para testear teoriacuteas acerca de relaciones sociales estructuradas El meacutetodo de anaacutelisis de redes provee enunciados y meacutetricas formales de las propiedades estructurales de la

sociedad que de otro modo podriacutean solo definirse en teacuterminos metafoacutericosrdquo

de la privacidad en cuanto a los datos personales el desarrollo de capacidades para la creacioacuten de valor y la difusioacuten de conocimiento para contribuir a la reduccioacuten de desigual-dades socioeconoacutemicas

Redes sociales mineriacutea de textos y clusteringEl ars consiste en un conjunto de herramientas para analizar las relaciones entre entida-des interdependientes (Wasserman y Faust 2007) Estas entidades pueden ser personas empresas instituciones paiacuteses economiacuteas documentos o palabras7 Por su parte la mt comprende el anaacutelisis automaacutetico de datos textuales y busca extraer hechos o patrones significativos a partir de grandes extensiones de texto El clustering en cambio comprende un conjunto de algoritmos de aprendizaje automaacutetico que busca agrupar un conjunto de datos multidimensional en grupos estrechamente relacionados

Anaacutelisis de redes sociales

El anaacutelisis de redes tiene una larga tradicioacuten que abarca diversas aplicaciones (Freeman 2004) Una parte importante de la investigacioacuten en anaacutelisis de redes se desarrolla dentro de las ciencias sociales bajo la forma de ars

Los procedimientos teacutecnicas y aplicaciones del ars actual han tenido tres influencias principales (Fredericks y Durland 2005) La primera fue el anaacutelisis sociomeacutetrico que uti-lizaba meacutetodos de teoriacutea de grafos Algunas premisas del ars aparecieron en Moreno (1934) con las nociones de sociograma y sociometriacutea (recuadro 1)

La segunda fue un abordaje matemaacutetico desarrollado primero por Kurt Lewin y luego por in-vestigadores de Harvard que sentoacute los fundamentos para el ars contemporaacuteneo al introducir la nocioacuten de cliques para operacionalizar las estructuras sociales Desde entonces el anaacutelisis de redes dejariacutea de ser meramente descriptivo en su naturaleza y comenzariacutea a hacer uso de la matemaacutetica y la estadiacutestica para desarrollar nuevas meacutetricas adaptadas al anaacutelisis a gran esca-la sobre todo medidas de centralidad y modularidad (Shimbel 1953 Freeman 1979)

D O C U M E N T O D E T R A B A J O CIECTI 2 1

La tercera influencia provino de los antropoacutelogos de Manchester que observaron la es-tructura de relaciones comunales en aldeas Todas estas tradiciones fueron retomadas en forma conjunta nuevamente en Harvard en los antildeos sesenta cuando el ars contemporaacute-neo se desarrolloacute (Kilduff y Tsai 2003)

En su mayor parte el trabajo de los matemaacuteticos y teoacutericos de grafos se basoacute en algorit-mos complejos cuyas aplicaciones eran arduas y requeriacutean mucho tiempo por lo que a menudo se implementaban solo en grupos pequentildeos Dadas esas restricciones fue solo tras los avances en las teacutecnicas computacionales registrados en los antildeos setenta cuando volvioacute a concitarse el intereacutes en el desarrollo del anaacutelisis de redes (Freeman 1979)

Los senderos evolutivos del ars y de la mt han tendido a converger en las uacuteltimas deacuteca-das en respuesta a los nuevos desafiacuteos planteados por las redes planetarias de la web La mayoriacutea de los meacutetodos y mediciones de ars se basan en el anaacutelisis estadiacutestico de la topologiacutea de los grafos sociales pero dado que la web comenzoacute a ser semaacutentica antes de ser social el anaacutelisis semaacutentico de redes sociales estaacute convirtieacutendose actualmente en un abordaje mainstream en ars (Alhajj y Rokne 2014) Un intereacutes creciente en el campo de la recuperacioacuten de la informacioacuten condujo a la iniciativa de la web semaacutentica del World Wide Web Consortium en 2001 Los estaacutendares semaacutenticos han sido ampliamente usados desde entonces incluso fuera del alcance de la web

Tanto la identificacioacuten como el anaacutelisis de la estructura de relaciones dentro de los grupos ha sido objeto de

investigacioacuten desde comienzos de los antildeos treinta Moreno (1934) estudioacute de queacute manera las relaciones grupales

de un individuo afectan sus acciones y por tanto su desarrollo psicoloacutegico y propuso el sociograma como un modo de

describir tales relaciones sociales

El sociograma es un diagrama en la tradicioacuten de la geometriacutea espacial con los individuos representados como

nodos y las vinculaciones como liacuteneas que conectan los nodos (individuos) Las vinculaciones en el sociograma

podriacutean representar flujos de recursos o de comunicacioacuten o influencia o bien proveer una ilustracioacuten de las cone-

xiones personales entre individuos

En los antildeos cincuenta Cartwright y Harary retomaron las ideas de Moreno y complementaron el sociograma con

foacutermulas matemaacuteticas para crear la teoriacutea de grafos (Kilduff y Tsai 2003)

Recuadro 1

Antecedentes del ARS el anaacutelisis sociomeacutetrico de Moreno

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 2

ventajas del ars frente a meacutetodos tradicionales

A diferencia de otras teacutecnicas maacutes difundidas ndashcomo la regresioacutenndash el ars permite analizar datos que den cuenta de las relaciones entre objetos y no solo de sus atributos individua-les En efecto la utilizacioacuten de la regresioacuten para tales tipos de anaacutelisis plantea problemas metodoloacutegicos insalvables (Stevens y Verhoest 2016) Para ilustrar este hecho suponga-mos que se incorporan como una uacutenica observacioacuten en una base de datos cada una de las relaciones que un actor tiene con otros y que seguidamente se realiza una regresioacuten muacuteltiple sobre estos datos diaacutedicos y un nuacutemero de variables predictoras seleccionadas

El uso de la regresioacuten para tales tipos de anaacutelisis supone dos tipos de problemas (Stevens y Verhoest 2016) el efecto de interdependencia de las vinculaciones y la multiplicacioacuten de datos

Efecto de interdependencia de las vinculaciones Los modelos de regresioacuten siempre operan bajo el supuesto de que las observaciones son independientes unas de otras Se ha mos-trado sin embargo que la estructura de conexiones de la red incide si los viacutenculos entre actores tienen lugar y se sostienen en el tiempo (Lubell et al 2012) Esto se conoce como el efecto de interdependencia de las vinculaciones Un ejemplo claacutesico es la propiedad de transitividad ndashmaacutes conocido como el principio de ldquoun amigo de un amigo es mi amigordquondash que en las redes de amistad da cuenta del hecho de que la persona A es maacutes probable que se haga amiga de la persona C si la persona B minusque es muy amiga de la persona Aminus tambieacuten tiene una amistad estrecha con la persona C (Hunter et al 2008 5) En general los modelos de regresioacuten son inherentemente sesgados y defectuosos cuando se trata de hacer inferencias acerca de la dimensioacuten relacional entre stakeholders en colaboraciones en tanto el meacutetodo arranca al actor individual de su contexto social

Multiplicacioacuten de datos El segundo problema que surge cuando se usan modelos de re-gresioacuten para analizar e interpretar datos diaacutedicos en colaboraciones es el problema de la multiplicacioacuten de datos (Cranmer et al 2012 283) Esto conlleva que el nuacutemero de observaciones en estas bases de datos diaacutedicas es mucho mayor que el nuacutemero real de actores activos en la colaboracioacuten que es objeto de estudio En consecuencia los erro-res estaacutendar de las regresiones muacuteltiples se achican progresivamente lo cual a su vez

D O C U M E N T O D E T R A B A J O CIECTI 2 3

torna bastante maacutes arduo llegar a la conclusioacuten de que el efecto de una variable dada no sea estadiacutesticamente significativo

Esto supone un problema importante porque si el nuacutemero de observaciones en la base de datos es suficientemente grande entonces seraacute bastante probable que aceptemos erroacute-neamente que existe un efecto significativo cuando de hecho no tiene lugar

Se dispone sin embargo de una herramienta flexible para este fin que es maacutes apropia-da para estudiar las dinaacutemicas de los actores en por ejemplo las poliacuteticas de innovacioacuten colaborativa el modelo estadiacutestico de redes sociales conocido como modelado de grafos exponenciales aleatorios (ergm por sus siglas en ingleacutes)

El ergm es una metodologiacutea relativamente nueva con un enorme potencial para estu-diar los mecanismos generativos de las dinaacutemicas de redes en comparacioacuten con otros meacutetodos maacutes tradicionales como los modelos de regresioacuten y los estudios de caso (veacuteanse Lubell et al 2012 Scott 2015) La principal ventaja del ergm radica en la posibilidad de implementar tests de inferencia sobre las dinaacutemicas interactivas tanto en redes de ac-tores relativamente pequentildeas como en redes muy grandes a la vez que se da cuenta del caraacutecter interdependiente de las vinculaciones en los anaacutelisis al considerar los llamados ldquofactores endoacutegenosrdquo como variables predictoras

La documentacioacuten en torno al funcionamiento del ergm se encuentra bien establecida en la literatura (Scott 2015) Hunter et al (2008) y Desmarais y Cranmer (2012) han escrito ex-tensamente sobre los principios baacutesicos del modelo estadiacutestico de redes la secuencia de pasos para realizar el anaacutelisis el chequeo de los supuestos acerca de la red el diagnoacutestico y la interpretacioacuten de los resultados el algoritmo y las foacutermulas de los modelos ergm la jerga de estos modelos en el lenguaje teoacuterico de grafos y coacutemo recuperar y usar el paque-te ergm del Comprehensive R Archive Network

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 4

8 Una de las contribuciones pioneras fue Kickert et al (1997) Un hito

importante en relacioacuten con el uso del ars para la evaluacioacuten es el nuacutemero especial ldquoSocial Network Analysis in

Program Evaluationrdquo de New Directions for Evaluation editado por Durland y Fredericks (2005) Horelli (2009)

presenta una perspectiva interesante del abordaje integrado para la

evaluacioacuten de redes conocido como Network Evaluation from the Everyday

Life Perspective

La loacutegica detraacutes del ergm es bastante simple Una vez recogidos los datos minusmediante en-cuestas o entrevistas estructuradasminus y convertidos en valores numeacutericos el ergm calcula primero la probabilidad de observar la red analizada en comparacioacuten con otras posibles redes aleatorias que tengan el mismo nuacutemero de componentes Dado que existen mu-chas configuraciones posibles de red no es factible comparar la red analizada con todos los otros grafos con el mismo nuacutemero de participantes (Hunter et al 2008) Por tanto un ergm utiliza un meacutetodo Monte Carlo viacutea cadenas de Markov para estimar los paraacutemetros del modelo sobre la base de una estimacioacuten de maacutexima verosimilitud

Luego algunas propiedades particulares (ie variables predictoras) de la red observada son seleccionadas e incluidas como un conjunto de estadiacutesticas computadas para la red Si eventualmente una variable predictora es significativamente diferente de cero puede interpretarse que el estadiacutestico correspondiente afecta significativamente la probabili-dad de que un miembro forme una conexioacuten minusesto es la variable de resultadominus con otro miembro en la red mientras se controla por los otros estadiacutesticos en el anaacutelisis

En suma el ergm es un meacutetodo estadiacutestico de redes relativamente nuevo pero bien do-cumentado que busca explicar la formacioacuten de viacutenculos (Hunter et al 2008 Stevens y Verhoest 2016) Esto permite realizar inferencias acerca de por queacute en el contexto de una red los actores tienden a conectarse (por ejemplo para compartir recursos aprender o construir consensos) con ciertos actores y no con otros En el campo de las poliacuteticas de cti se trata de una estrategia adecuada para explorar y analizar las dinaacutemicas de los actores en las poliacuteticas de innovacioacuten colaborativa

anaacutelisis de redes sociales para la evaluacioacuten y planificacioacuten de poliacuteticas

El ars tiene diversas aplicaciones en el campo de las poliacuteticas de cti maacutes allaacute de los estu-dios cienciomeacutetricos En particular este meacutetodo se ha utilizado para evaluar la implemen-tacioacuten de programas estudiar la dinaacutemica de la cooperacioacuten en partnerships y mapear las competencias en redes intensivas en conocimiento

El uso del anaacutelisis de redes como abordaje metodoloacutegico para la evaluacioacuten se intro-dujo formalmente recieacuten en 1998 en el marco de un congreso de la American Evaluation

D O C U M E N T O D E T R A B A J O CIECTI 2 5

Association (Durland y Fredericks 2005 7)8 Desde entonces los meacutetodos de anaacutelisis de redes fueron ampliamente utilizados para evaluar programas (Popelier 2018) tanto en lo que respecta a su impacto (Giuliani y Pietrobelli 2016) como a su implementacioacuten (Va-lente et al 2015) En esa direccioacuten el ars ha contribuido a fines tan diversos como evaluar programas epidemioloacutegicos y sanitarios (recuadro 2) o disentildear programas destinados a mejorar el funcionamiento de las escuelas a partir de una mayor cooperacioacuten entre los maestros (Penuel et al 2006 y 2009)

En teacuterminos maacutes generales la aplicacioacuten del ars en la evaluacioacuten es pertinente siempre que se trabaje con datos de naturaleza relacional Sin embargo el anaacutelisis de redes pue-de usarse no solo para la evaluacioacuten de resultados de impacto de diversos programas sino tambieacuten para la evaluacioacuten de los programas en siacute mismos y su organizacioacuten interna Cuando en la implementacioacuten de un programa intervienen muacuteltiples y diversos actores e instituciones y las interacciones son criacuteticas para el buen funcionamiento del proceso entonces cabe evaluar dichos programas conceptualizaacutendolos como redes (Ploszaj 2011)

La implementacioacuten de programas es un proceso complejo y suele involucrar a muchas personas de diversas organizaciones que pueden participar en distintas partes o niveles del proyecto Las relaciones entre estas personas pueden ser descriptas por medio de re-des La arquitectura de una red es una importante fuente explicativa de las acciones y si-tuaciones de los individuos y resultados agregados que emergen El ars permite un estu-dio sistemaacutetico de las estructuras de conexiones en que estos individuos estaacuten insertos y por ello aporta conocimiento uacutetil que puede servir para mejorar un programa

el ars se ha aplicado para disentildear y evaluar programas orientados a contrarrestar la propagacioacuten de enfermedades

como el vihsida siacutendrome respiratorio agudo grave pero tambieacuten en la promocioacuten de la salud la lucha contra el

alcoholismo la drogadiccioacuten el tabaquismo y la obesidad (Luke y Harris 2007 Luke et al 2010 y 2013)

La evidencia sugiere que los comportamientos adictivos pueden abordarse como emergentes de una estructura

de red y por tanto una lucha eficiente contra las adicciones deberiacutea concentrarse en los mecanismos relacionales

(Christakis y Fowler 2008 Valente 2010) En ese sentido los meacutetodos de ars son especialmente apropiados

Recuadro 2

Aplicaciones del ARS en programas epidemioloacutegicos y de salud

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 6

9 Por ejemplo la Agencia Polaca para el Desarrollo Empresarial usoacute el ars

para evaluar el Programa Sectorial Operacional de Desarrollo de Recursos

Humanos En el marco de dicho programa maacutes de 400 mil personas de maacutes de 100 mil empresas participaron en aproximadamente 700 programas

de capacitacioacuten (Batorsky en Ploszaj 2011)

10 Por ejemplo en ldquoEvaluation of the first stage of implementation of Measure 51 of the Operational

Programme ndash Human Capitalrdquo (Ploszaj 2011) se estudioacute mediante

ars la comunicacioacuten y el alcance de la cooperacioacuten entre unidades organizacionales lo que permitioacute

detectar fallas puntuales en el viacutenculo entre beneficiarios y unidades

organizacionales El anaacutelisis ayudoacute a tomar medidas para subsanar los

problemas identificados

La implementacioacuten efectiva de programas requiere de un funcionamiento apropiado del sistema en su conjunto un flujo de informacioacuten eficiente y cooperacioacuten efectiva entre los actores Asimismo se requiere estandarizar praacutecticas de modo que las tareas se lleven a cabo en su debido tiempo y no se generen cuellos de botella Un problema localizado en el sistema de implementacioacuten puede ralentizar el proceso en su conjunto Ademaacutes la efi-ciencia puede tambieacuten verse influida por la naturaleza de la cooperacioacuten y los flujos de informacioacuten entre los actores

El ars se ha utilizado por ejemplo para estudiar la implementacioacuten de programas de capacitacioacuten a gran escala Los datos recogidos acerca de la participacioacuten de las perso-nas y las empresas en programas de capacitacioacuten especiacuteficos permiten entre otras cosas examinar las relaciones entre capacitaciones minusconsiderando la participacioacuten conjuntaminus y extraer conclusiones concernientes a las combinaciones maacutes comunes de capacitaciones suplementacioacuten temaacutetica de proyectos y su sustentabilidad9

La red de implementacioacuten minuso de gestioacutenminus se puede analizar a distintos niveles A un nivel maacutes macro se pueden analizar todas las instituciones en un determinado paiacutes que se ocu-pan de la implementacioacuten de una poliacutetica Tambieacuten se puede analizar la implementacioacuten de programas operacionales especiacuteficos y sus partes

Al nivel de las organizaciones el ars puede aplicarse usando las caracteriacutesticas de las re-des de implementacioacuten como variables explicativas del curso de la implementacioacuten del programa en regiones particulares Las relaciones entre las instituciones vinculadas a la implementacioacuten pueden tener impacto significativo sobre por ejemplo el nivel y el rit-mo de la implementacioacuten o sobre la eficiencia de las inversiones Si durante la evaluacioacuten se encuentra que el caraacutecter de los viacutenculos en la red de implementacioacuten influye signifi-cativamente sobre el curso de la intervencioacuten esto puede constituir una base para plan-tear recomendaciones acerca de la estructura oacuteptima de cooperacioacuten entre los cuerpos de implementacioacuten

A nivel micro es posible estudiar una red de unidades organizacionales dentro de una determinada institucioacuten10 o incluso la cooperacioacuten entre individuos implicados en un proceso de implementacioacuten o gestioacuten determinado Asimismo cabe abordar muacuteltiples

D O C U M E N T O D E T R A B A J O CIECTI 2 7

11 Un sistema de informacioacuten geograacutefica (gis por sus siglas en ingleacutes) es un sistema disentildeado para capturar almacenar manipular analizar y modelizar datos masivos vinculados a una referencia espacial o geograacutefica

12 Una aplicacioacuten a un sistema formal fue el proyecto de la Unioacuten Europea sobre Centros de Enlace para la Innovacioacuten orientado a respaldar a beneficiarios actuales y potenciales del Fondo Social Europeo La creacioacuten de la red se basoacute en el supuesto de que los distintos centros cooperariacutean en la buacutesqueda de beneficiarios para los proyectos de partnership En Polonia la evaluacioacuten del programa se dirigioacute a chequear mediante ars si tal cooperacioacuten habiacutea tenido lugar El nivel baacutesico de anaacutelisis en este caso consistioacute en centros regionales individuales (Ploszaj 2011)

aspectos del funcionamiento de estas redes como el flujo de informacioacuten la cooperacioacuten para la resolucioacuten conjunta de problemas el aprendizaje interactivo y la difusioacuten de las innovaciones

El aspecto espacial es significativo en varias de estas redes El uso de herramientas de sis-temas de informacioacuten geograacutefica (gis)11 en el anaacutelisis y la visualizacioacuten de redes provee una presentacioacuten atractiva de los datos espaciales Ademaacutes la presentacioacuten de tipo mapa puede resultar maacutes familiar y legible que un grafo abstracto o una matriz de datos Por ejemplo una visualizacioacuten de una red de cooperacioacuten puede utilizar elementos tiacutepicos de un mapa temaacutetico y mostrar la cooperacioacuten de los centros de investigacioacuten medida por publicaciones conjuntas

Ademaacutes los gis pueden proveer una buena inspiracioacuten para visualizar las redes de una manera efectiva ya que los cartoacutegrafos se han interesado desde hace muchos antildeos en la dilucidacioacuten de los distintos conceptos y principios que permiten una presentacioacuten clara de informacioacuten abundante incluso cuando es muy complicada En la praacutectica la visuali-zacioacuten de redes con frecuencia tiene que lidiar con el problema de hacer maacutes legible el grafo por lo que las experiencias con gis pueden ser tambieacuten aplicadas exitosamente a la visualizacioacuten de redes que carecen per se de caracteriacutesticas espaciales (Ploszaj 2011)

El ars es uacutetil para evaluar un sistema de instituciones en red sean estas formales o infor-males12 En particular puede usarse para evaluar los denominados ldquoproyectos blandosrdquo que buscan construir partnerships entre diversas organizaciones (instituciones o empre-sas) Al recolectar informacioacuten sobre las relaciones entre organizaciones en momentos especiacuteficos de la implementacioacuten del programa es posible caracterizar no solo el estado de la red sino tambieacuten su dinaacutemica En consecuencia el ars permite ver con bastante pre-cisioacuten si los partnerships son duraderos por lo que sirve de herramienta para una evalua-cioacuten orientada a resultados

Esto es especialmente relevante en el caso de los programas de cooperacioacuten territorial que a menudo son implementados por una variedad de instituciones de diversas regiones y paiacuteses en busca de una cooperacioacuten duradera y un intercambio de experiencias y buenas praacutecticas El ars permite estudiar las relaciones entre los colaboradores en proyectos y su

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI2 8

13 Un ejemplo de dato textual estructurado son los diferentes campos

disponibles en los registros de una base de datos convencional Un dato

semiestructurado puede ser el texto en un archivo xml y json Por uacuteltimo un

dato textual es no estructurado cuando los registros no siguen un formato

predefinido o una plantilla particular o una clasificacioacuten fija es decir no

se restringen a teacuterminos de una taxonomiacutea u ontologiacutea cerrada

influencia sobre su implementacioacuten asiacute como tambieacuten evaluar queacute tan duradera resultoacute ser la cooperacioacuten una vez culminado el proyecto

El ars puede utilizarse tambieacuten para mapear la dotacioacuten de competencias habilidades y expertise de las organizaciones que cooperan en un proyecto Esto puede ser uacutetil para ana-lizar clusters evaluar el potencial de la investigacioacuten y el desarrollo (i+d) a nivel regional o estimar las capacidades de los empleados

En 2004 se llevoacute a cabo un anaacutelisis de este tipo en el Laboratorio Nacional de Idaho en los Estados Unidos (Brik 2005) como parte de un plan para integrar los distintos proyectos de investigacioacuten que se estaban realizando en forma separada en torno a los combusti-bles de hidroacutegeno El programa seriacutea la base de la nueva estrategia de negocios del labo-ratorio de modo que se realizoacute un mapeo de las competencias disponibles

En los diversos edificios del laboratorio trabajaba un gran nuacutemero de investigadores a quienes se solicitoacute que indicaran a las personas que consideraban expertas en distintos campos especiacuteficos del conocimiento vinculados con los combustibles de hidroacutegeno Las respuestas se analizaron mediante ars y dieron lugar a un conjunto de grafos que identi-ficaban los expertos en cada uno de los campos de estudio Los resultados fueron consul-tados con un focus group compuesto por algunos de los investigadores del laboratorio para interpretar en forma detallada y confiable los distintos grafos El estudio permitioacute identi-ficar a un grupo de investigadores clave para el eacutexito de la iniciativa Tambieacuten reveloacute que en algunos campos del conocimiento habiacutea maacutes de un experto pero en otros solo uno Este tipo de informacioacuten tiene gran importancia para la administracioacuten de un programa intensivo en conocimiento Si por ejemplo se espera que un experto se retire pronto per-mite tomar de antemano las medidas necesarias para reclutar o capacitar a una persona que releve al experto cuando este se retire

Mineriacutea de textos

Las teacutecnicas de mt pueden aplicarse al anaacutelisis de datos textuales estructurados semies-tructurados y no estructurados13 Estas teacutecnicas emplean algoritmos de campos de estudio tales como la mineriacutea de datos la recuperacioacuten automaacutetica de informacioacuten (information

D O C U M E N T O D E T R A B A J O CIECTI 2 9

14 La recuperacioacuten de informacioacuten (information retrieval) es un aacuterea de estudio interdisciplinaria centrada en la buacutesqueda de informacioacuten pertinente y relevante en documentos electroacutenicos y cualquier tipo de corpus documental digital a partir de una coleccioacuten de datos no estructurados o semiestructurados Es uno de los abordajes implicados en la praacutectica de la mt (Allahyari et al 2017) aunque se caracteriza por concentrarse maacutes en facilitar el acceso a la informacioacuten que en analizarla o encontrar patrones ocultos

15 De acuerdo con Havemann y Scharnhorst (2012) y De Bellis (2009) los anaacutelisis de coocurrencia de palabras pueden concebirse como el meacutetodo empiacuterico de la llamada ldquoteoriacutea actor-redrdquo una teoriacutea social en el campo de los estudios de ciencia y tecnologiacutea

retrieval)14 la estadiacutestica la matemaacutetica el aprendizaje automaacutetico (machine learning) y la linguumliacutestica computacional

Los antecedentes maacutes remotos de la mt hunden sus raiacuteces en la linguumliacutestica cuantitativa de mediados del siglo xix Sin embargo el trabajo pionero del anaacutelisis linguumliacutestico cuantita-tivo contemporaacuteneo fue el desarrollo teoacuterico claacutesico de Zipf (1949) Al igual que en el caso del ars los avances en la capacidad de coacutemputo registrados en los antildeos setenta dieron lugar a un mayor intereacutes por el campo de la mt de parte de investigadores provenientes de las ciencias de la informacioacuten En particular el trabajo de Wyllys (1975) es uno de los primeros en aplicar la mt a la literatura cientiacutefica Desde entonces las teacutecnicas maacutes fre-cuentes en el aacuterea de la mt aplicada a la bibliometriacutea son el anaacutelisis de coocurrencia de teacuterminos (Callon et al 1986 y 1991) tiacutetulos (Todorov y Winterhager 1990) y autores Estos trabajos se basan en el anaacutelisis de la aparicioacuten conjunta en los documentos de palabras clave teacuterminos extraiacutedos de tiacutetulos abstracts o textos completos campos disciplinares o autores citados

Las aplicaciones de mt de este documento no hacen uso de las teacutecnicas avanzadas o pro-fundas de procesamiento del lenguaje natural sino que consideran principalmente la coocurrencia de teacuterminos en abstracts y tiacutetulos de documentos A pesar de su simplicidad el anaacutelisis de coocurrencia de teacuterminos (co-word analysis) es la teacutecnica maacutes frecuente en el campo de la mt aplicada a la cienciometriacutea (De Bellis 2009) Propuesto por primera vez en los antildeos ochenta en el aacutembito del Centre de Sociologie de lInnovation of the Eacutecole Nationa-le Supeacuterieure des Mines de ParisTech15 (Callon et al 1983 Rip y Courtial 1984) este meacutetodo se planteoacute como una alternativa o un complemento a los meacutetodos de cocitacioacuten por en-tonces prevalecientes En ese marco se desarrollaron herramientas para la realizacioacuten de mapas de la ciencia basados en copalabras para su uso en contextos de evaluacioacuten (Ha-vemann y Scharnhorst 2012) que permitieron hacer visibles las actividades de institucio-nes o paiacuteses en campos especiacuteficos de investigacioacuten (Noyons 2004) Los clusters en estos mapas se interpretaron como temas o toacutepicos en campos especiacuteficos de la ciencia mien-tras que los aacuterboles jeraacuterquicos proveyeron informacioacuten sobre la dinaacutemica de las distintas aacutereas de estudio (Rip y Courtial 1984)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 0

16 Compaacuterese con la figura 8 El lexical coupling reproduce la loacutegica

del meacutetodo de bibliographic coupling de artiacuteculos mientras que el anaacutelisis de

coocurrencia de palabras se emparenta con el anaacutelisis de cocitas (Havemann y

Scharnhorst 2012)

La premisa metodoloacutegica del anaacutelisis de coocurrencia de palabras es la idea de que la apa-ricioacuten conjunta de determinados teacuterminos se correlaciona con aacutereas temaacuteticas especiacutefi-cas de modo que el meacutetodo permite describir los contenidos de los documentos Al medir la intensidad relativa de estas coocurrencias pueden ilustrarse representaciones simplifi-cadas de las redes de conceptos de un campo y su evolucioacuten Tan pronto como se hicieron disponibles bases de datos textuales de gran volumen en formato electroacutenico comenzoacute a aplicarse el anaacutelisis de coocurrencia de palabras al contenido textual de cuerpos de docu-mentos cada vez maacutes voluminosos (Janssens 2007)

La figura 1 provee una distincioacuten importante entre dos formas alternativas de abordar la mt Cuando el objetivo es revelar la similaridad entre documentos sobre la base de los teacuterminos usados en ellos entonces se estaacute aplicando el meacutetodo de lexical coupling Por el contrario si lo que se busca es analizar las relaciones entre teacuterminos a partir de su uso conjunto en los documentos se estaacute realizando un anaacutelisis de coocurrencia de teacuterminos 16

Como se mostraraacuten en las aplicaciones de la siguiente seccioacuten esta uacuteltima teacutecnica permi-te determinar la similaridad o proximidad entre teacuterminos basada en su uso conjunto en documentos bajo la premisa de que la coocurrencia de palabras describe los contenidos de los documentos De este modo al medir la intensidad relativa de estas coocurrencias es posible desarrollar representaciones simplificadas tanto de las redes de conceptos en un campo como de su evolucioacuten

El ars permite describir la posicioacuten de las personas y las comunidades dentro de las redes sociales representadas como grafos sociales Define ademaacutes un conjunto de meacutetodos y medidas minustales como clustering de grafos para la deteccioacuten de comunidades o la closeness centralityminus que identifican y jerarquizan a los miembros o a las comunidades a partir del anaacutelisis estadiacutestico de las conexiones en estos grafos sociales Cuando estos tipos de meacute-todos y mediciones tienen en cuenta tambieacuten la semaacutentica del contenido digital compar-tido dentro de redes sociales o informacioacuten semaacutentica acerca de las personas el ars se convierte en anaacutelisis semaacutentico de redes sociales (asrs)

A diferencia de las mediciones estaacutendar del ars el asrs no solo considera vinculaciones y relaciones dentro de redes sociales sino que ademaacutes captura la semaacutentica del conte-nido digital compartido por sus miembros o expresado por sus perfiles El asrs se basa

D O C U M E N T O D E T R A B A J O CIECTI 3 1

mayormente en modelos interdisciplinarios que combinan el ars con la ingenieriacutea del co-nocimiento (ic) Por un lado refina las mediciones del ars para mejorar el procesamiento de datos texto y conocimiento asociados a los miembros de las redes sociales Por otro lado perfecciona principios teacutecnicas y meacutetodos de la ic como la estadiacutestica y la ontolo-giacutea linguumliacutestica para proveer a la ic de capacidades adaptables a los modelos de ars De esta manera las meacutetricas del asrs pueden identificar liacutederes de opinioacuten dentro de una red amplia para temas o palabras clave especiacuteficas Por ejemplo la betweenness centrality semaacutentica descrita en Thovex y Trichet (2012) permite identificar expertos polivalentes en dominios especiacuteficos de actividades profesionales que son definidas por palabras clave incluso si los managers estaacuten mucho maacutes conectados y retransmiten maacutes comunicaciones que los expertos teacutecnicos dentro de la red social empresarial

Clustering

El clustering pertenece al paradigma del aprendizaje automaacutetico una subespecialidad de la ciencia computacional minusdentro de un campo llamado histoacutericamente ldquointeligencia arti-ficialrdquo (ia)minus abocada al disentildeo de algoritmos que permiten reconocer patrones complejos

Figura 1 Dos abordajes alternativos en el anaacutelisis de datos textuales

Fuente Elaboracioacuten propia

Teacuterm A

Lexical coupling Anaacutelisis de coocurrencia de palabras

Teacuterm B

Teacuterm C

Doc 1 Doc 2 Doc A

Doc B

Doc C

Teacuterm 1 Teacuterm 2

Men

cion

a Menciona

Men

cion

a Menciona

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 2

a partir de voluacutemenes masivos de datos Aunque la ia surgioacute como disciplina formal en 1956 la disponibilidad de bases de datos cada vez maacutes amplias la sofisticacioacuten de los al-goritmos y un creciente poder de coacutemputo han dado lugar a una proliferacioacuten de aplica-ciones en los uacuteltimos antildeos

Existen dos categoriacuteas principales de aprendizaje automaacutetico supervisado y no supervi-sado (figura 2) En una tarea supervisada se busca capturar la relacioacuten entre alguacuten input (entrada) y alguna variable objetivo (salida) Para ello se poseen datos que contienen tan-to la entrada como la salida y se ingresa el resultado ldquocorrectordquo para este conjunto de ca-sos de modo que el modelo ldquoaprendardquo la relacioacuten entre ambos Las entradas pueden ser por ejemplo datos sobre edad nivel educativo geacutenero o ingreso y la salida el partido poliacutetico que apoya el individuo

En una tarea no supervisada en cambio la variable objetivo es desconocida por lo que no es posible ajustar el modelo a salidas conocidas dadas las caracteriacutesticas de las entradas Estas tareas se concentran en el clustering y tienen por objeto encontrar una estructura en los datos

Aprendizajesupervisado

Problema (X)

Aprendizajeno supervisado

Problema de clasificacioacuten

Clustering

Problema de regresioacuten

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

Y discreta

Y continua

La variable objetivo (Y) estaacute dada La variable objetivo (Y) NO estaacute dada

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 3 3

Dentro del aprendizaje supervisado existen dos clases principales regresioacuten y clasifica-cioacuten Estas difieren en el tipo de resultado En la regresioacuten el resultado es una variable continua Las regresiones maacutes comunes son regresioacuten lineal Lasso regresioacuten de Ridge y redes neuronales En una tarea de clasificacioacuten la meta es predecir una variable de resul-tado discreta (por ejemplo geacutenero origen y nacionalidad) Algunos meacutetodos de clasifica-cioacuten habituales son regresioacuten logiacutestica aacuterboles de clasificacioacuten vecinos maacutes cercanos y maacutequinas de vectores de soporte (support vector machines)17 Gran parte del intereacutes actual en el aprendizaje automaacutetico se centra en un subcampo conocido como deep learning una variante reciente en que las computadoras se ensentildean a siacute mismas tareas mediante redes neuronales profundas a partir de enormes conjuntos de datos (figura 3)

El clustering pertenece al paradigma del aprendizaje no supervisado en el sentido de que el algoritmo trata de particionar los objetos del modo oacuteptimo de acuerdo con alguna me-dida de validacioacuten basada meramente en representaciones de los datos sin ninguacuten co-nocimiento de membreciacutea a un grupo Se trata de una teacutecnica estadiacutestica multivariada para el agrupamiento automaacutetico de objetos (por ejemplo representaciones vectoriales de documentos) de forma que objetos similares se pongan en el mismo grupo o cluster mientras que objetos disimilares terminan en clusters tan diferentes como sea posible

La mayoriacutea de los algoritmos de clustering computan la proximidad (distancia) o simila-ridad (disimilaridad) entre cada par de objetos a partir de sus atributos La proximidad o similaridad de dos objetos se define por una foacutermula objetivo que considera las propieda-des conocidas de cada uno de ellos Por ejemplo si los objetos son documentos la simila-ridad se puede medir al considerar la cantidad de palabras que cada par de objetos tiene en comuacuten En caso de que haya muchas palabras compartidas es plausible suponer que ambos documentos discuten la misma temaacutetica

Dado un conjunto de atributos conocidos (dimensiones) la meta de un algoritmo de clus-tering es dividir automaacuteticamente los objetos en grupos sobre la base de la proximidad o similaridad entre los objetos de modo que los grupos resultantes sean tan homogeacuteneos como sea posible Los objetos con atributos similares deberiacutean situarse en el mismo gru-po y la disimilaridad entre grupos deberiacutea ser tan alta como sea posible Para encontrar

17 El set de entrenamiento son los datos que se proveen al algoritmo de machine learning para que aprenda de ellos Este corresponde normalmente a la mayor parte de los datos de los que se dispone Se lo llama ldquobase de datos de entrenamientordquo independientemente de si se la subdivide para realizar una validacioacuten cruzada o no El set de datos de prueba son los datos que no se suministran al algoritmo de machine learning durante el entrenamiento Una vez que se ha ldquoejercitadordquo el modelo con el set de entrenamiento y calibrado los paraacutemetros necesarios se le pide que prediga las respuestas para el set de prueba El grado en que coinciden las predicciones hechas por el modelo y las respuestas verdaderas del set de prueba indica queacute tan bien se desempentildea el modelo minusno se modifican los paraacutemetros del modelo luego del testeo sobre el set de datos de prueba

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 4

IA

iquestSe buscan patrones en datos masivos

SIacute NO

iquestSe indica queacute es lo que debe buscarse

SIacute NO

OK Se trata deaprendizaje supervisado

iquestSe intenta alcanzar un objetivo mediante prueba y error

SIacute NOiquestUtiliza redesneuronales profundas

SIacute NO Se trata de un aprendizaje por refuerzo

Entonces debe seraprendizaje no supervisadoDeep learning Antildeaacutedase ldquoprofundordquo

al nombre de la teacutecnicaEj Aprendizaje supervisado profundo

Figura 3 Diagrama de flujo con teacutecnicas de aprendizaje automaacutetico seguacuten el objetivo del anaacutelisis

Fuente Elaboracioacuten propia a partir de Hao (2018)

D O C U M E N T O D E T R A B A J O CIECTI 3 5

grupos homogeacuteneos se requiere que los atributos provean informacioacuten para discriminar entre grupos es decir que tengan poder discriminativo

Una condicioacuten necesaria para el clustering es la disponibilidad de una representacioacuten abstracta adecuada de todos los objetos por ejemplo en un modelo de espacio vecto-rial En ese caso cada objeto se caracteriza por un conjunto de atributos ponderados La seleccioacuten de los atributos maacutes valiosos y la construccioacuten de nuevos atributos antes del clustering son cuestiones importantes y pueden tener influencia decisiva sobre la cali-dad del resultado

aplicaciones del clustering

Se puede utilizar el clustering para la exploracioacuten de datos o bien como instancia de su pre-procesamiento previa a la aplicacioacuten de otros algoritmos

En cienciometriacutea el clustering de datos bibliograacuteficos o de patentes puede usarse como una herramienta de clasificacioacuten para agrupar un conjunto dado de documentos (Radic-chi et al 2004) y permite el anaacutelisis topoloacutegico de redes identificando temas e interrela-ciones Cada cluster puede concebirse como un grupo de documentos estrechamente co-nectados en un aacuterea de investigacioacuten que muestra limitada conexioacuten con documentos en otros clusters o aacutereas de investigacioacuten (Leydesdorff 2015) De este modo esta teacutecnica per-mite mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios En la siguiente seccioacuten describimos una aplicacioacuten de esta teacutecnica para el anaacutelisis cienciomeacutetrico que utilizamos para el agrupamiento de frases no-minales y de documentos en aacutereas temaacuteticas minuspreviamente desconocidasminus Pero los usos de esta teacutecnica son muacuteltiples y atraviesan diversas disciplinas

Por ejemplo en el marketing el clustering interviene en los estudios de mercado cuando se trabaja con datos de encuestas para particionar la poblacioacuten general de consumidores en segmentos de mercado entender mejor las relaciones entre los diferentes grupos identi-ficar potenciales clientes y seleccionar mercados piloto

En biologiacutea las aplicaciones incluyen la descripcioacuten y comparacioacuten de comunidades de organismos en ambientes heterogeacuteneos y la creacioacuten de filogenias artificiales la

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 6

construccioacuten de grupos de genes con patrones de expresioacuten relacionados (ldquogenes coex-presadosrdquo) la agrupacioacuten de secuencias homoacutelogas en familias de genes y la inferencia de estructuras poblacionales en la geneacutetica humana En medicina el clustering se usa en la identificacioacuten de tipos de tejidos diferentes en el diagnoacutestico por imaacutegenes en el anaacutelisis de patrones de resistencia a los antibioacuteticos y en la clasificacioacuten de componentes antimi-crobianos de acuerdo con su mecanismo de accioacuten

En internet esta teacutecnica permite reconocer comunidades en el estudio de redes sociales en liacutenea que abarcan grupos muy amplios de personas Tambieacuten puede aplicarse para agrupar archivos y sitios web y generar asiacute un conjunto maacutes relevante de resultados de buacutesqueda en comparacioacuten con los motores habituales Asimismo puede usarse para ob-tener un conjunto maacutes preciso de resultados cuando un teacutermino de buacutesqueda puede re-ferir a cosas muy diferentes minusen este caso cada uso distinto del teacutermino corresponde a un uacutenico cluster de resultados18

Aplicaciones bibliomeacutetricas bibliographic coupling y anaacutelisis de coocurrencia de teacuterminosLa bibliometriacutea es una ciencia interdisciplinaria que estudia la comunicacioacuten cientiacute-fica escrita a partir de indicadores meacutetodos y modelos estadiacutesticos y matemaacuteticos y utiliza mayormente bases de datos relativas a publicaciones cientiacuteficas o patentes La mayor parte de la investigacioacuten bibliomeacutetrica puede caracterizarse como cienciomeacute-trica en tanto se relaciona con la produccioacuten de publicaciones cientiacuteficas en parti-cular de artiacuteculos de journals (Havemann y Scharnhorst 2012)19 en efecto aunque es algo maacutes general en su alcance la bibliometriacutea se usa hoy como sinoacutenimo de ciencio-metriacutea (Janssens 2007)

En esta seccioacuten se describe el meacutetodo utilizado en dos aplicaciones cienciomeacutetricas basa-das en las tres teacutecnicas de la ciencia de datos que nos ocupan ars mt y clustering El obje-tivo de las aplicaciones es proveer un mapeo bibliomeacutetrico de las distintas comunidades

18 Otras aplicaciones del clustering son la identificacioacuten de aacutereas de la tierra similares seguacuten su uso y de grupos de casas seguacuten el tipo de vivienda su valor y su ubicacioacuten geograacutefica

la identificacioacuten de patrones en los fenoacutemenos atmosfeacutericos y oceaacutenicos

en la climatologiacutea y la construccioacuten de mapas temaacuteticos a partir

de imaacutegenes satelitales

19 La bibliometriacutea se relaciona estrechamente con la informetriacutea que utiliza teacutecnicas anaacutelogas para capturar

flujos de informacioacuten no solo dentro sino tambieacuten maacutes allaacute de los libros y los journals incluyendo la comunicacioacuten en la web (cibermetriacutea) Para un desarrollo

exhaustivo de estas tendencias veacutease De Bellis (2009)

D O C U M E N T O D E T R A B A J O CIECTI 3 7

20 La base de datos de atributos responde a la estructura loacutegica de datos habitual bajo la forma de una matriz bimodal rectangular en que las filas (casos) son contribuciones y las columnas (variables) son metadatos como autor journal antildeo id del autor etc Por su parte el segundo tipo de base de datos responde a una estructura loacutegica de datos de red es decir se trata de datos sobre relaciones en este caso el foco no se coloca en caracteriacutesticas individuales sino que se asignan valores a pares de entidades que en nuestro caso son documentos y teacuterminos

o aacutereas temaacuteticas que predominan en dos campos de investigacioacuten la relacioacuten universi-dad-empresa (ue) y el proceso de innovacioacuten a nivel de la firma (inf)

Asimismo se expone la secuencia de procedimientos utilizada en tres pasos El primero comprende la aplicacioacuten del ars y el clustering para detectar comunidades temaacuteticas en cada corpus de literatura El segundo abarca la implementacioacuten de teacutecnicas de mt para construir grafos y mapas de proximidad de teacuterminos que permitan acercarnos al conte-nido de las comunidades detectadas En el tercer paso comprobamos la robustez de los hallazgos (veacutease Anexo) Para dar cuenta de los procedimientos empleados y las alterna-tivas disponibles en algunos casos complementamos la descripcioacuten de estas teacutecnicas con ejemplos accesibles a pequentildea escala

Redes sociales y comunidades temaacuteticas

La estrategia de investigacioacuten adoptada en estas aplicaciones incluye una secuencia de pasos que comienza con la seleccioacuten de los teacuterminos a utilizarse para la buacutesqueda El pro-cedimiento de buacutesqueda involucra el acceso a datos back-end de Scopus mediante solici-tudes de api (Application Programming Interfaces) La informacioacuten recuperada de ese modo conduce a la construccioacuten de bases de datos que dan cuenta tanto de los atributos como de las relaciones de los documentos de cada corpus20

A diferencia de los meacutetodos tradicionales que han sido caracterizados como ldquobasados en atributosrdquo (Durland y Fredericks 2005) el ars permite la combinacioacuten tanto de atributos como de relaciones Mediante esta teacutecnica obtenemos una red compuesta por contribu-ciones vinculadas entre siacute con mayor o menor intensidad seguacuten la similitud de sus refe-rencias bibliograacuteficas Esta teacutecnica de redes sociales se conoce como anaacutelisis de coocu-rrencia de referencias o bibliographic coupling (Kessler 1963) Posteriormente aplicamos un algoritmo de deteccioacuten de comunidades que permite agrupar contribuciones en clusters que reflejen afinidad temaacutetica y proximidad conceptual En este marco la mt permite dar cuenta de las formas leacutexicas en que esta proximidad se pone de manifiesto

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI3 8

21 Se usaron las api Scopus Search y Abstract Retrieval Los datos del corpus

ue se descargaron entre el 18 y el 22 de septiembre de 2017 en tanto que los

datos para el corpus inf se descargaron a lo largo de la semana del 18 de

diciembre del mismo antildeo En ambos casos se utilizaron lthttpapielsevier

comgt y lthttpscopuscomgt Dado que las api proveen acceso a datos curados

y enriquecidos aptos para deep analytics existe una diferencia entre lo que estaacute

disponible para los usuarios finales viacutea Export en Scopuscom y lo que puede

extraerse del back-end de Scopus por lo que nuestros resultados de buacutesqueda no necesariamente pueden replicarse

utilizando la interface de usuario de Scopus Veacutease lthttpdevelseviercomgt

recuperacioacuten automaacutetica de informacioacuten

Utilizamos el repositorio Scopus que abarca maacutes de 22600 journals libros y ediciones en otros soportes Para cada corpus realizamos una buacutesqueda en tiacutetulos abstracts o palabras clave limitando las disciplinas a administracioacuten economiacutea y ciencias sociales (figura 4)

La informacioacuten requerida para realizar el anaacutelisis consiste en datos back-end de Scopus que fue solicitada mediante dos interfaces de programacioacuten de aplicaciones o api de Elsevier21

Una api es un conjunto de reglas (coacutedigo) y especificaciones que las aplicaciones pue-den seguir para comunicarse entre ellas de modo que sirven de interfaz entre programas diferentes de la misma manera en que la interfaz de usuario facilita la interaccioacuten hu-mano-software Este procedimiento permitioacute buscar y recuperar datos curados en forma automaacutetica Los datos curados han sido recogidos organizados y depurados bajo la su-pervisioacuten de expertos con miras a garantizar que la base de datos obtenida sea de alta calidad y fiabilidad

Utilizar una api rest (Representational State Transfer) implica por un lado que deben pro-gramarse liacuteneas de coacutedigo que ingresen a la direccioacuten requerida automaacuteticamente como

Figura 4 Criterios de buacutesqueda

Corpus INF

Corpus UE

Fuente Elaboracioacuten propia

ALL universit y minus industr y AND linkage ORtransfer ORinteraction

TITLE minus ABS minus KEY RampD OR innovat ion AND

determinant ORmode OR strategy OR process

AND f ir m

D O C U M E N T O D E T R A B A J O CIECTI 3 9

parte del script Ademaacutes la respuesta devuelta por la api (archivos xml) tambieacuten debe ser procesada por un programa Por tanto fue necesario programar un coacutedigo en el entorno de software libre r que permitiera tanto hacer las solicitudes a la api con los paraacutemetros correctos como examinar los datos obtenidos en la respuesta

La consulta arrojoacute un conjunto de 6794 resultados de buacutesqueda para el corpus ue y 16772 en el caso del corpus inf (figura 5) Procedimos a descargar toda la informacioacuten asociada con cada documento incluyendo referencias abstracts y un extenso conjunto de metada-tos adicionales (tiacutetulo autor publicacioacuten fecha y conteo de citaciones en Scopus)

anaacutelisis de redes

Para mapear y visualizar las citas entre las contribuciones se realizoacute en primer lugar un anaacutelisis de citaciones Una red de citaciones es un grafo dirigido que permite visualizar las citaciones entre las contribuciones del corpus donde los documentos aparecen como componentes y las citaciones como conexiones entre ellos

Para ello se construyoacute una base de datos de grafo en que las contribuciones publicadas se representan como nodos y las citaciones como aristas La figura 6 ejemplifica el proceso que culmina en la visualizacioacuten de un grafo de citas El grafo 1 muestra la red de citas di-rectas entre contribuciones del corpus ue que incluye 5917 nodos y 44640 aristas

Figura 5 Grandes datos de los dos corpus de documentos

Documentos de los que

se descargaronmetadatos

Referenciasbibliograacuteficas

en nuestra base de datos

relacionales

Contribuciones en la base de

datos de atributos

Antildeos relevados

de produccioacutencientiacutefica

Aristas ponderadas para la red

de coocurrencia de referencias

Datos en la matrizreferencias-documentos

UE

INF

6794 239681 5917 36 988537141 milmillones

16772 315373 13332 48 1037347 496 milmillones

Fuente Elaboracioacuten propia

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 0

22 Cabe resaltar que en tanto nuestra matriz referencias-documentos se

basa en 15729 documentos y 315373 referencias uacutenicas existen casi 5 mil

millones de combinaciones posibles Esta cifra indica la complejidad

computacional involucrada en el caacutelculo de la matriz de relaciones

La obtencioacuten de los corpus finales de literatura requirioacute aplicar una secuencia de filtros a las bases de datos originales para remover los outliers sistemaacuteticamente Este proceso involucroacute seis pasos En la figura 7 se representa la secuencia para el caso del corpus inf Aquellos registros para los cuales Scopus no disponiacutea de informacioacuten sobre referencias bi-bliograacuteficas fueron eliminados dejando 15729 contribucionesnodos (filtro 1) de los cua-les 13474 (filtro 2) han citado o han sido citados por al menos un nodo en la red de citacio-nes22 Subsecuentemente removimos las contribuciones que no citaron ni fueron citadas por alguacuten nodo en el componente principal de la red (filtro 3)

El anaacutelisis de coocurrencia de referencias (bibliographic coupling) requirioacute el procesamiento de matrices de gran tamantildeo Realizamos estas tareas utilizando ucinet 6 (Borgatti et al 2002) un paquete de software para analizar datos de redes sociales Luego de eliminar

Figura 6 Proceso de transformacioacuten matricial en el anaacutelisis de citas directas

PASO 1 LISTA DE DOCUMENTOS CITADORES-CITADOS

CITADOS

CIT

ADO

RES

D1

D2 D1

D3 D2 D1

D4 D3 D1

D5 D1 D4 D3

PASO 2 MATRIZ CITADORES-CITADOS (CUADRADA ASIMEacuteTRICA)

CITADOS

CIT

ADO

RES

D1 D2 D3 D4 D5

D1 - 0 0 0 0

D2 1 - 0 0 0

D3 1 1 - 0 0

D4 1 0 1 - 0

D5 1 0 1 1 -

D5D1

D2

D3

D4

PASO 3 GRAFO DE CITAS (DIRIGIDO)

Fuente Elaboracioacuten propia

D O C U M E N T O D E T R A B A J O CIECTI 4 1

23 Aunque cada contribucioacuten tiene un id de Scopus uacutenico hemos identificado un conjunto de registros duplicados en la base de atributos Sin embargo solo consideramos una entrada como duplicada si se cumple ademaacutes que los datos relacionales son ideacutenticos

las entradas duplicadas23 removimos las contribuciones desconectadas del componente principal de la red bibliograacutefica Asiacute quedaron 13340 nodos (filtro 4) Finalmente removi-mos las comunidades marginales conformadas por menos de cuatro nodos obteniendo el corpus final de 13332 contribuciones publicadas a lo largo de 48 antildeos entre 1970 y 2018

Grafo 1 Red de citas directas entre contribuciones del corpus UE con 5917 nodos y 44640 aristas

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja su grado de entradaFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 2

Maacutes del 90 del corpus inf corresponde a artiacuteculos en journals el 5 a libros o series de libros y el resto a contribuciones en conference proceedings y trade journals El corpus ue por su parte muestra una menor incidencia de contribuciones publicadas en journals (77) y una tasa de publicaciones en libros que triplica con creces la de inf (17)

Los resultados del corpus inf incluyen artiacuteculos publicados en 1198 journals (977 en ue) Casi un tercio de las revistas cientiacuteficas dan cuenta de una uacutenica contribucioacuten en la base de datos inf mientras que en ue esta situacioacuten corresponde a maacutes de la mitad de los journals de la base Esto sugiere que gran parte de los artiacuteculos acadeacutemicos que abordan el proceso de inf y la relacioacuten ue no fueron publicados en journals especializados en estos campos de estudio y que este patroacuten seriacutea aun maacutes fuerte en el corpus ue

Sin embargo los diez journals con maacutes contribuciones representan casi el 30 del total de artiacuteculos en la base de datos ue y poco maacutes de un quinto en el caso de inf Los cuadros 1 y 2 muestran ndashpara inf y ue respectivamentendash la lista de estos journals asiacute como tambieacuten

Figura 7 Pasos para la generacioacuten del corpus

Resultados de la buacutesqueda original 16772

Fuente Elaboracioacuten propia

Filtro 1Documentos con referencias

Filtro 3Documentos en el componente principal de la red de citacionesSubtotal 13367

Filtro 5Documentos en comunidades con maacutes de tres nodos

Filtro 2Documentos con degree gt 0

en la red de citacionesSubtotal 13474

Filtro 4Documentos enel componente

principal de la redde bibliographic coupling

Subtotal 13340

Corpus final deliteratura 13332

D O C U M E N T O D E T R A B A J O CIECTI 4 3

24 Por citas locales entendemos aquellas que provienen de minuso se dirigen aminus otras contribuciones en el corpus mientras que las citas globales estaacuten ademaacutes asociadas a documentos ajenos a eacutel Ponderamos las citas locales seguacuten su antiguumledad para permitir la comparacioacuten entre contribuciones sin penalizar las de publicacioacuten maacutes reciente De este modo una misma cantidad de citas ldquopesardquo maacutes en una contribucioacuten maacutes nueva que en una maacutes antigua

el artiacuteculo de cada journal que ha recibido maacutes citaciones de acuerdo con Scopus Cabe se-ntildealar que para acumular la mitad de los artiacuteculos en la base de datos deben considerarse al menos 60 journals en el caso de inf y 47 en el corpus ue lo cual sugiere que el conjunto de teacutecnicas adoptadas contribuye a superar la endogamia que tradicionalmente ha afec-tado la escritura de los estados del arte

Cerca del 40 de las contribuciones en inf no son citadas por el resto del corpus pero ci-tan al menos uno de los documentos incluidos alliacute y alcanzan asiacute un outdegree promedio de 62 en la red de citaciones Por otra parte el 16 de los documentos son mencionados solo una vez por otros (13 en el caso de ue)

Entre las diez contribuciones de inf con la mayor cantidad de citas locales recibidas24 ponderadas por el antildeo de publicacioacuten Cassiman y Veugelers (2006) Tether (2002) y Ha-gedoorn (2002) se destacan por el hecho de que maacutes de un tercio de las citas recibidas provienen de literatura en el corpus (cuadro 3) No obstante cada una de las diez contri-buciones en esa lista es maacutes citada fuera del corpus que dentro de eacutel un indicio de que la red en su conjunto no es altamente cohesiva En contraste como puede apreciarse en el cuadro 4 todas y cada una de las diez contribuciones de ue son maacutes citadas dentro de la red que fuera de ella ndashesto es el cociente citas localescitas globales es mayor al 50ndash Este patroacuten pone de relieve que se trata de una red comparativamente mucho maacutes cohe-sionada que la del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 4

Cuadro 1 Journals maacutes frecuentes en la base de datos del corpus INF y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 641 Teece (1986) 3991

2 Journal of Product Innovation Management 322 Cooper y Kleinschmidt (1995) 629

3 Technovation 317 Huizingh (2011) 493

4 RampD Management 273 West y Gallagher (2006) 373

5 International Journal of Technology Management 263 Carayannis y Campbell (2009) 225

6 Strategic Management Journal 181 Grant (1996) 6240

7 Technological Forecasting and Social Change 165 Landry et al (2002) 196

8 Technology Analysis and Strategic Management 165 Jeppesen y Molin (2003) 189

9 Economics of Innovation and New Technology 163 Patel y Pavitt (1994) 198

10 Small Business Economics 161 Wong et al (2005) 379

Nota Los datos sobre journals se determinaron a partir de los id de las fuentes y no de los nombres de las publicaciones de modo que se minimizaron los errores Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en diciembre de 2017Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro 2 Journals maacutes frecuentes en la base de datos del corpus UE y su contribucioacuten maacutes citada

Journal Contribuciones Artiacuteculo maacutes citado Citas

1 Research Policy 374 Dasgupta y David (1994) 995

2 Journal of Technology Transfer 233 Lee (2000) 258

3 Scientometrics 189 Leydesdorff (1998) 169

4 Science and Public Policy 168 Leydesdorff y Etzkowitz (1996) 272

5 Technovation 165 Caloghirou et al (2004) 360

6 Technological Forecasting and Social Change 105 Klerkx y Leeuwis (2009) 149

7 European Planning Studies 95 Benneworth y Charles (2005) 94

8 International Journal of Technology Management 78 Carayannis y Campbell (2009) 192

9 Industry and Innovation 60 Lundvall (2007) 312

10 Regional Studies 59 Powell et al (2002) 252

Nota Los datos de citaciones se consignaron de acuerdo a Scopus como en la respuesta recibida de la consulta viacutea api en septiembre de 2017 Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 5

Cuadro 3 Las diez contribuciones con maacutes citas locales recibidas en INF ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Teece (1986) Profiting from technological innovation Implications for integration collaboration licensing and public policy

Research Policy 284 23

2 Cassiman amp Veugelers (2006)

In search of complementarity in innovation strategy Internal rampd and external knowledge acquisition

Management Science 282 43

3 Grant (1996) Toward a knowledge-based theory of the firm

Strategic Management Journal

247 9

4 Hall et al (2005) Market value and patent citations

rand Journal of Economics

185 26

5 Pavitt (1984) Sectoral patterns of technical change Towards a taxonomy and a theory

Research Policy 184 27

6 Huizingh (2011) Open innovation State of the art and future perspectives

Technovation 171 28

7 Lane amp Lubatkin (1998)

Relative absorptive capacity and interorganizational learning

Strategic Management Journal

169 17

8 Tether (2002) Who co-operates for innovation and why An empirical analysis

Research Policy 161 46

9 Hagedoorn (2002) Inter-firm rampd partnerships An overview of major trends and patterns since 1960

Research Policy 150 33

10 Leonard-Barton (1992)

Core capabilities and core rigidities A paradox in managing new product development

Strategic Management Journal

149 14

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 6

Cuadro 4 Las diez contribuciones con maacutes citas locales recibidas en UE ponderadas por su antiguumledad (citasantildeo)

Etiqueta Contribucioacuten Publicacioacuten Citas locales por antildeo

Citas localesglobales

1 Perkmann et al (2013)

Academic engagement and commercialisation A review of the literature on university-industry relations

Research Policy 412 76

2 DrsquoEste y Patel (2007)

University-industry linkages in the UK What are the factors underlying the variety of interactions with industry

Research Policy 315 87

3 Rothaermel et al (2007)

University entrepreneurship A taxonomy of the literature

Industrial and Corporate Change 278 62

4 Perkmann y Walsh (2007)

University-industry relationships and open innovation Towards a research agenda

International Journal of Management Reviews

266 74

5 Siegel et al (2003)

Assessing the impact of organizational practices on the relative productivity of university technology transfer offices

Research Policy 247 68

6 Di Gregorio y Shane (2003)

Why do some universities generate more start-ups than others

Research Policy 233 67

7 Bruneel et al (2010)

Investigating the factors that diminish the barriers to university-industry collaboration

Research Policy 231 75

8 Etzkowitz et al (2000)

The future of the university and the university of the future Evolution of ivory tower to entrepreneurial paradigm

Research Policy 22 8 55

9 Shane (2004)

Academic entrepreneurship University spin-offs and wealth creation

Academic Entrepreneurship 221 53

10 Etzkowitz (1998)

The norms of entrepreneurial science Cognitive effects of the new university-industry linkages

Research Policy 208 90

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 4 7

25 La cocitacioacuten como el bibliographic coupling es una medida de similaridad semaacutentica para documentos que hace uso de relaciones de citacioacuten La cocitacioacuten es definida como la frecuencia con que dos documentos son citados juntos por otros documentos (Small 1973) Si al menos alguacuten otro documento cita dos documentos en comuacuten se dice que estos documentos estaacuten cocitados Cuanto maacutes cocitaciones reciben dos documentos mayor seraacute su fortaleza de cocitacioacuten y maacutes probable seraacute que esteacuten relacionados semaacutenticamente

26 Esto se debe al hecho de que varios documentos que son mencionados en las listas de referencias no han sido indexados auacuten por Scopus A diferencia del bibliographic coupling que es capaz de lidiar con esta restriccioacuten la validez del anaacutelisis de cocitacioacuten puede verse comprometida

Tanto el bibliographic coupling como la teacutecnica maacutes extendida de cocitaciones (Small 1973) se basan en el anaacutelisis de citas bibliograacuteficas para evaluar la similaridad de documentos en teacuterminos de su encuadre en una misma aacuterea temaacutetica Una coocurrencia de referen-cias entre dos documentos tiene lugar cuando al menos una fuente es mencionada en las listas de referencias de ambos De este modo la similaridad entre dos documentos A y B se determina a partir de las coincidencias en sus referencias bibliograacuteficas (Kessler 1963) La figura 8 compara esquemaacuteticamente la teacutecnica de anaacutelisis bibliomeacutetrico que adopta-mos con el meacutetodo de cocitaciones (derecha) En ambos casos se calcula la similaridad entre los documentos A y B pero la primera de las teacutecnicas sondea las coincidencias en las referencias bibliograacuteficas citadas por ambos mientras que la cocitacioacuten busca las coinci-dencias en las fuentes que citan a A y B25 Decidimos realizar un anaacutelisis de bibliographic coupling en lugar de usar la teacutecnica de cocitacioacuten porque la cobertura de datos relativos a las referencias de los documentos en Scopus es maacutes exhaustiva que la cobertura de datos de las citas recibidas por los documentos26

Figura 8 Dos teacutecnicas alternativas para el anaacutelisis de citaciones entre documentos

Fuente Elaboracioacuten propia

Doc C

Coocurrencia de referencias Cocitacioacuten

Doc D

Doc E

Doc A Doc B Doc C

Doc D

Doc E

Doc A Doc B

Cita coincidente

Cita

ndo

Citando

Cita

ndo

Citando

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI4 8

27 Esta opcioacuten se corresponde con la medida de similaridad identity

coefficient en ucinet

28 Esta medida relativa de similaridad entre conjuntos es considerada

actualmente la meacutetrica directa de similaridad maacutes popular en el campo

de la cienciometriacutea (Van Eck y Waltman 2009a) La similaridad coseno puede

interpretarse como el coseno del aacutengulo entre la i-eacutesima y la j-eacutesima columna de la matriz de ocurrencias O donde las columnas de O son consideradas

vectores en un espacio m-dimensional (Salton y McGill 1983)

bibliographic coupling y similaridad de documentos

Una vez obtenida la matriz simeacutetrica documentos-documentos para el corpus procedi-mos a ponderar las coincidencias encontradas entre ellos basadas en el nuacutemero total de referencias que tienen las contribuciones

La ponderacioacuten puede o no incluir una normalizacioacuten de las diferencias de escala El paso 3b de la figura 9 muestra los resultados que se obtendriacutean en un ejemplo hipoteacutetico si se ponderaran los valores de la matriz al adoptar una meacutetrica de similaridad que no norma-liza por las diferencias de escala de modo que la similaridad de dos contribuciones Pij se define simplemente como el cociente entre las citas comunes y el promedio de citas totales de i y j

Donde

cij es la cantidad de elementos comunes entre las referencias de las contribuciones i y j (nuacutemero de contribuciones citadas por ambas contribuciones) sij es la cantidad de con-tribuciones citadas por i y sj es la cantidad de contribuciones citadas por j27 Si bien los re-sultados que arroja este indicador tienen una interpretacioacuten maacutes directa en vista de la importante dispersioacuten que existe en la cantidad de referencias de las contribuciones de la base decidimos aplicar un indicador de similaridad capaz de normalizar por diferen-cias en escala

De este modo para chequear coacutemo se relacionan entre siacute cada par de contribuciones i y j medimos la similaridad entre ellas mediante el iacutendice de Salton (Salton y McGill 1983) tambieacuten conocido como iacutendice de Tucker o ldquosimilaridad cosenordquo28

Pij = mdashmdashmdashmdash cij

si +sj 2( )(1)

Pij = mdashmdashmdash cij

si sjradic

(2)

D O C U M E N T O D E T R A B A J O CIECTI 4 9

29 Cabe destacar que si los nodos de la red estuvieran completamente conectados unos con otros entonces el grafo para el corpus tendriacutea alrededor de 86 millones de aristas Dada una matriz simeacutetrica de tamantildeo n times n el nuacutemero de aristas es igual a frac12 (n2 - n) de modo que frac12 (131322 - 13132) = 86218146

Donde

cij es el nuacutemero de elementos comunes entre las referencias de las contribuciones i y j si es el nuacutemero de contribuciones citadas por i y sj es el nuacutemero de contribuciones citadas por j

A partir de la base de datos obtenida para el corpus inf construimos una red con 13132 no-dos y 1037347 aristas La fortaleza de las aristas es una funcioacuten de la similaridad medida entre cada par de documentos tomando como umbral un valor miacutenimo de 005 para el iacutendice de Salton29 Por su parte la red ue de coocurrencia de referencias comprende 5917 nodos y 988537 aristas (grafo 3)

En la figura 9 se presenta en forma esquemaacutetica la secuencia de pasos que condujo a la construccioacuten del grafo de citas compartidas El proceso se inicia con la elaboracioacuten de una lista con los id de todos los documentos y las referencias bibliograacuteficas que cita cada uno (paso 1 en la figura 9) Seguidamente a partir de la lista del paso anterior se construyoacute una matriz bimodal (paso 2) integrada por los id de todos los documentos que citan (colum-nas) y de todas las referencias citadas (filas) En tercer lugar se calculoacute una matriz unimo-dal simeacutetrica que registra las coincidencias en las fuentes citadas por todos los pares de documentos (paso 3)

clustering deteccioacuten de comunidades

Para la deteccioacuten de las comunidades en la red de contribuciones utilizamos el paquete de software open-source Gephi cuya herramienta de modularidad se basa en el algoritmo de Louvain Este algoritmo busca determinar el nuacutemero oacuteptimo de particiones de modo tal que el iacutendice de modularidad se maximice (Lambiotte et al 2014 Blondel et al 2008) El iacutendice de modularidad de una particioacuten es un escalar entre -1 y +1 que mide la densidad de los viacutenculos dentro de las comunidades frente a la densidad de los viacutenculos entre comuni-dades Para una red ponderada el iacutendice de modularidad es

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 0

Figura 9 El proceso de transformacioacuten matricial en el anaacutelisis de coocurrencia de referencias (bibliographic coupling)

PASO 1 LISTA DOCUMENTOS-REFERENCIAS

LISTA DE REFERENCIAS

DO

CUM

ENTO

S

D1 R1 R2 R3 R4 R5

D2 R3 R7

D3 R2 R1 R4 R5

D4 R4 R2 R3

D5 R3 R4 R6 R7

PASO 3A MATRIZ DOCUMENTOS-DOCUMENTOS (SIMEacuteTRICA) SIN PONDERAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 1 4 3 2

D2 1 - 0 1 2

D3 4 0 - 2 1

D4 3 1 2 - 2

D5 2 2 1 2 -

PASO 4 MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) Y NORMALIZADA POR EL IacuteNDICE DE SALTON

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 032 089 077 045

D2 032 - 0 041 071

D3 089 0 - 058 025

D4 077 041 058 - 058

D5 045 071 025 058 -

PASO 3B MATRIZ DOCUMENTOS-DOCUMENTOS PONDERADA (SIMEacuteTRICA) SIN NORMALIZAR

DOCUMENTOS

DO

CUM

ENTO

S

D1 D2 D3 D4 D5

D1 - 029 089 075 044

D2 029 - 0 040 067

D3 089 0 - 057 025

D4 075 040 057 - 057

D5 044 067 025 057 -

PASO 2 MATRIZ REFERENCIAS-DOCUMENTOS (ASIMEacuteTRICA)

DOCUMENTOS

REF

EREN

CIAS

D1 D2 D3 D4 D5

R1 1 0 1 0 0

R2 1 0 1 1 0

R3 1 1 0 1 1

R4 1 0 1 1 1

R5 1 0 1 0 0

R6 0 0 0 0 1

R7 0 1 0 0 1

PASO 5 GRAFO PONDERADO DE COOCURRENCIA DE REFERENCIAS EN ESTE CASO LA ARISTA QUE UNE D1 Y D3 ES LA MAacuteS FUERTE

Fuente Elaboracioacuten propia

D5

D1

D2

D4

D3

D O C U M E N T O D E T R A B A J O CIECTI 5 1

30 La herramienta de modularidad se implementoacute en forma aleatoria mediante la utilizacioacuten de las aristas ponderadas y con una resolucioacuten de 10 El iacutendice de modularidad obtenido fue de 0484

Donde

Aij representa el peso de las aristas entre los nodos i y j ki es la suma de los pesos de las aristas asociadas al nodo i ci es la comunidad a la cual el nodo i es asignado la funcioacuten δ es igual a 1 si ci= cj y 0 caso contrario y 2m es la suma de los pesos de todas las aristas

La aplicacioacuten de este algoritmo en la red inf condujo a la deteccioacuten de once comunida-des pero tres de ellas eran grupos minuacutesculos ndashconstituidos por no maacutes de tres nodosndash por lo que fueron removidas (filtro 5 en la figura 7) por lo tanto quedaron ocho comuni-dades30 El nuacutemero de contribuciones en cada una de ellas oscila entre 342 en la comu-nidad 10 (Eco-innovacioacuten) y 2768 en la comunidad 7 (Desempentildeo de la firma) el grupo maacutes amplio

La red inf incluye en un uacutenico componente 13132 nodos y un conjunto de 1037347 aris-tas conectaacutendolos El grafo 2 provee una visualizacioacuten de esta red en que se muestran to-dos los nodos pero las aristas con pesos menores a 01 no se representan con el objeto de hacer maacutes inteligible la graacutefica

En el corpus ue el algoritmo (3) se aplicoacute tanto sobre la red de citas directas como sobre la red de coocurrencia de referencias La primera red (citas directas) resultoacute en la creacioacuten de 6 comunidades (grafo 1) El nuacutemero de contribuciones en cada cluster variacutea entre 242 en la comunidad 2 y 1774 en la comunidad 3 el grupo maacutes amplio En la segunda red (coo-currencia de referencias) se identificaron tambieacuten 6 comunidades (grafo 3) El nuacutemero de contribuciones en cada una variacutea entre 210 en el cluster 0 y 1378 en el cluster 2 la comuni-dad maacutes amplia (grafo 3)

(3)Q =1

2m sumij [

Aij minuskikj

2m ]δ(ci cj)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 2

Grafo 2 Red de coocurrencia de referencias (bibliographic coupling) del corpus INF

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 5 3

Grafo 3 Red de coocurrencia de referencias (bibliographic coupling) del corpus UE

Nota Los colores indican las distintas comunidades y el tamantildeo de los nodos refleja la cantidad de citas locales recibidasFuente Elaboracioacuten propia a partir del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 4

31 El programa vosViewer (Van Eck y Waltman 2011 y 2013) es una

herramienta para el mapeo de la ciencia desarrollada en el Centro para Estudios de Ciencia y Tecnologiacutea de la

Universidad de Leiden en Holanda Se encuentra disponible en forma gratuita

en el sitio ltwwwvosviewercomgt Ademaacutes de las funcionalidades de

preprocesamientos de datos textuales del vosViewer utilizamos las de

visualizacioacuten para mapear el corpus ue En el caso del corpus inf usamos Gephi para realizar esta tarea ya que nuestro

propoacutesito es construir un mapa con estructura de grafo (graph-based map) y

no un mapa de distancias (distance-based map)

32 Este filtro selecciona todas las secuencias de palabras que constan

exclusivamente de sustantivos y adjetivos y que terminan

con sustantivos

Mineriacutea de textos clustering de teacuterminos clave

Aplicamos mt para analizar el contenido de cada una de las comunidades detectadas Este abordaje nos permite aproximar las formas leacutexicas en que se revela la similaridad en-tre contribuciones que conforman una misma comunidad Por medio del co-word analysis procuramos sentildealar un conjunto de problemas de investigacioacuten en torno al inf que fue-ron tratados diferencialmente por distintas corrientes de literatura en el corpus

Para desarrollar una red de teacuterminos basada en el corpus inf de documentos el texto de los tiacutetulos y de los abstracts de las 13132 contribuciones se extrajo automaacuteticamente ig-norando el orden en que las palabras aparecen (paso 1 figura 10) Una vez extraiacutedos los datos procedimos a preprocesar el texto (paso 2) Se purgoacute el contenido haciendo una exhaustiva revisioacuten ortograacutefica y unificando todos los teacuterminos que estuvieran en ingleacutes britaacutenico e ingleacutes americano Sin embargo la tarea maacutes complicada involucrada en el pre-procesamiento del texto fue la identificacioacuten de las frases nominales Para este propoacutesito utilizamos vosViewer31

Mediante este programa se realizoacute un etiquetado de partes del discurso tales como la identificacioacuten de verbos sustantivos y adjetivos Luego se aplicoacute un filtro linguumliacutestico para identificar frases nominales32 y finalmente se convirtieron las frases nominales al singu-lar El preprocesamiento del texto tambieacuten involucroacute la remocioacuten de stop words maacutes allaacute de preposiciones y conjunciones y el agrupamiento de formas flexionadas de una palabra minuspor ejemplo en plural en femenino conjugadasminus de modo que pudieran ser analizadas como un iacutetem uacutenico Todos los teacuterminos en cada documento fueron entonces contabiliza-dos (indizacioacuten) y los nuacutemeros resultantes se almacenaron en una matriz teacuterminos-docu-mentos A donde cada elemento aij indica con queacute frecuencia estaacute presente el teacutermino i en el documento j (paso 3 figura 10)

La teacutecnica para seleccionar los sintagmas nominales maacutes relevantes es la siguiente Para cada sintagma nominal se determina la distribucioacuten de las coocurrencias minusde segundo ordenminus sobre todos los sintagmas nominales Esta distribucioacuten se compara con la distri-bucioacuten global de las coocurrencias sobre los sintagmas nominales Cuanto mayor sea la diferencia entre dos distribuciones mayor seraacute la relevancia de un sintagma nominal El

D O C U M E N T O D E T R A B A J O CIECTI 5 5

supuesto es que los sintagmas nominales con una relevancia baja minuso con un significado generalminus tienen maacutes o menos la misma distribucioacuten que sus coocurrencias minusde segun-do ordenminus En contraste los sintagmas nominales con una relevancia alta muestran una distribucioacuten de sus coocurrencias de segundo orden que estaacute significativamente sesgada hacia otros sintagmas nominales Entonces se postula que en una red de coocurrencias los sintagmas nominales con una relevancia alta estaacuten agrupados juntos en clusters (Van Eck y Waltman 2011)

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis)

PASO 1 EXTRACCIOacuteN DEL TEXTO

PASO 2 PREPROCESAMIENTO DEL TEXTO

PASO 3 MATRIZ TEacuteRMINOS-DOCUMENTOS (ASIMEacuteTRICA) ndash OCURRENCIAS DE TEacuteRMINOS

DOCUMENTOS

TEacuteR

MIN

OS

D1 D2 D3 D4 D5 sum

T1 1 0 0 0 1 2

T2 0 1 0 1 1 3

T3 0 1 3 2 1 7

T4 1 1 2 1 1 6

T5 0 0 0 4 0 4

T6 1 0 1 1 0 3

T7 2 0 0 1 0 3

PASO 4 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) ndash COOCURRENCIAS PONDERADAS POR LA FRECUENCIA EN CADA DOCUMENTO (LINK STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 1 1 2 0 1 2

T2 1 - 4 3 4 1 1

T3 1 4 - 10 8 5 2

T4 2 3 10 - 4 4 3

T5 0 4 8 4 - 4 4

T6 1 1 5 4 4 - 3

T7 2 1 2 3 4 3 -

rsaquo Tokenizacioacuten descomponer una secuencia de caracteres en partes (tokens)

rsaquo Filtrado remover las stop words (p ej preposiciones conjunciones etc)

rsaquo Lematizacioacuten agrupar las formas flexionadas de una palabra para que puedan ser analizadas como un uacutenico iacutetem (lema)

rsaquo Stemming reducir una palabra a su raiacutez (stem)

Tiacutetulos abstracts palabras clave o texto completo

INDIZACIOacuteN DE TEacuteRMINOS

ID TEacuteRMINO

T1 text mining

T2 social network analysis

T3 big data

T4 ciecti

T5 scientometric

T6 policy evaluation

T7 innovation policy

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 6

Figura 10 Ilustracioacuten del proceso de transformacioacuten matricial en un anaacutelisis de coocurrencia de palabras (co-word analysis) (cont)

PASO 5 MATRIZ TEacuteRMINOS-TEacuteRMINOS (SIMEacuteTRICA) NORMALIZADA SEGUacuteN EL IacuteNDICE DE FUERZA DE ASOCIACIOacuteN (ASSOCIATION STRENGTH)

TEacuteRMINOS

TEacuteR

MIN

OS

T1 T2 T3 T4 T5 T6 T7

T1 - 017 007 017 0 017 033

T2 017 - 019 017 033 011 011

T3 007 019 - 024 029 024 010

T4 017 017 024 - 017 022 017

T5 0 033 029 017 - 033 033

T6 017 011 024 022 033 - 033

T7 033 011 010 017 033 033 -

PASO 6 MAPA DE COOCURRENCIA DE PALABRAS

Fuente Elaboracioacuten propia

Se trata de una red ponderada en que el tamantildeo de los nodos refleja las ocurrencias del teacutermino (paso 2) el espesor de las conexiones depende de la fuerza del enlace (paso 3) y la localizacioacuten en el mapa estaacute en funcioacuten de la fuerza de la asociacioacuten (paso 4) Por ejemplo el teacutermino ldquotext miningrdquo estaacute maacutes fuertemente asociado a ldquoinnovation policyrdquo lo cual se traduce en una mayor cercaniacutea en el mapa mientras que estaacute muy distante de ldquoscientometricrdquo

Figura 2 Taxonomiacutea del aprendizaje automaacutetico seguacuten el tipo de problema que se analiza

ciecti

big data

policy evaluation

text mining

innovation policy

social network analysis

scientometric

D O C U M E N T O D E T R A B A J O CIECTI 5 7

teacuterminos clave para el corpus inf y teacuterminos distintivos para cada comunidad

El poder descriptivo de teacuterminos controlados utilizados por los autores para resumir su trabajo en el tiacutetulo y el abstract hace del anaacutelisis de coocurrencia de palabras una herra-mienta particularmente potente para el anaacutelisis bibliomeacutetrico (Janssens 2007) En ese sentido se desarrolloacute para el corpus inf un tesauro con una extensioacuten de 2281 liacuteneas que sirvioacute como insumo adicional para el vosViewer Mediante el tesauro se procesaron los datos textuales del corpus para identificar los teacuterminos relevantes maacutes frecuentes Luego de establecer un umbral miacutenimo de 23 ocurrencias para acotar la seleccioacuten obtuvimos un conjunto de 1008 teacuterminos (palabras y frases) al que denominamos ldquovocabulariordquo del corpus De este modo el vocabulario estaacute conformado por el conjunto total de m teacutermi-nos controlados que pueden aparecer en cualquier documento del corpus En este esque-ma cada teacutermino (fila) puede considerarse como un vector en un espacio vectorial en que cada dimensioacuten representa un documento Entonces es posible medir la proximidad en-tre dos teacuterminos mediante el caacutelculo del aacutengulo encerrado por ambos vectores

A partir de esta definicioacuten encontramos 460 teacuterminos distintivos de las diferentes comu-nidades El cuadro 5 indica para cada comunidad los cinco teacuterminos distintivos maacutes fre-cuentes y los principales journals asiacute como tambieacuten la tasa de participacioacuten en el corpus y la antiguumledad media

proximidad de teacuterminos y deteccioacuten de clusters

Realizamos un anaacutelisis de coocurrencia de teacuterminos sobre el corpus a partir tanto de los tiacute-tulos como de los abstracts de las contribuciones Este procedimiento requirioacute adoptar una medida de similaridad que permitiera ponderar y normalizar la matriz de coocurrencias

Para este propoacutesito utilizamos como medida de similaridad la ldquofuerza de asociacioacutenrdquo (as-sociation strength) tambieacuten conocida como ldquoiacutendice de proximidadrdquo o ldquoiacutendice de afinidad probabiliacutesticardquo incluida en vosViewer (Van Eck y Waltman 2009a y 2009b) Calculamos la similaridad sij entre dos iacutetems i y j como

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI5 8

33 En contrapartida dado que en los mapas basados en grafos los

iacutetems estaacuten a menudo distribuidos de un modo bastante uniforme este

tipo de mapas tiene la ventaja de evitar el problema de las etiquetas

superpuestas a diferencia de los mapas basados en distancias En estos uacuteltimos

los elementos tienden a distribuirse en forma muy irregular lo cual torna maacutes

faacutecil identificar clusters de elementos relacionados pero puede dificultar el etiquetado de todos los teacuterminos sin

que se produzcan superposiciones

Donde

cij denota el nuacutemero de coocurrencias de los items i y j mientras que wi y wi denotan la fre-cuencia total de los iacutetems i y j respectivamente

En este documento utilizamos dos tipos de mapas bibliomeacutetricos los mapas basados en grafos y los mapas basados en distancias Utilizaremos los primeros para visualizar los mapas de teacuterminos del corpus inf y los segundos para los mapas del corpus ue Los mapas basados en grafos son aquellos en que la distancia entre dos elementos no necesariamen-te indica la fortaleza de la relacioacuten entre ellos En los grafos las relaciones se indican tra-zando liacuteneas que unan los elementos (aristas) En cambio los mapas basados en distan-cias (Van Eck 2010) son aquellos en que la distancia entre dos iacutetems indica la fortaleza de la relacioacuten entre ellos Una distancia maacutes pequentildea generalmente indica una relacioacuten maacutes fuerte Una desventaja de los mapas basados en grafos comparados con los basados en distancias es que por lo general es maacutes difiacutecil ver en ellos la fortaleza de la relacioacuten entre dos iacutetems y que los clusters de iacutetems relacionados son tambieacuten maacutes difiacuteciles de detectar (Van Eck 2010)33

anaacutelisis del corpus inf a partir de un mapa tipo grafo

El grafo 4 muestra la red de teacuterminos distintivos para las comunidades del corpus inf Este grafo ponderado y no dirigido incluye en un uacutenico componente el conjunto de 460 teacutermi-nos que son distintivos de alguna de las comunidades detectadas por ars El espesor de las aristas depende de su peso dado por el iacutendice de fuerza del enlace o link strength index minusesto es coocurrencias ponderadas por su frecuencia en cada documento

Identificamos en el corpus ocho comunidades que refieren a diferentes dimensiones ana-liacuteticas utilizadas por la literatura que estudia la inf La base de datos en su conjunto nos permite estudiar la dinaacutemica de las contribuciones minuspor ejemplo queacute comunidades han crecido en teacuterminos de contribuciones por antildeo y cuaacuteles han declinadominus de este modo

(4)sij =cij

wiwj

D O C U M E N T O D E T R A B A J O CIECTI 5 9

Cuadro 5 Comunidades teacuterminos distintivos y principales journals

Comunidad Share () Antiguumledad media (antildeos)

Teacuterminos distintivos Principales journals

Innovacioacuten colaborativa

139 59 open innovation absorptive capacity collaboration partnership external knowledge

Research Policy rampd Management Journal of Product Innovation Management Technology Analysis and Strategic Management Technovation

Modelos de negocios

208 95 Customer new product development business model marketing innovativeness

Journal of Product Innovation Management Technovation rampd Management Industrial Marketing Management International Journal of Technology Management

Gestioacuten del conocimiento

42 101 Equilibrium research joint ventures rampd cooperation welfare duopoly

International Journal of Industrial Organization Journal of Economics Managerial and Decision Economics Research Policy Economic Modelling

Capacidades de innovacioacuten

141 92 Competence dynamic capability knowledge management intellectual capital routine

International Journal of Technology Management Research Policy Technovation Strategic Management Journal Journal of Product Innovation Management

Desempentildeo de la firma

211 107 Productivity Exportforeign direct investment productivity growth employment

Research Policy Economics of Innovation and New Technology Small Business Economics Technovation International Journal of Industrial Organization

Redes de innovadores

134 94 Cluster University innovation system multinational firm location

Research Policy European Planning Studies Technovation International Journal of Technology Management Regional Studies

Estudios de I+D

99 71 rampd investment family firm rampd intensity investor ownership

Research Policy Small Business Economics Strategic Management Journal Journal of Financial Economics Economics of Innovation and New Technology

Eco-innovacioacuten

26 55 eco-innovation environmental innovation corporate social responsibility regulation environmental management

Journal of Cleaner Production Business Strategy and the Environment Ecological Economics Sustainability (Switzerland) Research Policy

Los cinco teacuterminos distintivos maacutes frecuentes para cada comunidad (meacutetodo de conteo completo)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 0

se pueden describir las tendencias en la literatura34 Las comunidades detectadas han mostrado ser robustas al uso de meacutetodos alternativos (veacutease el anaacutelisis de robustez en el Anexo)

Dentro de este corpus las dos comunidades maacutes amplias (en torno al 20 de las contri-buciones cada una) son Modelo de negocios ndashasociada a trabajos sobre gestioacuten estrateacute-gica de la innovacioacutenndash y Desempentildeo de la firma ndashque reuacutene estudios de la innovacioacuten input-output-impactondash Les siguen Innovacioacuten colaborativa Capacidades de innovacioacuten

Grafo 4 Red de teacuterminos distintivos para cada comunidad de contribuciones

Nota Grafo ponderado y no dirigido que incluye en un uacutenico componente 460 teacuterminos distintivos Dos teacuterminos comparten el mismo color siempre que ambos sean distintivos de la misma comunidad El tamantildeo de las etiquetas depende de las ocurrencias del teacuterminoFuente Elaboracioacuten propia a partir de la base de datos del corpus inf

34 Aquiacute solo esbozamos brevemente las comunidades detectadas dado que

una descripcioacuten y un anaacutelisis teoacuterico-conceptual pormenorizados estaacuten

claramente maacutes allaacute del foco de intereacutes de este documento Para un mayor

detalle veacutease Lerena et al (2018)

D O C U M E N T O D E T R A B A J O CIECTI 6 1

y Redes de innovadores (14 cada una) La primera aborda el proceso de inf como re-sultado de complementariedades del conocimiento entre diferentes partners la segunda analiza el papel que desempentildean las capacidades y los activos estrateacutegicos en la inf y la uacuteltima se concentra en el impacto sobre la inf de las relaciones no lineales entre firmas e instituciones Las comunidades maacutes pequentildeas son Estudios de i+d (10) Gestioacuten del conocimiento (4) y Eco-innovacioacuten (3) La primera incluye estudios sobre los determi-nantes e impactos de la i+d la segunda consiste en estudios sobre los modos formales de proteger los resultados de la innovacioacuten y la tercera aborda el impacto y la sustentabili-dad ambiental de la inf

A pesar de ser las comunidades maacutes extensas y de explicar unos dos quintos del corpus (cuadro 5) Desempentildeo de la firma y Modelos de negocios han perdido participacioacuten a lo largo del periacuteodo especialmente la primera (figura 11) En efecto mientras Modelos de negocios explica un 32 de todas las contribuciones publicadas entre 1970 y 1995 ac-tualmente (2016-2018) ha perdido 12 puntos porcentuales de participacioacuten (20) Por su parte la participacioacuten de Desempentildeo de la firma ha decrecido del 43 al 18 a lo largo del mismo periacuteodo

A excepcioacuten de Gestioacuten del conocimiento las otras comunidades han ganado participa-cioacuten Innovacioacuten colaborativa explicaba menos del 1 de los artiacuteculos en el periacuteodo 1970-1995 y en la actualidad explica el 19 Del mismo modo las contribuciones de Capaci-dades de innovacioacuten aumentaron su participacioacuten desde el 8 al 11 entre extremos si bien su mejor desempentildeo tuvo lugar durante el periacuteodo 2001-2005 (19) La dinaacutemica de Redes de innovadores es muy similar su share aumentoacute del 7 al 10 en ambos ex-tremos y alcanzoacute un pico del 20 en el mismo periacuteodo que Capacidades de innovacioacuten Finalmente las comunidades Estudios de i+d y Eco-innovacioacuten han crecido en forma sos-tenida desde un 4 y un 04 a un 14 y un 5 respectivamente

Por uacuteltimo cabe agregar que tambieacuten se realizoacute un anaacutelisis textual al nivel de las subco-munidades del corpus inf La figura 12 muestra los distintos grupos detectados y destaca con una flecha ascendente aquellos que muestran un mayor dinamismo en el periacuteodo maacutes reciente es decir que han aumentado su participacioacuten en la comunidad que integran

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 2

35 La teacutecnica de mapeo permite construir un mapa bidimensional en

que los iacutetems 1hellip n quedan localizados de forma que la distancia entre

cualquier par de iacutetems i y j refleje su similaridad sij tan precisamente como

sea posible De este modo los iacutetems que tienen una alta similaridad deberiacutean

localizarse cerca unos de otros mientras que los iacutetems que tienen una baja similaridad deberiacutean localizarse a

una mayor distancia Esta teacutecnica busca minimizar una suma ponderada del

cuadrado de las distancias euclidianas entre todos los pares de iacutetems Cuanto

mayor sea la similaridad entre dos iacutetems mayor seraacute el peso del cuadrado

de su distancia en la sumatoria (Van Eck y Waltman 2013)

anaacutelisis del corpus ue a partir de mapas de distancias

Un mapa de densidad de teacuterminos es un mapa bidimensional en que los teacuterminos estaacuten localizados de modo tal que la distancia entre dos teacuterminos puede interpretarse como un indicador del viacutenculo entre ambos En general cuanto menor sea la distancia entre dos teacuterminos maacutes fuertemente estaacuten relacionados entre siacute35

La densidad de cada iacutetem en un punto de un mapa depende tanto del nuacutemero de iacutetems ve-cinos como del peso de estos iacutetems Cuanto mayor es el nuacutemero de iacutetems vecinos y menores son las distancias entre ellos y el punto de intereacutes mayor seraacute la densidad del iacutetem Ade-maacutes cuanto mayores sean los pesos de los iacutetems vecinos mayor seraacute la densidad del iacutetem El

0

20

40

60

80

100

Figura 11 Participacioacuten de las comunidades en el corpus INF (1970-2018)

Shar

e de

l cor

pus

1970-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2016-2018

Estudio de I+D

Eco-innovacioacuten

Redes de innovadores

Desempentildeo de la firma

Capacidades de innovacioacuten

Gestioacuten del conocimiento

Modelos de negocios

Innovacioacuten colaborativa

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 6 3

caacutelculo de las densidades del iacutetem es similar a la estimacioacuten de una funcioacuten de densidad de probabilidad utilizando la teacutecnica de estimacioacuten Kernel de densidad (Van Eck lrm2010)

Las figuras 13 a 18 muestran los mapas de densidad de palabras obtenidos para cada una de las comunidades detectadas En todos los casos el color de cada punto en el mapa se determina a partir de la densidad del iacutetem que lo ocupa Las figuras introducen tambieacuten el conjunto de etiquetas que surge de la mineriacutea de textos y ponen de relieve algunas caracteriacutesticas salientes de las comunidades identificadas que permiten dimensionar la pertinencia de las etiquetas

Figura 12 Subcomunidades en el corpus INF

Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

Innovacioacuten colaborativa

Innovacioacuten abierta

Cooperacioacuten en I+D y alianzas estrateacutegicas

Exploracioacuten-explotacioacuten

Interaccioacuten universidad-industria

Capacidades de absorcioacuten

Modelos de negocios

Estrategia de mercado y desarrollo de productos y servicios

Aprendizaje organizacional

Emprende-durismo e innovacioacuten en las firmas

Gestioacuten de la innovacioacuten en servicios

Gestioacuten del conocimiento

Competencia estructura de mercado y equilibrio

Ccooperacioacuten en I+D

Spillovers y asignacioacuten de I+D

Poliacuteticas de I+D

Capacidades de innovacioacuten

Capacidades dinaacutemicas y estrategia de innovacioacuten

Innovacioacuten y redes

Perspectiva basada en el conocimiento y capacidades ordinarias

Perspectiva basada en recursos y activos estrateacutegicos

Organizacioacuten del trabajo

Desempentildeo de la firma

Impacto de la innovacioacuten

Cooperacioacuten y spillovers

Implicancias de la estructura meso y macro

Complementa-riedad

Capital internacional

Redes de innovadores

Sistemas de innovacioacuten

Empresas multinaciona-les CGV y globalizacioacuten de la I+D

Economiacuteas de aglomeracioacuten y clusters

Emprende-durismo incubadoras de empresas y capitales de riesgo

Estudios de I+D

Poliacuteticas de I+D

Mercado bursaacutetil

Financiamiento de I+D

Estructura de la firma

Teoriacutea de la agencia

Eco-innovacioacuten

Poliacutetica ambiental

Gestioacuten de la cadena de suministro y nuevos productos sustentables

Presioacuten institucional y desempentildeo ambiental

Responsabili-dad social empresaria visibilidad de la firma y desempentildeo financiero

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 4

Figura 13 Mapa de densidad de teacuterminos de la comunidad PT

Comunidad 0 Parques tecnoloacutegicos

Ndeg de contribuciones ( corpus) 210 (4)

Periacuteodo (antiguumledad media) 1981-2017 (11)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mian S (5) Schwartz M (5)Minguillo D (4)

Journal maacutes frecuente (ocurrencias) Technovation (32)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Technology park ndash technology incubator ndash social capital ndash venture - funding source

Principal contribucioacuten por indegree Vedovello (1997) ldquoScience parks and university-industry interaction Geographical proximity between the agents as a driving forcerdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 14 Mapa de densidad de teacuterminos de la comunidad UE

Comunidad 1 Universidad emprendedora

Ndeg de contribuciones ( corpus) 757 (13)

Periacuteodo (antiguumledad media) 1995-2017 (6)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Siegel D (10)Wright M (9)Guerrero M (8)

Journal maacutes frecuente (ocurrencias) Journal of Technology Transfer (70)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Entrepreneur ndash entrepreneurial university ndash patent ndash academic entrepreneur ndash knowledge transfer

Principal contribucioacuten por indegree Shane (2004) ldquoAcademic entrepreneurship University spinoffs and wealth creationrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 5

Figura 15 Mapa de densidad de teacuterminos de la comunidad 3H

Comunidad 2 Triple heacutelice

Ndeg de contribuciones ( corpus) 1378 (23)

Periacuteodo (antiguumledad media) 1987-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Etzkowitz H (23)Leydesdorff L (30)Carayannis E (8)

Journal maacutes frecuente (ocurrencias) Scientometrics (96)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Higher education ndash triple helix ndash stakeholder ndash research center ndash innovation policy

Principal contribucioacuten por indegree Etzkowitz (1998) ldquoThe norms of entrepreneurial science Cognitive effects of the new university-industry linkagesrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 16 Mapa de densidad de teacuterminos de la comunidad CT

Comunidad 3 Canales de transferencia

Ndeg de contribuciones ( corpus) 1040 (18)

Periacuteodo (antiguumledad media) 1987-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Mowery D (17)Azagra-Caro J (10)Thursby J (10)

Journal maacutes frecuente (ocurrencias) Research Policy (129)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

University patent ndash publication ndash invention ndash channel ndash Bayh Dole Act

Principal contribucioacuten por indegree Siegel et al (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices An exploratory studyrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 6

Figura 17 Mapa de densidad de teacuterminos de la comunidad PG

Comunidad 4 Perspectiva geograacutefica

Ndeg de contribuciones ( corpus) 1291 (22)

Periacuteodo (antiguumledad media) 1981-2017 (8)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Huggins R (13)Cooke P (13) Leydesdorff L (11)

Journal maacutes frecuente (ocurrencias) Research Policy (81)

Primeros cinco teacuterminos distintivos seguacuten frecuencia

Regional innovation system ndash proximity ndash capability ndash competitiveness ndash knowledge spillover

Principal contribucioacuten por indegree Meyer-Krahmer y Schmoch (1998) ldquoScience-based technologies University-industry interactions in four fieldsrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

Figura 18 Mapa de densidad de teacuterminos de la comunidad CRI

Comunidad 5 Capacidades de absorcioacuten redes e IA

Ndeg de contribuciones ( corpus) 1241 (21)

Periacuteodo (antiguumledad media) 1990-2017 (7)

Investigadores maacutes frecuentes (ocurrencias como primer autor)

Carayannis E (12)Santoro M (11)Wang Y (9)

Journal maacutes frecuente (ocurrencias) Research Policy (64)

Primeros cinco teacuterminos distintivosseguacuten frecuencia

Network ndash open innovation ndash absorptive capacity ndash trust ndash external knowledge

Principal contribucioacuten por indegree Owen-Smith y Powell (2004) ldquoKnowledge Networks as Channels and Conduits The Effects of Spillovers in the Boston Biotechnology Communityrdquo

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

D O C U M E N T O D E T R A B A J O CIECTI 6 7

36 Dado que el presente documento coloca el foco en meacutetodos y aplicaciones solo incluimos aquiacute una breve caracterizacioacuten de las comunidades detectadas en el corpus ue Para un mayor detalle veacutease el documento de trabajo Nordm 13 del ciecti (Lerena Minervini y Yoguel 2018) donde se contextualiza histoacutericamente el surgimiento de las comunidades y se discuten algunas implicancias teoacutericas Disponible en ltwwwciectiorgarwp-contentuploads201808DT13-Universidad-Empresa_FINALpdfgt

En el corpus ue se identificaron seis comunidades36 Las tres maacutes extensas ndashTriple heacutelice Perspectiva geograacutefica y Capacidades de absorcioacuten redes e innovacioacuten abiertandash dan cuen-ta en forma conjunta de dos tercios de las contribuciones totales La comunidad Triple heacutelice ndashmaacutes reciente en promedio que las contribuciones de Parques tecnoloacutegicos pero anterior al auge de la Universidad emprendedorandash propone un paradigma basado en una nueva forma de articulacioacuten entre la universidad las empresas y el gobierno que pro-mueva la cooperacioacuten en la creacioacuten y comercializacioacuten de la propiedad intelectual La se-gunda comunidad ndashPerspectiva geograacuteficandash aborda desde una perspectiva sisteacutemica las diversas modalidades de transferencia tecnoloacutegica que tienen lugar en entornos espacial-mente delimitados La tercera comunidad ndashCapacidades de absorcioacuten redes e innovacioacuten abiertandash propone un modelo de innovacioacuten centrado en la cooperacioacuten de las firmas con partners a partir de la apertura de proyectos formales de innovacioacuten

Les siguen en tamantildeo las comunidades Canales de transferencia (18) y Universidad em-prendedora (13) La primera aborda con fuerte sustento empiacuterico la temaacutetica de la trans-ferencia de conocimiento vinculada a la llamada ldquotercera misioacutenrdquo de las universidades y los canales de interaccioacuten puacuteblico-privada la segunda promueve la conformacioacuten de un eco-sistema emprendedor bajo una nueva institucionalidad en que las universidades puedan priorizar la obtencioacuten de beneficios econoacutemicos y sociales para el ecosistema acadeacutemico impulsando los aceleradores de empresas las incubadoras puacuteblico-privadas y las redes de colaboracioacuten con la industria

Finalmente la comunidad maacutes pequentildea ndashParques tecnoloacutegicosndash argumenta que la cer-caniacutea geograacutefica promueve un ecosistema favorable para las nuevas empresas intensivas en conocimiento en tanto permite reforzar los viacutenculos entre los actores involucrados de modo que los parques facilitariacutean la transferencia de conocimiento entre la universidad y la empresa

Es posible identificar algunos patrones en la dinaacutemica de las comunidades Se observa que la literatura sobre Universidad emprendedora es la que ha crecido a una tasa maacutes raacutepida Su participacioacuten en el corpus pasoacute del 1 en el periacuteodo 1981-1995 al 15 en 2016-2017 Sin embargo la comunidad Capacidades de absorcioacuten redes e innovacioacuten abierta

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI6 8

es la que se estaacute consolidando como el grupo dominante en el estudio de la relacioacuten uni-versidad-empresa con un cuarto del total de contribuciones del corpus en el periacuteodo 2016-2017 (figura 19)

En contraste se observa una caiacuteda raacutepida y sostenida en las tasas de participacioacuten de las comunidades Parques tecnoloacutegicos y Canales de transferencia La primera que reuniacutea el 30 de las contribuciones del corpus en el periacuteodo 1981-1995 apenas alcanzaba el 3 en 2016-2017 Por su parte Canales de transferencia contrajo su participacioacuten desde el 23 en el primer periacuteodo hasta el 14 en 2016-2017

Figura 19 Participacioacuten de las comunidades en el corpus UE (1981-2017)

Fuente Elaboracioacuten propia a partir de la base de datos del corpus ue

0

25

50

75

100

Shar

e de

l cor

pus

1981-1995 1996-2000 2001-2005 2006-2010

Periacuteodo

2011-2015 2015-2017

Triple heacutelice

Parques tecnoloacutegicos

Perspectiva geograacutefica

Universidad emprendedora

Canales de transferencia

Capacidades de absorcioacuten

D O C U M E N T O D E T R A B A J O CIECTI 6 9

ConclusionesEn este primer documento de la serie Meacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de cti hemos abordado en un inicio el fenoacutemeno de los datos masivos su creciente importancia para la toma de decisiones y las principales fuentes que los gene-ran Sobre esa base describimos luego tres teacutecnicas de la ciencia de datos (el ars la mt y el clustering) y destacamos algunos de sus usos potenciales minuscon eacutenfasis en aquellos vin-culados a las poliacuteticas puacuteblicasminus Finalmente desarrollamos dos aplicaciones concretas de dichas teacutecnicas en el marco de dos investigaciones basadas en datos de publicaciones cientiacuteficas

El mapeo de los campos cientiacuteficos permite comprender la estructura y evolucioacuten de las diversas aacutereas de investigacioacuten y sus relaciones con otros campos a partir de publicacio-nes cientiacuteficas El conocimiento acerca del nivel de actividad en diversos campos y de cam-pos nuevos emergentes y convergentes es crucial para organizaciones instituciones y na-ciones La informacioacuten cuantitativa puede ser usada para la evaluacioacuten del desempentildeo de las actividades de investigacioacuten y para respaldar la gestioacuten de la innovacioacuten y las poliacuteticas de ciencia y tecnologiacutea

El meacutetodo descripto tiene alcance general en el sentido de que es apto para estudiar la produccioacuten de conocimiento escrito en diversos campos cientiacuteficos Los mapas bibliomeacute-tricos de la ciencia pueden representar distintos tipos de relaciones Estas abarcan las ci-tas que se dan entre publicaciones o journals la colaboracioacuten entre investigadores o la coocurrencia de teacuterminos en textos cientiacuteficos Los documentos pueden ser publicacio-nes cientiacuteficas patentes o artiacuteculos de perioacutedicos El meacutetodo permite mapear la produc-cioacuten cientiacutefica mediante procedimientos estadiacutesticos y matemaacuteticos y comprende diver-sas teacutecnicas computacionales de la ciencia de datos (information retrieval anaacutelisis de redes sociales mineriacutea de textos aprendizaje automaacutetico)

Sin embargo los potenciales usos de las tres teacutecnicas relevadas minusen particular en el aacutem-bito de la poliacutetica puacuteblicaminus no se restringen al campo de la cienciometriacutea El cuadro 6 da cuenta de algunos usos de las teacutecnicas descriptas para el anaacutelisis de distintos tipos de datos masivos y muestra alguna de las respuestas que pueden derivarse de dichas

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 0

aplicaciones Hemos seleccionado entre los tipos de datos introducidos en la primera sec-cioacuten aquellos que ofrecen maacutes oportunidades para implementar especiacuteficamente estas teacutecnicas Ademaacutes de las fuentes bibliograacuteficas o de patentes el cuadro incluye las fuentes de datos asociadas a social media telecomunicaciones y datos moacuteviles transacciones en mercados online y programas gubernamentales Para cada uno de los tipos de fuentes de datos considerados pueden identificarse aplicaciones basadas en las teacutecnicas relevadas que son capaces de proveer conocimiento valioso para la vigilancia tecnoloacutegica y la inte-ligencia estrateacutegica

Mientras los datos masivos provenientes de fuentes bibliograacuteficas o de patentes pueden utilizarse para mapear la evolucioacuten y las tendencias de las tecnologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios los datos de redes sociales en liacutenea pueden gene-rar en forma continua conocimiento relevante para los policy makers acerca de cambios en los patrones de uso y consumo de tic y de las nuevas demandas emergentes En el aacuterea de la salud puacuteblica pueden incluso proveer un alerta temprana que permita controlar epidemias inminentes

Los (meta)datos de teleacutefonos emails mensajeros o apps en tanto pueden aportar conoci-miento acerca de cambios demograacuteficos mientras que los datos de mercados online pue-den generar conocimiento relevante acerca de la evolucioacuten de los actores que intervienen como oferentes y demandantes Por ejemplo pueden revelar la dinaacutemica del mercado de trabajo en que participan individuos con distintos tipos de calificaciones y facilitar un diagnoacutestico temprano respecto de las necesidades insatisfechas del sector privado

Por uacuteltimo los programas gubernamentales tambieacuten pueden ser una importante fuente de datos masivos En estos casos las teacutecnicas que hemos analizado pueden utilizarse tanto para evaluar la implementacioacuten de programas minusconceptualizando las instituciones como una redminus como para estudiar los resultados de programas orientados a promover dinaacute-micas de cooperacioacuten en partnerships y mapear competencias en redes georreferenciadas

D O C U M E N T O D E T R A B A J O CIECTI 7 1

Cuadro 6 Usos y aplicaciones del ARS la MT y el clustering para distintos tipos de datos masivos

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

Bibliograacuteficas o de patentes

Datos sobre citas referencias abstracts de publicaciones cientiacuteficasDatos sobre patentes solicitadas y con-cedidas patentes tipo de patentes por instituciones paiacuteses aacutereas etc

Redes bibliomeacute-tricas a partir de citaciones

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos anaacutelisis semaacutentico latente

Deteccioacuten de aacutereas temaacuteticasdominios viacutea comunidades bibliomeacutetricas y clusters de teacuterminos

Vigilancia tecnoloacutegica Anaacutelisis cienciomeacutetrico de patentes y pu-blicaciones cientiacuteficas Mapeo de la evolucioacuten y las tendencias de las tec-nologiacuteas y de la produccioacuten cientiacutefica escrita en diversos dominios (Daim et al 2016 Rotolo et al 2017)

Social media Redes sociales en liacutenea

Redes de vincula-ciones a partir de contactos segui-dores reposteos

Mapas de densidad de teacuterminos viacutea anaacutelisis de coocurrencia de teacuterminos sentiment analysis procesa-miento del lenguaje natural

Deteccioacuten de comunidades de usuarios en redes sociales en liacutenea Deteccioacuten de temas de discusioacuten posicionamien-tos frente a cuestiones de intereacutes puacuteblico

Los patrones de actividad de los in-dividuos en una comunidad en liacutenea permiten identificar tipos especiacuteficos de usuarios (Akar y Mardikyan 2018) Anaacutelisis poliacutetico sondeos de opinioacuten identificacioacuten de segmentos de mercado y grupos de opinioacuten y sus liacutederes Tambieacuten genera conocimien-to relevante para a los policy makers acerca de cambios en preferencias tendencias en patrones de uso y consumo de tic y permite anticipar demandas emergentes (Chen y Neill 2015 Panagiotopoulos et al 2017 Ye et al 2017 Agostino et al 2018)

Datos de tele-comunicaciones y datos moacuteviles asociados a apps

(Meta)datos de teleacute-fonos emails mensa-jeros o apps

Redes de vincula-ciones interperso-nales y mapas de distancias a partir de contactos (re-des no dirigidas) mensajes envia-dos y recibidos (redes dirigidas) informacioacuten georreferenciada (localizacioacuten e itinerarios)

Ibidem En las apps el con-tenido textual susceptible de ser analizado mediante mt puede consistir en comentarios de usuarios evaluacioacuten de productos consultas al servicio teacutec-nico En algunos casos el usuario debe ingresar datos textuales como parte del funcionamiento rutinario de la app

Deteccioacuten de comunidades de usuarios vinculados en redes interpersonales a partir de metadatos de telefoniacutea celular Agrupamiento de consumidores en funcioacuten de la similitud en atributos tales como geolocalizacioacuten rutinas de movilidad grupo etario haacutebitos de uso ade-maacutes de patroacuten de compras y contactos directos mediados por una app

Segmentacioacuten de mercado para seleccioacuten de mercados de prueba y posicionamiento de productos Anaacutelisis de la migracioacuten de usuarios desde hacia diferentes productos o marcas Genera conocimiento relevante para a los policy makers p ej acerca de tendencias y cambios demograacuteficos y tecnoloacutegicos (Li et al 2017 Blumenstock 2018 Khan 2018)

MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI7 2

Mercados online Bienes raiacuteces comer-cio minorista preacutes-tamos p2p o portales de empleo

Anaacutelisis de micro-conductas a partir de grafos y mapas de distancias Redes de produc-tos en que estos se relacionan entre si cuando el consumidor tiende a adquirir-los simultaacutenea-mente Redes de consumidores en que dos clientes se vinculan si adquieren una ca-nasta de produc-tos similares

El contenido textual puede consistir en comentarios de compradores (evaluacioacuten de la transaccioacuten) y pregun-tas de potenciales clientes Tambieacuten la relacioacuten entre ambos grupos puede ser estudiada con mt

Segmentacioacuten de la clientela sobre la base de redes de consumidores donde estos se relacionen entre siacute cuando adquieren canastas similaresMapa de productos en que la cercaniacutea entre estos es fun-cioacuten de la frecuencia con que se los adquiere en una misma transaccioacuten Agrupamiento de todos los artiacuteculos a la ven-ta en iacutetems uacutenicos en funcioacuten de sus caracteriacutesticas

Para particionar la poblacioacuten general de consumidores y entender mejor las relaciones entre diferentes grupos de consumidores o potenciales clien-tes y para su uso en la segmentacioacuten de mercado el posicionamiento de productos el desarrollo de nuevos productos y la seleccioacuten de mercados de prueba Genera conocimiento relevante para a los policy makers acerca de los nuevos canales de co-mercializacioacuten asociados a las tic y los cambios en el comportamiento y las caracteriacutesticas de la oferta y la de-manda en mercados de bienes y de trabajo (Kaumlssi y Lehdonvirta 2018)

Datos de programas gubernamentales

Datos de implemen-tacioacuten de progra-mas dinaacutemicas de la cooperacioacuten en partnerships y distri-bucioacuten espacial de las competencias en redes intensivas en conocimiento

Redes de vincu-laciones entre instituciones que implemen-tan un programa o cooperan en el marco de un partnership y de individuos que intervienen en el proceso Mapeo de disponibilidad de capacidades y destrezas espe-ciacuteficas con datos georreferenciados

En los casos analizados en este documento la mt no corresponde porque el contenido del set de datos recogidos no es textual

Aglomeracioacuten de capacida-des en loci geograacuteficos deter-minados agrupamiento de instituciones que interactuacutean (por ejemplo cooperan) fuer-temente entre siacute

Evaluacioacuten de la implementacioacuten de programas conceptualizando las instituciones como una red y del impacto de programas orientados a promover dinaacutemicas de cooperacioacuten en partnerships Mapeo de compe-tencias en redes georreferenciadas intensivas en conocimiento en el marco de la planificacioacuten de progra-mas (Ploszaj 2011 Luke et al 2013 Valente et al 2015 Giuliani y Pietro-belli 2016 Popelier 2018)

Fuente Elaboracioacuten propia

Tipo de fuente de datos

Contenidos ARS MT Clustering Aplicaciones

(cont)

D O C U M E N T O D E T R A B A J O CIECTI 7 3

Para evaluar la consistencia de los hallazgos aplicamos un anaacutelisis de cluster sobre los 1008 teacuterminos clave incluidos en el vocabulario del corpus inf A diferencia de la red en el grafo 4 ya no se supuso la filiacioacuten de las contribuciones a determinadas comunidades De este modo el viacutenculo entre los teacuterminos y las comunidades era algo por descubrir

Aplicamos la teacutecnica de clustering de vosViewer Esta teacutecnica se basa en un algoritmo de tipo modularidad (Waltman et al 2010 Waltman y Van Eck 2013) que asigna los nodos a los clusters maximizando la siguiente funcioacuten

Donde

ci es el cluster al cual el nodo i es asignado δ(ci cj ) es una simple funcioacuten delta y γ es un pa-raacutemetro de resolucioacuten que determina el nivel de detalle del clustering

La aplicacioacuten del algoritmo (i) arrojoacute ocho clusters de teacuterminos que dan cuenta de diferen-tes aacutereas temaacuteticas (grafo i) y que se asemejan bastante a los del grafo 4 Para chequear la consistencia de los hallazgos comparamos el conjunto de teacuterminos asociados a cada una de las comunidades detectadas en la red de contribuciones con los clusters detectados en la red de teacuterminos Evaluamos las coincidencias entre ellos basados en el coeficiente de similaridad de Jaccard esto es el cociente entre la interseccioacuten y la unioacuten de los conjuntos

AnexoRobustez una evaluacioacuten de las relaciones entre comunidades de contribuciones y clusters de teacuterminos

(i)V(c1 hellip cn) = sumilt j

δ(ci cj)(sij γ)

7 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Donde

cij es el nuacutemero de teacuterminos coincidentes entre la comunidad i y el cluster j (nuacutemero de teacuter-minos que ocurren en ambos conjuntos) si es el nuacutemero de teacuterminos en i y si es el nuacutemero de teacuterminos en j

(ii)Pij =c ij

si + sj minus c ij

Grafo I Clusters de teacuterminos del corpus INF

Nota Grafo no dirigido que incluye en un uacutenico componente 1008 nodos (teacuterminos clave que forman parte del vocabulario del corpus) y 96356 aristas (coocurrencias ponderadas)Fuente Elaboracioacuten propia a partir de la base de datos del corpus inf

D O C U M E N T O D E T R A B A J O CIECTI 7 5

Una mirada maacutes detenida del cuadro i revela que la anomaliacutea en ic se deriva exclusiva-mente de su superposicioacuten con bm37 Este patroacuten sugiere que el caso puede explicarse meramente como un problema de granularidad esto es de la diferente escala o nivel de detalle presentes en los resultados de las aplicaciones de clustering38 De hecho luego de la agregacioacuten de bm e ic casi el 90 de los teacuterminos que ocurren en la comunidad bi-bliograacutefica que llamamos bm+ic coinciden con aquellos en el cluster de copalabras co-rrespondiente (cuadro ii) Estos resultados (cuadro iii) revelan una consistencia sistemaacute-tica de modo que las comunidades detectadas parecen ser robustas al uso de meacutetodos alternativos

Cuadro I Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI BM KM IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 001 003 004 001 001 000 000

BM 001 063 000 016 001 001 000 002

KM 000 001 070 000 000 000 000 000

IC 006 012 002 009 003 003 000 000

FP 000 002 005 000 033 033 001 001

NI 001 000 001 000 024 024 000 000

RampD 000 001 000 000 005 005 078 000

ECO 000 001 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

37 Tanto ic como bm parecen converger en el uso de varios conceptos y comparten al menos parcialmente una terminologiacutea comuacuten La corriente asociada a los modelos de negocios histoacutericamente se ha nutrido de contribuciones de autores tales como Teece Pisano o Winter y se ha concentrado en temas como las capacidades dinaacutemicas Un hallazgo del anaacutelisis textual es el resultado de que varios teacuterminos altamente relevantes son usados con similar intensidad por estas dos comunidades incluyendo innovation capability organizational learning business environment knowledge sharing information system competitive environment innovation system y technology transfer

38 Tanto las comunidades bibliograacuteficas como los clusters de copalabras se detectaron a partir de datos del corpus Sin embargo en el primer anaacutelisis la deteccioacuten se realizoacute a partir de los datos de las referencias y en el uacuteltimo a partir de datos textuales En ambos casos el paraacutemetro de resolucioacuten determinoacute el nivel de granularidad al cual se detectaron las comunidades esto es su escala o nivel de detalle Pero dado que los datos eran diferentes en ambos casos un uacutenico valor para este valor puede derivar en diferentes niveles de granularidad y no es factible saber a priori el valor del paraacutemetro que podriacutea conducir a un nivel comparable de granularidad

7 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro II Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras En de coincidencias sobre el total de teacuterminos distintivos en la comunidad

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO sum

Comunidades bibliograacuteficas

CI 78 5 9 2 7 0 0 100

KM 0 89 3 0 9 0 0 100

BM+IC 5 1 87 3 2 0 2 100

FP 0 10 5 67 14 2 2 100

NI 1 1 0 37 60 0 0 100

RampD 0 0 1 8 12 79 0 100

ECO 0 0 0 0 0 0 100 100

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

Cuadro III Coincidencia de teacuterminos entre las comunidades bibliograacuteficas y los clusters de copalabras luego de agregar BM e IC (coeficiente de similaridad de Jaccard)

Clusters de copalabras

CI KM BM+IC FP NI RampD ECO

Comunidades bibliograacuteficas

CI 069 003 003 001 003 000 000

KM 000 070 001 000 003 000 000

BM+IC 004 001 081 002 001 000 001

FP 000 005 001 033 005 001 001

NI 001 001 000 024 044 000 000

RampD 000 000 000 005 008 078 000

ECO 000 000 000 000 000 000 090

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 7

En forma complementaria al ejercicio de robustez exploramos el grado de cohesioacuten de las comunidades sobre la base de su leacutexico distintivo Las comunidades difieren entre siacute con respecto a las frases nominales que usan y algunos teacuterminos son utilizados casi exclu-sivamente por una uacutenica comunidad lo que representa un alto grado de especializacioacuten de esos teacuterminos en su relacioacuten con la comunidad de la que son distintivos es decir su ldquocomunidad primariardquo

Definimos un conjunto de indicadores que permite estimar el grado de especializacioacuten de cada teacutermino distintivo medido sobre la base de sus frecuencias relativas dentro y fuera de los liacutemites de su comunidad primaria Utilizamos una meacutetrica sencilla a la que deno-minamos Iacutendice de Especializacioacuten Leacutexica (iel) ndashcuadro ivndash que da cuenta de la fuerza de la relacioacuten entre cada teacutermino distintivo y su respectiva comunidad

Para cada teacutermino distintivo calculamos el iel de la siguiente manera

Como muestra el cuadro iv las comunidades maacutes cohesionadas leacutexicamente parecen ser Eco-innovacioacuten y Gestioacuten del conocimiento (lsi 098 y 096 respectivamente para sus veinte teacuterminos distintivos maacutes frecuentes) En contraste Modelos de negocios y Desem-pentildeo de la firma son las comunidades que en mayor medida comparten un repertorio leacutexico en comuacuten con el resto del corpus (lsi 078 y 082 respectivamente) Cabe destacar que incluso en estos dos uacuteltimos casos los teacuterminos distintivos muestran un grado eleva-do de afinidad por sus comunidades primarias lo cual aporta nuevos elementos en favor de la existencia de las comunidades detectadas

(iii)IEL = 1 minus

frecuencia extracomunidad del TD

nuacutemero de documentos extracomunidad

f recuencia intracomunidad del TD

nuacutemero de documentos intracomunidad

7 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Cuadro IV Teacuterminos distintivos frecuencias relativas e IEL

Comunidad Teacuterminos distintivos(3 maacutes frecuentes)

Frecuencia por doc intracomunidad

Frecuencia por doc extracomunidad

IEL IEL para los primeros 20 TD (media)

Innovacioacuten colaborativa

open innovation 058 002 097 084

absorptive capacity 035 003 092

collaboration 031 007 078

Modelos de negocios

customer 024 006 076 078

new product development 024 003 089

business model 019 002 088

Gestioacuten del conocimiento

equilibrium 023 001 096 096

research joint ventures 023 lt001 099

RampD cooperation 022 001 094

Capacidades de innovacioacuten

competence 015 004 074 083

dynamic capability 015 001 095

intellectual capital 005 001 078

Desempentildeo de la firma

productivity 023 004 084 082

export 014 002 088

foreign direct investment 011 002 080

Redes de innovadores

cluster 038 003 091 084

university 031 007 078

innovation system 027 002 093

Estudios de I+D

RampD investment 077 009 089 091

family firm 020 001 097

RampD intensity 015 003 080

Eco-innovacioacuten

eco-innovation 072 lt001 099 098

environmental innovation 068 lt001 099

corporate social responsibility 045 001 098

Fuente Elaboracioacuten propia a partir de la base de datos del corpus

D O C U M E N T O D E T R A B A J O CIECTI 7 9

Agostino D Arnaboldi M y Azzone G (2018) ldquoSocial Media Data Into Performance Measure-ment Systems Methodologies Opportunities and Risksrdquo Handbook of Research on Moderniza-tion and Accountability in Public Sector Management igi Global pp 254-275

Akar E y Mardikyan S (2018) ldquoUser Roles and Contribution Patterns in Online Communities A Managerial Perspectiverdquo sage Open Disponible en ltdoiorg1011772158244018794773gt

Albert A y Rajagopal R (2013) ldquoSmart meter driven segmentation What your consumption says about yourdquo ieee Transactions on Power Systems vol 28 Nordm 4 pp 4019-4030

Alhajj R y Rokne J (2014) Encyclopedia of social network analysis and mining Springer Publishing Company

Ali A Qadir J ur Rasool R Sathiaseelan A Zwitter A y Crowcroft J (2016) ldquoBig data for development applications and techniquesrdquo Big Data Analytics vol 1 Nordm 1 p 2

Anstead N amp OLoughlin B (2015) ldquoSocial media analysis and public opinion The 2010 uk ge-neral electionrdquo Journal of Computer-Mediated Communication vol 20 Nordm 2 pp 204-220 Disponi-ble en ltdoiorg101111jcc412102gt

Bakshy E Rosenn I Marlow C y Adamic L (2012) ldquoThe role of social networks in information diffusionrdquo Proceedings of the 21st international conference on World Wide Web acm pp 519-528

Barletta F Pereira M y Yoguel G (2016) ldquoImpacto de la poliacutetica de apoyo a la industria de software y servicios informaacuteticosrdquo documento de trabajo Nordm 4 Buenos Aires ciecti

Bastian M Heymann S y Jacomy M (2009) ldquoGephi an open source software for exploring and manipulating networksrdquo International aaai Conference on Weblogs and Social Media

Benneworth P y Charles D (2005) ldquoUniversity spin-off policies and economic development in less successful regions learning from two decades of policy practicerdquo European Planning Studies vol 13 Nordm 4 pp 537-557

Bholat D M y Atz U (2016) ldquoPeer-to-peer lending and financial innovation in the United King-domrdquo Staff Working Paper Nordm 598 Bank of England

Blondel V D Guillaume J L Lambiotte R y Lefebvre E (2008) ldquoFast unfolding of communi-ties in large networksrdquo Journal of Statistical Mechanics Theory and Experiment vol 10

BIBLIOGRAFIacuteA

8 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Blumenstock J E (2018) ldquoEstimating Economic Characteristics with Phone Datardquo aea Papers and Proceedings vol 108 pp 72-76

mdashmdashmdash Cadamuro G y On R (2015) ldquoPredicting poverty and wealth from mobile phone meta-datardquo Science vol 350 Nordm 6264 pp 1073-1076

Borgatti S P Everett M G y Freeman L C (2002) Ucinet for Windows Software for Social Ne-twork Analysis Harvard MA Analytic Technologies

Bracke P y Tenreyro S (2016) ldquoHistory Dependence in the Housing Marketrdquo Bank of England Working Paper Nordm 630 Disponible en ltdxdoiorg102139ssrn2880445gt

Brik S M (2005) ldquoApplication of network analysis in evaluating knowledge capacityrdquo New Direc-tions for Evaluation vol 2005 Nordm 107 pp 69-79

Bruneel J DrsquoEste P y Salter A (2010) ldquoInvestigating the factors that diminish the barriers to university-industry collaborationrdquo Research Policy vol 39 Nordm 7 pp 858-868

Callon M Courtial J P y Laville F (1991) ldquoCo-word analysis as a tool for describing the network of interactions between basic and technological research The case of polymer chemistryrdquo Scientometrics vol 22 Nordm 1 pp 155-205

Callon M Courtial J P Turner W A y Bauin S (1983) ldquoFrom translations to problematic networks An introduction to co-word analysisrdquo Information (International Social Science Council) vol 22 Nordm 2 pp 191-235

Callon M Law J y Rip A (eds) (1986) Mapping the dynamics of science and technology Sociology of science in the real world Londres Mc Millan

Caloghirou Y Kastelli I y Tsakanikas A (2004) ldquoInternal capabilities and external knowledge sources complements or substitutes for innovative performancerdquo Technovation vol 24 Nordm 1 pp 29-39

Carayannis E G y Campbell D F (2009) ldquolsquoMode 3rsquo and lsquoQuadruple Helixrsquo toward a 21st century fractal innovation ecosystemrdquo International Journal of Technology Management vol 46 Nos 3-4 pp 201-234

Cassiman B y Veugelers R (2006) ldquoIn search of complementarity in innovation strategy Inter-nal rampd and external knowledge acquisitionrdquo Management Science vol 52 Nordm 1 pp 68-82

Cate F H (2014) ldquoThe big data debaterdquo Science vol 346 Nordm 6211 p 818

D O C U M E N T O D E T R A B A J O CIECTI 8 1

Chakraborty C y Joseph A (2017) ldquoMachine Learning at Central Banksrdquo Bank of England Working Paper Nordm 674 Disponible en ltdxdoiorg102139ssrn3031796gt

Chan H K Subramanian N y Abdulrahman M D-A (eds) (2016) Supply chain management in the big data era Hershey igi Global

Chen F y Neill D B (2015) ldquoHuman rights event detection from heterogeneous social media graphsrdquo Big Data vol 3 Nordm 1 pp 34-40

Christakis N A y Fowler J H (2008) ldquoThe collective dynamics of smoking in a large social ne-tworkrdquo New England journal of medicine vol 358 Nordm 21 pp 2249-2258

Cielinska O Joseph A Shreyas U Tanner J y Vasios M (2017) ldquoGauging market dynamics using trade repository data the case of the Swiss franc de-peggingrdquo Bank of England Financial Stability Paper Nordm 41 Disponible en ltdxdoiorg102139ssrn2896203gt

Clauset A Newman M E y Moore C (2004) ldquoFinding community structure in very large ne-tworksrdquo Physical Review E vol 70 Nordm 6

Comisioacuten Europea (2014) ldquoSolvency iirdquo European Commission delegated regulation (eu) 201535 Disponible en lteur-lexeuropaeuelireg_del201535ojgt

Connelly R Playford C J Gayle V y Dibben C (2016) ldquoThe role of administrative data in the big data revolution in social science researchrdquo Social Science Research vol 59 pp 1-12

Cooper R G y Kleinschmidt E J (1995) ldquoBenchmarking the firms critical success factors in new product developmentrdquo Journal of Product Innovation Management An International Publication of the Product Development amp Management Association vol 12 Nordm 5 pp 374-391

Cranmer S J Desmarais B A y Menninga E J (2012) ldquoComplex Dependencies in the Alliance Networkrdquo Conflict Management and Peace Science vol 29 Nordm 3 pp 279-313

Cronemberger F y Gil-Garciacutea J R (2019) ldquoBig Data and Analytics as Strategies to Generate Public Value in Smart Cities Proposing an Integrative Frameworkrdquo Setting Foundations for the Creation of Public Value in Smart Cities Cham Springer International Publishing pp 247-267

DrsquoEste P y Patel P (2007) ldquoUniversity-industry linkages in the UK What are the factors underlying the variety of interactions with industryrdquo Research Policy vol 36 Nordm 9 pp 1295-1313

Daas P J Puts M J Buelens B y Van den Hurk P A (2015) ldquoBig data as a source for official statisticsrdquo Journal of Official Statistics vol 31 Nordm 2 pp 249-262

8 2 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Daim T U Chiavetta D Porter A L y Saritas O (eds) (2016) Anticipating Future Innovation Pathways Through Large Data Analysis Suiza Springer International Publishing

Dasgupta P y David P A (1994) ldquoToward a new economics of sciencerdquo Research Policy vol 23 Nordm 5 pp 487-521

De-Arteaga M Herlands W Neill D B y Dubrawski A (2018) ldquoMachine learning for the developing worldrdquo acm Transactions on Management Information Systems (tmis) vol 9 Nordm 2 p 9

De Bellis N (2009) Bibliometrics and Citation Analysis From the Science Citation Index to Cybermetrics Lanham-Toronto-Plymouth The Scarecrow Press

Desmarais B A y Cranmer S J (2012) ldquoStatistical Inference for Valued-Edge Networks The Ge-neralizated Exponential Random Graph Modelrdquo plos one vol 7 Nordm 1

Di Gregorio D y Shane S (2003) ldquoWhy do some universities generate more start-ups than othersrdquo Research Policy vol 32 Nordm 2 pp 209-227

Donoho D (2017) ldquo50 years of data sciencerdquo Journal of Computational and Graphical Statistics vol 26 Nordm 4 pp 745-766

Durland M M y Fredericks K A (2005) ldquoAn introduction to social network analysisrdquo New Direc-tions for Evaluation Nordm 107 pp 5-13

Einav L y Levin J (2014) ldquoEconomics in the age of big datardquo Science vol 346 Nordm 6210

Etzkowitz H (1998) ldquoThe norms of entrepreneurial science cognitive effects of the new universi-ty-industry linkagesrdquo Research Policy vol 27 Nordm 8 pp 823-833

mdashmdashmdash Webster A Gebhardt C y Terra B R (2000) ldquoThe future of the university and the university of the future evolution of ivory tower to entrepreneurial paradigmrdquo Research Policy vol 29 Nordm 2 pp 313-330

Fredericks K A y Durland M M (2005) ldquoThe historical evolution and basic concepts of social network analysisrdquo New Directions for Evaluation Nordm 107 pp 15-23

Freeman L (1979) ldquoCentrality in Social Networks Conceptual Clarificationrdquo Social Networks vol 1 Nordm 3 enero pp 215-239

mdashmdashmdash (2004) The development of social network analysis A Study in the Sociology of Science Vancouver Empirical Press

mdashmdashmdash White D R y Romney A K (1989) Research methods in social network analysis Fairfax George Mason University Press

D O C U M E N T O D E T R A B A J O CIECTI 8 3

Giuliani E y Pietrobelli C (2016) ldquoSocial Network Analysis for Evaluating Cluster Development Programsrdquo en Maffioli A Pietrobelli C y Stucchi R (eds) The Impact Evaluation of Cluster Development Programs Methods and Practices Nueva York Inter-American Development Bank pp 37-58

Glenisson P Glaumlnzel W Janssens F y De Moor B (2005) ldquoCombining full text and bibliome-tric information in mapping scientific disciplinesrdquo Information Processing amp Management vol 41 Nordm 6 pp 1548-1572

Grant R M (1996) ldquoToward a knowledgelrmbased theory of the firmrdquo Strategic Management Journal vol 17 Nordm S2 pp 109-122

Grover V Chiang R H Liang T P y Zhang D (2018) ldquoCreating strategic business value from big data analytics A research frameworkrdquo Journal of Management Information Systems vol 35 Nordm 2 pp 388-423

Hagedoorn J (2002) ldquoInter-firm rampd partnerships an overview of major trends and patterns since 1960rdquo Research Policy vol 31 Nordm 4 pp 477-492

Hall B H Jaffe A y Trajtenberg M (2005) ldquoMarket value and patent citationsrdquo rand Journal of Economics vol 36 Nordm 1 pp 16-38

Hall D Jurafsky D y Manning C D (2008) ldquoStudying the history of ideas using topic modelsrdquo Proceedings of the Conference on Empirical Methods in Natural Language Processing Honolulu Asso-ciation for Computational Linguistics pp 363-371

Hao K (2018) ldquoWhat is machine learning We drew you another flowchartrdquo mit Technology Review Disponible en ltwwwtechnologyreviewcoms612437what-is-machine-learning -we-drew-you-another-flowchartgt

Harding M y Lamarche C (2016) ldquoEmpowering consumers through data and smart technology experimental evidence on the consequences of timelrmoflrmuse electricity pricing policiesrdquo Journal of Policy Analysis and Management vol 35 Nordm 4 pp 906-931

Harding M y Lovenheim M (2017) ldquoThe effect of prices on nutrition Comparing the impact of product-and nutrient-specific taxesrdquo Journal of Health Economics vol 53 pp 53-71

Havemann F y Scharnhorst A (2012) Bibliometric networks arXiv preprint arXiv12125211

Hong S Hyoung Kim S Kim Y y Park J (2019) ldquoBig Data and government Evidence of the role of Big Data for smart citiesrdquo Big Data amp Society vol 6 Nordm 1 Disponible en ltdoiorg1011772053951719842543gt

8 4 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Horelli L (2009) ldquoNetwork Evaluation from the Everyday Life Perspective A Tool for Capaci-ty-Building and Voicerdquo Evaluation vol 15 Nordm 2 pp 205-223

Huizingh E K (2011) ldquoOpen innovation State of the art and future perspectivesrdquo Technovation vol 31 Nordm 1 pp 2-9

Hunter D Handcock M Butts C Goodreau S y Morris M (2008) ldquoergm A package to fit simulate and diagnose exponential-family models for networksrdquo Journal of Statistical Software vol 24 Nordm 3

Janssens F (2007) ldquoClustering of scientific fields by integrating text mining and bibliometricsrdquo tesis doctoral Bruselas Universidad Catoacutelica de Lovaina

Jeppesen L B y Molin M J (2003) ldquoConsumers as co-developers Learning and innovation outsi-de the firmrdquo Technology Analysis amp Strategic Management vol 15 Nordm 3 pp 363-383

Kaumlssi O y Lehdonvirta V (2018) ldquoOnline labour index Measuring the online gig economy for policy and researchrdquo Technological Forecasting and Social Change vol 137 pp 241-248

Kessler M M (1963) ldquoBibliographic coupling between scientific papersrdquo Journal of the Association for Information Science and Technology vol 14 Nordm 1 pp 10-25

Khan M R (2018) ldquoMachine Learning for the Developing World using Mobile Communication Metadatardquo tesis doctoral Berkeley Universidad de California

Khoury M J y Ioannidis J P (2014) ldquoBig data meets public healthrdquo Science vol 346 Nordm 6213 pp 1054-1055

Kickert W J Klijn E H y Koppenjan J F (eds) (1997) Managing complex networks strategies for the public sector Londres Sage

Kilduff M y Tsai W (2003) Social Networks and Organizations Thousand Oaks Sage Publications

Kirilenko A Kyle A S Samadi M y Tuzun T (2017) ldquoThe flash crash Highlrmfrequency trading in an electronic marketrdquo The Journal of Finance vol 72 Nordm 3 pp 967-998

Klerkx L y Leeuwis C (2009) ldquoEstablishment and embedding of innovation brokers at different innovation system levels Insights from the Dutch agricultural sectorrdquo Technological Forecasting and Social Change vol 76 Nordm 6 pp 849-860

Lambiotte R Delvenne J C y Barahona M (2014) ldquoRandom walks Markov processes and the multiscale modular organization of complex networksrdquo ieee Transactions on Network Science and Engineering vol 1 Nordm 2 pp 76-90

D O C U M E N T O D E T R A B A J O CIECTI 8 5

Landry R Amara N y Lamari M (2002) ldquoDoes social capital determine innovation To what extentrdquo Technological Forecasting and Social Change vol 69 Nordm 7 pp 681-701

Lane P J y Lubatkin M (1998) ldquoRelative absorptive capacity and interorganizational learningrdquo Strategic Management Journal vol 19 Nordm 5 pp 461-477

Lazer D Kennedy R King G y Vespignani A (2014) ldquoThe parable of Google Flu traps in big data analysisrdquo Science vol 343 Nordm 6176 pp 1203-1205

Lee Y S (2000) ldquoThe sustainability of university-industry research collaboration An empirical assessmentrdquo The Journal of Technology Transfer vol 25 Nordm 2 pp 111-133

Leonard-Barton D (1992) ldquoCore capabilities and core rigidities A paradox in managing new product developmentrdquo Strategic Management Journal vol 13 Nordm S1 pp 111-125

Lerena O Barletta F Fiorentin F Suaacuterez D y Yoguel G (2018) ldquoBig data of innovation li-terature at the firm level A review based on Social Network and Text Mining techniquesrdquo 17th International Schumpeter Conference International Joseph A Schumpeter Society Seuacutel 2 de julio

Lerena O Minervini M y Yoguel G (2018) ldquoComunidades temaacuteticas en el estudio de la rela-cioacuten universidad-empresa Redes bibliomeacutetricas y mineriacutea de textosrdquo documento de trabajo Nordm 13 Buenos Aires ciecti

Leydesdorff L (1998) ldquoTheories of citationrdquo Scientometrics vol 43 Nordm 1 pp 5-25

mdashmdashmdash (2015) Bibliometricscitation networks arXiv preprint arXiv150206378

mdashmdashmdash y Etzkowitz H (1996) ldquoEmergence of a Triple Helix of university-industry-government relationsrdquo Science and Public Policy vol 23 Nordm 5 pp 279-286

Li Y Zilli D Chan H Kiskin I Sinka M Roberts S y Willis K (2017) ldquoMosquito detection with low-cost smartphones data acquisition for malaria researchrdquo arXiv preprint arXiv171106346

Lubell M Scholz J Berardo R y Robins G (2012) ldquoTesting Policy Theory with Statistical Mo-dels of Networksrdquo Policy Studies Journal vol 40 Nordm 3 pp 351-374

Luke D A y Harris J K (2007) ldquoNetwork analysis in public health history methods and applica-tionsrdquo Annu Rev Public Health vol 28 pp 69-93

mdashmdashmdash Shelton S Allen P Carothers B J y Mueller N B (2010) ldquoSystems analysis of co-llaboration in 5 national tobacco control networksrdquo American Journal of Public Health vol 100 Nordm 7 pp 1290-1297

8 6 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Luke D A Wald L M Carothers B J Bach L E y Harris J K (2013) ldquoNetwork influences on dissemination of evidence-based guidelines in state tobacco control programsrdquo Health Educa-tion amp Behavior vol 40 Nordm 1_suppl pp 33S-42S Disponible en lt1011771090198113492760gt

Lundvall B-Aring (2007) ldquoNational innovation systems - analytical concept and development toolrdquo Industry and Innovation vol 14 Nordm 1 pp 95-119

nih (2018) nih Strategic Plan for Data Science 2018 Disponible en ltdatasciencenihgovsitesde-faultfilesNIH_Strategic_Plan_for_Data_Science_Final_508pdfgt

Płoszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the effects of regional interventions A look beyond current Structural Fundsrsquo practice Varsovia Ministerio de Desarrollo Regional pp 282-300

Malvicino F y Yoguel G (2017) ldquoBig Data Avances recientes a nivel internacional y perspectivas para el desarrollo localrdquo documento de trabajo Nordm 3 Buenos Aires ciecti

Mbiti I y Weil D N (2011) ldquoMobile banking The impact of M-Pesa in Kenyardquo nber Working Papers Nordm 17129 National Bureau of Economic Research

McAbee S T Landis R S y Burke M I (2017) ldquoInductive reasoning The promise of big datardquo Human Resource Management Review vol 27 Nordm 2 pp 277-290

Mergel I Rethemeyer R K y Isett K (2016) ldquoBig data in public affairsrdquo Public Administration Review vol 76 Nordm 6 pp 928-937

Moreno J L (1934) Who shall survive A new approach to the problem of human interrelations Nervous and mental disease monograph series Nordm 58 Washington Nervous and Mental Disease Publi-shing Co Disponible en ltdxdoiorg10103710648-000gt

Njuguna C y McSharry P (2017) ldquoConstructing spatiotemporal poverty indices from big datardquo Journal of Business Research vol 70 pp 318-327

Noyons E C M (2004) ldquoScience Maps within a Science Policy Contextrdquo en Moed H F Glaumlnzel W y Schmoch U Handbook of Quantitative Science and Technology Research Dordrecht Kluwer Academic Publishers pp 237-255

NRC (2005) Network science Washington National Research Council of the National Academies

Obaya M Robert V Lerena O y Yoguel G (2019) ldquoDynamic capabilities in the software and information services industry A case-study analysis in Argentina from a business model pers-pectiverdquo Innovation and Development pp 1-28

D O C U M E N T O D E T R A B A J O CIECTI 8 7

Panagiotopoulos P Bowen F y Brooker P (2017) ldquoThe value of social media data Integrating crowd capabilities in evidence-based policyrdquo Government Information Quarterly vol 34 Nordm 4 pp 601-612

Parks M R (2014) ldquoBig data in communication research Its contents and discontentsrdquo Journal of Communication vol 64 Nordm 2 pp 355-360

Patel P y Pavitt K (1994) ldquoNational innovation systems why they are important and how they might be measured and comparedrdquo Economics of Innovation and New Technology vol 3 Nordm 1 pp 77-95

Pavitt K (1984) ldquoSectoral patterns of technical change towards a taxonomy and a theoryrdquo Research Policy vol 13 Nordm 6 pp 343-373

Penuel W R Sussex W Korbak C y Hoadley C (2006) ldquoInvestigating the potential of using social network analysis in educational evaluationrdquo American Journal of Evaluation vol 27 Nordm 4 pp 437-451

Penuel W R Riel M Krause A E y Frank K A (2009) ldquoAnalyzing Teachers Professional Inte-ractions in a School as Social Capital A Social Network Approachrdquo Teachers College Record vol 111 Nordm 1 pp 124-163

Perkmann M Tartari V McKelvey M Autio E Brostroumlm A Drsquo Este P Fini R Geuna A Grimaldi R Hughes A Krabel S Kitson M Llerena P Lissoni F Salter A y Sobre-ro M (2013) ldquoAcademic engagement and commercialisation A review of the literature on university-industry relationsrdquo Research Policy vol 42 Nordm 2 pp 423-442 Disponible en ltdxdoiorg102139ssrn2088253gt

Perkmann M y Walsh K (2007) ldquoUniversity-industry relationships and open innovation Towards a research agendardquo International Journal of Management Reviews vol 9 Nordm 4 pp 259-280

Ploszaj A (2011) ldquoNetworks in Evaluationrdquo en Olejniczak K Kozak M y Bienias S (eds) Evalua-ting the Effects of Regional Interventions A Look Beyond Current European Union Practice Varsovia mrr

Popelier L (2018) ldquoA scoping review on the current and potential use of social network analysis for evaluation purposesrdquo Evaluation vol 24 Nordm 3 pp 325-352

8 8 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

Powell W W Koput K W Bowie J I y Smith-Doerr L (2002) ldquoThe spatial clustering of scien-ce and capital Accounting for biotech firm-venture capital relationshipsrdquo Regional Studies vol 36 Nordm 3 pp 291-305

Power D J (2014) ldquoUsing lsquoBig Datarsquo for analytics and decision supportrdquo Journal of Decision Systems vol 23 Nordm 2 pp 222-228

mdashmdashmdash (2016) ldquoData science supporting decision-makingrdquo Journal of Decision systems vol 25 Nordm 4 pp 345-356

R Development Core Team (2008) R A language and environment for statistical computing Viena R Foundation for Statistical Computing Disponible en ltwwwR-projectorggt

Radicchi F Castellano C Cecconi F Loreto V y Parisi D (2004) ldquoDefining and identifying communities in networksrdquo Proceedings of the National Academy of Sciences of the United States of America vol 101 Nordm 9 pp 2658-2663

Rip A y Courtial J-P (1984) ldquoCo-word maps of biotechnology an example of cognitive sciento-metricsrdquo Scientometrics vol 6 pp 381-400

Rothaermel F T Agung S D y Jiang L (2007) ldquoUniversity entrepreneurship a taxonomy of the literaturerdquo Industrial and Corporate Change vol 16 Nordm 4 pp 691-791

Rotolo D Rafols I Hopkins M M y Leydesdorff L (2017) ldquoStrategic intelligence on emerging technologies Scientometric overlay mappingrdquo Journal of the Association for Information Science and Technology vol 68 Nordm 1 pp 214-233

Salton G y McGill M J (1983) Introduction to Modern Information Retrieval Nueva York McGraw-Hill

Scott T A (2015) ldquoAnalyzing Policy Networks Using Valued Exponential Random Graph Models Do Government-Sponsored Collaborative Groups Enhance Organizational Networksrdquo Policy Studies Journal vol 44 Nordm 2

Shane S A (2004) Academic entrepreneurship University spinoffs and wealth creation Cheltenham Edward Elgar Publishing

Shi Y Shan Z Li J y Fang Y (2017) ldquoHow China Deals with Big Datardquo Annals of Data Science vol 4 Nordm 4 pp 433-440

Shimbel A (1953) ldquoStructural parameters of communication networksrdquo Bulletin of Mathematical Biophysics vol 15 Nordm 4 pp 501-507

D O C U M E N T O D E T R A B A J O CIECTI 8 9

Siegel D S Waldman D y Link A (2003) ldquoAssessing the impact of organizational practices on the relative productivity of university technology transfer offices an exploratory studyrdquo Research Policy vol 32 Nordm 1 pp 27-48

Small H (1973) ldquoCo-citation in the scientific literature A new measure of the relationship be-tween two documentsrdquo Journal of the Association for Information Science and Technology vol 24 Nordm 4 pp 265-269

Stevens V y Verhoest K (2016) ldquoA Next Step in Collaborative Policy innovation research Analy-sing Interactions using Exponential Random Graph Modellingrdquo Innovation Journal vol 21 Nordm 2 pp 1-20

Teece D J (1986) ldquoProfiting from technological innovation Implications for integration collabo-ration licensing and public policyrdquo Research Policy vol 15 Nordm 6 pp 285-305

Tether B S (2002) ldquoWho co-operates for innovation and why an empirical analysisrdquo Research Policy vol 31 Nordm 6 pp 947-967

Tetlock P C (2007) ldquoGiving content to investor sentiment The role of media in the stock marketrdquo The Journal of Finance vol 62 Nordm 3 pp 1139-1168

The Economist (2015) ldquoOpen government data Out of the boxrdquo Disponible en ltwwwecono-mistcomnewsinternational21678833-open-data-revolution-has-not-lived-up-expecta-tions-it-only-gettinggt

Thovex C y Trichet F (2012) ldquoSemantic social networks analysis towards a sociophysical knowledge analysisrdquo Social Network Analysis and Mining vol 2 Nordm 1 pp 1-15

Todorov R y Winterhager M (1990) ldquoMapping Australian geophysics A co-heading analysisrdquo Scientometrics vol 19 Nos 1-2 pp 35-56

Valente T W (2010) Social networks and health Models methods and applications Nueva York-Oxford Oxford University Press

mdashmdashmdash Palinkas L A Czaja S Chu K-H y Brown C H (2015) ldquoSocial Network Analysis for Program Implementationrdquo plos one vol 10 Nordm 6 Disponible en ltdoiorg101371journalpone0131712gt

Van Eck N J y Waltman L (2009a) ldquoHow to normalize cooccurrence data An analysis of some well-known similarity measuresrdquo Journal of the Association for Information Science and Technology vol 60 Nordm 8 pp 1635-1651

9 0 MEacuteTODOS Y APLICACIONES DE LA CIENCIA DE DATOS PARA LAS POLIacuteTICAS DE CTI

mdashmdashmdash (2009b) ldquovosviewer A Computer Program for Bibliometric Mappingrdquo erim Report Series Research in Management ers-2009-005-lis

mdashmdashmdash (2011) ldquoText mining and visualization using vosviewerrdquo arXiv preprint arXiv11092058

mdashmdashmdash (2013) vosviewer manual Leiden Universiteit Leiden 1(1)

Wasserman S y Faust K (2007) Anaacutelisis de redes sociales Meacutetodos y aplicaciones Madrid Centro de Investigaciones Socioloacutegicas

West J y Gallagher S (2006) ldquoChallenges of open innovation the paradox of firm investment in open-source softwarerdquo rampd Management vol 36 Nordm 3 pp 319-331

Wong P K Ho Y P y Autio E (2005) ldquoEntrepreneurship innovation and economic growth Evi-dence from gem datardquo Small Business Economics vol 24 Nordm 3 pp 335-350

Wyllys R E (1975) ldquoMeasuring scientific prose with rank-frequency (Zipf) curves-new use for an old phenomenonrdquo Proceedings of the American Society for Information Science vol 12 pp 30-31

Ye X Li S Sharag-Eldin A Tsou M H y Spitzberg B (2017) ldquoGeography of Social Media in Public Response to Policy-Based Topicsrdquo Geospatial Data Science Techniques and Applications crc Press pp 221-232

Zegers F E y Ten Berge J M (1985) ldquoA family of association coefficients for metric scalesrdquo Psycho-metrika vol 50 Nordm 1 pp 17-24

Zhang L Wang S y Liu B (2018) ldquoDeep learning for sentiment analysis A surveyrdquo Wiley Interdis-ciplinary Reviews Data Mining and Knowledge Discovery vol 8 Nordm 4

Zipf G K (1949) Human behavior and the principle of least-effort An introduction to human ecology Oxford Addison-Wesley

ciecti 2019

APRENDIZAJE AUTOMAacuteTICOCLUSTERINGANAacuteLISIS DE REDES SOCIALES

MINERIacuteA DE TEXTOS

CIENCIA DE DATOS BIG DATAOctavio Lerena es licenciado en Economiacutea Poliacutetica por la Universidad Nacional de General Sarmiento (ungs) magiacutester en Desarrollo Econoacutemico con orientacioacuten en Organizacioacuten Industrial y Cambio Tecnoloacutegico de la Universidad Nacional de San Martiacuten y candidato a doctor en Desarrollo Econoacutemico con orientacioacuten en Desarrollo Productivo Cientiacutefico y Tecnoloacutegico por la Universidad Nacional de Quilmes Se desempentildea como investigador-docente del Instituto de Industria (idei-ungs) donde integra el Aacuterea de Investigacioacuten en Economiacutea del Conocimiento Sus aacutereas de investigacioacuten son la economiacutea de la innovacioacuten la economiacutea computacional y la economiacutea del desarrollo Es autor de trabajos sobre anaacutelisis de redes sociales economiacutea evolucionista sistemas complejos y modelos basados en agentes En el ciecti coordina la liacutenea ldquoMeacutetodos y aplicaciones de la ciencia de datos para las poliacuteticas de ctirdquo

DT16DT

16

Page 12: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 13: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 14: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 15: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 16: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 17: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 18: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 19: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 20: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 21: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 22: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 23: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 24: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 25: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 26: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 27: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 28: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 29: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 30: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 31: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 32: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 33: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 34: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 35: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 36: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 37: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 38: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 39: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 40: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 41: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 42: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 43: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 44: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 45: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 46: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 47: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 48: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 49: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 50: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 51: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 52: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 53: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 54: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 55: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 56: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 57: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 58: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 59: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 60: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 61: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 62: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 63: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 64: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 65: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 66: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 67: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 68: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 69: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 70: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 71: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 72: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 73: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 74: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 75: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 76: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 77: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 78: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 79: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 80: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 81: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 82: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 83: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 84: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 85: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 86: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 87: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 88: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,
Page 89: CIENCIA DE DATOS BIG DATA...El procesamiento y análisis de los datos masivos se sustentan en una serie de técnicas y capacidades individuales y organizacionales (McAbee et al. ,