24
Manejo y Almacenamiento de Bases de Datos Proyecto Paisajes Sostenibles para la Amazonia Karolina Argote Christian Sosa Reunión Annual SAL Marzo 3, 2016 Cali, Colombia

Presentación: manejo y almacenamiento de bases de datos

Embed Size (px)

Citation preview

Page 1: Presentación: manejo y almacenamiento de bases de datos

Manejo y Almacenamiento de Bases de DatosProyecto Paisajes Sostenibles para la Amazonia

Karolina ArgoteChristian SosaReunión Annual SALMarzo 3, 2016Cali, Colombia

Page 2: Presentación: manejo y almacenamiento de bases de datos

“La información es poder si se usa con rapidez y eficacia” Katherine Neville

Page 3: Presentación: manejo y almacenamiento de bases de datos

Objetivos• Diseñar la base de datos SAL, que integre y relacione todos

los datos colectados en el proyecto: económicos, sociales, biofísicos y geográficos.

• Crear una BD amigable, de fácil uso, automatizada que facilite la consulta de datos de cualquier actor que lo requiera en el Proyecto.

• Proveer de manera organizada y sistematizada los datos del proyecto a nivel de predio y a nivel de hogar que permitan realizar el escalamiento de los resultados a las Unidades de Paisaje.

Page 4: Presentación: manejo y almacenamiento de bases de datos

La Base de Datos es Transversal a todos los objetivos del proyecto

Page 5: Presentación: manejo y almacenamiento de bases de datos

Principios de la base de datos SAL1. Redundancia mínima: Control para eliminar duplicidades innecesarias. Si existen redundancias físicas necesarias serán controladas por el mismo sistema para no generar inconsistencias.

2. Geo-referenciación de TODA la información

3. Integridad de los datos: Medidas de seguridad para impedir que se introduzcan datos erróneos. Bien sea por motivos físicos (hardware) o de operación (datos incoherentes).

4. Consultas complejas optimizadas. Queries

5. Control de acceso a la base de datos: Sistema de auditoría para mantener el control de acceso a la base, con el objeto de saber qué o quién realizó una determinada modificación y en qué momento.

6. Respaldo y recuperación: Backup semanal

Page 6: Presentación: manejo y almacenamiento de bases de datos

Sistemas de gestión de bases de datos

SQL (Structured Query Language) es un lenguaje de programación para trabajar con bases de datos relacionales. Access utiliza SQL para trabajar con datos. Porque SQL?

Es un lenguaje fácil de leer y entender, incluso para un principiante.SQL es un estándar internacional que es reconocido por los organismos de normalización como ISO y ANSI.SQL permite describir conjuntos de datos y ayudarnos a responder preguntas mediante consultas avanzadas.

Access es Posiblemente, la aplicación más compleja de la suite Office. Contiene muy buenas herramientas de diseño y programación de bases de datos relacionales.

+

Page 7: Presentación: manejo y almacenamiento de bases de datos

Actividades Realizadas

1. Generación de identificadores únicos por predio, lote, y puntos de muestreo.

2. Diseño de la estructura general de la base de datos y asignación de relaciones.

3. Organización de los datos preliminares del muestreo de suelos realizado.

4. Gestion y organización del repositorio de datos SAL en los servidores del CIAT y del

FTP para compartir datos con los actores externos (socios, colaboradores, tesistas)

Page 8: Presentación: manejo y almacenamiento de bases de datos

Actividades Realizadas: (1) Generación de identificadores únicos por predio, lote, y puntos de muestreo.

Ai1

Ai2

Ai3

Ai4

Moisture0-5cm

Moisture0-5cm

Moisture0-5cm

0-5cm0-10cm

10-20cm

20-35cm

35-50cm

Moisture

Bi1

Bi2

Bi3

Bi4

Moisture0-5cm

Moisture0-5cm

Moisture0-5cm

Ci1

Ci2

Ci3

Ci4

Moisture0-5cm

Moisture0-5cm

Moisture0-5cm

0-5cm0-10cm

10-20cm

20-35cm

35-50cm

Moisture

0-5cm0-10cm

10-20cm

20-35cm

35-50cm

Moisture

LANDCOVER XX FARM ZZZ

Con base al esquema gráfico del muestreo de suelos se construyen los identificadores únicos de cada uno de los puntos de muestreo, ubicados en lotes en las coberturas dentro de los predios que a su vez están dentro de una unidad de paisaje específica.

Page 9: Presentación: manejo y almacenamiento de bases de datos

Actividades Realizadas: (1) Generación de identificadores únicos por predio, lote, y puntos de muestreo.

• ID_FARM: Cáda finca tiene un ID alfanumérico único compuesto por tres dígitos. El Colombia las fincas de CIPAV inician con la letra (C) y las fincas de SINCHI con la letra (S), seguido de dos dígitos numéricos. Ex. C09. En Perú todas las fincas inician con la letra (Y) de Yurimaguas seguidos de dos digitos numéricos. Ex.Y01• COVER_CODE: Cáda cobertura de la tierra tiene un ID compuesto por dos letras una mayúscula y

otra minúscula que permiten reconocer fácilmente la cobertura. Ex. Bn: Bosque Natural, Pl: Plátano.

• PLOT_CODE: Corresponde a las áreas de muestreo dentro de cada lote. En los exploratorios (e) donde se muestrea un punto se denomina(Ae) y en las implementaciones (i) y testigos (t) que se realiza por un transecto de tres puntos se denominan (Ai, Bi, Ci y At, Bt, Ct). Igual para Colombia y Perú.

• ID_SOILPOINT: Corresponde al ID asignado a cada uno de los puntos de muestreo dentro de cada área de muestreo, por lote, por cobertura. Ex. C09Bn_Ae1

ID_SOILPOINT = ID_FARM & COVER_CODE & PLOT_CODE

Page 10: Presentación: manejo y almacenamiento de bases de datos

Actividades Realizadas: (2) Diseño de la estructura general de la base de datos y asignación de relaciones.

FARM_DATA

ID_FARMID_UP…

SOCIAL_DATA

ID_HOGARID_FARM……ECONOMIC_DATA

ID_HOGARID_FARM…

Social 1

Social 2

Social 3

Econo_1

Econo_ 2

Econo_3

Soil_1Soil_2

Soil_3

LANDCOVER

ID_LANDCOVERID_FARM…

SAMPLE_TYPEID_TYPEID_LANDCOVER…

PLOTID_PLOTID_TYPE…

SITEID_SITEID_PLOT…

Relación uno a muchos

Relación uno a uno

DEPTH_AID_DEPTH_AID_SITE…

DEPTH_BID_DEPTH_BID_SITE…

Soil_1Soil_2

Soil_3

UP

ID_UP……

Page 11: Presentación: manejo y almacenamiento de bases de datos

Actividades Realizadas: (4) Gestion y organización del repositorio de datos SAL en los servidores del CIAT y del FTP para compartir datos con los actores externos.

Page 12: Presentación: manejo y almacenamiento de bases de datos

Actividades Planeadas para 2016Reunion por equipos

Estaremos contactando a cada uno de los equipos de trabajo, con el fin de enteder los datos a organizar en la base de datos, necesitamos entender las variables usadas por cada equipo caracteristicas, definición, unidades, restricciones, rangos etc:

Febrero: Equipo Suelos (Mirjam-César)Marzo: Equipo Macrofauna (Patrick)Abril: Equipo Socioeconómico (Alex)

Adicionalemente socializariamos el protocol para la estandarizacion en la entrega de datos.

Page 13: Presentación: manejo y almacenamiento de bases de datos

Actividades Planeadas para 2016• MARZO-ABRIL: Crear protocolos para el manejo y distribución de datos en el Proyecto

SAL.• MARZO-ABRIL: Generar esquema y estructura final para la base de datos SAL.• MARZO: Base de datos para la línea base del Componente Coberturas-UP consolidada

para predios de implementacion Perú.• JUNIO-JULIO: Base de datos para la línea base del Componente Coberturas-UP

consolidada para predios de implementacion Colombia.• AGOSTO: Base de datos para la línea base del Componente Suelos y Macrofauna

consolidada para Colombia.• OCTUBRE: Base de datos para la línea base del Componente Suelos y Macrofauna

consolidada para Perú.• …

Page 14: Presentación: manejo y almacenamiento de bases de datos

Plataformas para compartir datos en

SAL

FTP

Page 15: Presentación: manejo y almacenamiento de bases de datos

FTP (de la sigla en inglés de File Transfer Protocol, 'Protocolo de Transferencia de Archivos') es un protocolo de red para la transferencia de archivos entre sistemas conectados a una red TCP (Transmission Control Protocol), basado en la arquitectura cliente-servidor.ftp://ftp.ciat.cgiar.org/DAPA/projects/SAL-project

FTP Para compartir datos desde CIAT a los socios

(No viceversa!)

Pueden acceder desde cualquier computadora con acceso a internet!

Desde cualquier navegador y Sistema operativo.

Cualquier persona con este link puede descarar cualquiera de los archivos alli contenidos. Porfavor manejarlo con prudencia, solo personas del Proyecto SAL!

Page 16: Presentación: manejo y almacenamiento de bases de datos

Slideshare es un sitio web de alojamiento de diapositivas que ofrece la posibilidad de subir y compartir en público o en privado presentaciones de diapositivas en PowerPoint, OpenOffice; Adobe PDF, Microsoft Word, archivos de texto e incluso algunos formatos de audio y vídeo.http://www.slideshare.net/bmuproject

2 seguidores! …Hay slides muy interesantes aquí, Quisieras unirte?

Page 17: Presentación: manejo y almacenamiento de bases de datos

Flickr es un sitio de Internet para almacenar imágenes y videos creado por Ludicrop en 2004 y comprado por Yahoo! el año siguiente. Además de ser un sitio para compartir y almacenar fotografías, flickr se utiliza para buscar y adjuntar fotografías en los blogs, paginas web y en otras redes sociales. Flickr, tiene 1 Terabyte de espacio de almacenamiento gratuito con lo que podríamos guardar medio millón de fotos con una resolución de 6 megapíxeles.https://www.flickr.com/photos/131075783@N02/albums

Por el momento tenemos 11 albumes (uno por actividad de campo realizada), compuestos por 495 fotos.

Pero solo tenemos 3 seguidores, Porfavor Siguenos!

Page 18: Presentación: manejo y almacenamiento de bases de datos

Mendeley es un gestor de referencias bibliográficas, gratuito y multiplataforma (Windows, Linux y Mac) que combina una versión local con una versión web lo que permite consultar información desde cualquier ordenador con conexión a Internet.

16 seguidores, (vamos mejorando) Quisieras unirte?

Permite gestionar y compartir referencias bibliográficas y documentos de investigación, encontrar nuevas referencias y documentos y colaborar en línea. Su comunidad está formada por 3 millones de usuarios y dispone de una base de datos con más de 100 millones de referencias. Desde 2013 pertenece al grupo editorial Elsevier.https://www.mendeley.com/groups/6880581/sustainable-amazonian-landscapes/members/

Page 19: Presentación: manejo y almacenamiento de bases de datos

En todos los centros asociados a CGIAR se está implementando la política de libre acceso a los datos, que consiste en publicar las bases de datos de los proyectos que se desarrollan en CIAT de una manera documentada.

Ejemplo

Dataverse es una aplicación web de código abierto desarrollada por la Universidad de Harvard para compartir, preservar, citar y analizar datos de investigación. Permite poner los datos de una investigación a disposición de los demás y a su vez replicar e incluso mejorar otras investigaciones.http://thedata.harvard.edu/dvn/dv/CIAT

Un repositorio Dataverse aloja varios dataverses. Cada Dataverse contiene un datatset u otros dataverses, y cada conjunto de datos contiene metadatos descriptivos y archivos de datos (incluyendo la documentación y el código que acompañan a los datos).

Normaliza la cita de los conjuntos de datos para que sea más fácil para los investigadores publicar sus datos y obtener un mejor reconocimiento de su trabajo. Permite que los datos científicos sean lo más accesibles, reutilizables, y abiertos posibles.

Page 20: Presentación: manejo y almacenamiento de bases de datos
Page 21: Presentación: manejo y almacenamiento de bases de datos
Page 22: Presentación: manejo y almacenamiento de bases de datos
Page 23: Presentación: manejo y almacenamiento de bases de datos
Page 24: Presentación: manejo y almacenamiento de bases de datos

Colaboraciones

Estamos disponibles para colaborar con todos los equipos del proyecto en el manejo y almacenamiento de datos!

Entre todos construiremos una eficaz base de datos!