Descripción
¿Qué es Big Data?
Es el conjunto de datos, cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.
Módulo 1: Introducción sistemas de información
- Introducción. BI y DWH
- Sistemas operativos (LINUX, introducción a DOS y PowerShell)
- Conceptos generales de Linux
- Comandos, variables de entorno y scripts
- Control y planificación de procesos
- Sistemas de almacenamiento y sistemas de ficheros
- Administración Básica de Linux
- Introducción DOS y Powershell
- Técnicas Data Warehousing y SQL
- Conceptos generales Data Warehouse
- Gestor de base de datos.
- Lenguaje de manipulación de datos (DML), sentencias Select, insert, update, delete, merge
- Lenguaje de definición de datos (DDL), sentencias Create, Alter, Drop
- Operadores aritméticos, lógicos, de relación
- Funciones de fila simple, de grupo. Subselects, joins
- ETL, Extracción, Transformación y Carga de datos
- Introduction
- Database Vs Data Warehouse
- Preparacíon de entornos e instalacion
- Principales algoritmos en integracion de datos
- Principales ETL del mercado: (Pentaho, Talend, Qulick..)
- Lectura y escritura de ficheros planos y base de datos
- Uso de las principales funciones (agregación, join, uniones, sorters,..)
- Carga de un modelo de datos
Módulo 2: Bases de datos NOSQL
- Introducción a las bases de datos NoSQL
- ¿Qué son?
- Tipos de BBDD NoSQL
- Ventajas y desventajas
- Introducción a BBDD NOSQL orientada a documentos (MongoDB)
- CRUD (Create, Read, Update and Delete) y el shell de Mongo DB
- Uso de cursores en MongoDB
- Sharding: distribución de la información en múltiples servidores
- Motores de almacenamiento en MongDb e índices
- Introducción a BBDD NOSQL orientada a grafos (Neo4j)
- Introducción.
- Operaciones y análisis de grafos
- Cypher Query Languaje
Módulo 3: Visualización
- La Visualización de Datos
- Cómo desarrollar visualizaciones efectivas
- Recogida de datos y análisis
- Principales herramientas del mercado: Tableau, Qlick Sense, Power BI..
Módulo 4: Python para análisis de datos
- Introducción
- Tipos: cadenas, listas, diccionarios, tuplas, etc
- Iteración: Loops e ifs
- Lectura y escritura de ficheros
- Librerías: numpy, matplotlib, pandas, etc
- Introducción a modelos predictivos
Módulo 5: HADOOP y su ecosistema
- Apache Hadoop: Introducción
- El sistema de almacenamiento de ficheros HDFS y MapReduce
- Ecosistema Hadoop: hive, sqoop, hue, ...
- Arquitectura de un cluster
- Arquitectura Yarn
- Tipos de despliegue Hadoop
- Streaming
- Seguridad
Módulo 6: Spark
- Introducción a Apache Spark
- Módulos Spark:
- Spark Sql
- Spark Streaming
- Spark MLlib
- GraphX
- Creación y manejo de RDDs
- Pair RDDs
- Spark vs MapReduce
- HDFS y Spark
- Spark en cluster
- Programación en Spark:
- Spark Java API (Javadoc)
- Spark R API (Roxygen2)
- Scala API
- PySpark Python API
- Introducción a la programación en Scala y PySpark
- Estructuras de control básicas
- Tipos de datos
- Colecciones
- Funciones principales
Proyecto Final de Máster.