Magíster en Big Data y Analytics

Magíster

Online

Precio a consultar

Descripción

  • Tipología

    Magíster

  • Metodología

    Online

  • Duración

    12 Meses

El Máster en Big Data Analytics o analítica de datos avanzado está diseñado y estructurado por profesionales de la materia, con dilatada experiencia e el sector. El programa académico se encuentra estructurado de la siguiente manera:

Herramientas analíticas y nociones básicas de Big Data: en esta fase se dará una visión general de los conceptos de la arquitectura Big Data y Analítica avanzada de datos. Se explicará el concepto de computación distribuida así como las ventajas que ofrece y se introducirán las principales herramientas que se utilizan para procesar y analizar grandes cantidades de datos.

Infraestructura Big Data y analítica avanzada de datos: en esta fase se profundizará en la arquitectura de un entorno Big Data, conociendo cada una de las herramientas imprescindibles que nos ayudarán a afrontar un proyecto con las máximas garantías posibles de éxito, tanto en la parte de procesamiento como en la de analítica.

Estudio y modelado de los datos: en esta fase explicará cómo analizar los datos disponibles y su naturaleza desde el punto de vista morfológico, de cara a realizar un modelado que permita su explotación óptima.

Diseño de un modelo escalable: se centrará en comprender los modelos actuales y, habiendo comprendido el dato que los puede alimentar, aprender a generar un nuevo modelo escalable encaminado a obtener y mejorar los resultados actuales. Se explicará la diferencia entre trabajar de forma local y distribuida.

A tener en cuenta

Conocer en profundidad una arquitectura Big Data así como todas las herramientas necesarias para el procesamiento/explotación de los datos.

Utilizar el valor de aplicar Big Data para obtener los mejores resultados a través del “Big Data Analytics” y analítica avanzada de datos

Aprender a utilizar todas las herramientas necesarias de un Data Science.

Adquirir conocimientos necesarios sobre el uso, análisis y la explotación de los datos.

El Máster está enfocado a aquellas personas que quieran desarrollar o fortalecer las capacidades técnicas y analíticas necesarias para una carrera de éxito en Analítica de Negocio o Big Data.

Igualmente está dirigido a profesionales en áreas como Tecnología, Negocio o departamentos cuantitativos o analíticos que necesitan conocer las técnicas y métodos del “business analytics” para tomar mejores decisiones de negocio, tener una visión más global de la organización o crear innovación en grandes compañías.

También para aquellas personas que, teniendo parte de esas capacidades analíticas, deseen fortalecer sus capacidades técnicas para poder desarrollar una carrera en la industria del Big Data.

Titulación Universitaria o experiencia profesional acreditada en el área

Máster Big Data Analytics (Máster postgrado académico expedido por CEUPE - Centro Europeo de Postgrado)

Professional Certificate - Big Data Analytics

ACCESO A UN AÑO EN IDIOMAS

Como valor añadido al programa se le facilita al alumno la opción de un año de estudios en el aprendizaje de uno de los siguientes idiomas: Inglés británico, inglés americano, francés, alemán, italiano, ruso y portugués (de Brasil)

El centro se pondrá en contacto contigo una vez envíes tus datos a través del formulario

Preguntas & Respuestas

Añade tu pregunta

Nuestros asesores y otros usuarios podrán responderte

¿Quién quieres que te responda?

Déjanos tus datos para recibir respuesta

Sólo publicaremos tu nombre y pregunta

Opiniones

Materias

  • Arquitectura
  • Redes
  • Modelado
  • Entrenamiento
  • Modelos
  • Explotación
  • Organización
  • Clientes
  • Industria
  • Big Data

Temario

CONTENIDO

HERRAMIENTAS ANALÍTICAS Y NOCIONES DE BIG DATA

  • ¿Qué es? Múltiples definiciones. Poner énfasis en que los mismos datos se convierten en big data en función de lo que se quiera hacer con ellos. Ejemplo: 100M registros, hacer una media = no big data, entrenar un modelo complejo = big data.
  • Principio de funcionamiento: MapReduce. Ejemplos clásicos para entender el concepto (contar palabras en un texto, etc.).
  • Concepto de Data Lake
  • Concepto ETL, ELT
  • La importancia del metadato y el data governance para la analítica.
  • Los Datalabs en un modelo de integración analítica con el Data Lake y el Gobierno del dato.
INFRAESTRUCTURA BIG DATA

  • Hadoop: Almacenamiento y procesamiento distribuido
  • Herramientas de obtención de datos: Sqoop y Flume.
  • Motores de consulta SQL:
  • Hive e impala:
  • Principio de funcionamiento.
  • Sintaxis y funciones propias de HiveQL e Impala.
  • Introducción y principio de funcionamiento.
  • DataFrames & Spark SQL.
  • Configuración y ejecución
  • Buenas prácticas.
  • Interfaces:
  • Web (Hue,Oozie Ambari,Cloudera Manager).
  • Bases de datos NoSQL:
  • Hbase, Cassandra, MongoDB y Neo4J
  • Procesamiento de datos en Streaming
LENGUAJES DE PROGRAMACIÓN DE UN DATA SCIENCE

  • Python: lenguaje vehicular del máster.
  • Principios, sintaxis y buenas prácticas. Casos típicos de utilización.
  • Tipos.
  • Declaración de variables.
  • Control de flujo (condicionales, bucles, etc.).
  • Input / Ouput (lectura y escritura de ficheros, salida por pantalla, etc.).
  • Funciones.
  • Orientación a objetos.
  • Distribución del código (módulos, paquetes y librerías).
  • Gestión de entornos: Anaconda, virtualenv.
  • Notebooks analíticos: Jupyter (Notebook, Lab). ¿Por qué utilizarlos? Casos típicos de uso.
  • Entornos de desarrollo: PyCharm, Spyder. ¿Qué ofrece un entorno de desarrollo frente a un editor de texto?
  • R: todavía es muy utilizado en estadística y por perfiles provenientes de ciencias puras, se darían algunas nociones del mismo.Principios y sintaxis. Casos típicos de utilización.
  • IDE’s: RStudio.
  • Control de versiones con Git.
  • Fundamentos del control de versiones.
  • Conceptos básicos (branch, commit, pull, push, merge).
  • Metodologías de versionado: Gitflow.
HERRAMIENTAS - LIBRERÍAS

LIBRERÍAS PARA MACHINE LEARNING
  • scikit-learn: exclusiva para Python. Librería genérica de Machine Learning. Funcionamiento en local con opción a distribuir. Idónea para prototipado.
  • XGboost: tiene API en múltiples lenguajes. Modelo de boosting muy probado y ampliamente utilizado. Open Source desarrollado para competir en Kaggle.
  • LightGBM: tiene API en múltiples lenguajes. Modelo de boosting muy probado y ampliamente utilizado. Desarrollado por Microsoft, Open Source.
  • catboost: API en múltiples lenguajes. Modelo de boosting especializado en datos con variables categóricas. Desarrollada por Yandex.
  • Spark ML: API en múltiples lenguajes, distribuida de forma nativa con el motor de Spark.
  • TensorFlow: librería de referencia para el desarrollo de redes neuronales, tiene API en múltiples lenguajes aunque la de Python es la más ampliamente usada.
  • Keras: API de Python consistente en una capa de abstracción para el manejo de las librerías de TensorFlow, CNTK y Theano a la hora de realizar modelos de redes neuronales
  • fbprophet:es una librería en Python y R que implementa un procedimiento para pronosticar datos de series temporales basados ??en un modelo aditivo en el que las tendencias no lineales se ajustan a la estacionalidad anual, semanal y diaria, más los efectos festivos
  • H2O: framework para el aprendizaje automático desarrollado por H2O.ai en Java. Tiene API en múltiples lenguajes e introduce el concepto de AutoML para la generación automática de modelos.
  • Caret: exclusiva para R. Desarrollo de modelos de aprendizaje automático en general.
LIBRERÍAS PARA INTERACTUAR CON ENTORNOS BIG DATA
  • impyla: cliente python para implementaciones de HiveServer2 con motores de búsqueda distribuida como Impala o Hive.
  • Apache Arrow: API para múltiples lenguajes (C++, Python, Ruby…) para almacenamiento de datos representados de forma columnar. Permite intercambiar de forma nativa datos entre diferentes plataformas (Python, R, Hadoop, Spark, etc.).
  • HdfsCLI: API de WebHDFS para Python.
  • Ibis: toolbox para conectar Python con distintos componentes de Hadoop como HDFS.
  • PySpark: API de Python para manejo de Spark.
LIBRERÍAS PARA TRATAMIENTO DE DATOS EN MEMORIA Y CÁLCULO NUMÉRICO
  • NumPy: principal librería de álgebra lineal en Python.
  • pandas: principal herramienta para el tratamiento de datos tabulares en Python.
  • Dask: distribución de tareas analíticas en Python de forma nativa.
  • dplyr: exclusiva de R. Soporte a la manipulación de datos.
  • tidyR: exclusiva de R. Tratamiento de datos tabulares.
VISUALIZACIÓN
  • Matplotlib: principal librería de visualización en Python.
  • folium: librería para visualización geográfica en Python.
  • seaborn: librería a alto nivel de visualización estadística basada en Matplotlib.
  • Basadas en D3: Bokeh, Plotly. Visualización general. Gráficos interactivos usando Javascript.
  • Para Big Data (visualización de millones / billones de registros): datashader.
ESTUDIO Y MODELADO DEL DATO

  • Análisis exploratorio.
  • Localización de dato atípico y métodos de detección de outliers.
  • Realización de estadísticos descriptivos.
  • Evaluación de la calidad del dato.
  • Tipologías de datos: categóricos, numéricos, ordinales, temporales (fechas).
EL MODELO DE DATOS EN TRES CAPAS.
  • Capa raw.
  • Capa Master.
  • Capa de consumo.
  • Caso Práctico: Construir un modelo en tres capas a partir del análisis anterior.
EXPLOTACIÓN EFICIENTE DEL DATO MEDIANTE HERRAMIENTAS DE BI Y DATA DISCOVERY.
  • Cómo explotar un modelo de datos sin sobrecargar el sistema.
  • Herramientas de reporting. (Spotfire, PBI…).
DISEÑO DE UN MODELO ESCALABLE

PROTOTIPADO DE MODELOS
  • Preprocesamiento
  • Feature selection
  • Prototipado en local
  • ELECCIÓN DEL JUEGO DE ALGORITMOS ÓPTIMOAprendizaje supervisado:Modelos lineales:Regresión lineal.
  • Regresión logística.
  • Máquinas de Soporte Vectorial.
  • Modelos basados en árboles:Árbol de decisión.
  • Random Forest.
  • Gradient Boosting.
  • Redes neuronales:Regresión vs. Clasificación.Principio de funcionamiento. Perceptrón.
  • Aprendizaje profundo. Se explicaría muy por encima.
  • Aprendizaje no supervisado:Clusterización.
  • Jerárquica.
  • Detección de anomalías.
  • Técnicas de reducción de la dimensionalidad:
  • t-SNE.
  • Análisis de series temporales.
  • Entrenamiento:Nociones básicas para entrenar un modelo correctamente:División en conjunto de entrenamiento, validación y test. Concepto de Data Leakage.
  • Bias, Variance y Overfitting. Cómo detectarlos y prevenirlos. Curvas de entrenamiento.
  • Validación cruzada.
  • Optimización automática de hiperparámetros:Grid Search.
  • Random Search.
  • Basados en gradiente.
  • Elección óptima del algoritmo:Según la tipología de los datos.
  • Según el número de observaciones.
  • Según el objetivo del modelo.

CASOS DE USO Y TRABAJO FIN DE MÁSTER
  • Casos de uso.
  • Trabajo fin de máster.

Magíster en Big Data y Analytics

Precio a consultar