Un Website para

Navegar un poco en el mundo basado en datos a través de la aplicación de la ciencia de datos.

Estadística Descriptiva

Resumir, organizar, simplificar y explicar la esencia de los datos.

Inferencia Estadística

Hacer suposiciones y/o elecciones sobre una población basándose únicamente en muestras.

Modelado Estadístico

El esfuerzo por parametrizar un proceso aleatorio usando matemáticas.

Analisis exploratorio de datos

El proceso de evaluar conjuntos de datos para describir sus propiedades esenciales.

Artificial Neural Networks

Red de neuronas simuladas que pueden usarse para reconocer ocurrencias de patrones.

Transformación de datos y más

Preparación de datos, ajuste de hiperparámetros, métricas de precisión, remuestreo...

Bases Estadísticas

Data cleaning

La práctica de corregir o eliminar datos inconsistentes, duplicados o faltantes de un conjunto de datos.
Implica determinar qué partes de los datos son inconsistentes y luego reemplazar, cambiar o eliminar los datos incorrectos.
Ver más

Descriptive statistics

Se utilizan para caracterizar los aspectos fundamentales de un conjunto de datos.
Las estadísticas descriptivas difieren de las estadísticas inferenciales en que intentan resumir una muestra en lugar de aprender sobre la población que se supone que representa la muestra de datos.
Ver más

Generalized Linear Model

GLM es una expansión versátil de la regresión lineal convencional.
GLM permite que el modelo lineal se conecte a la variable de respuesta a través de una función de enlace y permite que el tamaño de la varianza de cada medición sea una función de su valor predicho
Click Here

Machine Learning

Extreme Gradient Boosting

Una de las mejores implementaciones de árboles potenciados por gradiente.
En uno de los algoritmos de aprendizaje automático más implementado para clasificación y regresión. XGBoost fue diseñado utilizando los principios generales de aumento de gradiente
Muy pronto

Multilayer Perceptron

El Perceptrón Multicapa MLP en una feedforward Neural Network.
Las unidades están dispuestas en capas, con conexiones que se alimentan de una capa a la siguiente; Los patrones de entrada se propagan a través de capas ocultas hasta la salida
Muy pronto

Random Forest

Es un enfoque para la clasificación, la regresión y otros problemas que funciona mediante el aprendizaje supervisado.
La técnica Random Forest genera y combina una gran cantidad de árboles de decisión al azar en un solo bosque.
Muy pronto

Wavelet Neural Network

WNN es una clase de red neuronal que combina las redes neuronales sigmoideas clásicas y el análisis de wavelets.
La WNN empleada en este sitio está diseñada como una estructura de tres capas con una capa de entrada, una capa wavelet (capa oculta) y una capa de salida.
Muy pronto

Recurrent Neural Network

Las RNN son un tipo particular de red neuronal artificial que utiliza datos secuenciales o datos de series temporales.
RNN tiene bucles para permitir que la red retenga información. Las redes neuronales recurrentes emplean su aprendizaje basado en experiencias pasadas para predecir eventos futuros.
Muy pronto

Long Short-Term Memory

LSTM es un tipo de red neuronal artificial recurrente.
Esta red funciona bien para tareas de entrenamiento de aprendizaje de series temporales, especialmente en presencia de casos de modelado de señales no lineales.
Muy pronto

Recurrent Wavelet Neural Network

RWNN es un tipo de red neuronal artificial recurrente.
La salida depende no solo de las entradas presentes de la red, sino también de las salidas o condiciones anteriores de la red.
Muy pronto

Convolutional Neural Network

CNN está destinado a manejar conjuntos de datos estructurados.
A menudo se utiliza para el reconocimiento de imágenes y actividades que implican el procesamiento de datos de píxeles. Aunque una CNN es una herramienta poderosa, su proceso de entrenamiento necesita millones de puntos de datos etiquetados.
Muy pronto

Long Short-Term Memory

LSTM es un tipo de red neuronal artificial recurrente.
Esta red funciona bien para tareas de entrenamiento de aprendizaje de series temporales, especialmente en presencia de casos de modelado de señales no lineales.
Muy pronto

Cluster Analysis

Es una técnica de aprendizaje no supervisado y una herramienta estadística.
Funciona uniendo elementos en grupos (clusters), en función de lo estrechamente conectados que estén. Es una tarea exploratoria de análisis de datos.
Muy pronto

Principal Component Analysis

PCA es una técnica para reducir la dimensionalidad de un conjunto de datos.
Lo hace creando nuevas variables no correlacionadas que maximizan sucesivamente la varianza.
Muy pronto

Correspondence Analysis

Es un enfoque de visualización de ciencia de datos que puede usarse para descubrir y representar la relación entre categorías.
Su objetivo es revelar cualquier estructura oculta en la configuración multivariante de la tabla de datos en un biplot.
Muy pronto

Algunas decisiones a tomar

¿Se necesita un repositorio?

Es importante almacenar, organizar y difundir la información.

¿Qué language usar?

Un programador debe ser capaz de ser flexible y autodidacta cuando se trata de aprender lenguajes de programación para ciencia de datos.

¿Qué IDE usar?

La elección del Entorno de Desarrollo Integrado es importante para facilitar el desarrollo de software del científico de datos.

¿Qué reglas pueden ayudar?

Seguir algunos estándares de programación puede ser útil cuando se trabaja en colaboración con otros científicos de datos.

¿Estadística o Machine Learning?

Las técnicas para procesar datos van en aumento, queda en cada uno decidir qué técnicas implementar en función de los recursos disponibles.

¿Hacer múltiples procesos a los datos?

La estructuración es valiosa en el data-driven culture, el procesamiento previo y posterior a un desarrollo, pueden ser un cauteloso camino a seguir.

Sobre el autor

Eliana Vivas

Fundador

Eliana Vivas

Estadístico

Eliana Vivas

Ingeniero Informático

Summary​

I am a follower of computational statistics, which is why I have been certified in both Statistics and Computer Science. I recently completed a Ph.D. in Computer Engineering in the line of computational intelligence. My short-term purpose is to explore the benefits of the cloud to implement neural networks capable of efficiently forecasting highly variable signals.

Professional history's tools

LaTeX 90%
Python 80%
R 65%
Excel 50%
GitHub 40%
SQL 30%
Tableau
SAS
GitLab

Resumen

Soy seguidora de la Estadística Computacional, por lo que me he certificado tanto en Estadística como en Ingeniería Informática. Recientemente, completé un Doctorado en Ingeniería Informática en la línea de Inteligencia Computacional. Mi propósito a corto plazo es explorar los beneficios de la nube para implementar redes neuronales capaces de pronosticar de manera eficiente señales altamente variables.

Herramientas en la historia profesional

LaTeX 90%
Python 80%
R 65%
Excel 50%
GitHub 40%
SQL 30%
Tableau 25%
SAS 20%
GitLab 20%

Consultoría académica

Diseño de soluciones basadas en estadísticas

Diseño de soluciones basadas en ML

Proceso de limpieza de datos