Descripción del Proyecto

Resumen del proyecto

Contexto

Proyecto del Sprint 11 en TripleTen. La empresa OilyGiant necesita seleccionar la mejor región para invertir en la apertura de 200 pozos de petróleo, maximizando el beneficio esperado y controlando el riesgo.

Problema de negocio

Decidir en qué región abrir 200 pozos a partir de datos históricos/simulados de exploración, asegurando que la decisión cumpla una política de riesgo:

Seleccionar la región con mayor beneficio esperado.
Mantener el riesgo de pérdida < 2.5%.

Objetivos (qué se busca demostrar con datos)

Entrenar un modelo de regresión lineal por región para predecir reservas (product).
Seleccionar los 200 pozos con mayor predicción y estimar la ganancia potencial.
Evaluar beneficio promedio, IC 95% y riesgo de pérdida usando bootstrapping (1000 iteraciones).
Recomendar la región final bajo los criterios de beneficio y riesgo.

Dataset(s) / tablas y atributos clave

Archivos:
Columnas:
- id: identificador del pozo.
- f0, f1, f2: características de exploración.
- product: volumen de reservas (miles de barriles) — variable objetivo.

Alcance temporal y población

Ventana temporal: N/A (no especificado).
Población / muestra: pozos de tres regiones (0, 1, 2) incluidos en los archivos geo_data_*.

Unidad de análisis

Pozo (registro identificado por id).

Métricas

RMSE por región (evaluación del modelo en validación).
Volumen medio predicho (diagnóstico por región).
Beneficio promedio (bootstrapping) por región.
IC 95% del beneficio por región.
Riesgo de pérdida = P(beneficio < 0), con criterio de negocio < 2.5%.

Supuestos / restricciones de negocio

Inversión total: 100,000,000 USD para 200 pozos.
Ingreso por unidad de producción: 4,500 USD.
Punto de equilibrio aproximado: cada pozo debe producir ~111.1 unidades para cubrir la inversión (regla operativa usada para el análisis).

Entregables

Notebook: notebooks/proyecto_sprint_11.ipynb
Reporte de resultados: métricas por región + recomendación final.
(Opcional) Módulos en src/ con funciones reutilizables.

Herramientas utilizadas

Python 3.10
Pandas
NumPy
scikit-learn
Matplotlib
Seaborn
Jupyter Notebook
Conda

Proceso (clasificado por fases)

1. Sprint 11 — Selección de Región Petrolera en OilyGiant

Se define el objetivo general del proyecto (seleccionar la región para abrir 200 pozos) y el criterio de decisión (máximo beneficio esperado con riesgo < 2.5%).

1.1 Objetivo del Proyecto y Contexto

Planteamiento del problema, restricciones y enfoque (regresión + evaluación de riesgo con bootstrapping).

1.2 Configuración Inicial

Importación de librerías, verificación de versiones y ajustes de estilo para visualizaciones.

2. Carga y Exploración de Datasets

Carga de los tres datasets de regiones y validación de calidad/estructura antes del modelado.

2.1 Cargar Datasets

Lectura de geo_data_0.csv, geo_data_1.csv, geo_data_2.csv y revisión inicial de dimensiones.

2.2 Validación de estructura y tipos de datos

Confirmación de columnas, tipos y estadística descriptiva básica (incluyendo product).

2.3 Revisión de valores nulos y duplicados

Verificación de integridad: ausencia/presencia de nulos y duplicados.

2.4 Análisis exploratorio inicial

Exploración preliminar de relaciones entre variables (f0, f1, f2) y la variable objetivo product.

2.5 Visualización exploratoria complementaria

Comparación de distribuciones de product por región (p. ej. boxplots) para detectar diferencias y outliers.

3. Modelado y validación de predicciones

Entrenamiento y evaluación de modelos de regresión lineal por región, con split train/valid 75:25.

3.1 Preparación de los datos de entrenamiento y validación

Selección de features (f0, f1, f2) y target (product) y partición 75:25.

3.2 Entrenamiento de modelos de regresión lineal

Ajuste del modelo por región (LinearRegression).

3.3 Evaluación de modelos en conjunto de validación

Cálculo de métricas por región (RMSE y media de predicciones).

3.4 Almacenamiento de predicciones y valores reales

Construcción de estructuras (DataFrame/Series) con pred y real para cálculos posteriores de beneficio.

4. Estimación de beneficios y análisis de riesgos con bootstrapping

Cálculo de ganancia potencial con top-200 y cuantificación de incertidumbre con bootstrapping (1000 muestras).

4.1 Preparación para el cálculo de beneficios

Definición de variables económicas (inversión total, ingreso por unidad y parámetros de selección top-k).

4.2 Selección de los 200 pozos más prometedores por región

Selección de top-200 por valor de predicción.

4.3 Estimación del beneficio esperado por región

Cálculo de beneficio usando valores reales de producción de los pozos seleccionados.

4.4 Bootstrapping de beneficios y riesgo por región

Simulación con muestreo con reemplazo (1000 iteraciones) para obtener beneficio promedio, IC 95% y riesgo de pérdida.

4.5 Visualizaciones de la distribución de beneficios

Visualización para comparar estabilidad y dispersión de beneficios por región.

4.5.1 Histogramas de distribución por región

Histogramas de beneficios simulados por región.

4.5.2 Comparación de beneficios promedio por región

Gráfico comparativo del beneficio promedio por región.

5. Conclusiones finales y recomendación del proyecto

Recomendación de la región final bajo los criterios: mayor beneficio esperado y riesgo < 2.5%.

Resultados e impacto técnico

Resultados principales (con evidencia)

La recomendación final se basa en el análisis económico y de riesgo por bootstrapping sobre la selección top-200 de cada región.
Región recomendada: Región 1.
Beneficio promedio (bootstrapping): 4.32M USD.
IC 95%: [168K, 8.15M] USD.
Riesgo de pérdida: 1.90% (cumple el criterio < 2.5%).

✅ Conclusión — Selección de región

La Región 1 es la mejor candidata para la inversión en 200 pozos, ya que combina el mayor beneficio esperado con el menor riesgo, cumpliendo la restricción de negocio (riesgo < 2.5%).

Implicaciones técnicas y de negocio

Provee un marco reproducible para decisión de inversión por región combinando:
- Predicción (regresión)
- Selección top-k
- Simulación de incertidumbre (bootstrapping)
Reduce el riesgo de decisiones basadas solo en promedios, al cuantificar incertidumbre e intervalos de confianza.