Data Science Petrolera

Selección de Región Petrolera

GitHub Repository Notebook
18 de Septiembre de 2025
Selección de Región Petrolera

Descripción del Proyecto

Resumen del proyecto

Contexto

Proyecto del Sprint 11 en TripleTen. La empresa OilyGiant necesita seleccionar la mejor región para invertir en la apertura de 200 pozos de petróleo, maximizando el beneficio esperado y controlando el riesgo.

Problema de negocio

Decidir en qué región abrir 200 pozos a partir de datos históricos/simulados de exploración, asegurando que la decisión cumpla una política de riesgo:

  • Seleccionar la región con mayor beneficio esperado.
  • Mantener el riesgo de pérdida < 2.5%.

Objetivos (qué se busca demostrar con datos)

  • Entrenar un modelo de regresión lineal por región para predecir reservas (product).
  • Seleccionar los 200 pozos con mayor predicción y estimar la ganancia potencial.
  • Evaluar beneficio promedio, IC 95% y riesgo de pérdida usando bootstrapping (1000 iteraciones).
  • Recomendar la región final bajo los criterios de beneficio y riesgo.

Dataset(s) / tablas y atributos clave

Alcance temporal y población

  • Ventana temporal: N/A (no especificado).
  • Población / muestra: pozos de tres regiones (0, 1, 2) incluidos en los archivos geo_data_*.

Unidad de análisis

Pozo (registro identificado por id).

Métricas

  • RMSE por región (evaluación del modelo en validación).
  • Volumen medio predicho (diagnóstico por región).
  • Beneficio promedio (bootstrapping) por región.
  • IC 95% del beneficio por región.
  • Riesgo de pérdida = P(beneficio < 0), con criterio de negocio < 2.5%.

Supuestos / restricciones de negocio

  • Inversión total: 100,000,000 USD para 200 pozos.
  • Ingreso por unidad de producción: 4,500 USD.
  • Punto de equilibrio aproximado: cada pozo debe producir ~111.1 unidades para cubrir la inversión (regla operativa usada para el análisis).

Entregables

  • Notebook: notebooks/proyecto_sprint_11.ipynb
  • Reporte de resultados: métricas por región + recomendación final.
  • (Opcional) Módulos en src/ con funciones reutilizables.

Herramientas utilizadas

  • Python 3.10
  • Pandas
  • NumPy
  • scikit-learn
  • Matplotlib
  • Seaborn
  • Jupyter Notebook
  • Conda

Proceso (clasificado por fases)

1. Sprint 11 — Selección de Región Petrolera en OilyGiant

  • Se define el objetivo general del proyecto (seleccionar la región para abrir 200 pozos) y el criterio de decisión (máximo beneficio esperado con riesgo < 2.5%).

1.1 Objetivo del Proyecto y Contexto

  • Planteamiento del problema, restricciones y enfoque (regresión + evaluación de riesgo con bootstrapping).

1.2 Configuración Inicial

  • Importación de librerías, verificación de versiones y ajustes de estilo para visualizaciones.

2. Carga y Exploración de Datasets

  • Carga de los tres datasets de regiones y validación de calidad/estructura antes del modelado.

2.1 Cargar Datasets

  • Lectura de geo_data_0.csv, geo_data_1.csv, geo_data_2.csv y revisión inicial de dimensiones.

2.2 Validación de estructura y tipos de datos

  • Confirmación de columnas, tipos y estadística descriptiva básica (incluyendo product).

2.3 Revisión de valores nulos y duplicados

  • Verificación de integridad: ausencia/presencia de nulos y duplicados.

2.4 Análisis exploratorio inicial

  • Exploración preliminar de relaciones entre variables (f0, f1, f2) y la variable objetivo product.

2.5 Visualización exploratoria complementaria

  • Comparación de distribuciones de product por región (p. ej. boxplots) para detectar diferencias y outliers.

3. Modelado y validación de predicciones

  • Entrenamiento y evaluación de modelos de regresión lineal por región, con split train/valid 75:25.

3.1 Preparación de los datos de entrenamiento y validación

  • Selección de features (f0, f1, f2) y target (product) y partición 75:25.

3.2 Entrenamiento de modelos de regresión lineal

  • Ajuste del modelo por región (LinearRegression).

3.3 Evaluación de modelos en conjunto de validación

  • Cálculo de métricas por región (RMSE y media de predicciones).

3.4 Almacenamiento de predicciones y valores reales

  • Construcción de estructuras (DataFrame/Series) con pred y real para cálculos posteriores de beneficio.

4. Estimación de beneficios y análisis de riesgos con bootstrapping

  • Cálculo de ganancia potencial con top-200 y cuantificación de incertidumbre con bootstrapping (1000 muestras).

4.1 Preparación para el cálculo de beneficios

  • Definición de variables económicas (inversión total, ingreso por unidad y parámetros de selección top-k).

4.2 Selección de los 200 pozos más prometedores por región

  • Selección de top-200 por valor de predicción.

4.3 Estimación del beneficio esperado por región

  • Cálculo de beneficio usando valores reales de producción de los pozos seleccionados.

4.4 Bootstrapping de beneficios y riesgo por región

  • Simulación con muestreo con reemplazo (1000 iteraciones) para obtener beneficio promedio, IC 95% y riesgo de pérdida.

4.5 Visualizaciones de la distribución de beneficios

  • Visualización para comparar estabilidad y dispersión de beneficios por región.

4.5.1 Histogramas de distribución por región

  • Histogramas de beneficios simulados por región.

4.5.2 Comparación de beneficios promedio por región

  • Gráfico comparativo del beneficio promedio por región.

5. Conclusiones finales y recomendación del proyecto

  • Recomendación de la región final bajo los criterios: mayor beneficio esperado y riesgo < 2.5%.

Resultados e impacto técnico

Resultados principales (con evidencia)

  • La recomendación final se basa en el análisis económico y de riesgo por bootstrapping sobre la selección top-200 de cada región.
  • Región recomendada: Región 1.
  • Beneficio promedio (bootstrapping): 4.32M USD.
  • IC 95%: [168K, 8.15M] USD.
  • Riesgo de pérdida: 1.90% (cumple el criterio < 2.5%).

✅ Conclusión — Selección de región

La Región 1 es la mejor candidata para la inversión en 200 pozos, ya que combina el mayor beneficio esperado con el menor riesgo, cumpliendo la restricción de negocio (riesgo < 2.5%).

Implicaciones técnicas y de negocio

  • Provee un marco reproducible para decisión de inversión por región combinando:
    • Predicción (regresión)
    • Selección top-k
    • Simulación de incertidumbre (bootstrapping)
  • Reduce el riesgo de decisiones basadas solo en promedios, al cuantificar incertidumbre e intervalos de confianza.