Data Science Videojuegos

Análisis de Ventas de Videojuegos

GitHub Repository Notebook
17 de Agosto de 2025
Análisis de Ventas de Videojuegos

Descripción del Proyecto

Resumen del proyecto

Contexto

  • Proyecto del Sprint 6 del programa de Ciencia de Datos en TripleTen.
  • Se trabaja con datos históricos de ventas globales de videojuegos hasta 2016, con el objetivo de apoyar la planeación de estrategia comercial para 2017.

Problema de negocio

  • Identificar patrones de éxito (por plataforma, género y región) para orientar decisiones de marketing y selección de plataformas.

Objetivos (qué se busca demostrar con datos)

  • Preparar y limpiar los datos.
  • Identificar plataformas y géneros con mayor potencial de éxito.
  • Analizar la relación entre reseñas (usuarios y críticos) y ventas.
  • Construir perfiles regionales de usuario/mercado (NA, EU, JP).
  • Probar hipótesis estadísticas relacionadas con plataformas y géneros.

Dataset (tabla) y atributos clave

  • games.csv
    • Ruta en repo: data/games.csv (verifica que coincida con tu estructura real en GitHub)
    • name: nombre del videojuego
    • platform: consola / plataforma
    • year_of_release: año de lanzamiento
    • genre: género
    • na_sales, eu_sales, jp_sales, other_sales: ventas por región
    • critic_score: calificación de críticos (0–100)
    • user_score: calificación de usuarios (0–10)
    • rating: clasificación ESRB
    • Reproducibilidad (resumen):
      • pipenv installpipenv shell
      • Abrir y ejecutar notebooks/sprint6_analysis.ipynb

Alcance temporal y población

  • Datos históricos hasta 2016 (en conclusiones: foco analítico 2013–2016).

Unidad de análisis

  • Videojuego (y agregaciones por plataforma / género / región / año según la pregunta).

Métricas

  • Ventas por región: na_sales, eu_sales, jp_sales, other_sales.
  • Scores: critic_score, user_score.
  • Métricas inferenciales: p-value, estadístico t (según pruebas de hipótesis).

Entregables

  • Notebook principal: https://github.com/cjhirashi/proyecto-sprint-6/blob/main/notebooks/sprint6_analysis.ipynb

Herramientas utilizadas

  • Python 3: ejecución del flujo de análisis.
  • Pandas: carga, limpieza, transformación y agregaciones.
  • NumPy: soporte numérico para operaciones y transformaciones.
  • Matplotlib / Seaborn: visualización (distribuciones, comparativas, correlaciones).
  • Jupyter Notebook: reporte reproducible (código + narrativa).
  • Pipenv: gestión de entorno y dependencias.

Proceso (clasificado por fases)

1. Introducción del proyecto

  • Contexto de negocio: tienda online Ice (ventas globales).
  • Objetivo analítico: identificar patrones que ayuden a predecir éxito de lanzamientos y planear campañas para 2017.

2. Preparación y limpieza de datos

2.1. Carga de datos y revisión general

  • Carga de games.csv, inspección inicial (head(), info(), describe()), definición de columnas y contexto ESRB.

2.2. Estandarización de nombres de columnas

  • Normalización a minúsculas para consistencia.

2.3. Conversión de tipos de datos y justificación

  • Ajustes de tipos para análisis (año, scores y variables relevantes).

2.4. Análisis y tratamiento de valores ausentes

  • Revisión de nulos por columna y decisiones de tratamiento.

2.5. Creación de total_sales

  • Variable derivada como suma de ventas regionales (na_sales, eu_sales, jp_sales, other_sales).

3. Análisis exploratorio de datos (EDA)

  • Exploración para detectar patrones/relaciones:
    • evolución temporal del mercado (lanzamientos por año),
    • desempeño por plataformas y ciclos de vida,
    • periodo relevante (foco reciente),
    • relación reseñas vs ventas,
    • comparativos por región,
    • comparativos por género.

3.1. Juegos lanzados por año

Contenido (según notebook)

  • Se grafica el número de lanzamientos por año para observar la evolución del mercado.
  • Hallazgo: crecimiento desde mediados de los 90; pico 2007–2009; descenso sostenido desde 2011.

3.2. Ventas por plataforma y análisis de evolución

Contenido (según notebook)

  • Se agrupan ventas por plataforma para identificar líderes históricos y transición generacional.
  • Se discuten ciclos de vida de plataformas (auge → madurez → declive) para interpretar tendencias.

3.3. Selección del periodo relevante para el análisis

Contenido (según notebook)

  • Se recorta a una ventana reciente (foco del proyecto: 2013–2016) para representar el mercado actual y proyectar a 2017.
  • Propósito: evitar sesgo por plataformas ya obsoletas.

3.4. Plataformas líderes, en crecimiento y en declive

Contenido (según notebook)

  • Con el periodo reciente, se identifican plataformas con tendencia positiva vs en declive.
  • Resultado: plataformas “prometedoras” para priorización comercial.

3.5. Diagrama de caja de ventas globales por plataforma

Contenido (según notebook)

  • Boxplots de total_sales por plataforma (mediana, dispersión y outliers).
  • Propósito: evidenciar asimetría (pocos éxitos elevan promedios) y comparar plataformas de forma robusta.

3.6 Impácto de las críticas de usuarios y expertos en las ventas

Contenido (según notebook)

  • Se analizan correlaciones entre critic_score/user_score y ventas.
  • Conclusión operativa: critic_score suele aportar más señal que user_score.

3.7. Comparación de ventas por género

Contenido (según notebook)

  • Se comparan ventas por género para identificar los más rentables y apoyar selección de catálogo/campañas.

4. Perfil regional del usuario

4.1. Diferencias regionales de ventas por plataforma y género

Contenido (según notebook)

  • Se calculan y comparan las plataformas y géneros más relevantes por región (NA, EU, JP) usando ventas regionales.
  • Hallazgos resumidos:
    • NA/EU: PS4/XOne con géneros Action/Shooter (Sports relevante).
    • JP: Role-Playing y plataformas portátiles (3DS/PSV).

4.2. Evaluación de impacto de las calificaciones por región

Contenido (según notebook)

  • Se analiza si el efecto de critic_score y user_score sobre ventas cambia por región.
  • Uso: ajustar el valor de las calificaciones como señal para decisiones de marketing/forecast por mercado.

4.3. Influencia del rating ESRB en cada región

Contenido (según notebook)

  • Se compara la distribución/impacto del rating ESRB por región.
  • Hallazgo resumido: la clasificación ESRB es más relevante en NA/EU y tiene menor peso en JP.

5. Prueba de hipótesis

Contenido (según notebook)

  • Se ejecutan t-tests para validar si diferencias observadas en el EDA son significativas (α≈0.05).

5.1. Calificaciones promedio de usuarios en Xbox One y PC: ¿son diferentes?

Contenido (según notebook)

  • Comparación de user_score entre Xbox One y PC.
  • Resultado reportado: no se detectó diferencia significativa.

5.2. Ventas globales promedio de los géneros Action y Sports: ¿son diferentes?

Contenido (según notebook)

  • Comparación de total_sales entre Action y Sports.
  • Resultado reportado: diferencia significativa (p < 0.05), con Action superior.
    • Muestras: Action = 766 juegos, Sports = 214 juegos
    • t-statistic = -2.991, p-valor = 0.003 (< 0.05)

6. Conclusión general y recomendaciones

Contenido (según notebook)

  • Se integran hallazgos de preparación de datos + EDA + perfil regional + pruebas de hipótesis.
  • Recomendaciones 2017: campañas diferenciadas por región; priorizar plataformas/géneros con mejor desempeño reciente; ponderar más critic_score que user_score.

Resultados e impacto técnico

Preparación e integración de datos

  • Se cargó games.csv y se ejecutó limpieza/curación para habilitar análisis por plataforma, género, región y periodo.

Visualización y análisis exploratorio

  • Se identificaron tendencias globales (picos 2008–2009 y caída hacia 2016).
  • Se detectaron plataformas líderes (PS2/X360/PS3 históricas; PS4 liderazgo reciente).
  • Se compararon géneros por desempeño: Action dominante; Shooter y Sports relevantes.
    • Perfil regional (2013–2016):
      • NA/EU: PS4/XOne con géneros Action/Shooter (Sports relevante).
      • JP: Role-Playing y plataformas portátiles (3DS/PSV).
    • Señal de reseñas vs ventas:
      • critic_score mostró mayor poder explicativo que user_score (que fue débil/negativa en varios casos).

Inferencia estadística (hipótesis)

  • Se validó evidencia estadística de diferencia en ventas entre géneros (Action vs Sports) con p-value < 0.05.

Implicaciones técnicas y de negocio

  • Se establecen criterios accionables por región:
    • NA/EU: priorizar Action/Shooter/Sports en PS4/XOne.
    • JP: priorizar Role-Playing en portátiles.
  • Se recomienda ponderar más critic_score que user_score para aproximar desempeño comercial.
    • Estrategia 2017:
      • Campañas regionales diferenciadas (creativos/segmentación por región).
      • En NA/EU, reforzar catálogo/campañas en PS4/XOne; en JP, reforzar RPG en portátiles.