Data Science
•
Videojuegos
Análisis de Ventas de Videojuegos
Descripción del Proyecto
Resumen del proyecto
Contexto
- Proyecto del Sprint 6 del programa de Ciencia de Datos en TripleTen.
- Se trabaja con datos históricos de ventas globales de videojuegos hasta 2016, con el objetivo de apoyar la planeación de estrategia comercial para 2017.
Problema de negocio
- Identificar patrones de éxito (por plataforma, género y región) para orientar decisiones de marketing y selección de plataformas.
Objetivos (qué se busca demostrar con datos)
- Preparar y limpiar los datos.
- Identificar plataformas y géneros con mayor potencial de éxito.
- Analizar la relación entre reseñas (usuarios y críticos) y ventas.
- Construir perfiles regionales de usuario/mercado (NA, EU, JP).
- Probar hipótesis estadísticas relacionadas con plataformas y géneros.
Dataset (tabla) y atributos clave
- games.csv
- Ruta en repo:
data/games.csv(verifica que coincida con tu estructura real en GitHub) name: nombre del videojuegoplatform: consola / plataformayear_of_release: año de lanzamientogenre: génerona_sales,eu_sales,jp_sales,other_sales: ventas por regióncritic_score: calificación de críticos (0–100)user_score: calificación de usuarios (0–10)rating: clasificación ESRB- Reproducibilidad (resumen):
pipenv install→pipenv shell- Abrir y ejecutar
notebooks/sprint6_analysis.ipynb
- Ruta en repo:
Alcance temporal y población
- Datos históricos hasta 2016 (en conclusiones: foco analítico 2013–2016).
Unidad de análisis
- Videojuego (y agregaciones por plataforma / género / región / año según la pregunta).
Métricas
- Ventas por región:
na_sales,eu_sales,jp_sales,other_sales. - Scores:
critic_score,user_score. - Métricas inferenciales: p-value, estadístico t (según pruebas de hipótesis).
Entregables
- Notebook principal: https://github.com/cjhirashi/proyecto-sprint-6/blob/main/notebooks/sprint6_analysis.ipynb
Herramientas utilizadas
- Python 3: ejecución del flujo de análisis.
- Pandas: carga, limpieza, transformación y agregaciones.
- NumPy: soporte numérico para operaciones y transformaciones.
- Matplotlib / Seaborn: visualización (distribuciones, comparativas, correlaciones).
- Jupyter Notebook: reporte reproducible (código + narrativa).
- Pipenv: gestión de entorno y dependencias.
Proceso (clasificado por fases)
1. Introducción del proyecto
- Contexto de negocio: tienda online Ice (ventas globales).
- Objetivo analítico: identificar patrones que ayuden a predecir éxito de lanzamientos y planear campañas para 2017.
2. Preparación y limpieza de datos
2.1. Carga de datos y revisión general
- Carga de
games.csv, inspección inicial (head(),info(),describe()), definición de columnas y contexto ESRB.
2.2. Estandarización de nombres de columnas
- Normalización a minúsculas para consistencia.
2.3. Conversión de tipos de datos y justificación
- Ajustes de tipos para análisis (año, scores y variables relevantes).
2.4. Análisis y tratamiento de valores ausentes
- Revisión de nulos por columna y decisiones de tratamiento.
2.5. Creación de total_sales
- Variable derivada como suma de ventas regionales (
na_sales,eu_sales,jp_sales,other_sales).
3. Análisis exploratorio de datos (EDA)
- Exploración para detectar patrones/relaciones:
- evolución temporal del mercado (lanzamientos por año),
- desempeño por plataformas y ciclos de vida,
- periodo relevante (foco reciente),
- relación reseñas vs ventas,
- comparativos por región,
- comparativos por género.
3.1. Juegos lanzados por año
Contenido (según notebook)
- Se grafica el número de lanzamientos por año para observar la evolución del mercado.
- Hallazgo: crecimiento desde mediados de los 90; pico 2007–2009; descenso sostenido desde 2011.
3.2. Ventas por plataforma y análisis de evolución
Contenido (según notebook)
- Se agrupan ventas por plataforma para identificar líderes históricos y transición generacional.
- Se discuten ciclos de vida de plataformas (auge → madurez → declive) para interpretar tendencias.
3.3. Selección del periodo relevante para el análisis
Contenido (según notebook)
- Se recorta a una ventana reciente (foco del proyecto: 2013–2016) para representar el mercado actual y proyectar a 2017.
- Propósito: evitar sesgo por plataformas ya obsoletas.
3.4. Plataformas líderes, en crecimiento y en declive
Contenido (según notebook)
- Con el periodo reciente, se identifican plataformas con tendencia positiva vs en declive.
- Resultado: plataformas “prometedoras” para priorización comercial.
3.5. Diagrama de caja de ventas globales por plataforma
Contenido (según notebook)
- Boxplots de
total_salespor plataforma (mediana, dispersión y outliers). - Propósito: evidenciar asimetría (pocos éxitos elevan promedios) y comparar plataformas de forma robusta.
3.6 Impácto de las críticas de usuarios y expertos en las ventas
Contenido (según notebook)
- Se analizan correlaciones entre
critic_score/user_scorey ventas. - Conclusión operativa:
critic_scoresuele aportar más señal queuser_score.
3.7. Comparación de ventas por género
Contenido (según notebook)
- Se comparan ventas por género para identificar los más rentables y apoyar selección de catálogo/campañas.
4. Perfil regional del usuario
4.1. Diferencias regionales de ventas por plataforma y género
Contenido (según notebook)
- Se calculan y comparan las plataformas y géneros más relevantes por región (NA, EU, JP) usando ventas regionales.
- Hallazgos resumidos:
- NA/EU: PS4/XOne con géneros Action/Shooter (Sports relevante).
- JP: Role-Playing y plataformas portátiles (3DS/PSV).
4.2. Evaluación de impacto de las calificaciones por región
Contenido (según notebook)
- Se analiza si el efecto de
critic_scoreyuser_scoresobre ventas cambia por región. - Uso: ajustar el valor de las calificaciones como señal para decisiones de marketing/forecast por mercado.
4.3. Influencia del rating ESRB en cada región
Contenido (según notebook)
- Se compara la distribución/impacto del rating ESRB por región.
- Hallazgo resumido: la clasificación ESRB es más relevante en NA/EU y tiene menor peso en JP.
5. Prueba de hipótesis
Contenido (según notebook)
- Se ejecutan t-tests para validar si diferencias observadas en el EDA son significativas (α≈0.05).
5.1. Calificaciones promedio de usuarios en Xbox One y PC: ¿son diferentes?
Contenido (según notebook)
- Comparación de
user_scoreentre Xbox One y PC. - Resultado reportado: no se detectó diferencia significativa.
5.2. Ventas globales promedio de los géneros Action y Sports: ¿son diferentes?
Contenido (según notebook)
- Comparación de
total_salesentre Action y Sports. - Resultado reportado: diferencia significativa (p < 0.05), con Action superior.
- Muestras: Action = 766 juegos, Sports = 214 juegos
- t-statistic = -2.991, p-valor = 0.003 (< 0.05)
6. Conclusión general y recomendaciones
Contenido (según notebook)
- Se integran hallazgos de preparación de datos + EDA + perfil regional + pruebas de hipótesis.
- Recomendaciones 2017: campañas diferenciadas por región; priorizar plataformas/géneros con mejor desempeño reciente; ponderar más
critic_scorequeuser_score.
Resultados e impacto técnico
Preparación e integración de datos
- Se cargó
games.csvy se ejecutó limpieza/curación para habilitar análisis por plataforma, género, región y periodo.
Visualización y análisis exploratorio
- Se identificaron tendencias globales (picos 2008–2009 y caída hacia 2016).
- Se detectaron plataformas líderes (PS2/X360/PS3 históricas; PS4 liderazgo reciente).
- Se compararon géneros por desempeño: Action dominante; Shooter y Sports relevantes.
- Perfil regional (2013–2016):
- NA/EU: PS4/XOne con géneros Action/Shooter (Sports relevante).
- JP: Role-Playing y plataformas portátiles (3DS/PSV).
- Señal de reseñas vs ventas:
critic_scoremostró mayor poder explicativo queuser_score(que fue débil/negativa en varios casos).
- Perfil regional (2013–2016):
Inferencia estadística (hipótesis)
- Se validó evidencia estadística de diferencia en ventas entre géneros (Action vs Sports) con p-value < 0.05.
Implicaciones técnicas y de negocio
- Se establecen criterios accionables por región:
- NA/EU: priorizar Action/Shooter/Sports en PS4/XOne.
- JP: priorizar Role-Playing en portátiles.
- Se recomienda ponderar más
critic_scorequeuser_scorepara aproximar desempeño comercial.- Estrategia 2017:
- Campañas regionales diferenciadas (creativos/segmentación por región).
- En NA/EU, reforzar catálogo/campañas en PS4/XOne; en JP, reforzar RPG en portátiles.
- Estrategia 2017: