Data Science Automotriz

Streamlit Dashboard - Anuncios de Vehículos Usados

Streamlit Dashboard - Anuncios de Vehículos Usados

Descripción del Proyecto

Resumen del proyecto

Contexto

Proyecto del Sprint 7 (TripleTen): construcción de un dashboard en Streamlit para explorar anuncios de vehículos usados en EE. UU. y visualizar la relación entre kilometraje (odometer) y precio (price).

Problema de negocio

Entender el mercado de autos usados a partir de anuncios, observando patrones de precio vs. uso (kilometraje) y distribuciones relevantes para análisis exploratorio.

Objetivos (qué se busca demostrar con datos)

  • Explorar el dataset vehicles_us.csv y sus variables clave.
  • Visualizar la distribución de odometer (histograma).
  • Visualizar la relación odometer vs price (dispersión).
  • Entregar un dashboard interactivo reproducible y desplegado.

Dataset(s) / tablas y atributos clave

  • vehicles_us.csv
    • Ruta / fuente: repo del proyecto (archivo vehicles_us.csv).
    • Columnas clave (según notebook): price, odometer, model_year, model, condition, cylinders, fuel, transmission, type, paint_color, is_4wd, date_posted, days_listed.

Alcance temporal y población

  • Ventana temporal: N/A (no especificado explícitamente en el notebook).
  • Población / muestra: anuncios de vehículos usados (EE. UU.) contenidos en vehicles_us.csv.

Unidad de análisis

Anuncio de vehículo.

Métricas

  • Métrica(s) principal(es): N/A (el proyecto es EDA/visualización; no define una métrica única).
  • Métrica(s) de soporte: distribución de odometer y relación visual odometerprice.

Entregables

  • Notebook principal: https://github.com/cjhirashi/dashboard-sprint-7/blob/main/notebooks/EDA.ipynb
  • Repositorio: https://github.com/cjhirashi/dashboard-sprint-7
  • Demo (Render): https://dashboard-sprint-7.onrender.com/

Herramientas utilizadas

  • Python 3: ejecución del análisis y construcción del dashboard.
  • Pandas: carga y manipulación del dataset.
  • Plotly: visualizaciones interactivas (histograma y dispersión) mostradas en el dashboard.
  • Streamlit: UI del dashboard y despliegue de visualizaciones.
  • Pipenv: gestión de entorno y dependencias.

Proceso (clasificado por fases)

1. Proyecto de Sprint 7

  • Exploración de archivo vehicles_us.csv.

2. Exploración de archivo "vehicles_us.csv"

  • Carga del dataset y revisión inicial (p. ej., df.head() con variables como price, odometer, model_year, etc.).

3. Creación de Histograma del odómetro

  • Construcción de histograma para visualizar la distribución de odometer.

Resultados e impacto técnico

Preparación e integración de datos

  • Carga de vehicles_us.csv en un DataFrame y revisión inicial de columnas.

Transformación / metodología

  • EDA enfocado a visualización: histograma de odometer y análisis visual de relación odometerprice.

Resultados principales (con evidencia)

Resultado 1 — Distribución de kilometraje (odometer)

  • Qué se observó: distribución de kilometraje en el conjunto de anuncios.
  • Evidencia / dato: histograma (Plotly) generado en el notebook/dashboard.
  • Interpretación: N/A (no se documentó explícitamente un insight numérico en el extracto disponible).
  • Implicación: permite identificar rangos típicos de uso y outliers para análisis de mercado.

Resultado 2 — Relación odometer vs price

  • Qué se observó: relación entre uso (kilometraje) y precio.
  • Evidencia / dato: gráfico de dispersión (Plotly) implementado en el dashboard.
  • Interpretación: N/A (no se documentó explícitamente un insight numérico en el extracto disponible).
  • Implicación: ayuda a evaluar cómo cambia el precio en función del kilometraje para comparativos.

Implicaciones técnicas y de negocio

  • Dashboard interactivo para exploración rápida de mercado (anuncios) y soporte a análisis/decisiones exploratorias.