Data Science
•
Automotriz
Streamlit Dashboard - Anuncios de Vehículos Usados
Descripción del Proyecto
Resumen del proyecto
Contexto
Proyecto del Sprint 7 (TripleTen): construcción de un dashboard en Streamlit para explorar anuncios de vehículos usados en EE. UU. y visualizar la relación entre kilometraje (odometer) y precio (price).
Problema de negocio
Entender el mercado de autos usados a partir de anuncios, observando patrones de precio vs. uso (kilometraje) y distribuciones relevantes para análisis exploratorio.
Objetivos (qué se busca demostrar con datos)
- Explorar el dataset
vehicles_us.csvy sus variables clave. - Visualizar la distribución de
odometer(histograma). - Visualizar la relación
odometervsprice(dispersión). - Entregar un dashboard interactivo reproducible y desplegado.
Dataset(s) / tablas y atributos clave
- vehicles_us.csv
- Ruta / fuente: repo del proyecto (archivo
vehicles_us.csv). - Columnas clave (según notebook):
price,odometer,model_year,model,condition,cylinders,fuel,transmission,type,paint_color,is_4wd,date_posted,days_listed.
- Ruta / fuente: repo del proyecto (archivo
Alcance temporal y población
- Ventana temporal: N/A (no especificado explícitamente en el notebook).
- Población / muestra: anuncios de vehículos usados (EE. UU.) contenidos en
vehicles_us.csv.
Unidad de análisis
Anuncio de vehículo.
Métricas
- Métrica(s) principal(es): N/A (el proyecto es EDA/visualización; no define una métrica única).
- Métrica(s) de soporte: distribución de
odometery relación visualodometer–price.
Entregables
- Notebook principal: https://github.com/cjhirashi/dashboard-sprint-7/blob/main/notebooks/EDA.ipynb
- Repositorio: https://github.com/cjhirashi/dashboard-sprint-7
- Demo (Render): https://dashboard-sprint-7.onrender.com/
Herramientas utilizadas
- Python 3: ejecución del análisis y construcción del dashboard.
- Pandas: carga y manipulación del dataset.
- Plotly: visualizaciones interactivas (histograma y dispersión) mostradas en el dashboard.
- Streamlit: UI del dashboard y despliegue de visualizaciones.
- Pipenv: gestión de entorno y dependencias.
Proceso (clasificado por fases)
1. Proyecto de Sprint 7
- Exploración de archivo
vehicles_us.csv.
2. Exploración de archivo "vehicles_us.csv"
- Carga del dataset y revisión inicial (p. ej.,
df.head()con variables comoprice,odometer,model_year, etc.).
3. Creación de Histograma del odómetro
- Construcción de histograma para visualizar la distribución de
odometer.
Resultados e impacto técnico
Preparación e integración de datos
- Carga de
vehicles_us.csven un DataFrame y revisión inicial de columnas.
Transformación / metodología
- EDA enfocado a visualización: histograma de
odometery análisis visual de relaciónodometer–price.
Resultados principales (con evidencia)
Resultado 1 — Distribución de kilometraje (odometer)
- Qué se observó: distribución de kilometraje en el conjunto de anuncios.
- Evidencia / dato: histograma (Plotly) generado en el notebook/dashboard.
- Interpretación: N/A (no se documentó explícitamente un insight numérico en el extracto disponible).
- Implicación: permite identificar rangos típicos de uso y outliers para análisis de mercado.
Resultado 2 — Relación odometer vs price
- Qué se observó: relación entre uso (kilometraje) y precio.
- Evidencia / dato: gráfico de dispersión (Plotly) implementado en el dashboard.
- Interpretación: N/A (no se documentó explícitamente un insight numérico en el extracto disponible).
- Implicación: ayuda a evaluar cómo cambia el precio en función del kilometraje para comparativos.
Implicaciones técnicas y de negocio
- Dashboard interactivo para exploración rápida de mercado (anuncios) y soporte a análisis/decisiones exploratorias.