Skip to content

Language: Spanish. Data Visualization project of the evolution of the Argentinian internet access by state, download speed and technology

Notifications You must be signed in to change notification settings

cristhianc001/Argentinian-Internet-Usage

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Analisis del estado y evolución del internet fijo de Argentina

Portada

Cualquier consulta u observación es bienvenida en mi perfil de Github o en LinkedIn

Tabla de Contenido

1. Introducción

El presente repositorio contiene el analisis de datos del internet fijo de Argentina entre 2014 y 2022, teniendo en cuenta variables como accesos, valocidad de baja y cobertura a nivel nacional y regional. El proyecto va desde la extracción de datos consultando una API gubernamental, pasando por una limpieza y analisis exploratorio de los datos, hasta la elaboración de una base de datos y de dashboards para comunicar los hallazgos encontrados.

2. Estructura

  • raw_data: Los datos sin procesar usados en este proyecto se tomaron directamente de la API gubernamental, pero si hay problemas de red en el servidor, hay una copia de seguridad en el archivo raw_data.zip en la raíz de este repositorio.
  • processed_data/: contiene los datos transformados y limpios en formato CSV.
  • notebooks/: Incluye notebooks de Python para limpieza de datos, EDA y visualización. También hay un script de python que importa los datos de la API directamente.
  • sql/: Scripts de SQL de limpiezas menores, creación de dimensiones y relación de tablas.
  • img/: Incluye imágenes utilizadas en el readme.
  • visualizations/: Incluye graficos de Python, dashboards y archivos de Power BI para visualización de datos.

3. Procedimiento

Los datos usados en este analisis fueron extraidos del Ente Nacional de Comunicaciones correspondientes al area de Acceso a Internet. Para esto, se consultó la documentación de la API para hallar la dirección de los datasets que se accede despues de solicitar una llave de autenticación. La información disponible en el servidor esta en tres presentanciones: datasets, los cuales son archivos de excel donde pueden existar mas de una tabla por archivo; datastreams, que son archivos csv que contienen una tabla por archivo. Estos datastream son desgloses de los dataset. Por ultimo, visualizaciones, como su nombre lo indica, son representaciones visuales de los datastream.

Dataset, datastreams y visualizaciones El link del dataset esta subrayado en azul, los datastream en rojo y las visualizaciones en amarillo

Como los datastreams ya estaban en .csv, se usaron estos como objetivo de extracción en lugar de los datasets que estan formato .xlsx API de datastream Dirección de API usada para extraer datos de datastreams

El glosario de terminos que aparecen en las tablas se puede consultar en este enlace.

La mayoria de los archivos extraidos de la API tenian una buena integridad, por lo tanto se realizaron pocas operaciones sobre los dataframes. Las mayores transformaciones involucraron union (merge) de tablas para resumir el numero de archivos y 'despivotear' (melt) columnas en filas. Tambien se borraron las comas (entre otros caracteres especiales) de las todas las cifras donde estaban presentes para que no hayan problemas de interpretación de miles, millares y punto decimales.

Una vez comprobada la integridad de los datos y definidos los archivos, se realizó un analisis exploratorio de datos para investigar graficamente el comportamiento de la variables del dataset. Se encontraron hallazgos como el progreso continuo de accesos en las provincias, excepto en la Ciudad Federal, que registra un ligero estancamiento:

Grafico de EDA Accesos por año en las provincas de la region central

Este ligero estancamiento se explica por la gran cobertura de la ciudad en terminos de internet fijo, puede decirse que ha llegado a un techo.

Grafico de EDA Accesos por cada 100 hogares en las provincas de la region central

Este comportamiento tambien se observa al comparar las proporciones de los accesos. La proporcion de accesos de la Capital Federal disminuye con el tiempo, pero no es porque los accesos disminuyan, es porque los accesos se mantienen casi constantes mientras crecen en el resto del pais.

Grafico de EDA

Otro comportamiento resaltable es de la provincia de San Luis. Los accesos de esta provincia se dispararon en el 2017, la razon de esto puede deberse a programas de inversion publicos o privado o a un cambio en la metodologia de medición.

Grafico de EDA

La velocidad de bajada promedio tambien tiene una tendencia particular en San Luis, es la unica provincia donde baja en los ultimos periodos medidos.

Grafico de EDA

En el contexto nacional, se presenta una bajada significativa en el rango de velocidad de 1 - 6 Mbps y una subida de +30 Mbps, esto potenciado por la presencia mayor de la fibra optica en el pais.

Grafico de EDA

En terminos de accesos totales, el comportamiento teniendo en cuenta los trimestres es el esperado: conforme transucurren los trimestres, cada vez aumentan mas los accesos pues el ultimo trimestre recoge los resultados de los anteriores. Hay excepciones que se perciben en el segundo grafico de lineas, donde se notan disminuciones de accesos en algunos trimestres, la mas notoria en el ultimo trimestre del 2019.

Grafico de EDA

Grafico de EDA Mapa de Accesos por cada 100 hogares con Plotly

Grafico de EDA

Mapa de Accesos con Matplotlib

El analisis mas completo para las variables de velocidad, accesos y cobertura en todas las provincias puede encontrarse en el notebook dedidaco al EDA.

Los archivos .csv fueron importados a una base de datos para que sean usados por Power BI mas adelante. El motor usado fue MySQL 8.0.28 al cual se le introdujeron las tablas por medio del wizard de Workbench.

Dashboard Power BI Wizard de MySQL Workbench

La codificación UTF-8 de MySQL no pudo reconocer tildes, por lo tanto, ademas de la creación de una tabla dimensional de provincias, se le realizó una pequeña limpieza antes de usar esos datos en Power BI.

Una vez lista la base de datos, se utilizó Power BI y su conexión con MySQL para realizar la toma de tablas de dicha base y la elaboración de dashboards que faciliten la lectura y analisis de los datos.

Conexión Power BI Conexión a una base de datos local desde Power BI

Conexión Power BI Usuario y Password de la base de datos local

Para complementar el analisis, también se importaron directamente a Power BI los archivos .csv de la población de Argentina y de los accesos de internet movil a través de los años, ademas de una tabla dimensional de provincias con información de latitud y longitud para realizar mapas de cobertura.

Los datos disponibles no disponen de fecha especificas, los atributos de tiempo corresponden a año y trimestre, para facilitar el uso de filtros, se creara una columna "fechaSimulada" en cada tabla con año y trimestre y luego se enlaza con una tabla dimensional de calendario.

FechaSimulada = DATE([Año], 3 * ([Trimestre] - 1 ) + 1, 1)

Modelo Power BI Modelo relacional en Power BI

Los dashboards realizados con este modelo se muestran a continuación:

Modelo Power BI Dashboard de Accesos y Cobertura

Dashboard Power BI Dashboard de Tipos de Conexion

Dashboard Power BI Dashboard de Velocidad

El archivo .pbix esta en la carpeta de visualizations si se requiero un vistazo mas profundo,

4. Documentación

5. Herramientas usadas

6. Contacto

About

Language: Spanish. Data Visualization project of the evolution of the Argentinian internet access by state, download speed and technology

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published