Análise e visualização de dados com Python a partir de dados sobre o COVID-19 - Data analysis and visualization with Python from data about COVID-19
Estou estudando Data Science com a linguagem de programação Python. A fim de praticar, resolvi usar dados reais sobre a pandemia de SARS-CoV-2, tanto do Brasil, quanto do resto do mundo. Os dados estão sendo obtidos em sua maioria por meio de um site chamado Kaggle, ele é uma espécie de rede social de Data Scientists, onde são compartilhados inúmeros datasets, notebooks, e até mesmo competições, onde varias pessoas se reúnem a partir de dados e artigos para construir análises e construir conhecimento.
Kaggle: Your Home for Data Science
A partir desses dados, utilizei a linguagem Python juntamente com duas bibliotecas:
-
Pandas - a utilizei para analisar os dados, sobretudo extrair colunas específicas dos
datasets.csv
; -
Matplotlib - fiz uso dessa biblioteca para a visualização dos dados, plotar gráficos de linha, diagramas de caixa, legendas etc.
O primeiro gráfico que eu plotei nesse projeto foi esse:
Fonte:
- Dado usado: ./datasets/COVID19_line_list_data.csv
- Atualização mais recente: https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset#COVID19_line_list_data.csv
Ele mostra a amplitude e a média da idade dos pacientes em casos reportados no total, e na parcela de óbitos.
Escolhi utilizar o diagrama de caixa - aka.: boxplot - pois nele é possível visualizar, além da mediana, onde estão concentrados a maioria dos dados, a amplitude geral deles, os valores mínimos e máximos e valores discrepantes e isolados.