Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Adiciona spider para AL #138

Open
wants to merge 6 commits into
base: master
Choose a base branch
from
Open

Adiciona spider para AL #138

wants to merge 6 commits into from

Conversation

endersonmaia
Copy link
Collaborator

@endersonmaia endersonmaia commented May 18, 2020

Este spider se baseia nos microdados em CSV que foram liberados recentemente para o Estado de Alagoas.

A frequência de atualização é maior que a do boletim que é divulgado em PDF uma vez ao dia.

/closes #34

@endersonmaia endersonmaia added data-scraping UF estruturado Dado estruturado disponível para UF labels May 18, 2020
@endersonmaia endersonmaia requested review from turicas and berinhard May 18, 2020 20:58
@endersonmaia
Copy link
Collaborator Author

verificando o CSV encontrei algumas datas no futuro 2020-05-30

não dá pra confiar em pegar last_date baseado neste campo 🤔

"id","etnia","sexo","municipio_residencia","classificacao","situacao_atual","data_resultado_exame","data_obito","data_atendimento","tipo_coleta","idade","febre","tosse","cefaléia","Dificuldade_respiratoria","dispineia","mialgia","Saturação de O2 < 95%","Dor de Garganta/Adinofagia","diarreia","adinamia","Náusea/Vômito","coriza","Não Informado","outros","Doença Cardiovascular","diabetes","Doença Respiratória Crônica","Hipertensão","Paciente Oncológico","Paciente Acima dos 60 Anos","Profissional de Saúde","Obesidade","Doença Renal Crônica","Doença auto imune","Asma","Sem Comorbidade","nao_informado","outros_fatores","pneumopatia"
"1034","Preta","MASCULINO","Maceió","Confirmado","Alta Hospitalar","2020-05-30T03:00:00.000Z","","2020-04-24T03:00:00.000Z","Swab nasofaringe + RT-PCR","65","","","","","","","","","","","","","","","","","","","","","","","","","","","","",""
"3456","","FEMININO","Colônia Leopoldina","Confirmado","Isolamento Domiciliar","2020-05-15T03:00:00.000Z","","2020-05-30T03:00:00.000Z","Teste Rápido","38","","","","","","","","","","","","","","","","","","","","","","","","","","","","",""
"3585","Preta","FEMININO","Pilar","Confirmado","Isolamento Domiciliar","2020-05-16T03:00:00.000Z","","2020-05-30T03:00:00.000Z","Teste Rápido","22","Sim","Sim","","","Sim","","","Sim","","","","","","","","","","","","","","","","","","","","",""

@endersonmaia endersonmaia changed the title [WIP] AL spider adiciona spider para Alagoas May 21, 2020
@endersonmaia endersonmaia changed the title adiciona spider para Alagoas Adiciona spider para AL May 21, 2020
@endersonmaia endersonmaia self-assigned this May 21, 2020
@augusto-herrmann
Copy link
Contributor

Segue uma ideia de como pegar a data atual a partir do nome de arquivo:

In [1]: import re
In [2]: from datetime import datetime

In [3]: header = {'Content-Disposition': ['attachment; filename=paciente10.06.2020.csv']}

In [4]: get_date = re.compile(r'(\d{2}\.\d{2}\.\d{4})\.csv$')

In [5]: date_string = get_date.search(header['Content-Disposition'][0]).group(1)

In [6]: last_date = datetime.strptime(date_string, '%d.%m.%Y')

In [7]: last_date
Out[7]: datetime.datetime(2020, 6, 10, 0, 0)

Só tem que tomar cuidado se eles não mudarem o padrão do nome do arquivo. O boletim em PDF do DF, por exemplo, vive mudando o padrão do nome do arquivo o tempo todo.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
automation data-scraping estruturado Dado estruturado disponível para UF UF
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Implementar script de coleta para AL
2 participants