O prazo para entregar Desafio 3 por email com título “[FLS6397] - D3” à minha conta é 14h, 08/05/2020, antes da próxima aula. Por favor entregue (i) o arquivo .Rmd, e (ii) o arquivo .html.
[Atualizada no dia 27/04/20 para inserir Q4(b) com código fornecido, resolvendo o problema de duplicação de vereadores por zona nas questões de número de candidatos]
Respostas Sugeridas para Desafio 3 aqui
Siga as instruções abaixo. Documente todos os seus passos em um script. Comente no seu script todos os seus passos e explique a si mesma(o) suas escolhas e estratégias. Se você se beneficiou da assistência de outra pessoa, sempre reconheça isso em comentários no código.
Na aba de ‘resultados’, faça o download do arquivo “Votação nominal por município e zona” para 2016 e descompacte-o.
Na aba de ‘candidatos’, faça o download do arquivo “Candidatos” para 2016 e descompacte-o.
Dos arquivos descompactados, abre os dois bancos para Roraima (RR) em R com os parâmetros apropriados (note que o formato é um pouco diferente dos arquivos no desafio 1). Para detalhes sobre as colunas, veja o parte apropriado do documento leiame.pdf nos arquivos.
Identifique a unidade de análise do banco de candidatos - o que repesenta cada observação/linha? Quais variáveis identificam cada linha exclusivamente? (Cuidado: o número do candidato (NR_CANDIDATO
) não é único para cada candidato).
Identifique a unidade de análise do banco de resultados - o que repesenta cada observação/linha? Quais variáveis identificam cada linha exclusivamente?
anti_join
para identificador se há resultados que faltam detalhes do seu candidato no banco de dados de candidatos.anti_join
para identificador se há candidatos faltando no banco de dados de resultados. (Bonus: Investigando as colunas do resultado de anti_join
, você pode identificar porque eles não existem no banco de resultados?).Candidatos: SQ_CANDIDATO, NM_CANDIDATO, SG_PARTIDO, NR_IDADE_DATA_POSSE, DS_GENERO, DS_GRAU_INSTRUCAO, DS_COR_RACA
Resultados: SQ_CANDIDATO, NM_MUNICIPIO, NR_ZONA, DS_CARGO, NR_TURNO, DS_CARGO, DS_SIT_TOT_TURNO, QT_VOTOS_NOMINAIS
2*. Por algum motivo, queremos calcular um resumo do total de votos recebidos por cada candidato em todas as eleições de 2016 - todas as zonas, todos os turnos, etc.
Agregar o seu banco de resultados para ter uma linha por candidato resumindo o seu número de votos total.
Execute um join do tipo apropriado para criar uma tabela de todos os candidatos que se inscreveram para a eleição com os seus dados pessoais, incluindo o número de votos total calculado em (a).
combinado_vereador <- combinado_vereador %>%
group_by(SQ_CANDIDATO, NM_MUNICIPIO, DS_CARGO, NR_TURNO, DS_SIT_TOT_TURNO,
NM_CANDIDATO, SG_PARTIDO, NR_IDADE_DATA_POSSE, DS_GENERO,
DS_GRAU_INSTRUCAO, DS_COR_RACA) %>%
summarize(QT_VOTOS_NOMINAIS=sum(QT_VOTOS_NOMINAIS, na.rm=T)) %>%
ungroup()
Escolhe um tipo de gráfico apropriado e crie o gráfico.
Adicione um título ao seu gráfico, e rótulos nos eixos.
Use o código da camada + theme(axis.text.x = element_text(angle = 90))
para virar o texto do município para deixar mais visível.
DS_GENERO
) no estado inteiro, usando o banco de dados de vereadores de questão 4. Prepare um gráfico apropriado, com título, rótulos nos eixos e aplique um tema simples da sua escolha.DS_SIT_TOT_TURNO
), e calcule a taxa de sucesso (% eleito) de candidatos por município e gênero.NR_IDADE_DATA_POSSE
). Faça qualquer ajuste necessário para que o seu gráfico faz sentido e incorpora valores de idade possíveis. Formate o seu gráfico.
IDH <- tibble(NM_MUNICIPIO=c("ALTO ALEGRE", "AMAJARI", "BOAVISTA", "BONFIM",
"CANTÁ", "CARACARAÍ", "CAROEBE", "IRACEMA", "MUCAJAÍ",
"NORMANDIA", "PACARAIMA", "RORAINOPOLIS",
"SÃO JOÃO DA BALIZA", "SÃO LUIZ", "UIRAMUTÃ"),
IDH=c(0.542, 0.484, 0.752, 0.626, 0.619, 0.624, 0.639, 0.582, 0.665,
0.594, 0.650, 0.619, 0.655, 0.649, 0.453))