Desafio 1: De Banco de Dados ao Relatório

O prazo para entregar Desafio 1 por email com título “[FLS6397] - D1” na minha conta de email é 14h, 30/04/2021, antes da aula. Por favor entregue (i) o arquivo .Rmd, e (ii) o arquivo .html.


Respostas Sugeridas para Desafio 1 aqui

Instruções

Siga as instruções abaixo. Documente todos os seus passos em um script. Comente no seu script todos os seus passos e explique a si mesma(o) suas escolhas e estratégias. Se você se beneficiou da assistência de outra pessoa, sempre reconheça isso em comentários no código.

Roteiro

  1. Vá ao Repositório de Dados Eleitorais do TSE. Na página “Resultados” e no ano 2012, faça o download do arquivo “Votação nominal por município e zona” e descompacte-o.

  2. Abra o arquivo de São Paulo (votacao_candidato_munzona_2012_SP.txt) em R com os nomes de colunas e o encoding corretos de acordo com a seção relevante de leaime.pdf.

  1. Lendo o leaime.pdf e observando as variáveis no banco de dados, o que representa uma observação (uma linha)? Ou seja, qual a unidade de análise aqui?

  2. Leia até o final as instruções e identifique quais variáveis serão necessárias para o resto do exercício. Tire do seu banco de dados as variáveis desnecesárias.

  1. Selecione apenas as linhas que contêm os resultados eleitorais para o primeiro turno da eleição do prefeito(a).
  1. Note que alguns candidatos podem aparecer mais de uma vez na tabela em Q5 (porque existem múltiplas zonas em cada município). Usando identificadores únicos, identifique os candidatos distintos e exclusivos para o primeiro turno do prefeito. Explique no seu relatório quantos candidatos concorrem para prefeito no primeiro turno em 2012.
  1. No banco de dados de prefeitos no primeiro turno gerado na questão anterior, renomeie a variável com nome pouco claro DESC_SIT_CAND_TOT para RESTULADO
  1. No banco de dados de prefeitos no primeiro turno gerado na questão anterior, filtre os dados para os candidatos que se candidataram com Nome de Urna igual ao seu Nome completo, e identifique os candidatos únicos de novo. No seu relatório, explique qual percentagem de todos os candidatos para prefeito no primeiro turno isso representa.
  1. Quantos dos candidatos identificados em Q8 foram eleitos no primeiro turno?
  1. Voltando para os dados de todos os candidatos no primeiro turno, vamos focar a nossa análise no município de São Paulo (código do TSE 71072). Ordene os dados por número de votos e identifique qual é o candidato que recebeu o maior número de votos em uma zona eleitoral. Ou seja, entre todas as zonas e todos os candidatos, qual foi a zona que registrou maior número de votos para um candidato? Quem é este candidato e quantos votos ele recebeu nesta zona?
  1. Usando a sua própria classificação, crie uma nova variável que descreve a ideologia de cada partido no banco de dados do município de São Paulo nas três categorias ‘Esquerda’, ‘Direita’ e ‘Outro’.
  1. Crie uma variável que indica se o candidato no município de São Paulo recebeu mais de 10.000 votos na zona.
  1. Voltando para os dados originais, filtre apenas os dados dos vereadores. Agora, imagine que não temos os dados do partido de cada candidato e queremos recuperar do NUMERO_CAND, em que os primeiros dois dígitos sempre refletem o número do partido do candidato. Divida a coluna NUMERO_CAND em duas para criar uma coluna de NUM_PARTIDO e outra de NUM_CAND_RESTANTE.
  1. Agora, unifique as colunas NUM_PARTIDO e NUM_CAND_RESTANTE criado em Q9. O resultado deve ser igual à coluna original NUMERO_CAND.
  1. Limpe o seu script e Knit para um documento de HTML, por exemplo adicionando comentários, verificando que as respostas fazem sentidos, inserindo in-line código, tirando o código, warnings e mensagens do documento final, e formatando as tabelas melhores com df_print: paged no cabeçalho.