Desafio 2: Resumindo um Banco de Dados

O prazo para entregar Desafio 2 por email com título “[FLS6397] - D2” à minha conta é 14h, 14/05/2021, antes da aula. Por favor entregue (i) o arquivo .Rmd, e (ii) o arquivo .html.


Respostas Sugeridas para Desafio 2 aqui

Instruções

Siga as instruções abaixo. Documente todos os seus passos em um script. Comente no seu script todos os seus passos e explique a si mesma(o) suas escolhas e estratégias. Se você se beneficiou da assistência de outra pessoa, sempre indique isso em comentários no código.

Neste desafio, vamos analisar dados do Censo Escolar do INEP, usando um arquivo dos dados para Roraima em 2004.

Roteiro

  1. Baixe e abra em R o banco de dados aqui: “CENSOESC_2004_RR.CSV”. Incomumente este banco usa o separador “|” entre colunas. O banco nacional é 1GB então já filtramos o banco para o estado de Roraima para deixar ele mais leve e accessível. Os nomes das variáveis são mais ou menos auto-explicativas, e descrevemos alguns em mais detalhe ao longo do desafio.
  1. Os dados contém escolas não-ativas (veja a variável CODFUNC); tire elas do banco de dados. O que representa uma observação no banco de dados agora?
    1. Quantas escolas há no estado, quantas por municípo (inclua uma tabela), e qual é o município com o maior número de escolas?
    2. Adicione uma última linha na tabela em (a) para inserir o total de escolas no estado.
    1. Quantos professores há no estado de Roraima, e quantos por município (inclua uma tabela)?
    2. Qual é o porcentagem de professores entre todos os empregados (professores e funcionários) em cada município (inclua uma tabela)?
  1. Calcule a média e o desvio padrão do número de professores por escola em cada município (inclua uma tabela). Qual município apresenta a maior variabilidade (desvio padrão) no número de professores por escola?
  1. Quantos professores trabalham em cada uma das redes federais, estaduais, municipais e particulares (a variável DEP)? Calcule o porcentagem de professores em cada rede (inclua uma tabela).
  1. Qual é o porcentagem de escolas com laboratório de informático, por município (inclua uma tabela)? Qual é o nome do município com a maior porcentagem de escolas com laboratório de informático?
  1. O banco de dados do INEP contém quatro variáveis (VDG1CA, VDG1C1, VDG1C3, VDG1C4) com o número de professores, organizado por nível de ensino.
    1. Vire o banco de dados do formato largo para o formato longo, para que as quatro variáveis VDG1CA, VDG1C1, VDG1C3, VDG1C4 se tornam uma variável que descreve o nível de ensino do professor, e uma outra variável que descreve o número de professores.
    2. No novo banco de dados longo, recodifique os valores: VDG1CA para ‘Creche’, VDG1C1 para ‘Pré-escola’, VDG1C3 para ‘Fundamental’, VDG1C4 para ‘Médio’.
    3. Resuma o número de professores por nível de ensino no estado inteiro.
  1. Usando o banco de dados ‘longo’ criado na questão 8:
    1. Calcule o total do número de professores e a média por escola em cada nível de ensino em cada município (inclua uma tabela)
    2. Calcule a porcentagem dos professores em cada nível de ensino, por município, em uma tabela. Qual é o município com a maior porcentagem dos seus Professores alocado à nível Fundamental?
    3. Calcule a porcentagem dos professores em cada município, por nível de ensino, em uma tabela. (Observe que isso é sutilmente diferente da questão em (b) acima). Qual é o município com a maior porcentagem de todos os Professores de Ensino Fundamental no páis?
  1. Voltando para o seu banco de dados ‘largo’, gere uma amostra aleatória de duas escolas estaduais em cada município. Mostre os resultados numa tabela.
  1. Agora, queremos gerar uma tabela com nomes dos municípios nas linhas e a rede (Estadual, Municipal, Federal, Particular; variável DEP) nas colunas. Nas células, colocamos o número de escolas de cada rede em cada município. Há vários jeitos de realizar isso, mas vamos seguir os passos abaixo:
    1. Calcule o número de escolas por município e rede. Todas as redes existem em todos os municípios?
    2. Transforme as variáveis do município e rede em fatores.
    3. Use complete (de Tutorial 3) para criar uma tabela ‘completa’ com todas as combinações de município e rede possível, mesmo que não existe uma rede específica num município específico. Preenche os valores NA com ‘0’, porque já sabemos que não temos escolas nestes casos.
    4. Use uma função de pivot para virar o tibble e gerar o tamanho de tabela desejada (municípios nas linhas, redes nas colunas).
  1. Para todas as tabelas que você produziu acima, verifique que você preparou tabelas estáticas e bem formatados com kable(). Verifique que todas as tabelas têm um título, as colunas apropriadas, formatação de números, etc.