O prazo para entregar Desafio 5 por email com título “[FLS6397] - D5” à minha conta é 09/07/2021. Por favor entregue (i) o arquivo .Rmd (ou .Rnw se preferir), e (ii) o arquivo .html ou .PDF.
Siga as instruções abaixo. Documente todos os seus passos em um script. Comente no seu script todos os seus passos e explique a si mesma(o) suas escolhas e estratégias. Se você se beneficiou da assistência de outra pessoa, sempre reconheça isso em comentários no código.
Análise Espacial
Instale e abra o pacote geobr
do IBGE. Leia as instruções no site de github sobre o pacote e use a função read_municipality()
para acessar todos os municípios do estado de São Paulo em 2018.
Use a funcionalidade da família de map
para aplicar a função read_municipality
para os seguintes cinco estados seguintes em uma única linha de código: SP, RJ, MT, RS e RN (todos para o ano de 2018).
Baixe, descompacte e abre em R o arquivo da população paulista em 2010 do site do IBGE, ‘Censos’ -> ‘Censo_Demografico_2010’ -> ‘resultados’ -> ‘total_populacao_sao_paulo.zip’.
Queremos mapear dados da população por município. Identifique a chave apropriada, e cruze o banco da população com o banco das fronteiras dos municípios de SP.
Usando o seu banco de dados de Questão 5, calcule a proporção da população urbana na população total em cada município e apresente os seus resultados por meio de um mapa bem-formatado dessa taxa por município em 2010. Aplique uma escala de cores desejada.
Testes Estatísticos e Regressões
Faça um teste de shapiro para avaliar se a taxa de urbanização do município é distribuída de forma normal.
Execute uma regressão linear para avaliar se a taxa de urbanização do município (a variável dependente) é associada com a população total do município (a variável independente). Apresente o resultado numa tabela bem-formatada.
Mostre um gráfico do efeito marginal (o coeficiente) da variável da população na regressão da questão anterior em Questão 8 e o intervalo de confiança do coeficiente.
Análise de Texto
Use este link para acessar em R um PDF da discussão na Câmara dos Deputados no dia 21 de Maio de 2020. Transforme o PDF em texto simples.
Precisamos processar e preparar o texto para a análise. Siga os seguintes passos:
str_split
para dividir o texto baseado nos strings ‘O SR.’ ou ‘A SRA.’ e salve os resultados numa nova coluna.unnest()
os dados para que cada fala de cada deputado fique em uma linha separada no tibble.separate
para dividir a fala de cada deputado em duas colunas: O nome do Deputado, e o Discurso, usando o seguinte string como divisor: "\\) - "
filter
para remover essas linhas que começam com “Sessão” na coluna de ‘Deputado’.separate
para dividir a coluna do nome de Deputado em (i) nome e (ii) conteúdo nos parênteses (que não importa para nós), usando o seguinte string como divisor: " \\("
.Agora, com o tibble produzido em Questão 17, vamos desagregar e padronizar os discursos:
Gere um ‘wordcloud’ dos stems das palavras usadas pelos Deputados.
Execute uma análise de sentimento para identificar no documento inteiro qual Deputado usa as palavras mais otimistas e qual Deputado usa as palavras mais pessimistas.