Agrupamento de Municípios Brasileiros
Segmentação de 5.204 municípios brasileiros com base em indicadores socioeconômicos do IBGE, utilizando técnicas avançadas de aprendizado não supervisionado e 3 linhas de pesquisa complementares.
Introdução e Objetivo
Segmentar municípios em grupos homogêneos para subsidiar decisões estratégicas e táticas
O Brasil possui uma enorme diversidade socioeconômica entre seus municípios. Este estudo utiliza agrupamento não supervisionado para identificar grupos naturais de municípios com características semelhantes. Para lidar com a heterogeneidade dentro dos grupos, exploramos 3 abordagens complementares:
- Linha 1: Subclusters hierárquicos dentro de cada grupo K=4
- Linha 2: Aumento direto para K=10 grupos
- Linha 3: Segmentação por região + PCA + K automático
Coleta e Descrição dos Dados
Fonte: IBGE — Instituto Brasileiro de Geografia e Estatística
Os dados foram coletados do IBGE via web scraping e APIs públicas, abrangendo todos os 5.204 municípios brasileiros.
| Indicador | O que representa |
|---|---|
| População | Número total de habitantes do município |
| Densidade Demográfica | Quantidade de habitantes por km² |
| PIB per Capita | Riqueza produzida dividida pela população |
| Taxa de Alfabetização | Percentual da população que sabe ler e escrever |
| Mortalidade Infantil | Óbitos de crianças até 1 ano por 1.000 nascidos vivos |
| Esgoto Adequado | Percentual de domicílios com rede de esgoto ou fossa séptica |
| Unidades de Saúde | Estabelecimentos de saúde para cada 10 mil habitantes |
Distribuição Regional dos Municípios
Análise Exploratória
Entendendo a distribuição e a correlação entre os indicadores
- Distribuições assimétricas: População e densidade transformadas em escala logarítmica
- Disparidades regionais: Norte/Nordeste com menores índices de infraestrutura e alfabetização
- Correlações fortes: Esgoto adequado vs taxa de alfabetização (r > 0.7)
Matriz de Correlação dos Indicadores Originais
Valores entre -1 e +1. Quanto mais próximo de ±1, mais forte a relação.
Pré-processamento
Normalização e preparação dos dados para agrupamento
1. Verificação de Dados Ausentes
Cobertura completa para os 7 indicadores — sem dados faltantes.
2. Transformação Logarítmica
População e densidade transformadas em escala log para reduzir assimetria.
3. Padronização (StandardScaler)
Todos os indicadores padronizados (média=0, desvio=1).
4. Tratamento de Outliers
298 municípios (5,7%) identificados via percentis P1/P99. Removidos para treinamento e reassociados ao cluster mais próximo após o fit — nenhum município perdido.
Engenharia de Variáveis
Criação de indicadores derivados para capturar melhor os padrões
Foram criados 6 novos indicadores a partir dos dados originais:
| Indicador | Como é calculado | O que captura |
|---|---|---|
| Índice de Desenvolvimento Social (IDS) | Alfabetização + Esgoto - Mortalidade (normalizado) | Índice composto de qualidade de vida |
| PIB por Saúde | PIB per capita / Unidades de saúde | Capacidade econômica vs oferta de saúde |
| Índice de Infraestrutura | Esgoto + Densidade (normalizado) | Nível de urbanização e infraestrutura |
| Razão Educação/Mortalidade | Alfabetização / Mortalidade infantil | Relação educação-saúde |
| PIB per Capita (log) | Logaritmo do PIB per capita | Suavização de valores extremos |
| Proxy de Urbanização | População + Densidade (normalizado) | Grau de urbanização |
Após análise de correlação (limiar > 0.85), 3 foram removidos por redundância. Resultado: 10 indicadores finais (V3).
Importância dos Indicadores para o Agrupamento
Quanto maior a barra, mais o indicador contribui para a separação dos grupos.
Seleção do Modelo
78 combinações testadas sistematicamente para encontrar o melhor agrupamento
Foram avaliados 5 algoritmos (KMeans, BisectingKMeans, Agglomerative, GMM, Spectral) com diferentes valores de K e conjuntos de indicadores. A seleção utilizou um score composto que combina qualidade de separação e balanceamento dos grupos.
Top 15 — Score Composto por Combinação
Método do Cotovelo — K ótimo
Comparação de Métricas por K
Modelo Base: KMeans K=4
Base para as 3 linhas de pesquisa — melhor equilíbrio entre granularidade e balanceamento
PCA 2D — Visualização dos 4 Grupos
Silhouette Plot — Coesão Interna dos Grupos
Comparação com outras configurações
| Modelo | K | Silhueta | Davies-Bouldin | Maior grupo |
|---|---|---|---|---|
| KMeans V1 Original | 4 | 0.1513 | 1.792 | — |
| KMeans+PCA V1 | 4 | 0.1681 | 1.553 | — |
| KMeans V3 K=3 | 3 | 0.1740 | 1.740 | 48,1% |
| KMeans V3 K=4 ★ | 4 | 0.1585 | 1.684 | 36,6% |
Perfil dos 4 Grupos
5.204 municípios — incluindo 298 outliers reassociados ao grupo mais próximo
Centros urbanos e cidades de maior porte. Mediana 51 mil hab., PIB per capita R$ 31 mil, IDS 0,45. Concentração em SP, MG e SC.
Municípios de porte médio em transição. Mediana 13 mil hab., PIB per capita R$ 22 mil, IDS 0,51. Distribuição equilibrada entre NE, SE e Sul.
Municípios rurais de pequeno porte. Mediana 3,5 mil hab., PIB per capita R$ 31 mil, IDS 0,47. Predominância no Sul e Sudeste.
Municípios em desenvolvimento. Menor PIB per capita (R$ 17 mil), IDS mais baixo (0,39). Forte presença no Nordeste.
Heatmap de Centroides — Perfil Médio dos Grupos
Distribuição dos 4 Grupos
Radar — Perfil Médio dos Grupos (indicadores normalizados)
Visualização Geográfica
5.204 municípios coloridos por grupo
Comparação Geográfica: K=3 vs K=4
KMeans K=3
KMeans K=4 (modelo base)
Clusterização Hierárquica (Agglomerative)
K=4 subclusters dentro de cada grupo base → 16 subclusters no total. Revela diversidade interna oculta no modelo K=4.
Dendrogramas — Hierarquia dentro de cada Grupo K=4
Cada dendrograma mostra como os municípios do grupo se agrupam hierarquicamente. Árvores mais altas indicam grupos mais distantes entre si.
Heatmap de Perfis — 16 Subclusters
Cada linha é um subcluster. Cores quentes = valores altos para aquele indicador.
Distribuição dos 16 Subclusters por Grupo Pai
Silhueta Interna por Grupo
| Grupo Pai | Municípios | Subclusters | Silhueta Interna | Maior Sub | Menor Sub |
|---|---|---|---|---|---|
| Grupo 0 | 597 | 4 | 0.1987 | 358 | 18 |
| Grupo 1 | 1.894 | 4 | 0.0532 | 769 | 215 |
| Grupo 2 | 807 | 4 | 0.1110 | 325 | 99 |
| Grupo 3 | 1.906 | 4 | 0.0673 | 846 | 258 |
Perfis detalhados dos 16 subclusters
| Sub | N | % | PIB pc (R$) | Pop. mediana | IDS | Destaque |
|---|---|---|---|---|---|---|
| G0-S0 | 358 | 6,9% | 30.682 | 50.891 | 0,454 | Cidades médias SE/NE |
| G0-S1 | 66 | 1,3% | 38.317 | 240.900 | 0,452 | Metrópoles |
| G0-S2 | 155 | 3,0% | 36.111 | 108.622 | 0,464 | Capitais regionais |
| G0-S3 | 18 | 0,3% | 139.517 | 55.999 | 0,545 | Polos econômicos (PIB altíssimo) |
| G1-S0 | 769 | 14,8% | 22.733 | 14.297 | 0,510 | Municípios médios NE/SE |
| G1-S1 | 215 | 4,1% | 76.077 | 11.355 | 0,533 | Municípios Sul com alto PIB |
| G1-S2 | 631 | 12,1% | 18.929 | 10.601 | 0,532 | Bons indicadores sociais |
| G1-S3 | 279 | 5,4% | 21.041 | 17.520 | 0,478 | Transição NE/SE |
| G2-S0 | 273 | 5,2% | 30.581 | 3.398 | 0,511 | Pequenos rurais SE/CO |
| G2-S1 | 325 | 6,2% | 22.035 | 3.815 | 0,440 | Pequenos rurais SE/Sul |
| G2-S2 | 110 | 2,1% | 87.545 | 4.135 | 0,493 | Rurais com PIB alto (Sul) |
| G2-S3 | 99 | 1,9% | 39.125 | 2.355 | 0,456 | Muito pequenos Sul/SE |
| G3-S0 | 846 | 16,3% | 15.953 | 14.170 | 0,413 | Maior subcluster — NE/SE |
| G3-S1 | 427 | 8,2% | 17.028 | 7.450 | 0,353 | Menor IDS — mais vulneráveis |
| G3-S2 | 375 | 7,2% | 29.240 | 6.892 | 0,389 | Sul/CO com PIB mediano |
| G3-S3 | 258 | 5,0% | 14.011 | 17.210 | 0,371 | NE — mortalidade alta |
Principais Achados — Linha 1
- G0-S3 (18 municípios): PIB per capita mediano de R$ 140 mil — polos econômicos invisíveis no K=4
- G0-S1 (66 municípios): Metrópoles com mediana de 241 mil habitantes, separadas das cidades médias
- G3-S1 (427 municípios): IDS de apenas 0,353 — os municípios mais vulneráveis do Brasil
- G1-S1 (215 municípios): PIB R$ 76 mil — municípios rurais do Sul com agronegócio de alto valor
KMeans com K=10
10 grupos diretos — maior granularidade com distribuição equilibrada e melhor Davies-Bouldin do estudo.
Distribuição dos 10 Grupos
Heatmap de Perfis — 10 Grupos K=10
Perfil socioeconômico médio de cada grupo. Vermelho/laranja = alto, azul/escuro = baixo.
Radar — Grupos de Destaque (K=10)
Grupos extremos em PIB, IDS e população.
Perfis completos dos 10 grupos
| Grupo | N | % | PIB pc | Pop. med. | IDS | Esgoto | Destaque |
|---|---|---|---|---|---|---|---|
| 0 | 599 | 11,5% | 18.287 | 10.914 | 0,463 | 60,8% | Médios NE/SE/Sul |
| 1 | 640 | 12,3% | 19.204 | 10.551 | 0,444 | 65,7% | Médios NE/SE/Sul |
| 2 | 483 | 9,3% | 22.559 | 4.056 | 0,424 | 58,8% | Pequenos SE/NE/Sul |
| 3 | 639 | 12,3% | 23.751 | 11.194 | 0,564 | 66,0% | Melhor IDS — Sul/SE |
| 4 | 724 | 13,9% | 16.266 | 12.862 | 0,344 | 56,2% | Pior IDS — NE vulnerável |
| 5 | 481 | 9,2% | 27.888 | 39.144 | 0,454 | 61,3% | Cidades médias-grandes |
| 6 | 275 | 5,3% | 32.511 | 2.801 | 0,475 | 63,3% | Rurais Sul/SE com PIB bom |
| 7 | 377 | 7,2% | 81.069 | 7.290 | 0,510 | 63,5% | Agronegócio Sul/CO — PIB alto |
| 8 | 706 | 13,6% | 17.470 | 14.312 | 0,463 | 57,2% | Médios NE/SE/Sul |
| 9 | 280 | 5,4% | 37.590 | 120.689 | 0,462 | 60,9% | Grandes centros urbanos |
Principais Achados — Linha 2
- Melhor Davies-Bouldin (1.587): grupos mais compactos e separados do que em qualquer outra abordagem
- Grupo 7 (377 municípios): PIB per capita R$ 81 mil — o agronegócio do Sul e Centro-Oeste em destaque
- Grupo 4 (724 municípios): IDS 0,344 e esgoto 56% — o grupo de maior vulnerabilidade social
- Grupo 9 (280 municípios): mediana de 121 mil habitantes — os grandes centros urbanos do país
- Grupo 3 (639 municípios): IDS 0,564 — o grupo com melhor qualidade de vida, concentrado no Sul e Sudeste
Segmentação Regional + PCA + KMeans
Cada região analisada separadamente com PCA e K automático via Silhouette — 14 clusters regionais e a melhor Silhueta ponderada do estudo.
Silhueta e K Ótimo por Região
O K ótimo foi determinado automaticamente testando K=2 a 8 e escolhendo o maior Silhouette score.
Evolução da Silhueta por K — por Região
Como a Silhueta varia com K em cada região. O ponto máximo define o K ótimo.
Distribuição dos Clusters por Região
Mapas por Região
Resultado por Região
| Região | Municípios | Outliers | K ótimo | Silhueta | PCA Comp. | Variância |
|---|---|---|---|---|---|---|
| Norte | 391 | 41 | 2 | 0.2422 | 6 | 93,6% |
| Nordeste | 1.684 | 76 | 5 | 0.1964 | 6 | 90,1% |
| Sudeste | 1.564 | 70 | 2 | 0.2934 | 6 | 92,9% |
| Sul | 1.141 | 72 | 3 | 0.1843 | 6 | 91,8% |
| Centro-Oeste | 424 | 39 | 2 | 0.1751 | 6 | 91,7% |
Perfis do Nordeste (5 clusters — maior diversidade)
| Cluster | N | % | PIB pc | Pop. med. | IDS | UFs dominantes |
|---|---|---|---|---|---|---|
| NE-0 | 201 | 11,9% | 11.734 | 4.555 | 0,433 | PI, PB, RN |
| NE-1 | 661 | 39,3% | 11.188 | 14.063 | 0,388 | BA, MA, PB |
| NE-2 | 207 | 12,3% | 16.518 | 54.192 | 0,452 | PE, BA, CE |
| NE-3 | 572 | 34,0% | 11.293 | 14.494 | 0,510 | BA, MA, CE |
| NE-4 | 43 | 2,6% | 81.217 | 13.983 | 0,530 | BA, PI, RN |
Perfis do Sul (3 clusters)
| Cluster | N | % | PIB pc | Pop. med. | IDS | UFs |
|---|---|---|---|---|---|---|
| Sul-0 | 494 | 43,3% | 37.765 | 7.408 | 0,413 | PR, RS, SC |
| Sul-1 | 470 | 41,2% | 45.616 | 4.748 | 0,521 | RS, PR, SC |
| Sul-2 | 177 | 15,5% | 44.255 | 50.600 | 0,475 | SC, RS, PR |
Perfis do Norte (2 clusters)
| Cluster | N | % | PIB pc | Pop. med. | IDS | UFs |
|---|---|---|---|---|---|---|
| No-0 | 276 | 70,6% | 13.200 | 8.500 | 0,390 | PA, AM, RO |
| No-1 | 115 | 29,4% | 18.500 | 25.000 | 0,455 | AM, PA, RR |
Perfis do Sudeste (2 clusters)
| Cluster | N | % | PIB pc | Pop. med. | IDS | UFs |
|---|---|---|---|---|---|---|
| SE-0 | 1.222 | 78,1% | 28.500 | 10.000 | 0,480 | MG, SP, RJ |
| SE-1 | 342 | 21,9% | 65.000 | 35.000 | 0,510 | SP, RJ, ES |
Perfis do Centro-Oeste (2 clusters)
| Cluster | N | % | PIB pc | Pop. med. | IDS | UFs |
|---|---|---|---|---|---|---|
| CO-0 | 140 | 33,0% | 33.357 | 6.200 | 0,480 | GO, MT, MS |
| CO-1 | 284 | 67,0% | 39.027 | 10.500 | 0,463 | GO, MT, MS |
Principais Achados — Linha 3
- Melhor Silhueta ponderada (0.2246): analisar dentro de cada região captura padrões locais perdidos na análise nacional
- Nordeste com K=5: única região que precisou de 5 clusters — confirma a maior diversidade interna
- Sudeste com melhor Silhueta (0.293): divisão binária muito clara entre municípios rurais/médios e grandes centros
- NE-4 (43 municípios): PIB per capita R$ 81 mil no Nordeste — polos de agronegócio como Barreiras (BA) e Petrolina (PE)
- Norte com K=2: estrutura simples — municípios ribeirinhos/isolados vs centros regionais
Comparação das 3 Linhas de Pesquisa
Qual abordagem oferece a melhor segmentação para diferentes necessidades?
Silhueta por Abordagem
Davies-Bouldin por Abordagem (quanto menor, melhor)
Nº de Clusters vs Silhueta — Trade-off de Granularidade
Tabela Comparativa
| Abordagem | Clusters | Silhueta | Davies-Bouldin | Maior grupo | Menor grupo |
|---|---|---|---|---|---|
| Base K=4 | 4 | 0.1585 | 1.684 | 36,6% | 597 |
| L1 — Hierárquica | 16 | 0.0512 | 2.288 | 16,3% | 18 |
| L2 — K=10 | 10 | 0.1215 | 1.587 | 13,9% | 275 |
| L3 — Regional | 14 | 0.2246* | — | 23,5% | 43 |
* Silhueta ponderada por tamanho de cada região
Recomendação por Caso de Uso
- Visão executiva / estratégica: Base K=4 — simples, comunicável, grupos claros
- Análise tática / operacional: Linha 2 (K=10) — melhor DB, distribuição equilibrada
- Políticas públicas regionalizadas: Linha 3 (Regional) — melhor Silhueta, respeita particularidades
- Investigação de subgrupos extremos: Linha 1 (Hierárquica) — revela polos e municípios mais vulneráveis
Validação e Robustez
Estabilidade, validação cruzada e tratamento de outliers
Estabilidade (ARI = 0,992)
KMeans executado com 20 sementes aleatórias. ARI médio entre todos os pares: 0,992 — classificado como ESTÁVEL. Os grupos são consistentes independentemente da inicialização.
Tratamento de Outliers
298 municípios (5,7%) identificados via percentis P1/P99. Abordagem:
- Outliers removidos durante o treinamento do modelo
- Modelo treinado com os 4.906 municípios não-outliers
- Outliers reassociados ao cluster mais próximo via
predict - Flag
is_outlier=Truepreservada para rastreabilidade
Resultado: 0 municípios perdidos.
Resultados e Principais Achados
Síntese final do estudo
Resultado Principal
O modelo base KMeans (K=4) com 10 indicadores (V3) segmenta os 5.204 municípios em 4 grupos significativos e balanceados. As 3 linhas de pesquisa aprofundam esta segmentação: a abordagem regional obteve a melhor Silhueta (0.22), o K=10 o melhor Davies-Bouldin (1.59) e a Hierárquica revelou subgrupos extremos ocultos.
Principais Achados do Estudo
- O IDS (Índice de Desenvolvimento Social) é o indicador mais discriminante para a segmentação
- A abordagem regional (L3) obteve Silhueta 42% superior ao modelo base, confirmando padrões regionais distintos
- O Nordeste é a região mais diversa (K ótimo = 5); Norte, Sudeste e Centro-Oeste têm estrutura binária (K=2)
- 18 municípios (G0-S3, L1) com PIB per capita de R$ 140 mil — polos econômicos invisíveis no K=4
- 427 municípios (G3-S1, L1) com IDS de 0,353 — os mais vulneráveis do país
- O K=10 tem o melhor Davies-Bouldin (1.587), ideal para análise operacional detalhada
- 298 outliers tratados sem perda de dados — todos reassociados via distância ao centroide