Machine Learning • Agrupamento Não Supervisionado

Agrupamento de Municípios Brasileiros

Segmentação de 5.204 municípios brasileiros com base em indicadores socioeconômicos do IBGE, utilizando técnicas avançadas de aprendizado não supervisionado e 3 linhas de pesquisa complementares.

Fase 1

Introdução e Objetivo

Segmentar municípios em grupos homogêneos para subsidiar decisões estratégicas e táticas

5.204
Municípios analisados
10
Indicadores (após engenharia)
3
Linhas de pesquisa
0
Municípios perdidos

O Brasil possui uma enorme diversidade socioeconômica entre seus municípios. Este estudo utiliza agrupamento não supervisionado para identificar grupos naturais de municípios com características semelhantes. Para lidar com a heterogeneidade dentro dos grupos, exploramos 3 abordagens complementares:

  • Linha 1: Subclusters hierárquicos dentro de cada grupo K=4
  • Linha 2: Aumento direto para K=10 grupos
  • Linha 3: Segmentação por região + PCA + K automático
Fase 2

Coleta e Descrição dos Dados

Fonte: IBGE — Instituto Brasileiro de Geografia e Estatística

Os dados foram coletados do IBGE via web scraping e APIs públicas, abrangendo todos os 5.204 municípios brasileiros.

IndicadorO que representa
PopulaçãoNúmero total de habitantes do município
Densidade DemográficaQuantidade de habitantes por km²
PIB per CapitaRiqueza produzida dividida pela população
Taxa de AlfabetizaçãoPercentual da população que sabe ler e escrever
Mortalidade InfantilÓbitos de crianças até 1 ano por 1.000 nascidos vivos
Esgoto AdequadoPercentual de domicílios com rede de esgoto ou fossa séptica
Unidades de SaúdeEstabelecimentos de saúde para cada 10 mil habitantes

Distribuição Regional dos Municípios

Fase 3

Análise Exploratória

Entendendo a distribuição e a correlação entre os indicadores

  • Distribuições assimétricas: População e densidade transformadas em escala logarítmica
  • Disparidades regionais: Norte/Nordeste com menores índices de infraestrutura e alfabetização
  • Correlações fortes: Esgoto adequado vs taxa de alfabetização (r > 0.7)

Matriz de Correlação dos Indicadores Originais

Valores entre -1 e +1. Quanto mais próximo de ±1, mais forte a relação.

Fase 4

Pré-processamento

Normalização e preparação dos dados para agrupamento

1. Verificação de Dados Ausentes

Cobertura completa para os 7 indicadores — sem dados faltantes.

2. Transformação Logarítmica

População e densidade transformadas em escala log para reduzir assimetria.

3. Padronização (StandardScaler)

Todos os indicadores padronizados (média=0, desvio=1).

4. Tratamento de Outliers

298 municípios (5,7%) identificados via percentis P1/P99. Removidos para treinamento e reassociados ao cluster mais próximo após o fit — nenhum município perdido.

Fase 5

Engenharia de Variáveis

Criação de indicadores derivados para capturar melhor os padrões

Foram criados 6 novos indicadores a partir dos dados originais:

IndicadorComo é calculadoO que captura
Índice de Desenvolvimento Social (IDS)Alfabetização + Esgoto - Mortalidade (normalizado)Índice composto de qualidade de vida
PIB por SaúdePIB per capita / Unidades de saúdeCapacidade econômica vs oferta de saúde
Índice de InfraestruturaEsgoto + Densidade (normalizado)Nível de urbanização e infraestrutura
Razão Educação/MortalidadeAlfabetização / Mortalidade infantilRelação educação-saúde
PIB per Capita (log)Logaritmo do PIB per capitaSuavização de valores extremos
Proxy de UrbanizaçãoPopulação + Densidade (normalizado)Grau de urbanização

Após análise de correlação (limiar > 0.85), 3 foram removidos por redundância. Resultado: 10 indicadores finais (V3).

Importância dos Indicadores para o Agrupamento

Quanto maior a barra, mais o indicador contribui para a separação dos grupos.

Fase 6

Seleção do Modelo

78 combinações testadas sistematicamente para encontrar o melhor agrupamento

Foram avaliados 5 algoritmos (KMeans, BisectingKMeans, Agglomerative, GMM, Spectral) com diferentes valores de K e conjuntos de indicadores. A seleção utilizou um score composto que combina qualidade de separação e balanceamento dos grupos.

Top 15 — Score Composto por Combinação

Método do Cotovelo — K ótimo

Método do Cotovelo

Comparação de Métricas por K

Métricas
Fase 7

Modelo Base: KMeans K=4

Base para as 3 linhas de pesquisa — melhor equilíbrio entre granularidade e balanceamento

KMeans
Algoritmo
K = 4
Nº de Grupos
0.1585
Silhueta
1.684
Davies-Bouldin
36,6%
Maior grupo

PCA 2D — Visualização dos 4 Grupos

PCA 2D K=4

Silhouette Plot — Coesão Interna dos Grupos

Silhouette
Comparação com outras configurações
ModeloKSilhuetaDavies-BouldinMaior grupo
KMeans V1 Original40.15131.792
KMeans+PCA V140.16811.553
KMeans V3 K=330.17401.74048,1%
KMeans V3 K=4 ★40.15851.68436,6%
Fase 8

Perfil dos 4 Grupos

5.204 municípios — incluindo 298 outliers reassociados ao grupo mais próximo

597
Grupo 0 — 11,5%

Centros urbanos e cidades de maior porte. Mediana 51 mil hab., PIB per capita R$ 31 mil, IDS 0,45. Concentração em SP, MG e SC.

1.894
Grupo 1 — 36,4%

Municípios de porte médio em transição. Mediana 13 mil hab., PIB per capita R$ 22 mil, IDS 0,51. Distribuição equilibrada entre NE, SE e Sul.

807
Grupo 2 — 15,5%

Municípios rurais de pequeno porte. Mediana 3,5 mil hab., PIB per capita R$ 31 mil, IDS 0,47. Predominância no Sul e Sudeste.

1.906
Grupo 3 — 36,6%

Municípios em desenvolvimento. Menor PIB per capita (R$ 17 mil), IDS mais baixo (0,39). Forte presença no Nordeste.

Heatmap de Centroides — Perfil Médio dos Grupos

Heatmap centroides

Distribuição dos 4 Grupos

Radar — Perfil Médio dos Grupos (indicadores normalizados)

Mapas

Visualização Geográfica

5.204 municípios coloridos por grupo

Comparação Geográfica: K=3 vs K=4

Mapa K=3

KMeans K=3

Mapa K=4

KMeans K=4 (modelo base)

Linha 1

Clusterização Hierárquica (Agglomerative)

K=4 subclusters dentro de cada grupo base → 16 subclusters no total. Revela diversidade interna oculta no modelo K=4.

16
Subclusters totais
0.0512
Silhueta global
2.288
Davies-Bouldin
16,3%
Maior subcluster
18
Menor subcluster

Dendrogramas — Hierarquia dentro de cada Grupo K=4

Cada dendrograma mostra como os municípios do grupo se agrupam hierarquicamente. Árvores mais altas indicam grupos mais distantes entre si.

Dendrogramas L1

Heatmap de Perfis — 16 Subclusters

Cada linha é um subcluster. Cores quentes = valores altos para aquele indicador.

Distribuição dos 16 Subclusters por Grupo Pai

Silhueta Interna por Grupo

Grupo PaiMunicípiosSubclustersSilhueta InternaMaior SubMenor Sub
Grupo 059740.198735818
Grupo 11.89440.0532769215
Grupo 280740.111032599
Grupo 31.90640.0673846258
Perfis detalhados dos 16 subclusters
SubN%PIB pc (R$)Pop. medianaIDSDestaque
G0-S03586,9%30.68250.8910,454Cidades médias SE/NE
G0-S1661,3%38.317240.9000,452Metrópoles
G0-S21553,0%36.111108.6220,464Capitais regionais
G0-S3180,3%139.51755.9990,545Polos econômicos (PIB altíssimo)
G1-S076914,8%22.73314.2970,510Municípios médios NE/SE
G1-S12154,1%76.07711.3550,533Municípios Sul com alto PIB
G1-S263112,1%18.92910.6010,532Bons indicadores sociais
G1-S32795,4%21.04117.5200,478Transição NE/SE
G2-S02735,2%30.5813.3980,511Pequenos rurais SE/CO
G2-S13256,2%22.0353.8150,440Pequenos rurais SE/Sul
G2-S21102,1%87.5454.1350,493Rurais com PIB alto (Sul)
G2-S3991,9%39.1252.3550,456Muito pequenos Sul/SE
G3-S084616,3%15.95314.1700,413Maior subcluster — NE/SE
G3-S14278,2%17.0287.4500,353Menor IDS — mais vulneráveis
G3-S23757,2%29.2406.8920,389Sul/CO com PIB mediano
G3-S32585,0%14.01117.2100,371NE — mortalidade alta

Principais Achados — Linha 1

  • G0-S3 (18 municípios): PIB per capita mediano de R$ 140 mil — polos econômicos invisíveis no K=4
  • G0-S1 (66 municípios): Metrópoles com mediana de 241 mil habitantes, separadas das cidades médias
  • G3-S1 (427 municípios): IDS de apenas 0,353 — os municípios mais vulneráveis do Brasil
  • G1-S1 (215 municípios): PIB R$ 76 mil — municípios rurais do Sul com agronegócio de alto valor
Linha 2

KMeans com K=10

10 grupos diretos — maior granularidade com distribuição equilibrada e melhor Davies-Bouldin do estudo.

10
Clusters
0.1215
Silhueta
1.587
Davies-Bouldin ★
13,9%
Maior grupo
275
Menor grupo

Distribuição dos 10 Grupos

Heatmap de Perfis — 10 Grupos K=10

Perfil socioeconômico médio de cada grupo. Vermelho/laranja = alto, azul/escuro = baixo.

Radar — Grupos de Destaque (K=10)

Grupos extremos em PIB, IDS e população.

Perfis completos dos 10 grupos
GrupoN%PIB pcPop. med.IDSEsgotoDestaque
059911,5%18.28710.9140,46360,8%Médios NE/SE/Sul
164012,3%19.20410.5510,44465,7%Médios NE/SE/Sul
24839,3%22.5594.0560,42458,8%Pequenos SE/NE/Sul
363912,3%23.75111.1940,56466,0%Melhor IDS — Sul/SE
472413,9%16.26612.8620,34456,2%Pior IDS — NE vulnerável
54819,2%27.88839.1440,45461,3%Cidades médias-grandes
62755,3%32.5112.8010,47563,3%Rurais Sul/SE com PIB bom
73777,2%81.0697.2900,51063,5%Agronegócio Sul/CO — PIB alto
870613,6%17.47014.3120,46357,2%Médios NE/SE/Sul
92805,4%37.590120.6890,46260,9%Grandes centros urbanos

Principais Achados — Linha 2

  • Melhor Davies-Bouldin (1.587): grupos mais compactos e separados do que em qualquer outra abordagem
  • Grupo 7 (377 municípios): PIB per capita R$ 81 mil — o agronegócio do Sul e Centro-Oeste em destaque
  • Grupo 4 (724 municípios): IDS 0,344 e esgoto 56% — o grupo de maior vulnerabilidade social
  • Grupo 9 (280 municípios): mediana de 121 mil habitantes — os grandes centros urbanos do país
  • Grupo 3 (639 municípios): IDS 0,564 — o grupo com melhor qualidade de vida, concentrado no Sul e Sudeste
Linha 3

Segmentação Regional + PCA + KMeans

Cada região analisada separadamente com PCA e K automático via Silhouette — 14 clusters regionais e a melhor Silhueta ponderada do estudo.

14
Clusters regionais
0.2246
Silhueta ponderada ★
6
Componentes PCA
~92%
Variância explicada

Silhueta e K Ótimo por Região

O K ótimo foi determinado automaticamente testando K=2 a 8 e escolhendo o maior Silhouette score.

Evolução da Silhueta por K — por Região

Como a Silhueta varia com K em cada região. O ponto máximo define o K ótimo.

Distribuição dos Clusters por Região

Mapas por Região

Mapas por região

Resultado por Região

RegiãoMunicípiosOutliersK ótimoSilhuetaPCA Comp.Variância
Norte3914120.2422693,6%
Nordeste1.6847650.1964690,1%
Sudeste1.5647020.2934692,9%
Sul1.1417230.1843691,8%
Centro-Oeste4243920.1751691,7%
Perfis do Nordeste (5 clusters — maior diversidade)
ClusterN%PIB pcPop. med.IDSUFs dominantes
NE-020111,9%11.7344.5550,433PI, PB, RN
NE-166139,3%11.18814.0630,388BA, MA, PB
NE-220712,3%16.51854.1920,452PE, BA, CE
NE-357234,0%11.29314.4940,510BA, MA, CE
NE-4432,6%81.21713.9830,530BA, PI, RN
Perfis do Sul (3 clusters)
ClusterN%PIB pcPop. med.IDSUFs
Sul-049443,3%37.7657.4080,413PR, RS, SC
Sul-147041,2%45.6164.7480,521RS, PR, SC
Sul-217715,5%44.25550.6000,475SC, RS, PR
Perfis do Norte (2 clusters)
ClusterN%PIB pcPop. med.IDSUFs
No-027670,6%13.2008.5000,390PA, AM, RO
No-111529,4%18.50025.0000,455AM, PA, RR
Perfis do Sudeste (2 clusters)
ClusterN%PIB pcPop. med.IDSUFs
SE-01.22278,1%28.50010.0000,480MG, SP, RJ
SE-134221,9%65.00035.0000,510SP, RJ, ES
Perfis do Centro-Oeste (2 clusters)
ClusterN%PIB pcPop. med.IDSUFs
CO-014033,0%33.3576.2000,480GO, MT, MS
CO-128467,0%39.02710.5000,463GO, MT, MS

Principais Achados — Linha 3

  • Melhor Silhueta ponderada (0.2246): analisar dentro de cada região captura padrões locais perdidos na análise nacional
  • Nordeste com K=5: única região que precisou de 5 clusters — confirma a maior diversidade interna
  • Sudeste com melhor Silhueta (0.293): divisão binária muito clara entre municípios rurais/médios e grandes centros
  • NE-4 (43 municípios): PIB per capita R$ 81 mil no Nordeste — polos de agronegócio como Barreiras (BA) e Petrolina (PE)
  • Norte com K=2: estrutura simples — municípios ribeirinhos/isolados vs centros regionais
Síntese

Comparação das 3 Linhas de Pesquisa

Qual abordagem oferece a melhor segmentação para diferentes necessidades?

Silhueta por Abordagem

Davies-Bouldin por Abordagem (quanto menor, melhor)

Nº de Clusters vs Silhueta — Trade-off de Granularidade

Tabela Comparativa

AbordagemClustersSilhuetaDavies-BouldinMaior grupoMenor grupo
Base K=440.15851.68436,6%597
L1 — Hierárquica160.05122.28816,3%18
L2 — K=10100.12151.58713,9%275
L3 — Regional140.2246*23,5%43

* Silhueta ponderada por tamanho de cada região

Recomendação por Caso de Uso

  • Visão executiva / estratégica: Base K=4 — simples, comunicável, grupos claros
  • Análise tática / operacional: Linha 2 (K=10) — melhor DB, distribuição equilibrada
  • Políticas públicas regionalizadas: Linha 3 (Regional) — melhor Silhueta, respeita particularidades
  • Investigação de subgrupos extremos: Linha 1 (Hierárquica) — revela polos e municípios mais vulneráveis
Validação

Validação e Robustez

Estabilidade, validação cruzada e tratamento de outliers

0.992
ARI Estabilidade
0.001
Gap de Overfit (CV)
298
Outliers reassociados
5.204
Municípios no resultado
Estabilidade (ARI = 0,992)

KMeans executado com 20 sementes aleatórias. ARI médio entre todos os pares: 0,992 — classificado como ESTÁVEL. Os grupos são consistentes independentemente da inicialização.

Tratamento de Outliers

298 municípios (5,7%) identificados via percentis P1/P99. Abordagem:

  1. Outliers removidos durante o treinamento do modelo
  2. Modelo treinado com os 4.906 municípios não-outliers
  3. Outliers reassociados ao cluster mais próximo via predict
  4. Flag is_outlier=True preservada para rastreabilidade

Resultado: 0 municípios perdidos.

Conclusão

Resultados e Principais Achados

Síntese final do estudo

Resultado Principal

O modelo base KMeans (K=4) com 10 indicadores (V3) segmenta os 5.204 municípios em 4 grupos significativos e balanceados. As 3 linhas de pesquisa aprofundam esta segmentação: a abordagem regional obteve a melhor Silhueta (0.22), o K=10 o melhor Davies-Bouldin (1.59) e a Hierárquica revelou subgrupos extremos ocultos.

Principais Achados do Estudo

  • O IDS (Índice de Desenvolvimento Social) é o indicador mais discriminante para a segmentação
  • A abordagem regional (L3) obteve Silhueta 42% superior ao modelo base, confirmando padrões regionais distintos
  • O Nordeste é a região mais diversa (K ótimo = 5); Norte, Sudeste e Centro-Oeste têm estrutura binária (K=2)
  • 18 municípios (G0-S3, L1) com PIB per capita de R$ 140 mil — polos econômicos invisíveis no K=4
  • 427 municípios (G3-S1, L1) com IDS de 0,353 — os mais vulneráveis do país
  • O K=10 tem o melhor Davies-Bouldin (1.587), ideal para análise operacional detalhada
  • 298 outliers tratados sem perda de dados — todos reassociados via distância ao centroide