Machine Learning • Agrupamento Não Supervisionado

Agrupamento de Municípios Brasileiros

Segmentação de 5.204 municípios brasileiros com base em indicadores socioeconômicos do IBGE, utilizando técnicas avançadas de aprendizado não supervisionado e 3 linhas de pesquisa complementares.

Fase 1

Introdução e Objetivo

Segmentar municípios em grupos homogêneos para subsidiar decisões estratégicas e táticas

5.204

Municípios analisados

Indicadores (após engenharia)

Linhas de pesquisa

Municípios perdidos

O Brasil possui uma enorme diversidade socioeconômica entre seus municípios. Este estudo utiliza agrupamento não supervisionado para identificar grupos naturais de municípios com características semelhantes. Para lidar com a heterogeneidade dentro dos grupos, exploramos 3 abordagens complementares:

Linha 1: Subclusters hierárquicos dentro de cada grupo K=4
Linha 2: Aumento direto para K=10 grupos
Linha 3: Segmentação por região + PCA + K automático

Fase 2

Coleta e Descrição dos Dados

Fonte: IBGE — Instituto Brasileiro de Geografia e Estatística

Os dados foram coletados do IBGE via web scraping e APIs públicas, abrangendo todos os 5.204 municípios brasileiros.

Indicador	O que representa
População	Número total de habitantes do município
Densidade Demográfica	Quantidade de habitantes por km²
PIB per Capita	Riqueza produzida dividida pela população
Taxa de Alfabetização	Percentual da população que sabe ler e escrever
Mortalidade Infantil	Óbitos de crianças até 1 ano por 1.000 nascidos vivos
Esgoto Adequado	Percentual de domicílios com rede de esgoto ou fossa séptica
Unidades de Saúde	Estabelecimentos de saúde para cada 10 mil habitantes

Distribuição Regional dos Municípios

Fase 3

Análise Exploratória

Entendendo a distribuição e a correlação entre os indicadores

Distribuições assimétricas: População e densidade transformadas em escala logarítmica
Disparidades regionais: Norte/Nordeste com menores índices de infraestrutura e alfabetização
Correlações fortes: Esgoto adequado vs taxa de alfabetização (r > 0.7)

Matriz de Correlação dos Indicadores Originais

Valores entre -1 e +1. Quanto mais próximo de ±1, mais forte a relação.

Fase 4

Pré-processamento

Normalização e preparação dos dados para agrupamento

1. Verificação de Dados Ausentes

Cobertura completa para os 7 indicadores — sem dados faltantes.

2. Transformação Logarítmica

População e densidade transformadas em escala log para reduzir assimetria.

3. Padronização (StandardScaler)

Todos os indicadores padronizados (média=0, desvio=1).

4. Tratamento de Outliers

298 municípios (5,7%) identificados via percentis P1/P99. Removidos para treinamento e reassociados ao cluster mais próximo após o fit — nenhum município perdido.

Fase 5

Engenharia de Variáveis

Criação de indicadores derivados para capturar melhor os padrões

Foram criados 6 novos indicadores a partir dos dados originais:

Indicador	Como é calculado	O que captura
Índice de Desenvolvimento Social (IDS)	Alfabetização + Esgoto - Mortalidade (normalizado)	Índice composto de qualidade de vida
PIB por Saúde	PIB per capita / Unidades de saúde	Capacidade econômica vs oferta de saúde
Índice de Infraestrutura	Esgoto + Densidade (normalizado)	Nível de urbanização e infraestrutura
Razão Educação/Mortalidade	Alfabetização / Mortalidade infantil	Relação educação-saúde
PIB per Capita (log)	Logaritmo do PIB per capita	Suavização de valores extremos
Proxy de Urbanização	População + Densidade (normalizado)	Grau de urbanização

Após análise de correlação (limiar > 0.85), 3 foram removidos por redundância. Resultado: 10 indicadores finais (V3).

Importância dos Indicadores para o Agrupamento

Quanto maior a barra, mais o indicador contribui para a separação dos grupos.

Fase 6

Seleção do Modelo

78 combinações testadas sistematicamente para encontrar o melhor agrupamento

Foram avaliados 5 algoritmos (KMeans, BisectingKMeans, Agglomerative, GMM, Spectral) com diferentes valores de K e conjuntos de indicadores. A seleção utilizou um score composto que combina qualidade de separação e balanceamento dos grupos.

Top 15 — Score Composto por Combinação

Método do Cotovelo — K ótimo

Comparação de Métricas por K

Fase 7

Modelo Base: KMeans K=4

Base para as 3 linhas de pesquisa — melhor equilíbrio entre granularidade e balanceamento

KMeans

Algoritmo

K = 4

Nº de Grupos

0.1585

Silhueta

1.684

Davies-Bouldin

36,6%

Maior grupo

PCA 2D — Visualização dos 4 Grupos

$PCA 2D K=4$

Silhouette Plot — Coesão Interna dos Grupos

Comparação com outras configurações

Modelo	K	Silhueta	Davies-Bouldin	Maior grupo
KMeans V1 Original	4	0.1513	1.792	—
KMeans+PCA V1	4	0.1681	1.553	—
KMeans V3 K=3	3	0.1740	1.740	48,1%
KMeans V3 K=4 ★	4	0.1585	1.684	36,6%

Fase 8

Perfil dos 4 Grupos

5.204 municípios — incluindo 298 outliers reassociados ao grupo mais próximo

597

Grupo 0 — 11,5%

Centros urbanos e cidades de maior porte. Mediana 51 mil hab., PIB per capita R$ 31 mil, IDS 0,45. Concentração em SP, MG e SC.

1.894

Grupo 1 — 36,4%

Municípios de porte médio em transição. Mediana 13 mil hab., PIB per capita R$ 22 mil, IDS 0,51. Distribuição equilibrada entre NE, SE e Sul.

807

Grupo 2 — 15,5%

Municípios rurais de pequeno porte. Mediana 3,5 mil hab., PIB per capita R$ 31 mil, IDS 0,47. Predominância no Sul e Sudeste.

1.906

Grupo 3 — 36,6%

Municípios em desenvolvimento. Menor PIB per capita (R$ 17 mil), IDS mais baixo (0,39). Forte presença no Nordeste.

Heatmap de Centroides — Perfil Médio dos Grupos

Distribuição dos 4 Grupos

Radar — Perfil Médio dos Grupos (indicadores normalizados)

Mapas

Visualização Geográfica

5.204 municípios coloridos por grupo

Comparação Geográfica: K=3 vs K=4

KMeans K=3

KMeans K=4 (modelo base)

Linha 1

Clusterização Hierárquica (Agglomerative)

K=4 subclusters dentro de cada grupo base → 16 subclusters no total. Revela diversidade interna oculta no modelo K=4.

Subclusters totais

0.0512

Silhueta global

2.288

Davies-Bouldin

16,3%

Maior subcluster

Menor subcluster

Dendrogramas — Hierarquia dentro de cada Grupo K=4

Cada dendrograma mostra como os municípios do grupo se agrupam hierarquicamente. Árvores mais altas indicam grupos mais distantes entre si.

Heatmap de Perfis — 16 Subclusters

Cada linha é um subcluster. Cores quentes = valores altos para aquele indicador.

Distribuição dos 16 Subclusters por Grupo Pai

Silhueta Interna por Grupo

Grupo Pai	Municípios	Subclusters	Silhueta Interna	Maior Sub	Menor Sub
Grupo 0	597	4	0.1987	358	18
Grupo 1	1.894	4	0.0532	769	215
Grupo 2	807	4	0.1110	325	99
Grupo 3	1.906	4	0.0673	846	258

Perfis detalhados dos 16 subclusters

Sub	N	%	PIB pc (R$)	Pop. mediana	IDS	Destaque
G0-S0	358	6,9%	30.682	50.891	0,454	Cidades médias SE/NE
G0-S1	66	1,3%	38.317	240.900	0,452	Metrópoles
G0-S2	155	3,0%	36.111	108.622	0,464	Capitais regionais
G0-S3	18	0,3%	139.517	55.999	0,545	Polos econômicos (PIB altíssimo)
G1-S0	769	14,8%	22.733	14.297	0,510	Municípios médios NE/SE
G1-S1	215	4,1%	76.077	11.355	0,533	Municípios Sul com alto PIB
G1-S2	631	12,1%	18.929	10.601	0,532	Bons indicadores sociais
G1-S3	279	5,4%	21.041	17.520	0,478	Transição NE/SE
G2-S0	273	5,2%	30.581	3.398	0,511	Pequenos rurais SE/CO
G2-S1	325	6,2%	22.035	3.815	0,440	Pequenos rurais SE/Sul
G2-S2	110	2,1%	87.545	4.135	0,493	Rurais com PIB alto (Sul)
G2-S3	99	1,9%	39.125	2.355	0,456	Muito pequenos Sul/SE
G3-S0	846	16,3%	15.953	14.170	0,413	Maior subcluster — NE/SE
G3-S1	427	8,2%	17.028	7.450	0,353	Menor IDS — mais vulneráveis
G3-S2	375	7,2%	29.240	6.892	0,389	Sul/CO com PIB mediano
G3-S3	258	5,0%	14.011	17.210	0,371	NE — mortalidade alta

Principais Achados — Linha 1

G0-S3 (18 municípios): PIB per capita mediano de R$ 140 mil — polos econômicos invisíveis no K=4
G0-S1 (66 municípios): Metrópoles com mediana de 241 mil habitantes, separadas das cidades médias
G3-S1 (427 municípios): IDS de apenas 0,353 — os municípios mais vulneráveis do Brasil
G1-S1 (215 municípios): PIB R$ 76 mil — municípios rurais do Sul com agronegócio de alto valor

Linha 2

KMeans com K=10

10 grupos diretos — maior granularidade com distribuição equilibrada e melhor Davies-Bouldin do estudo.

Clusters

0.1215

Silhueta

1.587

Davies-Bouldin ★

13,9%

Maior grupo

275

Menor grupo

Distribuição dos 10 Grupos

Heatmap de Perfis — 10 Grupos K=10

Perfil socioeconômico médio de cada grupo. Vermelho/laranja = alto, azul/escuro = baixo.

Radar — Grupos de Destaque (K=10)

Grupos extremos em PIB, IDS e população.

Perfis completos dos 10 grupos

Grupo	N	%	PIB pc	Pop. med.	IDS	Esgoto	Destaque
0	599	11,5%	18.287	10.914	0,463	60,8%	Médios NE/SE/Sul
1	640	12,3%	19.204	10.551	0,444	65,7%	Médios NE/SE/Sul
2	483	9,3%	22.559	4.056	0,424	58,8%	Pequenos SE/NE/Sul
3	639	12,3%	23.751	11.194	0,564	66,0%	Melhor IDS — Sul/SE
4	724	13,9%	16.266	12.862	0,344	56,2%	Pior IDS — NE vulnerável
5	481	9,2%	27.888	39.144	0,454	61,3%	Cidades médias-grandes
6	275	5,3%	32.511	2.801	0,475	63,3%	Rurais Sul/SE com PIB bom
7	377	7,2%	81.069	7.290	0,510	63,5%	Agronegócio Sul/CO — PIB alto
8	706	13,6%	17.470	14.312	0,463	57,2%	Médios NE/SE/Sul
9	280	5,4%	37.590	120.689	0,462	60,9%	Grandes centros urbanos

Principais Achados — Linha 2

Melhor Davies-Bouldin (1.587): grupos mais compactos e separados do que em qualquer outra abordagem
Grupo 7 (377 municípios): PIB per capita R$ 81 mil — o agronegócio do Sul e Centro-Oeste em destaque
Grupo 4 (724 municípios): IDS 0,344 e esgoto 56% — o grupo de maior vulnerabilidade social
Grupo 9 (280 municípios): mediana de 121 mil habitantes — os grandes centros urbanos do país
Grupo 3 (639 municípios): IDS 0,564 — o grupo com melhor qualidade de vida, concentrado no Sul e Sudeste

Linha 3

Segmentação Regional + PCA + KMeans

Cada região analisada separadamente com PCA e K automático via Silhouette — 14 clusters regionais e a melhor Silhueta ponderada do estudo.

Clusters regionais

0.2246

Silhueta ponderada ★

Componentes PCA

~92%

Variância explicada

Silhueta e K Ótimo por Região

O K ótimo foi determinado automaticamente testando K=2 a 8 e escolhendo o maior Silhouette score.

Evolução da Silhueta por K — por Região

Como a Silhueta varia com K em cada região. O ponto máximo define o K ótimo.

Distribuição dos Clusters por Região

Mapas por Região

Resultado por Região

Região	Municípios	Outliers	K ótimo	Silhueta	PCA Comp.	Variância
Norte	391	41	2	0.2422	6	93,6%
Nordeste	1.684	76	5	0.1964	6	90,1%
Sudeste	1.564	70	2	0.2934	6	92,9%
Sul	1.141	72	3	0.1843	6	91,8%
Centro-Oeste	424	39	2	0.1751	6	91,7%

Perfis do Nordeste (5 clusters — maior diversidade)

Cluster	N	%	PIB pc	Pop. med.	IDS	UFs dominantes
NE-0	201	11,9%	11.734	4.555	0,433	PI, PB, RN
NE-1	661	39,3%	11.188	14.063	0,388	BA, MA, PB
NE-2	207	12,3%	16.518	54.192	0,452	PE, BA, CE
NE-3	572	34,0%	11.293	14.494	0,510	BA, MA, CE
NE-4	43	2,6%	81.217	13.983	0,530	BA, PI, RN

Perfis do Sul (3 clusters)

Cluster	N	%	PIB pc	Pop. med.	IDS	UFs
Sul-0	494	43,3%	37.765	7.408	0,413	PR, RS, SC
Sul-1	470	41,2%	45.616	4.748	0,521	RS, PR, SC
Sul-2	177	15,5%	44.255	50.600	0,475	SC, RS, PR

Perfis do Norte (2 clusters)

Cluster	N	%	PIB pc	Pop. med.	IDS	UFs
No-0	276	70,6%	13.200	8.500	0,390	PA, AM, RO
No-1	115	29,4%	18.500	25.000	0,455	AM, PA, RR

Perfis do Sudeste (2 clusters)

Cluster	N	%	PIB pc	Pop. med.	IDS	UFs
SE-0	1.222	78,1%	28.500	10.000	0,480	MG, SP, RJ
SE-1	342	21,9%	65.000	35.000	0,510	SP, RJ, ES

Perfis do Centro-Oeste (2 clusters)

Cluster	N	%	PIB pc	Pop. med.	IDS	UFs
CO-0	140	33,0%	33.357	6.200	0,480	GO, MT, MS
CO-1	284	67,0%	39.027	10.500	0,463	GO, MT, MS

Principais Achados — Linha 3

Melhor Silhueta ponderada (0.2246): analisar dentro de cada região captura padrões locais perdidos na análise nacional
Nordeste com K=5: única região que precisou de 5 clusters — confirma a maior diversidade interna
Sudeste com melhor Silhueta (0.293): divisão binária muito clara entre municípios rurais/médios e grandes centros
NE-4 (43 municípios): PIB per capita R$ 81 mil no Nordeste — polos de agronegócio como Barreiras (BA) e Petrolina (PE)
Norte com K=2: estrutura simples — municípios ribeirinhos/isolados vs centros regionais

Síntese

Comparação das 3 Linhas de Pesquisa

Qual abordagem oferece a melhor segmentação para diferentes necessidades?

Silhueta por Abordagem

Davies-Bouldin por Abordagem (quanto menor, melhor)

Nº de Clusters vs Silhueta — Trade-off de Granularidade

Tabela Comparativa

Abordagem	Clusters	Silhueta	Davies-Bouldin	Maior grupo	Menor grupo
Base K=4	4	0.1585	1.684	36,6%	597
L1 — Hierárquica	16	0.0512	2.288	16,3%	18
L2 — K=10	10	0.1215	1.587	13,9%	275
L3 — Regional	14	0.2246*	—	23,5%	43

* Silhueta ponderada por tamanho de cada região

Recomendação por Caso de Uso

Visão executiva / estratégica: Base K=4 — simples, comunicável, grupos claros
Análise tática / operacional: Linha 2 (K=10) — melhor DB, distribuição equilibrada
Políticas públicas regionalizadas: Linha 3 (Regional) — melhor Silhueta, respeita particularidades
Investigação de subgrupos extremos: Linha 1 (Hierárquica) — revela polos e municípios mais vulneráveis

Validação

Validação e Robustez

Estabilidade, validação cruzada e tratamento de outliers

0.992

ARI Estabilidade

0.001

Gap de Overfit (CV)

298

Outliers reassociados

5.204

Municípios no resultado

Estabilidade (ARI = 0,992)

KMeans executado com 20 sementes aleatórias. ARI médio entre todos os pares: 0,992 — classificado como ESTÁVEL. Os grupos são consistentes independentemente da inicialização.

Tratamento de Outliers

298 municípios (5,7%) identificados via percentis P1/P99. Abordagem:

Outliers removidos durante o treinamento do modelo
Modelo treinado com os 4.906 municípios não-outliers
Outliers reassociados ao cluster mais próximo via predict
Flag is_outlier=True preservada para rastreabilidade

Resultado: 0 municípios perdidos.

Conclusão

Resultados e Principais Achados

Síntese final do estudo

Resultado Principal

O modelo base KMeans (K=4) com 10 indicadores (V3) segmenta os 5.204 municípios em 4 grupos significativos e balanceados. As 3 linhas de pesquisa aprofundam esta segmentação: a abordagem regional obteve a melhor Silhueta (0.22), o K=10 o melhor Davies-Bouldin (1.59) e a Hierárquica revelou subgrupos extremos ocultos.

Principais Achados do Estudo

O IDS (Índice de Desenvolvimento Social) é o indicador mais discriminante para a segmentação
A abordagem regional (L3) obteve Silhueta 42% superior ao modelo base, confirmando padrões regionais distintos
O Nordeste é a região mais diversa (K ótimo = 5); Norte, Sudeste e Centro-Oeste têm estrutura binária (K=2)
18 municípios (G0-S3, L1) com PIB per capita de R$ 140 mil — polos econômicos invisíveis no K=4
427 municípios (G3-S1, L1) com IDS de 0,353 — os mais vulneráveis do país
O K=10 tem o melhor Davies-Bouldin (1.587), ideal para análise operacional detalhada
298 outliers tratados sem perda de dados — todos reassociados via distância ao centroide