Outros
Você sabe qual formato sustenta a sua operação de dados? Conheça o .parquet e entenda por que ele é peça-chave em campanhas de grande escala.

Quando falamos de dados em mídia digital, normalmente pensamos em dashboards, segmentações e plataformas de ativação. Mas existe uma camada anterior a tudo isso: o formato em que esses dados são organizados, armazenados e compartilhados.
E essa camada influencia diretamente escala, velocidade e custo operacional.
Se você trabalha com audiências, geolocalização, dados comportamentais ou exportação multicanal, entender o que é um arquivo .parquet ajuda a compreender como as operações de dados realmente funcionam em larga escala.
O que é, de fato, um arquivo .parquet
Parquet é um formato de armazenamento colunar criado para ambientes de big data. Ele foi desenvolvido dentro do ecossistema Hadoop e hoje é amplamente utilizado em arquiteturas modernas de dados, como Spark, BigQuery, Snowflake e Data Lakes em geral.
Diferente de formatos como CSV ou JSON, que armazenam os dados linha por linha, o Parquet organiza os dados por coluna.
Isso significa que, em vez de gravar um registro completo de cada usuário em sequência, o arquivo agrupa todos os valores de uma mesma variável juntos.

Por exemplo:
Em vez de armazenar assim:
ID | Data | Local | Permanência | Frequência
ID | Data | Local | Permanência | Frequência
Ele armazena:
Coluna ID
Coluna Data
Coluna Local
Coluna Permanência
Coluna Frequência
Na prática, isso permite que os sistemas leiam apenas os atributos necessários para determinada análise, em vez de carregar o arquivo inteiro.
Se você precisa consultar apenas:
– tempo de permanência
– frequência
– data
– cluster comportamental
o motor analítico acessa somente essas colunas.
Isso reduz o tempo de leitura do arquivo, uso de memória e custo computacional.
Essa estrutura colunar permite três coisas fundamentais:
Primeiro, leitura seletiva: sistemas conseguem acessar apenas as colunas necessárias para uma análise específica.
Segundo, compressão mais eficiente: colunas com valores repetidos ou categóricos são comprimidas com muito mais eficiência do que dados organizados por linha.
Terceiro, performance analítica: operações como filtros, agregações e segmentações tornam-se muito mais rápidas em grandes volumes de dados.
Além disso, O formato parquet permite a gravação de mais de uma tabela de dados, e suas estruturas, o que simplifica o compartilhamento de estruturas complexas de dados
Ele não é apenas um “arquivo”. Ele é um formato projetado para processamento analítico em escala.
CSV é troca. Parquet é muito mais que isso. É processamento.
Formatos como CSV são excelentes para troca de dados. São simples, universais e fáceis de manipular.
O desafio aparece quando o volume cresce.
Quando falamos de:
– bilhões de sinais de latitude e longitude
– históricos temporais extensos
– múltiplos atributos por dispositivo
– cruzamento constante de bases
o formato começa a impactar a performance.
O .parquet foi criado justamente para ambientes de grande escala. Ele é um formato colunar, otimizado para leitura analítica.
Por que isso é relevante para mídia
Em operações que envolvem:
– GeoBehavior
– criação de audiências com filtros temporais
– atribuição de visitas físicas
– exportação para múltiplos canais
– consolidação de dados massivos de geolocalização
o volume de dados é estruturalmente grande.
Formatos otimizados como .parquet permitem que essas consultas sejam feitas de forma eficiente, viabilizando segmentações mais granulares sem comprometer performance.
Compressão e eficiência
Outro ponto importante é que o .parquet utiliza compressão e encoding por coluna.
Colunas com valores repetidos ou categóricos (como tipo de local ou cluster) ocupam menos espaço e são processadas com mais eficiência.
Isso impacta diretamente:
– armazenamento
– velocidade de leitura
– escalabilidade da infraestrutura
Conectando com a realidade da Hands
Quando falamos de MDM, Audience Hub, criação de audiências baseadas em comportamento real com exportação multicanal e reports de Store Visits estamos falando de arquiteturas que precisam lidar com alto volume e múltiplos critérios simultaneamente.
A escolha do formato de armazenamento é parte dessa estrutura.
Parquet não é apenas um detalhe técnico. É um dos elementos que permitem que dados massivos se tornem acionáveis.
Entender isso ajuda a enxergar mídia digital não apenas como ativação, mas como infraestrutura de dados.
Outros
Limites de plataformas, unificação de dados e integrações são barreiras para personalização em escala. Mas já existem alternativas.
A personalização no marketing e na mídia já deixou de ser um diferencial e virou uma expectativa real de anunciantes e audiências, mas, quando a conversa sai do conceito e vai para prática, com execução em escala, os desafios aparecem.
É comum ver estratégias bem desenhadas e mapeadas, mas com entregas limitadas e sem escala dentro das próprias plataformas de mídia. Isso não invalida a operação, mas cria um teto de performance quando o objetivo é escalar mantendo a estratégia, o foco e a performance, sem fazer uso de alternativas como o look-a-like que, que apesar de dar escala, tende a transferir a inteligência e aprendizado para os algoritmos das plataformas, deixando de ser um ativo próprio e estratégico das marcas. Isso sem contar que, como o look-a-like não abre os parâmetros e critérios utilizados para busca de similares, ele pode considerar, ou descartar, critérios chave da audiência inicial.
O desafio normalmente ocorre por diversos desafios, como: plataformas, disponibilidade e unificação de dados, opt-in, segurança, legislação, governança e integração.
Enquanto o 1st Party Data tende a ser o mais preciso, pronto e disponível para personalização, existe o desafio do optin e das chaves que permitem o match nas plataformas; email e telefone que sejam os mesmos das contas nessas plataformas. Além disso, ele direciona personalização apenas para os consumidores atuais e não para novas audiências (salvo uso de look a like).
Uma alternativa interessante, mas ainda pouco utilizada, é o 2nd Party Data, que podemos trazer dados com os mesmos critérios e atributos do 1st Party Data, porém de novos usuários, permitindo assim a criação de novas audiências, ampliando o alcance com a mesma estratégia. Porém, aqui também os mesmos desafios, principalmente de disponibilidade e integração de dados.
É justamente para atender esse tipo de desafio, e oportunidade, que a Hands desenvolveu o Audience Hub, sua plataforma de Precision Marketing, que permite o uso de seu próprio data lake, com bilhões de dados de +180 milhões de usuários, e o uso de dados de data providers parceiros, já integrados com as principais plataformas de mídia, de forma criptografada via as APIs oficiais.
Outros
Quando a IA nivela tudo, o comportamento real se torna o único dado que resiste
Um artigo publicado na revista Trends in Cognitive Sciences por cientistas da computação e psicólogos aponta que o uso crescente de chatbots de IA está associado à homogeneização da expressão humana: estilos linguísticos, perspectivas e estratégias de raciocínio passam a convergir entre os usuários das mesmas ferramentas.
O estudo foca no impacto cognitivo e o impacto na publicidade é mais imediato. Se a IA achata linguagem em larga escala, a produção de conteúdo publicitário com IA vai convergir para o mesmo padrão: mesmo tom, mesma estrutura, mesma cadência. Criativos pasteurizados. Campanhas que soam como todas as outras campanhas. A diferença entre uma campanha de varejo e outra hoje é cada vez mais de orçamento, não de linguagem.
A saída não é deixar de usar IA. É alimentá-la com contexto específico de cada cluster, comportamento, território, referência cultural, gíria local. Quando isso acontece, o output para de ser genérico e começa a ser relevante. É exatamente a lógica que o Nubank aplicou em favelas e periferias: não uma campanha nacional de inclusão, mas comunicações calibradas para a dinâmica de cada território.
O resultado foi crescimento por redes de confiança, não por alcance pago.
Outros
Quadrilátero Censitário: o que é, como funciona e por que muda a lógica da segmentação no Brasil

Existe uma camada de dado que o mercado de mídia brasileiro usa com frequência sem necessariamente entender de onde ela vem, como é construída e quais são os seus limites.
Essa camada se chama Quadrilátero Censitário.
Ou, no vocabulário técnico do IBGE: Setor Censitário.
É a menor unidade territorial para a qual o Brasil produz dados socioeconômicos de forma sistemática. É o recorte geográfico que fundamenta a maioria das segmentações de público baseadas em renda, classe social e perfil de consumo no país.
Mas poucos profissionais de mídia conhecem profundamente a estrutura desse dado, como ele é gerado, quando ele fica obsoleto, e o que isso significa na prática para uma campanha digital.
Esse texto é uma tentativa de mudar isso.
———
O que é um Setor Censitário
O Brasil é dividido em unidades territoriais progressivamente menores para fins de coleta e organização de dados estatísticos. A hierarquia vai de país para estado, de estado para município, de município para distrito, de subdistrito para bairro ou localidade, e de lá para o Setor Censitário.
O Setor Censitário é a menor dessas divisões.
Ele representa uma área geográfica contínua, dentro de um único município, com um número manejável de domicílios para que um único recenseador consiga percorrer e coletar dados em um prazo operacional razoável. O IBGE usa como referência de dimensionamento algo em torno de 200 a 350 domicílios particulares permanentes por setor em áreas urbanas, e volumes menores em áreas rurais ou de difícil acesso.
O nome popular “Quadrilátero Censitário” deriva da representação gráfica dessas unidades: na maioria dos contextos urbanos, os setores são delimitados por vias e logradouros, formando polígonos fechados que, nos mapas, tendem a assumir formas retangulares ou quadrilaterais.
Mas o termo técnico correto, e o mais utilizado no vocabulário do IBGE e dos sistemas de geoinformação, é Setor Censitário.
———
Como ele é construído
A criação dos Setores Censitários não segue uma lógica de bairro, CEP ou distrito administrativo. Ela segue uma lógica operacional de coleta.
O IBGE divide o território nacional em setores para garantir que o Censo Demográfico possa ser realizado de forma organizada, com cada setor sob responsabilidade de um recenseador. Isso significa que a forma dos setores acompanha a realidade urbana de cada região: quadras, loteamentos, conjuntos habitacionais, favelas, áreas industriais e zonas rurais geram formatos e densidades diferentes de setores.
Em áreas urbanas densas, como os centros das grandes cidades, um setor pode compreender apenas algumas quadras. Em áreas rurais do interior do país, um único setor pode se estender por vários quilômetros quadrados.
Essa variação de escala é um ponto que merece atenção especial para quem usa esse dado em mídia.
Dois setores no mesmo município podem representar populações e áreas físicas completamente diferentes entre si. Um setor em Higienópolis, em São Paulo, e um setor em Parelheiros, na mesma cidade, não são comparáveis em dimensão física, mas têm o mesmo peso estatístico no sistema do IBGE.
———
A escala do mapeamento: 452.246 setores
Para entender a dimensão operacional do que o IBGE faz, vale olhar para os números. O Censo 2022 mapeou 452.246 setores censitários em todo o território nacional.
O Censo anterior, realizado em 2010, havia mapeado 316.574 setores. Isso significa que o Censo 2022 incorporou 135.672 novos setores, um crescimento de aproximadamente 42% em relação ao levantamento anterior.
Esse crescimento não reflete apenas o aumento populacional. Ele reflete, ao mesmo tempo, a expansão urbana do país nas bordas das metrópoles e cidades médias, a criação de novos núcleos habitacionais, formais e informais, que antes não existiam ou não eram cartografados com precisão, e o aperfeiçoamento das técnicas de mapeamento do próprio IBGE, que passou a utilizar imagens orbitais de alta resolução para delinear setores com muito mais detalhe do que era possível em 2010.
Esses 135.672 novos setores são, na prática, regiões do Brasil que simplesmente não existiam como unidade de dado socioeconômico estruturado até 2022. Favelas consolidadas que passaram a ser mapeadas internamente com granularidade, loteamentos surgidos ao longo da última década, expansões periféricas de médias cidades do interior, tudo isso entrou no sistema.
Para quem trabalha com segmentação, isso tem uma implicação direta: qualquer ferramenta ou plataforma que ainda operava com a malha de 2010 estava trabalhando com uma fotografia incompleta do território brasileiro, especialmente nas regiões de crescimento acelerado, exatamente onde vivem populações que mais mudaram de perfil na última década.
Fonte: IBGE — Atualização da Base Territorial, Censo Demográfico 2022
———
O que esses setores parecem na prática: o exemplo de Pinheiros
Entender o Setor Censitário como conceito abstrato é uma coisa. Ver como ele se desenha no território é outra, e muito mais reveladora.
O distrito de Pinheiros, em São Paulo, é um bom exemplo para ilustrar a diferença entre as duas escalas de análise. Como distrito, ele aparece como uma unidade geográfica singular, com um contorno definido:

Figura 1 — Delimitação do Distrito de Pinheiros, São Paulo (representação esquemática baseada em dados do IBGE)
Mas quando descemos um nível e olhamos para os Setores Censitários dentro desse mesmo distrito, a imagem muda completamente. O que era uma unidade passa a ser dezenas de polígonos distintos, cada um com formas, tamanhos e características próprias:

Figura 2 — Setores Censitários dentro do Distrito de Pinheiros (representação esquemática). Cada polígono colorido é um setor independente, com seus próprios dados socioeconômicos.
Observando a Figura 2, dois pontos ficam imediatamente evidentes.
O primeiro é a heterogeneidade de formas. Alguns setores seguem o padrão de quadras regulares, com geometria quase retangular. Outros assumem formas completamente irregulares, moldados por avenidas diagonais, córregos, limites de propriedades ou concentrações comerciais específicas. Não existe uma forma padrão, cada setor reflete a morfologia real do território que ele representa.
O segundo é a heterogeneidade de tamanho. Setores menores tendem a aparecer em áreas de alta densidade habitacional ou comercial, onde o número de domicílios por quilômetro quadrado é muito maior. Setores maiores cobrem áreas de menor densidade, onde o recenseador precisa percorrer mais espaço para atingir o mesmo número de domicílios.
Essa variação visual traduz diretamente a variação de precisão que cada setor carrega. Um setor pequeno e denso, em uma região central, tende a ser mais homogêneo internamente, o que torna a inferência socioeconômica baseada nele mais confiável. Um setor grande, cobrindo uma área ampla com múltiplos perfis habitacionais, carrega muito mais variância e, portanto, mais incerteza para quem usa esse dado como proxy de comportamento.
———
O que o Censo coleta por setor
Durante o Censo Demográfico, o IBGE aplica dois instrumentos principais: o questionário básico, que alcança todos os domicílios, e o questionário da amostra, que alcança uma fração dos domicílios com perguntas mais detalhadas.
O questionário básico captura variáveis como número de moradores, sexo, idade, cor ou raça, e algumas características do domicílio.
O questionário da amostra vai muito além: renda, escolaridade, ocupação, situação de trabalho, acesso a serviços, mobilidade urbana, condições habitacionais e dezenas de outras variáveis socioeconômicas.
Quando os dados são agregados por Setor Censitário, é possível saber, para cada polígono geográfico do país, qual a renda média dos domicílios, qual a proporção de moradores com ensino superior completo, qual a densidade demográfica, qual o percentual de moradores que trabalha fora do setor, entre muitas outras variáveis.
Esse conjunto de informações é o que alimenta, direta ou indiretamente, a maioria das classificações de renda e classe social utilizadas no mercado brasileiro.
———
A inferência socioeconômica: de onde vem o “Classe A/B/C”
Aqui está o ponto que mais impacta diretamente o mercado de mídia e que menos é discutido com profundidade.
A classificação de renda utilizada em campanhas digitais, seja ela expressa como classes A, B, C, D e E, seja como faixas de renda ou decis de consumo, raramente vem de dados declarados individualmente por cada usuário ou domicílio.
Ela vem, na maioria das vezes, de um processo de inferência.
O mecanismo funciona assim: sabendo a qual Setor Censitário um determinado dispositivo, endereço ou usuário pertence, é possível associar a ele as características médias daquele setor. Se um setor tem renda média domiciliar de R$ 8.000 mensais, todos os dispositivos inferidos como pertencentes àquele setor serão rotulados com aquela faixa de renda.
Esse processo é chamado de inferência socioeconômica por geolocalização.
Ele é amplamente utilizado por plataformas de dados, data brokers, fornecedores de audiência e ferramentas de planejamento de mídia no Brasil.
E ele carrega uma limitação estrutural que não costuma aparecer nos decks de mídia: a variância interna de cada setor.
———
O problema da variância interna
Um Setor Censitário não é homogêneo.
Ele representa uma média.
E médias escondem distribuições.
Em um setor com renda média de R$ 5.000, podem coexistir domicílios com renda de R$ 1.500 e domicílios com renda de R$ 15.000. A média diz que o setor é de “classe média”, mas a distribuição real pode ser extremamente heterogênea.
Isso gera um efeito direto em campanhas: quando um usuário é classificado como “classe B” com base apenas no setor onde seu dispositivo registrou atividade predominante, essa classificação carrega um erro implícito proporcional à variância interna daquele setor.
Em áreas urbanas de baixa densidade e alta homogeneidade socioeconômica, como condomínios fechados de alto padrão ou bairros históricos de elite, a inferência tende a ser mais precisa, porque a variância interna é menor.
Em áreas de alta heterogeneidade, como bairros de transição entre regiões de renda muito diferente, ou zonas de uso misto com comércio intenso, a inferência pode ser muito imprecisa.
Isso não torna o dado inútil. Mas torna obrigatório entendê-lo como uma estimativa probabilística, não como uma certeza.
———
A defasagem temporal: o dado envelhece
O Censo Demográfico brasileiro é, teoricamente, decenal. Deveria acontecer a cada dez anos.
O último Censo foi realizado em 2022, com um atraso de dois anos em relação ao previsto, causado pelos impactos da pandemia. O anterior havia sido realizado em 2010.
Isso significa que, durante mais de uma década, todo o mercado brasileiro de mídia operou com dados de setores censitários coletados em 2010.
Uma década inteira de transformações urbanas, migrações internas, processos de gentrificação, expansão periférica, surgimento de novas centralidades econômicas e mudanças profundas no perfil socioeconômico de bairros inteiros, tudo isso aconteceu enquanto o dado de referência permanecia congelado em 2010.
Esse envelhecimento tem consequências práticas diretas. Regiões que passaram por valorização intensa ao longo da década continuavam sendo classificadas com os perfis de renda de 2010, mesmo que a realidade fosse completamente diferente.
O Censo 2022 trouxe uma atualização significativa, e os 135.672 novos setores mapeados são parte dessa atualização. Mas o ciclo se repete: a partir de agora, o dado começa a envelhecer novamente. E em dez anos, as distorções voltarão a se acumular.
Para quem trabalha com planejamento de mídia baseado em perfil socioeconômico, isso é uma variável de risco que precisa ser considerada explicitamente, não ignorada.
———
Setor Censitário vs. comportamento real
A questão mais relevante para o mercado de mídia moderno não é técnica. É estratégica.
O Setor Censitário informa onde uma pessoa provavelmente mora. E, por inferência, qual é o perfil socioeconômico médio daquele território.
Mas morar em um local não equivale a consumir como a média daquele local.
Uma pessoa de alta renda que mora em um bairro popular por escolha ou histórico familiar é invisível para esse modelo. Um universitário em uma república numa região de classe média aparece como classe média. Um microempreendedor que mora em uma área de baixa renda e tem faturamento mensal relevante também é mal capturado.
A inferência socioeconômica por setor censitário descreve o território. Mas não descreve necessariamente o indivíduo.
E aí está o ponto de tensão fundamental: em mídia digital, a unidade relevante de segmentação não é o território. É o comportamento.
O que a pessoa faz, onde ela vai, com que frequência, em que horários, quais tipos de estabelecimento ela frequenta, essas variáveis comportamentais tendem a ser muito mais preditivas de intenção de consumo do que o perfil médio do setor onde ela registrou atividade noturna.
———
Como a geolocalização e o comportamento preenchem as lacunas
A evolução dos dados de mobilidade criou uma possibilidade que não existia quando o Setor Censitário se tornou o padrão de referência para segmentação no Brasil.
Com dados de geolocalização coletados de forma ética e anonimizada, é possível observar os padrões de deslocamento de um dispositivo ao longo do tempo e construir inferências muito mais granulares sobre comportamento.
Não apenas onde a pessoa mora, mas onde ela trabalha, quais tipos de estabelecimento ela frequenta, com que regularidade, em quais horários, em quais regiões da cidade.
Esses padrões comportamentais permitem construir perfis que complementam, e em muitos casos superam em precisão, a inferência socioeconômica estática do setor censitário.
Um dispositivo que regularmente visita clínicas de estética de alto padrão em bairros nobres, frequenta academias de luxo e faz check-in em restaurantes caros carrega um sinal de renda muito mais concreto do que o simples fato de que o endereço residencial inferido fica em um setor classificado como classe B.
A combinação dos dois mundos, a referência territorial do setor censitário com a riqueza comportamental dos dados de mobilidade, é o que permite construir audiências verdadeiramente qualificadas.
O setor censitário ancora a análise no território. O comportamento a torna real.
———
Por que isso importa para as agências e anunciantes
Para quem compra mídia no Brasil, entender essa estrutura não é um exercício acadêmico.
É uma questão de eficiência de investimento.
Campanhas segmentadas apenas por faixa de renda inferida a partir de setor censitário estão, na prática, apostando na média de um polígono geográfico. Isso funciona em escalas grandes. Mas perde eficiência quando o produto ou serviço anunciado exige uma correspondência mais precisa entre o perfil do receptor e a mensagem.
A pergunta que toda operação de mídia deveria fazer antes de configurar uma segmentação socioeconômica é simples: esse dado reflete quem essa pessoa é, ou reflete onde ela dorme?
Em muitos casos, especialmente em grandes centros urbanos com alta mobilidade e heterogeneidade socioeconômica, essas duas respostas são muito diferentes.
Entender o Setor Censitário, sua lógica, suas limitações e seu papel como ponto de partida, não de chegada, é o primeiro passo para construir estratégias de segmentação que funcionem de verdade.
———
O papel da Hands nesse contexto
A plataforma da Hands foi construída para operar exatamente nessa intersecção entre dado territorial e comportamento real.
O Audience Hub integra dados de geolocalização, comportamento de mobilidade e informações cadastrais para criar audiências que vão além da inferência estática do setor censitário.
Isso permite construir públicos baseados em presença física real, não apenas em estimativas territoriais, e ativá-los em qualquer canal de mídia digital, de Instagram e TikTok a DV360 e Spotify.
O Setor Censitário continua sendo uma referência importante. Mas ele é o mapa, não o território.
E em mídia, o que importa não é o mapa. É o comportamento real das pessoas que vivem nele.
-
Geobehavior5 meses agoAudience Hub: como funciona a tecnologia por trás da segmentação precisa da Hands
-
Outros10 meses agoBem-vindo ao Hands Academy
-
Outros10 meses agoConfira os detalhes do último Hands Quiz!
-
Outros2 meses agoDBSCAN: a metodologia para o entendimento de comportamento baseado em geolocalização
-
Geobehavior10 meses agoOOH + Estratégias Mobile
-
Outros10 meses agoSegmentação Geográfica com Polígonos: maior precisão, melhores resultados
-
Geobehavior10 meses agoGeoBehavior como segmentação de Mídia Digital
-
Outros8 meses agoHash: o que é, como funciona e porque quem trabalha com marketing digital precisa conhecer.
