Connect with us

Outros

Hash: o que é, como funciona e porque quem trabalha com marketing digital precisa conhecer.

Published

on

O que é Hash?

No universo da tecnologia e da transformação digital, utilizar dados para otimizar os negócios é uma necessidade para qualquer tipo de empresa, mas a segurança da informação é uma das maiores preocupações ao avançar em busca de novas possibilidades.

Um dos grandes desafios é como transitar os dados entre áreas, plataformas e empresas, sem correr riscos com a exposição, ou mesmo vazamento, destas informações.

Para solucionar esse tipo de demanda existem diversos mecanismos e tecnologias como Tokenização, Criptografia, Anonimização etc, e uma das tecnologias mais conhecidas e utilizadas no mundo do marketing e mídia digital é o hash, que nada mais é que uma função matemática que transforma qualquer tipo de dado em uma impressão digital única, utilizada para verificar integridade, autenticar informações e proteger dados sensíveis.

Para que serve um hash?

O hash é amplamente utilizado em diferentes aplicações de tecnologia:

  • Proteção de senhas
    Em vez de salvar a senha real em um banco de dados, muitas aplicações armazenam apenas o hash. Assim, é possível fazer o “match” para validar o acesso de um usuário, mas essas informações não ficam disponíveis para ninguém, ou seja,  mesmo que os dados sejam expostos, o invasor não tem acesso direto à senha original.
  • Blockchain e criptomoedas
    O Bitcoin e outras criptomoedas usam o SHA-256 para validar transações e gerar novos blocos. Cada bloco contém um hash que liga ao anterior, garantindo a integridade de toda a cadeia.
  • Verificação de integridade
    Arquivos distribuídos online muitas vezes vêm acompanhados de um hash. O usuário pode calcular o hash localmente e comparar com o fornecido para confirmar que o arquivo não foi corrompido ou adulterado.
  • Assinaturas digitais e certificados
    Sistemas de autenticação e assinaturas eletrônicas utilizam funções de hash para garantir que os dados não foram alterados após a assinatura.

SHA-256

Dentro dos diversos tipos de hash, o que mais se popularizou no mundo do marketing digital é o SHA-256 (Secure Hash Algorithm 256 bits), que é uma função criptográfica que transforma qualquer tipo de dado — um texto, uma senha ou até um arquivo inteiro — em uma sequência única de 256 bits (ou 64 caracteres hexadecimais).

De forma “simplificada”, se é que podemos assim dizer, o algoritmo do SHA-256 pega o dado de entrada, processa em blocos de 512 bits e, por meio de operações matemáticas complexas, gera a saída em um bloco único de 256 bits.

Mas porque o SHA-256 é tão confiável e foi escolhido como padrão?

São três propriedades principais que tornam o Hash256 uma referência para diversas empresas e aplicações:

Unidirecionalidade

Diferente de outras criptografias, que através de uma “chave” podem ser traduzidas por terceiros, o Hash SHA-256 é praticamente impossível de ser revertido para se chegar à informação original. Isso porque, ele pega uma informação, “corta em pedacinhos” e faz um monte de contas para misturar esses pedaços até virar uma impressão digital única, impossível de desfazer. O SHA-256 usa apenas operações matemáticas básicas, mas repete isso tantas vezes que o resultado vira um código único e irreversível.”

Determinismo

Como a regra e padrão do algoritmo é sempre o mesmo, a mesma entrada de dado sempre resultará no mesmo hash, mesmo que seja criada em tempos diferentes, por pessoas diferentes, em qualquer lugar do mundo.

Por exemplo, se duas empresas possuírem um mailing com informações de emails e quiserem analisar quais destes e-mails existem em ambos os bancos de dados, sem precisar deixar evidente quais são os emails, ambas as empresas podem utilizar o SHA-256 para converter sua base de dados. Neste caso, como a regra é a mesma, caso um mesmo email exista nas duas empresas, o resultado da conversão será o mesmo, e com isso é possível fazer o match sem abrir o dado em si.

Justamente por esse tipo de aplicação do exemplo que ele é muito utilizado para match de dados e audiências, tema que vamos abordar mais adiante.

Sem duplicidade

Outro ponto importante é que a probabilidade de duas informações diferentes produzirem o mesmo hash é praticamente inexistente. O SHA-256 utiliza informações alfanuméricas e 64 caracteres. Se fizermos uma conta, que na verdade nem a maioria das calculadoras consegue fazer, o SHA-256 permite gerar cerca de 115 quattuorvigintilhão (não escrevemos errado não…) de possíveis resultados diferentes, e todos com o mesmo tamanho (64 caracteres hexadecimais). Para se ter uma idéia, o resultado da mesma ordem de grandeza do número de átomos do universo…

Mas porque o Hash256 é tão “famoso” na Mídia Digital

O sistema de hash SHA-256 acabou se tornando buzzword, e muito popular, no mundo da mídia digital pois é o sistema de criptografia padrão utilizado pelas principais plataformas de mídia digital para match de audiências First Party e Second Party.

A sua caraterística de determinismo, que explicamos acima, permite por exemplo que seja feita uma consulta para validar se uma base de emails First Party de um Anunciante existe ou não na base de usuários do Instagram, permitindo criar uma audiência específica com esses usuários, sem que o Anunciante e nem a Meta precisem exibir os dados reais de email de seus usuários.

Essa é também a forma como o Audience Hub da Hands atua para criar suas audiências exclusivas de geolocalização e GeoBehavior para ativação nos Canais Digitais. Após realizada a segmentação, a plataforma agrupa os IDs que representam a segmentação desejada e os transforma em hash SHA-256, permitindo então que seja feita a consulta e o match desta audiência em cada canal, sem que seja necessário abrir quais os IDs estão sendo utilizados.

Brincando de criptografia

Como exemplo simples podemos pegar como dado o email contato@hands.com.br.

Ao transformar essa informação em hash SHA-256, e o resultado será: 77fd45b668e795f580c8e09530d3b801531c907c542923725a3777cfa9c82fb9

Agora, se mudarmos um simples caracter, por exemplo indo de HandsUp para Hands_up, o resultado muda completamente: c0d4543338661e852ac149ca71f03b6c280f17d20fce0fa93db321d204afeeb2

Se para você o conceito ainda está um pouco subjetivo e não tão palpável, você pode até transformar isso numa brincadeira para entender na prática.

Partindo do básico, quem não se lembra da “Língua do P”? A brincadeira de criança que consistia em sempre incluir a letra P na frente de uma palavra. Bom, pense que isso pode ser considerado uma criptografia ou um hash, pois você está transformando dados seguindo um padrão.

Só que nesse caso existe uma “chave” pública, que é: “inserir P antes da palavra”.

Ou seja, qualquer pessoa que receber a mensagem, e “conhecer a chave”, sabe que basta tirar a letra P da frente de cada palavra.

Agora imagine que você criou um outro padrão, mais complexo, que ninguém sabe, como por exemplo alterar as letras de uma palavra avançando uma casa no alfabeto. Nesse caso, a palavra “Hands” viraria “Iboet”, ou seja, o H virou I, o A virou B, e assim consecutivamente.

Neste caso a “chave” para entender a palavra, que seria “avançar uma casa no alfabeto”, pode ser ou não ser pública, ou seja, você decidirá com quem compartilha. Porém, é possível entender qual foi a regra criada.

Quer fazer um teste?


Pegue o seu ChatGPT e utilize o prompt abaixo:

A palavra Iboet foi criptografada. Preciso de sua ajuda para (1) entender qual foi o padrão de criptografia e (2) descobrir a palavra original.

É muito provável que o GPT descubra rapidamente a regra, e te informe qual a palavra.

Já no caso do hash SHA-256 isso não acontece da mesma forma.

Vamos ao teste?

Volta lá no seu ChatGPT e utilize o prompt abaixo:

O dado 6b7204778686145fbdd0951b9815c72adce7e8e6bd67adfd299e23088622fe54

 é de uma palavra que foi criptografada. Preciso de sua ajuda para (1) entender qual foi o padrão de criptografia e (2) descobrir a palavra original.

Muito provavelmente você vai receber do GPT um retorno informando que não foi possível identificar qual a palavra, isso porque nem mesmo o GPT consegue entender a regra por trás do SHA-256.

Mas agora, para fechar o entendimento, faça o inverso, peça para o seu GPT o seguinte comando:

Por favor transformar o dado Hands em hash padrão SHA-256

Você receberá como resultado uma sequência de números e letras exatamente igual a fornecida acima. Ou seja, o GPT não consegue retornar um dado que chegue à palavra original Hands, mas sabe a regra para transformar a palavra Hands em uma sequência exatamente igual a que criamos anteriormente.

Outros

Geohash: O que é, como funciona e porque importa

Published

on

Toda vez que um sistema de geolocalização recebe um par de coordenadas, latitude e longitude,  ele enfrenta um problema fundamental: coordenadas brutas são contínuas. O planeta não tem fronteiras naturais entre um ponto e o seguinte. Mas bancos de dados precisam de fronteiras. Precisam de índices. Precisam de uma forma de perguntar “quais registros estão perto deste ponto?” sem varrer 500 bilhões de entradas uma por uma.

É exatamente para resolver esse problema que o Geohash existe.

O que é Geohash

Geohash é um sistema de indexação espacial que converte qualquer par de coordenadas geográficas em uma string alfanumérica curta. Essa string não representa um ponto, representa uma célula retangular da superfície terrestre. Quanto mais longa a string, menor e mais precisa é a célula.

O sistema foi criado em 2008 por Gustavo Niemeyer e colocado em domínio público. Desde então, tornou-se um dos padrões mais utilizados em bancos de dados geoespaciais, presente em soluções como Elasticsearch, MongoDB, Redis e sistemas distribuídos em escala.

A lógica central é elegante: em vez de indexar coordenadas com dois eixos independentes (latitude e longitude), o Geohash colapsa os dois eixos em uma única string linear. Isso transforma um problema bidimensional em um problema de busca por prefixo, operação que qualquer banco de dados resolve com eficiência.

Como o algoritmo funciona

O processo começa dividindo o planeta ao meio, repetidamente.

Passo 1 – Divisão binária recursiva

O algoritmo parte da longitude total (−180° a +180°) e da latitude total (−90° a +90°). Para cada coordenada, ele pergunta: o valor está na metade esquerda ou direita do intervalo? A resposta gera um bit: 0 para esquerda/baixo, 1 para direita/cima. O intervalo é então dividido ao meio novamente, e o processo se repete.

Passo 2 – Intercalação de bits

Os bits de longitude e latitude são intercalados alternadamente, longitude, latitude, longitude, latitude, gerando uma única sequência binária. Esse entrelaçamento é o que garante que pontos geograficamente próximos tendam a ter strings similares. A sequência resultante traça o que matemáticos chamam de curva Z (ou curva de Morton): um caminho que percorre o espaço preservando, em alguma medida, a proximidade espacial.

Passo 3 – Codificação em Base32

A sequência binária é dividida em grupos de 5 bits. Cada grupo é convertido em um caractere do alfabeto Base32,  que usa dígitos de 0 a 9 e letras, excluindo propositalmente a, i, l e o para evitar confusão visual com outros caracteres.

O resultado é uma string como 6gyf4bf, que representa não um ponto, mas um retângulo de aproximadamente 76 metros por 76 metros no mapa.

Precisão hierárquica

Uma das propriedades mais úteis do Geohash é sua hierarquia. Cada caractere adicionado à string aumenta a precisão da célula, subdividindo o retângulo anterior em 32 partes menores.

ComprimentoDimensão aproximada da célula
1 caractere~5.000 km × 5.000 km
3 caracteres~78 km × 78 km
5 caracteres~2,4 km × 2,4 km
6 caracteres~0,61 km × 1,22 km
7 caracteres~76 m × 76 m
9 caracteres~4,8 m × 4,8 m

Isso significa que dois geohashes com prefixo comum compartilham a mesma região. 6gyf4 e 6gyf4bf estão no mesmo bairro. 6gyf e 6gye estão em regiões adjacentes. A estrutura de prefixo permite buscas de proximidade extremamente eficientes: em vez de calcular distâncias para todos os pontos do banco, o sistema filtra primeiro pelos geohashes relevantes e refina depois.

Isso é especialmente valioso em escala. Quando você trabalha com centenas de milhões de registros de dispositivos, cada um com múltiplos sinais de localização ao longo do tempo, a capacidade de agrupar e filtrar por prefixo geohash é o que torna o processamento viável.

O problema de borda: o caso que a intuição ignora

O Geohash tem uma característica contraintuitiva que qualquer sistema de geolocalização precisa tratar com cuidado.

A propriedade de prefixo compartilhado vale em um sentido, mas não no outro: dois pontos geograficamente próximos nem sempre têm prefixos em comum. Isso acontece quando os dois pontos estão em lados opostos de uma linha divisória do algoritmo.

O exemplo mais claro: um ponto na margem norte de um rio e outro na margem sul, separados por 20 metros. Se o algoritmo tiver dividido o planeta exatamente naquele meridiano ou paralelo, os dois pontos terão geohashes completamente diferentes, como se estivessem em regiões distintas.

O mesmo acontece em locais próximos ao meridiano de Greenwich (0°), ao Equador, ao meridiano de 180°, e aos polos. Nesses limites, a correspondência entre proximidade física e proximidade de prefixo quebra.

A solução padrão é sempre consultar também as 8 células vizinhas de qualquer geohash de interesse, norte, sul, leste, oeste e as quatro diagonais. Em termos práticos, isso significa que uma busca de proximidade eficiente via Geohash não é uma consulta de prefixo simples, mas uma consulta de 9 prefixos simultâneos.

Por que isso importa para quem trabalha com dados de localização

Para profissionais de mídia e marketing, o Geohash raramente aparece em interfaces, mas está por baixo de praticamente toda operação de geolocalização em escala.

Quando uma plataforma processa sinais de GPS de milhões de dispositivos para identificar padrões de visita, ela não opera sobre coordenadas brutas. Ela indexa esses sinais em células geohash, agrupa os dados por célula, e executa as análises sobre esses agrupamentos. A célula é a unidade fundamental de processamento.

Isso tem implicações diretas na forma como audiências baseadas em localização são construídas:

Granularidade de análise. O nível de precisão escolhido para o Geohash determina a resolução da análise. Geohashes de 6 caracteres (~610m × 1,2km) são úteis para análises de bairro e fluxo urbano. Geohashes de 7 ou 8 caracteres (~76m × 76m) permitem trabalhar na escala de quarteirões e estabelecimentos. A escolha do nível não é arbitrária, ela define o que o sistema consegue distinguir.

Agregação e anonimização. Agrupar sinais de localização em células geohash é também uma das técnicas utilizadas para trabalhar com dados de forma agregada e anônima, sem expor trajetórias individuais. Em vez de tratar cada registro como um ponto único vinculado a um dispositivo, o sistema trabalha com densidades por célula.

Eficiência em escala. A principal razão do Geohash ter se tornado um padrão é operacional: ele permite que sistemas distribuídos particionem e paralelizem o processamento de dados geoespaciais de forma previsível. Cada célula é uma fatia independente do espaço, e pode ser processada de forma independente.

Geohash no contexto de indexação espacial

O Geohash não é o único sistema de indexação espacial existente. Existem alternativas com características distintas:

S2 Geometry (Google): usa uma projeção esférica diferente e células hierárquicas sem as distorções de latitude do Geohash. Adotado em sistemas que precisam de maior precisão geométrica global.

H3 (Uber): usa grade hexagonal em vez de retangular. Hexágonos têm a propriedade de manter distâncias mais uniformes entre centros de células vizinhas, o que favorece análises de fluxo e densidade.

Quadtrees e R-trees: estruturas de árvore usadas principalmente em bancos de dados geoespaciais relacionais, com vantagens em consultas de polígonos complexos.

O Geohash persiste como padrão amplamente adotado por uma combinação de simplicidade, legibilidade humana e compatibilidade com qualquer banco de dados que suporte indexação de strings, uma vantagem prática enorme em ambientes de engenharia heterogêneos.

O código que você não vê, mas que está em todo lugar

Quando dados de geolocalização de centenas de milhões de dispositivos precisam ser armazenados, consultados e processados em escala de tempo real, a escolha da estrutura de indexação não é detalhe de implementação, é a base sobre a qual toda a inteligência subsequente se apoia.

O Geohash resolve um problema que não aparece no briefing de nenhuma campanha, mas que está presente em toda operação de segmentação baseada em localização: como transformar coordenadas contínuas em unidades discretas que um sistema computacional consegue indexar, comparar e agregar com eficiência.

Entender como essa grade invisível funciona, sua lógica hierárquica, suas propriedades de prefixo, seus casos de borda, é parte do que separa quem usa geolocalização como recurso de quem a entende como infraestrutura.

Continue Reading

Outros

Limites de plataformas, unificação de dados e integrações são barreiras para personalização em escala. Mas já existem alternativas.

Published

on

A personalização no marketing e na mídia já deixou de ser um diferencial e virou uma expectativa real de anunciantes e audiências, mas, quando a conversa sai do conceito e vai para prática, com execução em escala, os desafios aparecem.

É comum ver estratégias bem desenhadas e mapeadas, mas com entregas limitadas e sem escala dentro das próprias plataformas de mídia. Isso não invalida a operação, mas cria um teto de performance quando o objetivo é escalar mantendo a estratégia, o foco e a performance, sem fazer uso de alternativas como o look-a-like que, que apesar de dar escala, tende a transferir a inteligência e aprendizado para os algoritmos das plataformas, deixando de ser um ativo próprio e estratégico das marcas. Isso sem contar que, como o look-a-like não abre os parâmetros e critérios utilizados para busca de similares, ele pode considerar, ou descartar, critérios chave da audiência inicial.

O desafio normalmente ocorre por diversos desafios, como: plataformas, disponibilidade e unificação de dados, opt-in, segurança, legislação, governança e integração.

Enquanto o 1st Party Data tende a ser o mais preciso, pronto e disponível para personalização, existe o desafio do optin e das chaves que permitem o match nas plataformas; email e telefone que sejam os mesmos das contas nessas plataformas. Além disso, ele direciona personalização apenas para os consumidores atuais e não para novas audiências (salvo uso de look a like).

Uma alternativa interessante, mas ainda pouco utilizada, é o 2nd Party Data, que podemos trazer dados com os mesmos critérios e atributos do 1st Party Data, porém de novos usuários, permitindo assim a criação de novas audiências, ampliando o alcance com a mesma estratégia. Porém, aqui também os mesmos desafios, principalmente de disponibilidade e integração de dados.

É justamente para atender esse tipo de desafio, e oportunidade, que a Hands desenvolveu o Audience Hub, sua plataforma de Precision Marketing, que permite o uso de seu próprio data lake, com bilhões de dados de +180 milhões de usuários, e o uso de dados de data providers parceiros, já integrados com as principais plataformas de mídia, de forma criptografada via as APIs oficiais.

Continue Reading

Outros

Quando a IA nivela tudo, o comportamento real se torna o único dado que resiste

Published

on

Um artigo publicado na revista Trends in Cognitive Sciences por cientistas da computação e psicólogos aponta que o uso crescente de chatbots de IA está associado à homogeneização da expressão humana: estilos linguísticos, perspectivas e estratégias de raciocínio passam a convergir entre os usuários das mesmas ferramentas.

O estudo foca no impacto cognitivo e o impacto na publicidade é mais imediato. Se a IA achata linguagem em larga escala, a produção de conteúdo publicitário com IA vai convergir para o mesmo padrão: mesmo tom, mesma estrutura, mesma cadência. Criativos pasteurizados. Campanhas que soam como todas as outras campanhas. A diferença entre uma campanha de varejo e outra hoje é cada vez mais de orçamento, não de linguagem.

A saída não é deixar de usar IA. É alimentá-la com contexto específico de cada cluster,  comportamento, território, referência cultural, gíria local. Quando isso acontece, o output para de ser genérico e começa a ser relevante. É exatamente a lógica que o Nubank aplicou em favelas e periferias: não uma campanha nacional de inclusão, mas comunicações calibradas para a dinâmica de cada território.

O resultado foi crescimento por redes de confiança, não por alcance pago.

Continue Reading

Trending

Copyright © 2025 Hands Academy