top of page
  • Foto do escritorIgor Vaz

Nossos times: Captura

No artigo desta semana, Igor Vaz, Coordenador de Captura, fala mais sobre o que rola no time que é a base para todos os produtos da empresa. Entenda como capturamos os melhores dados do país e ajudamos empresas a desenvolverem seus projetos mais ambiciosos. Boa leitura!




--------------------------------



Mas afinal, o que a BigDataCorp faz?

Você já deve ter ouvido que o mundo é movido pelos dados. Nós, da BigDataCorp, apoiamos esse mundo digital justamente através do fornecimento de informações. Somos uma plataforma de dados, disponibilizando dados de pessoas, empresas e outras entidades para negócios do Brasil e do mundo. Esses dados, por sua vez, são usados para alimentar diferentes processos intensivos em informação: de onboarding digital a processos antifraudes, os produtos BigDataCorp estão sempre nos bastidores dos processos mais revolucionários do mundo.

Quando falamos sobre isso, muitos ficam com dúvida sobre os dados que utilizamos, como eles são obtidos, como eles são trabalhados, como eles são organizados, entre outras perguntas que sempre surgem nos bate papos sobre a empresa. Eu, Igor, sou o responsável pela equipe de Captura, que é o time que começa todo o processo de trabalho com os dados. No post de hoje, quero tentar explicar mais sobre o nosso trabalho, procurando responder esses questionamentos mais comuns. Vem comigo e mergulhe em nosso universo!


A equipe de Captura

Como o próprio nome diz, o nosso time é o responsável pela captura das informações espalhadas pela internet. Para todo esse volume de dados, temos uma equipe de captura dedicada a desbravar esse mar de informações disponíveis na internet, capturando os dados que servirão de base para todas as equipes de desenvolvimento da empresa. Hoje o time de Captura está na base da pirâmide de verticalização dentro da empresa, seguida por equipes de qualidade de dados, produtos, e outras tantas.

Antes que você pergunte, já quero me adiantar: trabalhamos apenas com dados de origem pública. Aqui levamos a LGPD muito a sério, e nosso processo já nasceu adequado à lei. Agora, o que exatamente são dados públicos? Dados públicos são aqueles que estão disponíveis em páginas públicas da internet, e que são acessíveis sem a necessidade de qualquer tipo de autenticação, como, por exemplo, o uso de usuário e senha.


O processo de captura dos dados

Agora que introduzimos a equipe e sua razão de ser, quero compartilhar um pouco sobre o processo de captura de dados em si. Tomamos como inspiração para o nosso processo a versão original do Google. Assim como ele, nosso crawler tenta visitar cada página de cada site da internet, seguindo a estrutura de links disponíveis para encontrar novas páginas e sites que devem ser acessados.

A grande diferença está na forma que tratamos os dados. Enquanto uma máquina de buscas tradicional, como o Google ou o DuckDuckGo, analisa o texto das páginas para extrair palavras-chave, que depois servem como termos de busca, o nosso processo busca extrair dados estruturados - endereços, telefones, emails, nomes de pessoas e mais - do conteúdo que foi capturado. Esses dados são então gravados em diferentes bancos de dados que os nossos clientes podem acessar através dos nossos produtos, para tomarem suas decisões e fazerem as suas análises.

Desafios


Além do desafio principal, de manter um processo de captura de informações rodando em grande escala a um custo razoável, precisamos resolver vários outros problemas em nosso dia-a-dia para maximizar os nossos resultados. Primeiro, precisamos muitas vezes implementar processos específicos de visita e tratamento de dados para determinados domínios, devido à natureza particular das informações contidas neles.


Precisamos também estar sempre refletindo sobre as estruturas de dados que vamos utilizar com as informações. O modelo de dados correto simplifica a manutenção do processo de captura ao mesmo tempo que aumenta as possibilidades de aplicação das informações, enquanto o modelo errado pode impossibilitar o seu uso.


Finalmente, estamos sempre pensando em formas de melhorar as capturas, reduzindo o impacto de falhas de processamento ou de mudanças nos formatos das páginas.




>> Quer fazer parte do time?


Confira as vagas disponíveis, aprenda sobre o processo seletivo e junte-se à nós!


50 visualizações0 comentário

Posts recentes

Ver tudo

Comments


bottom of page