O Google lançou recentemente um novo recurso para análise e detecção de lixo eletrônico no gmail entrar e golpes de phishing no Correio eletrônico. Batizado de RETVec (Robusto & Eficiente Vetorizador de Texto), o mecanismo é mais resiliente à manipulação de caracteres comuns encontrados nesse tipo de fraude.
O RETVec é uma solução contra mensagens que utilizam homóglifos (caracteres muito semelhantes), caracteres ocultos ou outras alterações de conteúdo para burlar os detectores do Gmail. De acordo com o Google, ele aumentou a taxa de detecção de lixo eletrônico em 38%, reduzindo a incidência de falsos positivos em 19,4%.
A abordagem também é mais econômica. Testes realizados pelo Google revelaram que o modelo diminui o uso de TPU (unidades de processamento tensorial, núcleos do Google dedicados a operações com inteligência artificial) em 83%.
“O RETVec alcança essas melhorias ao apresentar um modelo de incorporação de palavras muito leve (aproximadamente 200 mil parâmetros), permitindo-nos reduzir o tamanho do modelo Transformer com desempenho igual ou superior e tendo a habilidade de distribuir a computação entre o anfitrião e a TPU em uma rede de forma mais eficaz para a memória”, explicou o Google.
Conforme o Google, o modelo é capaz de suportar todos os idiomas e caracteres UTF-8 sem pré-processamento do texto. Desse modo, o mecanismo é otimizado para uso em dispositivos móveis e na rede.
Todo o código do projeto foi disponibilizado pelo Google Research no GitHub, possibilitando que a comunidade avalie a iniciativa detalhadamente. Ademais, desenvolvedores também podem adotar o mecanismo e integrá-lo em sistemas próprios.