Você provavelmente está entre as pessoas que assistem diariamente vídeos provenientes da web. Talvez faça isso por meio de dispositivos móveis como celulares e tablets, utilizando computadores ou televisão.
Mas não são apenas os milhões de pessoas que assistem os vídeos diariamente. As máquinas e a Inteligência Artificial também estão fazendo isso. E assistem de forma atenta para aprenderem o máximo sobre nossa realidade.
O que a humanidade está ensinando para as máquinas, e por quê? Além disso, de que forma este aprendizado pode beneficiar empresas ao exibir anúncios contextuais em vídeos, na internet?
Os seres humanos não têm quaisquer dificuldades em identificar significados em formas, cores e luzes a partir da profusão de informações que chegam aos seus olhos e ouvidos constantemente. O processo, embora demasiadamente complexo, é realizado em incrível velocidade.
O processo nas máquinas, por outro lado, oferece um desafio maior. Elas só conseguem atingir esta interpretação se o conteúdo exibido estiver devidamente rotulado.
Mas a tecnologia do aprendizado de máquina está sendo ensinada a como reconhecer conceitos visuais e de áudio, a partir da observação de uma variedade de vídeos.
Como isso tem acontecido?
É verdade que a Inteligência Artificial é ensinada de forma supervisionada pelos humanos, por meio de imagens rotuladas. No entanto, projetos desenvolvidos de aprendizado de máquina objetivam ensinar as máquinas de forma escalável. Na prática, isso significa que o algoritmo deve aprender não somente por meio de imagens rotuladas. Na verdade, envolve reconhecer imagens e sons, combinando o que a máquina vê e ouve.
Projetos como o DeepMind utilizaram centenas de milhares de vídeos e trechos correspondentes de áudio, no processo de ensinamento. Essa associação abriu portas para que as máquinas associassem o vídeo com o som. Isso permitiu que as máquinas conseguissem, por exemplo, visualizar a foto de uma pessoa batendo palmas, e associar o som desta imagem.
E as máquinas continuam aprendendo, de forma ininterrupta. Os algoritmos estão sendo aprimorados para este aprendizado a partir de vídeos selecionados.
Utiliza-se também um conjunto de dados de clipes de filmes projetados para ensinar às máquinas como os homens interagem com o mundo ao seu redor. Do ponto de vista humano, estes vídeos podem parecer irrelevantes. Afinal, muitos dos trechos de vídeos que são costumeiramente utilizados contêm nada mais do que alguns poucos segundos de pessoas realizando atividades simples (bebendo água, caminhando, ouvindo, falando, se abraçando ou cozinhando algum alimento).
Mas neste processo, os vídeos são acompanhados de um pacote de dados de informações sobre o que está presente nas imagens. É uma descrição do que está acontecendo diante dos “olhos” das máquinas, incluindo a posição das pessoas no vídeo e se elas estão interagindo com outras pessoas ou com objetos. É a versão digital do que os pais costumam fazer com seus filhos pequenos, tal como apontar para um animal ou objeto e dizer o nome destes.
O objetivo é que o aprendizado da Inteligência Artificial não simplesmente aconteça. O que se espera é que aconteça de forma parecida ao existente em seres humanos.
Quando duas pessoas estão presentes no vídeo, o pacote de informações avisa a máquina o que cada uma delas está fazendo.
Com a análise de todas estas informações, as máquinas poderão não apenas identificar o que as pessoas estão fazendo, mas o que provavelmente farão em seguida.
É verdade que as imagens disponíveis em filmes, por exemplo, trazem maiores desafios. Afinal, sabemos que o cinema possui uma “linguagem” diferente da realidade. E com isso, muitas das ações apresentadas são dramatizadas. Até o momento, o conteúdo gerado pelos usuários também oferecem desafios. Afinal, muitas ações e reações apresentadas não são controladas, administradas. Por isso, tais projetos selecionam vídeos devidamente catalogados para este processo.
Devemos nos lembrar da importância do reconhecimento de voz associado ao aprendizado com os vídeos. E o desempenho das máquinas não deixam a desejar.
A IBM possui o Watson Speech to Text, parte integrante do aprendizado de máquina do Watson. De acordo com certos estudos, os humanos cometem 5,1% de erros no reconhecimento de voz, em média. Já a taxa de erro do Watson é de 5,5%. Isto evidencia como a IBM está próxima de alcançar a paridade com níveis dos resultados obtidos com pessoas.
Entre as oportunidades que este aprendizado da Inteligência Artificial permite está a melhor segmentação dos anúncios exibidos na internet, especialmente aqueles apresentados em vídeos.
Com isso é possível apresentar o anúncio certo levando em consideração o que a pessoa está assistindo no momento. E isto não significa simplesmente saber do que se trata o vídeo, ou seja, o assunto ou temática da mídia. Na verdade, envolve saber o que está sendo apresentado no vídeo no exato instante em que o anúncio aparece.
Por exemplo, um anúncio de pranchas de surf apareceria, não em qualquer momento de uma reportagem sobre a praia. Neste caso, a Inteligência Artificial se certificaria de que tal anúncio aparecesse somente no instante em que imagens e o áudio da matéria destacassem a prática deste esporte.
Com isso, vemos uma segmentação publicitária de anúncios em vídeo atingindo um nível jamais imaginado. É a tecnologia da Inteligência Artificial sendo aprimorada em prol de um marketing cada vez menos invasivo e mais eficiente, adaptado ao indivíduo e seu contexto.
O aprendizado de máquina faz uso de dados estruturados e também não estruturados (incluindo os vídeos). E estas tecnologias integram a computação cognitiva, um domínio onde a IBM é líder.
Sua empresa já pode tirar proveito do vasto e variado portfólio de soluções, sob a consultoria de uma agência IBM Partner. E a medida que a Inteligência Artificial aprender mais sobre os humanos, inclusive por meio dos vídeos, a eficiência do marketing de sua empresa melhorará a cada dia.
Clinks ®️ | Google Ads | Google Partner