;(function() { window.createMeasureObserver = (measureName) => { var markPrefix = `_uol-measure-${measureName}-${new Date().getTime()}`; performance.mark(`${markPrefix}-start`); return { end: function() { performance.mark(`${markPrefix}-end`); performance.measure(`uol-measure-${measureName}`, `${markPrefix}-start`, `${markPrefix}-end`); performance.clearMarks(`${markPrefix}-start`); performance.clearMarks(`${markPrefix}-end`); } } }; /** * Gerenciador de eventos */ window.gevent = { stack: [], RUN_ONCE: true, on: function(name, callback, once) { this.stack.push([name, callback, !!once]); }, emit: function(name, args) { for (var i = this.stack.length, item; i--;) { item = this.stack[i]; if (item[0] === name) { item[1](args); if (item[2]) { this.stack.splice(i, 1); } } } } }; var runningSearch = false; var hadAnEvent = true; var elementsToWatch = window.elementsToWatch = new Map(); var innerHeight = window.innerHeight; // timestamp da última rodada do requestAnimationFrame // É usado para limitar a procura por elementos visíveis. var lastAnimationTS = 0; // verifica se elemento está no viewport do usuário var isElementInViewport = function(el) { var rect = el.getBoundingClientRect(); var clientHeight = window.innerHeight || document.documentElement.clientHeight; // renderizando antes, evitando troca de conteúdo visível no chartbeat-related-content if(el.className.includes('related-content-front')) return true; // garante que usa ao mínimo 280px de margem para fazer o lazyload var margin = clientHeight + Math.max(280, clientHeight * 0.2); // se a base do componente está acima da altura da tela do usuário, está oculto if(rect.bottom < 0 && rect.bottom > margin * -1) { return false; } // se o topo do elemento está abaixo da altura da tela do usuário, está oculto if(rect.top > margin) { return false; } // se a posição do topo é negativa, verifica se a altura dele ainda // compensa o que já foi scrollado if(rect.top < 0 && rect.height + rect.top < 0) { return false; } return true; }; var asynxNextFreeTime = () => { return new Promise((resolve) => { if(window.requestIdleCallback) { window.requestIdleCallback(resolve, { timeout: 5000, }); } else { window.requestAnimationFrame(resolve); } }); }; var asyncValidateIfElIsInViewPort = function(promise, el) { return promise.then(() => { if(el) { if(isElementInViewport(el) == true) { const cb = elementsToWatch.get(el); // remove da lista para não ser disparado novamente elementsToWatch.delete(el); cb(); } } }).then(asynxNextFreeTime); }; // inicia o fluxo de procura de elementos procurados var look = function() { if(window.requestIdleCallback) { window.requestIdleCallback(findByVisibleElements, { timeout: 5000, }); } else { window.requestAnimationFrame(findByVisibleElements); } }; var findByVisibleElements = function(ts) { var elapsedSinceLast = ts - lastAnimationTS; // se não teve nenhum evento que possa alterar a página if(hadAnEvent == false) { return look(); } if(elementsToWatch.size == 0) { return look(); } if(runningSearch == true) { return look(); } // procura por elementos visíveis apenas 5x/seg if(elapsedSinceLast < 1000/5) { return look(); } // atualiza o último ts lastAnimationTS = ts; // reseta status de scroll para não entrar novamente aqui hadAnEvent = false; // indica que está rodando a procura por elementos no viewport runningSearch = true; const done = Array.from(elementsToWatch.keys()).reduce(asyncValidateIfElIsInViewPort, Promise.resolve()); // obtém todos os elementos que podem ter view contabilizados //elementsToWatch.forEach(function(cb, el) { // if(isElementInViewport(el) == true) { // // remove da lista para não ser disparado novamente // elementsToWatch.delete(el); // cb(el); // } //}); done.then(function() { runningSearch = false; }); // reinicia o fluxo de procura look(); }; /** * Quando o elemento `el` entrar no viewport (-20%), cb será disparado. */ window.lazyload = function(el, cb) { if(el.nodeType != Node.ELEMENT_NODE) { throw new Error("element parameter should be a Element Node"); } if(typeof cb !== 'function') { throw new Error("callback parameter should be a Function"); } elementsToWatch.set(el, cb); } var setEvent = function() { hadAnEvent = true; }; window.addEventListener('scroll', setEvent, { capture: true, ive: true }); window.addEventListener('click', setEvent, { ive: true }); window.addEventListener('resize', setEvent, { ive: true }); window.addEventListener('load', setEvent, { once: true, ive: true }); window.addEventListener('DOMContentLoaded', setEvent, { once: true, ive: true }); window.gevent.on('allJSLoadedAndCreated', setEvent, window.gevent.RUN_ONCE); // inicia a validação look(); })();
  • AssineUOL
Topo

Microsoft cria IA capaz de gerar áudio com 3 segundos da sua voz; ouça

Sua voz pode gerar outros áudios - Getty Images/iStockphoto
Sua voz pode gerar outros áudios Imagem: Getty Images/iStockphoto

Abinoan Santiago

Colaboração para Tilt, em Florianópolis

10/01/2023 13h51Atualizada em 10/01/2023 18h39

Qualquer voz humana poderá ser imitada com apenas três segundos de áudio, segundo um novo modelo de IA (Inteligência Artificial) apresentado pela Microsoft. Chamado de VALL-E, o mecanismo criado pela big tech é capaz de sintetizar o áudio de uma pessoa e transformá-lo em outro mantendo as características da voz original.

Isto é, a IA consegue, por exemplo, usar o som da sua voz falando "eu amo animais" e transformá-lo em outro completamente diferente, como "eu odeio animais", mantendo os tons da fala.

Segundo a Microsoft, a ideia é usar os algoritmos para melhorar ferramentas "text-to-speech" (texto para fala), que transformam textos em voz, a fim de deixar o áudio mais natural e menos robotizado, como aqueles que usamos no Google Tradutor, por exemplo, ou no Waze.

Como a mágica acontece?

A Microsoft diz que, diferentemente de outras ferramentas do mercado, a IA produzida pela empresa não trabalha nas ondas sonoras, mas usa códigos de codec (codificador) de áudio a partir de prompts (comandos) de texto e acústicos.

Ou seja, pega seu áudio e o divide em vários componentes que sintetizem suas características de voz. Logo em seguida, os combinam para que a IA possa reproduzi-los em outro áudio, tendo o mesmo ambiente acústico ou não.

"O VALL-E oferece recursos de aprendizado e pode ser usado para sintetizar fala personalizada de alta qualidade com apenas uma gravação registrada de 3 segundos de um falante invisível como um prompt acústico", diz um trecho do paper de apresentação da Microsoft.

Para chegar ao resultado final, os cientistas usaram 60 mil horas de gravação de mais de 7 mil falantes do LibriLight, composta por audiolivros de domínio público.

Os resultados da experiência mostram que o VALL-E supera significativamente o sistema TTS zero-shot de última geração em termos de naturalidade da fala e similaridade do locutor. Microsoft

Nas amostras disponibilizadas pela empresa, é perceptível a semelhança entre o áudio original e o final gerado pela VALL-E, apesar de alguns ainda demonstrarem ser robotizados.

De acordo com Microsoft, a ferramenta é aprimorada para que fique o mais natural possível para chegar próximo dos 100% de similaridade com qualquer tipo de voz antes de seu lançamento oficial.

Ferramenta abre brecha para fakes e preocupa Microsoft

De acordo com a Microsoft, a nova ferramenta pode ser usada nas seguintes situações:

  • Aplicativos que convertem textos em falas
  • Edição de fala em que a gravação de algo dito pela pessoa pode ser alterada para outra frase completamente diferente
  • Criação de conteúdos de áudio com a voz de alguém.

Apesar das suas funcionalidades, a Microsoft decidiu não deixar o código da IA aberto em razão dos riscos que a tecnologia poderia resultar com fakes news, como colocar na boca de alguém algo não dito, o que é uma preocupação dos pesquisadores.

Para conter eventuais danos quando o código já estiver operando comercialmente, a empresa trabalha para criar um modelo capaz de detectar se o áudio é verdadeiro ou produzido pelo VALL-E.

"Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode trazer riscos potenciais de uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico. Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E", concluiu.