Fonte da reimpressão do artigo: Silicon Star People

Fonte da imagem: gerada por Unbounded AI

Desde que o conceito de metaverso foi popularizado por Zuckerberg em 2021, ele sempre pareceu um “estranho muito familiar” para as pessoas, sempre distante, às vezes distante e às vezes próximo. Para ser franco, todos sentem que a sua presença não é forte o suficiente e não é tão poderosa como se imagina.

Porque ao mencionar o Universo Yuan, a impressão na mente dos internautas ainda é esta:

Zuckerberg tirou uma selfie com o famoso avatar do Horizon Worlds que foi “ridicularizado” pela galera. A foto é do Facebook.

Mas em apenas um ano, uma conversa à distância de uma hora que ocorreu no mundo do metaverso surgiu do nada, explodindo as redes sociais. Desta vez foi a vez dos internautas ficarem pasmos e exclamarem, como poderia evoluir silenciosamente assim sem prestar atenção? !

Recentemente, o cientista do MIT, Lex Fridman, que também é um guru de inteligência artificial e um conhecido apresentador de podcast, conduziu uma entrevista aprofundada com o CEO da Meta, Mark Zuckerberg, sobre realidade aumentada, IA e grandes modelos de linguagem.

O que difere do passado é que desta vez os dois não se encontraram no mundo físico. Em vez disso, eles completaram a conversa no metaverso usando uma imagem virtual 3D super-realista, separada por mais da metade dos Estados Unidos. No momento em que Silicon Star foi para a imprensa, a entrevista intitulada “Primeira Entrevista no Metaverso” obteve quase 13 milhões de visualizações no X (antigo Twitter).

Foto do canal Lex Fridman no Youtube

No início do vídeo, o avatar digital de alta definição de corpo inteiro de Lex Fridman apareceu em um espaço branco futurista. Ele disse: “Embora Mark e eu estejamos a centenas de quilômetros de distância no mundo real, porque nossas imagens são todas modelos 3D com. precisão no nível da foto, modelando e apresentando uns aos outros com áudio espacial, é como se estivéssemos nos comunicando cara a cara na mesma sala. Essa tecnologia é tão incrível que acho que essa será a maneira para os humanos se conectarem uns com os outros de uma forma mais profunda! e significativa na Internet no futuro ".

Ambos os homens usaram fones de ouvido Meta Quest Pro VR durante a entrevista. Talvez seja porque o efeito no campo de visão era muito real. Lex parecia um bebê curioso por um tempo. Além de sorrir, ele continuou suspirando: “Onde estou? Mark é realmente você? não se preocupe comigo. "Muito perto de você?"

Claro, a distância de visão pode ser ajustada. Além disso, você também pode ajustar a posição da fonte de luz controlando a alça para encontrar o ângulo de iluminação que melhor destaca as vantagens do seu rosto.

Zuckerberg disse que, diferentemente das versões de desenhos animados ou transmissões de vídeo em Horizon Worlds, a criação desses novos avatares Meta Codec que simulam pessoas reais requer uma varredura extensiva das várias expressões faciais e detalhes de movimento do usuário e, em seguida, modelagem e compactação em uma versão codificada.

Os recursos de rastreamento ocular e facial em tempo real do fone de ouvido capturam as expressões do usuário, mapeiam-nas em um avatar 3D e “enviam uma versão codificada de como você deve parecer” para a pessoa do outro lado do mundo virtual ou da chamada em conferência. Apresente na frente deles uma pessoa que se pareça com você de verdade.

Como os dados da imagem no metaverso são transmitidos de forma codificada, não são apenas realistas, mas também mais eficientes em termos de largura de banda do que enviar um vídeo imersivo completo.

A julgar pelo vídeo da entrevista, a capacidade do avatar de restaurar detalhes de pessoas reais é realmente muito forte. Nas palavras de Lex: “Ele captura tudo, incluindo as falhas no rosto humano. As pequenas sardas, as rugas, as bochechas assimétricas, a expressão no canto dos olhos quando sorrio... fazem-me desfrutar mais e perceber que a perfeição não é a chave para a imersão.”

“Os olhos são realmente importantes”, disse Zuckerberg. “Muitos estudos provaram que a comunicação humana é realizada principalmente por expressões e movimentos corporais, e não pela linguagem. A Meta tem trabalhado duro para capturar essas expressões com seu próprio sistema virtual clássico, por meio de fotos”. Proporciona uma experiência de vida real e uma sensação especial de presença." Ele acredita que isto também toca no núcleo visual da realidade virtual e da realidade aumentada, que é fazer com que as pessoas se sintam juntas, não importa onde estejam no mundo.

Imagine entrar em uma sala de conferências no futuro. Algumas pessoas estão realmente presentes, enquanto outras aparecem nesta forma virtual realista, sobreposta ao ambiente físico, combinando tecnologia de realidade mista: você pensa que elas estão sentadas à mesa conversando com você sobre projetos, mas. na verdade, eles estão a milhares de quilômetros de distância; na calada da noite, quando você está sozinho em um país estrangeiro e sente falta de casa, pode usar um fone de ouvido para ver seus entes queridos por perto. A carranca e o sorriso da pessoa à sua frente, e cada expressão facial sutil, podem ser reproduzidos realisticamente em três dimensões, quase sem atraso ou perda.

Durante a experiência, Lex não pôde deixar de exclamar que isso era maravilhoso: “Meu coração está batendo muito rápido no momento, e a intimidade da conversa pode ser percebida remotamente assim. você e eu estamos realmente lá. Esta é a coisa mais difícil da minha vida." Uma das experiências mais incríveis, realmente reveladora! ”

No entanto, deve-se notar que conseguir efeitos de diálogo em vídeos ainda não é fácil para as pessoas comuns. Antes de iniciar a entrevista, os dois voaram com antecedência para Pittsburgh e realizaram uma varredura detalhada por várias horas com a equipe do projeto Meta Codec, que integrou a mais alta tecnologia de software e hardware atual.

Na conferência Connect que terminou há poucos dias, Zuckerberg disse que sua maior visão é tornar essas tecnologias de ponta acessíveis às pessoas e mudar a vida da maioria das pessoas. Então, o que ele tem em mente para o futuro desta vez?

Xiao Zha disse que apenas começamos. Ao digitalizar primeiro um pequeno número de pessoas e coletar dados suficientes sobre expressões faciais, podemos explorar o quanto todo o processo pode ser simplificado e, em seguida, torná-lo mais suave quando aplicado a um grande número de pessoas. Embora esta tecnologia ainda não esteja totalmente pronta para ser introduzida no mercado, continuará a ser ajustada e otimizada nos próximos anos para ser aplicada em cenários de trabalho o mais rapidamente possível para resolver problemas de produtividade.

O que a Meta está trabalhando duro para conseguir é que você só precisa usar um telefone celular para realizar uma varredura facial muito rápida, como pegar o telefone celular, sacudi-lo na frente do rosto, dizer algumas palavras e fazer algumas expressões Todo o processo pode levar apenas dois ou três minutos para produzir os mesmos resultados de agora. Como ser mais eficiente e garantir a experiência ainda é um dos próximos desafios.

Lex acredita que os novos Avatares Meta Codec passaram claramente pelo “vale do terror” do passado. Xiao Zha na câmera se parece exatamente com ele. Então ele sorriu timidamente e perguntou: “Então não precisamos mais de braços e pernas”. , certo?"

“Não, não, ainda resolveremos esses problemas”, explicou Zuckerberg apressadamente. “Na verdade, há um problema. A digitalização de corpo inteiro de alta precisão requer um poderoso suporte de poder de computação, tanto para o sensor do head-mounted display quanto para os recursos de renderização. Portanto, podemos considerar restaurar o corpo com menor fidelidade, como ainda manter os grandes movimentos, mas o rosto é o que mais precisa ser analisado. Afinal, mover as sobrancelhas um milímetro pode transmitir emoções completamente diferentes. Não importa se seu braço se move um centímetro.”

Os avatares em Horizon Worlds foram descritos como o "efeito de vale misterioso" devido às suas expressões pálidas e à falta de parte inferior do corpo. Imagem de Meta.

Os dois conversaram posteriormente sobre o recém-lançado Quest 3, realidade aumentada, inteligência artificial no Metaverso e o futuro da humanidade. Lex ridicularizou esta entrevista com Zuckerberg como “o encontro de duas pessoas com as expressões mais rígidas da Internet no metaverso”. Ele sentiu que neste espaço virtual sua expressividade era mais fácil de capturar e mais real para transmitir a emoção perfeitamente: “ Eu realmente espero que mais pessoas possam vir e experimentar por si mesmas!" Xiao Zha também expressou que está muito ansioso pela reação dos internautas depois de ver este episódio do podcast. A única preocupação é se o público pode realmente vivenciar isso através a tela 2D. Essa sensação de choque real está prestes a surgir.

A julgar pelos comentários dos internautas, é óbvio que eles não apenas sentiram isso, mas também ficaram chocados.

Embora os últimos meses tenham sido batizados por várias rodadas de atualizações tempestuosas do Google, da Microsoft e especialmente do ChatGPT da OpenAI, pode-se considerar que esta entrevista no metaverso ainda está além do alcance da cognição das pessoas. MrBeast, o maior Youtuber do mundo, deixou um comentário abaixo do vídeo e disse: "Como chegamos aqui a partir dos avatares de pixel? Outros também comentaram:" Esta é a coisa mais incrível que já vi. as coisas."

Algumas pessoas dizem que a Meta sempre terá um lugar entre os fortes líderes em inovação tecnológica. Depois de ser questionado, provocado e até criticado por tanto tempo, o Metaverso ainda evoluiu para uma forma 3.0 tão poderosa.

Lex disse, eu vi o futuro.

“Acredito que o próximo ano será muito louco”, disse Zuckerberg.

Independentemente de como o Meta se desenvolverá ou se desenvolverá no futuro, esta primeira conversa ar-ar entre uma “pessoa real” abrangendo centenas de quilômetros e no Metaverso é um marco. Temos a sorte de nascer nesta época e testemunhar o impossível tornar-se possível.