ChatGPT, que é tão popular, precisa urgentemente de “freios de conformidade”

Título original: "ChatGPT, que é tão popular, precisa urgentemente de um" freio de conformidade "" Autor original: equipe jurídica de Xiao Sa Dica principal: ChatGPT e outras IAs de bate-papo baseadas em tecnologia de processamento de linguagem natural têm problemas urgentes de conformidade legal que precisam a ser resolvido no curto prazo Existem três questões principais: Primeiro, a questão dos direitos de propriedade intelectual nas respostas fornecidas pela IA do chat. O problema de conformidade mais importante é se as respostas geradas pela IA do chat geram direitos de propriedade intelectual correspondentes? É necessária autorização de propriedade intelectual? Em segundo lugar, o processo de mineração de dados e treinamento de IA de chat em grandes quantidades de textos de processamento de linguagem natural (geralmente chamados de corpus) requer autorização de propriedade intelectual correspondente? Terceiro, um dos mecanismos de IA de bate-papo, como o ChatGPT, é realizar estatísticas matemáticas em um grande número de textos de linguagem natural existentes para obter um modelo de linguagem baseado em estatísticas. Esse mecanismo faz com que a IA de bate-papo provavelmente "fale bobagens seriamente". Caminhos", o que por sua vez leva a riscos legais na disseminação de informações falsas. Sob esta formação técnica, como reduzir ao máximo o risco de disseminação de informações falsas na IA do chat? De um modo geral, a legislação sobre inteligência artificial do meu país ainda está na fase de pré-pesquisa e não existe um plano legislativo formal ou um projeto de moção relevante. Os departamentos relevantes são particularmente cautelosos na supervisão do campo da inteligência artificial. Com o desenvolvimento gradual da inteligência artificial, As dores de cabeça correspondentes à conformidade legal só estão aumentando. 1. ChatGPT não é uma “tecnologia de inteligência artificial de várias eras”. ChatGPT é essencialmente um produto do desenvolvimento da tecnologia de processamento de linguagem natural e ainda é essencialmente apenas um modelo de linguagem. No início de 2023, o enorme investimento da gigante global da tecnologia Microsoft fez com que o ChatGPT se tornasse a "classe superior" no campo da tecnologia e emergisse com sucesso do círculo. Com o aumento do conceito de ChatGPT no mercado de capitais, muitas empresas nacionais de tecnologia também começaram a se implantar neste campo.Embora o conceito de ChatGPT seja entusiasmado no mercado de capitais, como profissionais do direito, não podemos deixar de avaliar o que é segurança jurídica O próprio ChatGPT pode trazer: Qual é o risco e o caminho de conformidade legal? Antes de discutir os riscos legais e os caminhos de conformidade do ChatGPT, devemos primeiro examinar os princípios técnicos do ChatGPT - o ChatGPT pode, como dizem as notícias, dar ao questionador qualquer pergunta que ele queira?Do ponto de vista da equipe de Sajie, ChatGPT parece ser muito menos “mágico” do que algumas notícias promovem – em uma frase, é apenas uma integração de tecnologias de processamento de linguagem natural, como Transformer e GPT, e ainda é essencialmente uma linguagem baseada em redes neurais.Um modelo em vez de um “avanço geracional de IA”. Como mencionado anteriormente, ChatGPT é o produto do desenvolvimento da tecnologia de processamento de linguagem natural. A julgar pela história de desenvolvimento desta tecnologia, ela passou aproximadamente por três estágios: modelo de linguagem baseado em gramática - modelo de linguagem baseado em estatísticas - modelo de linguagem baseado em rede neural modelo de linguagem. , o estágio em que o ChatGPT se encontra é o estágio do modelo de linguagem baseado em redes neurais. Se você deseja entender mais diretamente o princípio de funcionamento do ChatGPT e os riscos jurídicos que este princípio pode causar, você deve primeiro esclarecer o antecessor do modelo de linguagem baseado em redes neurais —— Como funcionam os modelos de linguagem baseados em estatísticas. No estágio do modelo de linguagem baseado em estatísticas, os engenheiros de IA conduzem estatísticas sobre grandes quantidades de texto em linguagem natural para determinar a probabilidade de conexões sequenciais entre palavras. Quando as pessoas fazem uma pergunta, a IA começa a analisar o ambiente de linguagem composto pelas palavras que compõem a pergunta. Em seguida, quais combinações de palavras são de alta probabilidade e, em seguida, juntei essas palavras de alta probabilidade para retornar uma resposta com base em estatísticas. Pode-se dizer que este princípio permeou o desenvolvimento da tecnologia de processamento de linguagem natural desde o seu surgimento.Em certo sentido, os modelos de linguagem baseados em redes neurais subsequentes também são modificações dos modelos de linguagem baseados em estatísticas. Para dar um exemplo fácil de entender, a equipe da Irmã Sa inseriu a pergunta “Quais atrações turísticas existem em Dalian?” na caixa de bate-papo do ChatGPT, conforme mostrado na figura abaixo: A primeira etapa da IA ​​analisará os morfemas básicos em a pergunta "Dalian, qual, atrações turísticas" , em seguida, encontre a coleção de textos em linguagem natural onde esses morfemas estão localizados no corpus existente, encontre a colocação com maior probabilidade de ocorrência nesta coleção e, em seguida, combine essas colocações para formar o final responder. Por exemplo, a IA descobrirá que a palavra "Parque Zhongshan" está incluída no corpus das três palavras "Dalian, turismo, resort" com alta probabilidade de ocorrência, então retornará "Parque Zhongshan". Outro exemplo é que a palavra "parque" está associada a jardins. Palavras como lago, fonte e estátua têm a maior probabilidade de correspondência, então retornaremos para "Este é um parque histórico com belos jardins, lagos, fontes e estátuas ."” Em outras palavras, todo o processo é baseado em estatísticas de probabilidade baseadas nas informações de texto em linguagem natural (corpus) existentes por trás da IA, de modo que as respostas retornadas também são “resultados estatísticos”, o que leva o ChatGPT a ser “sério” em muitas questões. Absurdo". Assim como a resposta à pergunta “Quais atrações turísticas existem em Dalian?”, embora Dalian tenha o Parque Zhongshan, não há lagos, fontes e estátuas no Parque Zhongshan. Dalian teve uma "Praça Stalin" na história, mas a Praça Stalin nunca foi uma praça comercial do começo ao fim e não tinha shopping centers, restaurantes ou locais de entretenimento. Aparentemente, as informações retornadas pelo ChatGPT são falsas. 2. ChatGPT é atualmente o cenário de aplicação mais adequado para modelos de linguagem. Embora tenhamos explicado diretamente as desvantagens dos modelos de linguagem baseados em estatísticas na seção anterior, ChatGPT é, afinal, um modelo baseado em rede neural que melhorou muito os modelos de linguagem baseados em estatísticas. modelos de linguagem. O modelo de linguagem do ChatGPT, cuja base técnica Transformer e GPT são ambos a última geração de modelos de linguagem. ChatGPT combina essencialmente dados massivos com o modelo Transformer com fortes capacidades expressivas, conduzindo assim uma modelagem muito aprofundada da linguagem natural. Voltar Embora as frases às vezes são "absurdas", à primeira vista ainda parecem "respostas humanas", portanto, essa tecnologia possui uma ampla gama de cenários de aplicação em cenários que exigem interação massiva homem-computador. Atualmente, existem três desses cenários: primeiro, motores de busca; segundo, mecanismos de interação humano-computador em bancos, escritórios de advocacia, vários intermediários, shopping centers, hospitais e plataformas de serviços governamentais, como os dos locais acima Sistema de reclamação de clientes , orientação médica e navegação, sistema de consulta governamental; terceiro, o mecanismo de interação de carros inteligentes, casas inteligentes (como alto-falantes inteligentes, luzes inteligentes), etc. Um mecanismo de busca que combina tecnologias de bate-papo de IA, como o ChatGPT, provavelmente adotará uma abordagem tradicional baseada em mecanismo de busca, complementada por um modelo de linguagem baseado em rede neural. Atualmente, gigantes de busca tradicionais como Google e Baidu acumulam profundamente tecnologia de modelo de linguagem baseada em redes neurais. Por exemplo, o Google tem Sparrow e Lamda que são comparáveis ​​ao ChatGPT. Com a bênção desses modelos de linguagem, os mecanismos de pesquisa serão mais “Humanizar”.A aplicação de tecnologias de chat de IA, como ChatGPT, em sistemas de reclamação de clientes, orientação de navegação em hospitais e shopping centers e sistemas de consulta governamental de agências governamentais reduzirá significativamente os custos de recursos humanos de unidades relevantes e economizará tempo de comunicação. No entanto, o problema é que respostas baseadas em estatísticas podem gerar respostas de conteúdo completamente erradas, os riscos de controle de risco resultantes podem exigir uma avaliação mais aprofundada. Em comparação com os dois cenários de aplicação acima, o risco legal de a aplicação ChatGPT se tornar um mecanismo de interação humano-computador para os dispositivos acima mencionados em áreas como carros inteligentes e casas inteligentes é muito menor, porque o ambiente de aplicação nessas áreas é relativamente privado e o conteúdo de erro do feedback da IA ​​não é. Por causar grandes riscos jurídicos, esse tipo de cenário não possui altos requisitos de precisão de conteúdo e o modelo de negócios é mais maduro. 3. Uma exploração preliminar dos riscos legais e caminhos de conformidade do ChatGPT. Primeiro, o cenário regulatório geral da inteligência artificial em meu país é o mesmo de muitas tecnologias emergentes. A tecnologia de processamento de linguagem natural representada pelo ChatGPT também enfrenta o “dilema de Collingridge”. Este dilema inclui o dilema da informação e o dilema do controlo. O chamado dilema da informação significa que as consequências sociais de uma tecnologia emergente não podem ser antecipadas nas fases iniciais da tecnologia; o chamado dilema do controlo significa que quando uma tecnologia emergente traz Quando são descobertas consequências sociais adversas, a tecnologia tornou-se muitas vezes parte de toda a estrutura social e económica, tornando impossível controlar eficazmente as consequências sociais adversas. Actualmente, o campo da inteligência artificial, especialmente o campo da tecnologia de processamento de linguagem natural, está numa fase de rápido desenvolvimento.Esta tecnologia provavelmente cairá no chamado "Dilema de Collingridge", e a supervisão legal correspondente não parece para “acompanhar o ritmo”. Atualmente não existe legislação nacional sobre a indústria de inteligência artificial no nosso país, mas tem havido tentativas legislativas locais relevantes. Em setembro passado, Shenzhen anunciou a legislação especial nacional para a indústria de inteligência artificial, os "Regulamentos de Promoção da Indústria de Inteligência Artificial da Zona Econômica Especial de Shenzhen", e depois Xangai também aprovou os "Regulamentos de Xangai sobre a Promoção do Desenvolvimento da Indústria de Inteligência Artificial". Acredito que em breve vários lugares irão introduzir legislação semelhante para a indústria de inteligência artificial. Em termos de regulamentação ética da inteligência artificial, o Comitê Nacional Profissional de Governança de Inteligência Artificial de Nova Geração também divulgou o "Código de Ética de Inteligência Artificial de Nova Geração" em 2021, propondo integrar a ética e a moralidade em todo o ciclo de vida da pesquisa e desenvolvimento de inteligência artificial e Talvez num futuro próximo No futuro, as "Três Leis da Robótica", semelhantes às dos romances de Asimov, se tornarão as leis férreas que regem o campo da inteligência artificial.Em segundo lugar, os riscos legais de informações falsas trazidos pelo ChatGPT mudaram o foco do macro para o micro.Deixando de lado o cenário regulatório geral da indústria de inteligência artificial e a regulamentação ética da inteligência artificial, as questões práticas de conformidade existentes na fundação de bate-papo de IA, como o ChatGPT, também precisam de atenção urgente. A questão mais problemática são as informações falsas que o ChatGPT responde. Conforme mencionado na segunda parte deste artigo, o princípio de funcionamento do ChatGPT significa que suas respostas podem ser completas "absurdas sérias". Esse tipo de informação falsa que parece ser verdadeira é na verdade ultrajante. Extremamente enganoso. É claro que respostas falsas a perguntas como “Que atrações turísticas existem em Dalian?” podem não causar consequências graves, mas se o ChatGPT for aplicado a motores de busca, sistemas de reclamação de clientes, etc., as informações falsas que ele responde podem causar consequências extremamente graves. riscos legais. Na verdade, esses riscos jurídicos já surgiram: Galactica, modelo de linguagem para a área de pesquisa científica do serviço Meta, lançado quase ao mesmo tempo que o ChatGPT em novembro de 2022, foi encerrado pelos usuários após apenas 3 dias de testes. devido a problemas com respostas mistas de verdadeiro e falso. Partindo da premissa de que os princípios técnicos não podem ser quebrados num curto espaço de tempo, se o ChatGPT e modelos de linguagem semelhantes forem aplicados a motores de busca, sistemas de reclamação de clientes e outros campos, devem ser transformados para conformidade. Ao detectar que um usuário pode fazer uma pergunta profissional, o usuário deve ser orientado a consultar o profissional correspondente ao invés de buscar respostas na inteligência artificial. Ao mesmo tempo, o usuário deve ser claramente lembrado de que a autenticidade das perguntas retornadas pela IA do chat pode precisar de verificação adicional para minimizar o risco de riscos de conformidade correspondentes. Em terceiro lugar, as questões de conformidade de propriedade intelectual provocadas pelo ChatGPT.Quando voltamos a nossa atenção do macro para o micro, além da autenticidade das mensagens de resposta da IA, as questões de propriedade intelectual da IA ​​do chat, especialmente modelos de linguagem grandes como o ChatGPT, devem também causam problemas de conformidade Atenção do pessoal. A primeira questão de conformidade é se a “mineração de dados de texto” requer autorização de propriedade intelectual correspondente. Conforme indicado acima, o princípio de funcionamento do ChatGPT depende de uma enorme quantidade de textos em linguagem natural (ou corpora de fala). O ChatGPT precisa extrair e treinar os dados do corpus. O ChatGPT precisa copiar o conteúdo do corpus para seu próprio banco de dados. O comportamento correspondente é geralmente chamado de "mineração de dados de texto" no campo do processamento de linguagem natural.Ainda é controverso se a mineração de dados de texto viola o direito de reprodução quando os dados de texto correspondentes podem constituir uma obra. No domínio do direito comparado, tanto o Japão como a União Europeia alargaram o âmbito do uso justo na sua legislação de direitos de autor, acrescentando a "mineração de dados de texto" na IA como uma nova situação de uso justo. Embora alguns estudiosos tenham defendido a mudança do sistema de uso justo do meu país de "fechado" para "aberto" durante a revisão da Lei de Direitos Autorais do meu país em 2020, essa ideia não foi adotada no final. Atualmente, a lei de direitos autorais do meu país ainda mantém o uso justo sistema. Estipulado de perto, apenas as treze situações estipuladas no Artigo 24 da Lei de Direitos Autorais podem ser reconhecidas como uso justo. Em outras palavras, a Lei de Direitos Autorais do meu país atualmente não inclui “mineração de dados de texto” em IA no âmbito da aplicação razoável. A mineração de dados de texto ainda requer autorização de propriedade intelectual correspondente no meu país. O segundo desafio de conformidade é: as respostas geradas pelo ChatGPT são originais? Quanto à questão de saber se os trabalhos gerados pela IA são originais, a equipe de Sajie acredita que os critérios de julgamento não devem ser diferentes dos critérios de julgamento existentes. Em outras palavras, quer uma determinada resposta seja completada pela IA ou por humanos, ela deve ser baseada em padrões existentes de originalidade. Na verdade, por trás desta questão está outra questão mais controversa: se a resposta gerada pela IA for original, o detentor dos direitos autorais pode ser a IA? Obviamente, ao abrigo das leis de propriedade intelectual da maioria dos países, incluindo o nosso país, o autor de uma obra só pode ser uma pessoa singular e a IA não pode ser o autor da obra. Finalmente, se o ChatGPT incluir trabalhos de terceiros em sua resposta, como suas questões de propriedade intelectual deverão ser tratadas? A equipe Sajie acredita que se a resposta do ChatGPT contiver obras protegidas por direitos autorais no corpus (embora com base no princípio de funcionamento do ChatGPT, a probabilidade de isso acontecer seja pequena), então, de acordo com a atual lei de direitos autorais da China, a menos que constitua uso justo, caso contrário, a reprodução é não permitido sem a permissão do detentor dos direitos autorais.