ChatGPT, que es tan popular, necesita urgentemente "frenos de cumplimiento"

Título original: "ChatGPT, que es tan popular, necesita urgentemente un" freno de cumplimiento "" Autor original: equipo legal de Xiao Sa Consejo principal: ChatGPT y otras IA de chat basadas en tecnología de procesamiento de lenguaje natural tienen problemas urgentes de cumplimiento legal que necesitan a resolver en el corto plazo Hay tres cuestiones principales: Primero, la cuestión de los derechos de propiedad intelectual en las respuestas proporcionadas por la IA del chat. El problema de cumplimiento más importante es si las respuestas generadas por la IA del chat generan los derechos de propiedad intelectual correspondientes. ¿Se requiere autorización de propiedad intelectual? En segundo lugar, ¿el proceso de extracción de datos y entrenamiento de la IA del chat en enormes cantidades de textos de procesamiento de lenguaje natural (generalmente llamados corpus) requiere la correspondiente autorización de propiedad intelectual? En tercer lugar, uno de los mecanismos de la IA del chat como ChatGPT es realizar estadísticas matemáticas en una gran cantidad de textos en lenguaje natural existentes para obtener un modelo de lenguaje basado en estadísticas. Este mecanismo hace que la IA del chat probablemente "diga tonterías en serio". Paths", lo que a su vez genera riesgos legales en la difusión de información falsa. Con estos antecedentes técnicos, ¿cómo reducir al máximo el riesgo de difusión de información falsa en la IA del chat? En términos generales, la legislación sobre inteligencia artificial de mi país aún se encuentra en la etapa de investigación previa y no existe un plan legislativo formal ni un proyecto de ley relevante. Los departamentos pertinentes son particularmente cautelosos al supervisar el campo de la inteligencia artificial. Los correspondientes dolores de cabeza relacionados con el cumplimiento legal no hacen más que aumentar. 1. ChatGPT no es una "tecnología de inteligencia artificial de varias eras". ChatGPT es esencialmente un producto del desarrollo de la tecnología de procesamiento del lenguaje natural y sigue siendo esencialmente solo un modelo de lenguaje. A principios de 2023, la enorme inversión del gigante tecnológico mundial Microsoft hizo que ChatGPT se convirtiera en la "clase superior" en el campo de la tecnología y emergiera con éxito del círculo. Con el auge del concepto de ChatGPT en el mercado de capitales, muchas empresas de tecnología nacionales también han comenzado a implementarlo en este campo. Si bien el concepto de ChatGPT es entusiasta en el mercado de capitales, como profesionales del derecho, no podemos evitar evaluar qué seguridad jurídica. El propio ChatGPT puede conllevar riesgos y cumplimiento legal. Antes de discutir los riesgos legales y las vías de cumplimiento de ChatGPT, primero debemos examinar los principios técnicos de ChatGPT: ¿puede ChatGPT, como dicen las noticias, darle al interrogador cualquier pregunta que quiera?Desde la perspectiva del equipo de Sajie, ChatGPT parece ser mucho menos "mágico" de lo que algunas noticias han promovido: en una frase, es solo una integración de tecnologías de procesamiento de lenguaje natural como Transformer y GPT, y sigue siendo esencialmente un lenguaje basado en Redes neuronales: un modelo en lugar de un “avance generacional de IA”. Como se mencionó anteriormente, ChatGPT es el producto del desarrollo de la tecnología de procesamiento del lenguaje natural. A juzgar por la historia del desarrollo de esta tecnología, ha pasado aproximadamente por tres etapas: modelo de lenguaje basado en gramática, modelo de lenguaje basado en estadísticas y basado en redes neuronales. modelo de lenguaje, la etapa en la que se encuentra ChatGPT es la etapa de modelo de lenguaje basado en redes neuronales. Si desea comprender más directamente el principio de funcionamiento de ChatGPT y los riesgos legales que este principio puede causar, primero debe aclarar el predecesor del. modelo de lenguaje basado en redes neuronales—— Cómo funcionan los modelos de lenguaje basados ​​en estadísticas. En la etapa del modelo de lenguaje basado en estadísticas, los ingenieros de inteligencia artificial realizan estadísticas sobre grandes cantidades de texto en lenguaje natural para determinar la probabilidad de conexiones secuenciales entre palabras. Cuando las personas hacen una pregunta, la inteligencia artificial comienza a analizar el entorno del lenguaje compuesto por las palabras que la componen. A continuación, pregunte qué combinaciones de palabras son de alta probabilidad y luego junte estas palabras de alta probabilidad para obtener una respuesta basada en estadísticas. Se puede decir que este principio ha impregnado el desarrollo de la tecnología de procesamiento del lenguaje natural desde su aparición. En cierto sentido, los modelos de lenguaje basados ​​​​en redes neuronales posteriores también son modificaciones de los modelos de lenguaje basados ​​​​en estadísticas. Para dar un ejemplo fácil de entender, el equipo de la hermana Sa ingresó la pregunta "¿Qué atracciones turísticas hay en Dalian?" en el cuadro de chat de ChatGPT, como se muestra en la siguiente figura: El primer paso de la IA analizará las morfemas básicos en la pregunta "Dalian, cuál, atracciones turísticas", luego encuentre la colección de textos en lenguaje natural donde se encuentran estos morfemas en el corpus existente, encuentre la colocación con la mayor probabilidad de ocurrencia en esta colección y luego combine estas colocaciones para formar la respuesta final. Por ejemplo, la IA encontrará que la palabra "Parque Zhongshan" está incluida en el corpus de las tres palabras "Dalian, turismo, centro turístico" con una alta probabilidad de ocurrencia, por lo que devolverá "Parque Zhongshan". es que la palabra "parque" está asociada con jardines. Palabras como lago, fuente y estatua tienen la mayor probabilidad de coincidir, por lo que volveremos a "Este es un parque histórico con hermosos jardines, lagos, fuentes y estatuas". ".En otras palabras, todo el proceso se basa en estadísticas de probabilidad basadas en la información de texto (corpus) en lenguaje natural existente detrás de la IA, por lo que las respuestas devueltas también son "resultados estadísticos", lo que lleva a ChatGPT a ser "serio" en muchos temas. disparates". Al igual que la respuesta a la pregunta "¿Qué atracciones turísticas hay en Dalian?", aunque Dalian tiene el parque Zhongshan, no hay lagos, fuentes ni estatuas en el parque Zhongshan. Dalian tuvo una "Plaza Stalin" en la historia, pero la Plaza Stalin nunca fue una plaza comercial de principio a fin, y no tuvo centros comerciales, restaurantes ni lugares de entretenimiento. Al parecer, la información devuelta por ChatGPT es falsa. 2. ChatGPT es actualmente el escenario de aplicación más adecuado para modelos de lenguaje. Aunque explicamos directamente las desventajas de los modelos de lenguaje basados ​​en estadísticas en la sección anterior, ChatGPT es, después de todo, un modelo basado en redes neuronales que ha mejorado enormemente el modelo de lenguaje. Modelos de lenguaje. ChatGPT es un modelo de lenguaje cuyos fundamentos técnicos, Transformer y GPT, son la última generación de modelos de lenguaje. ChatGPT esencialmente combina datos masivos con el modelo Transformer altamente expresivo para realizar un modelado muy profundo del lenguaje natural. Las oraciones a veces son "tonterías", pero a primera vista todavía parecen "respuestas humanas". Por lo tanto, esta tecnología tiene una amplia gama de escenarios de aplicación en escenarios que requieren una interacción masiva entre humanos y computadoras. En la actualidad, existen tres escenarios de este tipo: primero, motores de búsqueda; segundo, mecanismos de interacción persona-computadora en bancos, bufetes de abogados, diversos intermediarios, centros comerciales, hospitales y plataformas de servicios gubernamentales, como los mencionados anteriormente. Sistema de quejas de clientes , orientación médica y navegación, sistema de consulta gubernamental; en tercer lugar, el mecanismo de interacción de automóviles inteligentes, hogares inteligentes (como parlantes inteligentes, luces inteligentes), etc. Es probable que un motor de búsqueda que combine tecnologías de chat de IA como ChatGPT adopte un enfoque tradicional basado en un motor de búsqueda complementado con un modelo de lenguaje basado en redes neuronales. En la actualidad, los gigantes de búsqueda tradicionales como Google y Baidu tienen una profunda acumulación de tecnología de modelos de lenguaje basada en redes neuronales. Por ejemplo, Google tiene Sparrow y Lamda, que son comparables a ChatGPT. Con la bendición de estos modelos de lenguaje, los motores de búsqueda serán más. "Humanizar".La aplicación de tecnologías de chat de IA como ChatGPT en sistemas de quejas de clientes, navegación de orientación en hospitales y centros comerciales y sistemas de consulta gubernamental de agencias gubernamentales reducirá significativamente los costos de recursos humanos de las unidades relevantes y ahorrará tiempo de comunicación. Las respuestas basadas en estadísticas pueden generar respuestas de contenido completamente incorrecto, los riesgos de control de riesgos resultantes pueden requerir una evaluación adicional. En comparación con los dos escenarios de aplicación anteriores, el riesgo legal de que la aplicación ChatGPT se convierta en un mecanismo de interacción persona-computadora para los dispositivos mencionados anteriormente en campos como automóviles y hogares inteligentes es mucho menor, porque el entorno de aplicación en dichos campos es relativamente privado. y el contenido de error de la retroalimentación de IA no es En cuanto a causar riesgos legales importantes, este tipo de escenario no tiene altos requisitos de precisión del contenido y el modelo de negocio es más maduro. 3. Una exploración preliminar de los riesgos legales y las vías de cumplimiento de ChatGPT. En primer lugar, el panorama regulatorio general de la inteligencia artificial en mi país es el mismo que el de muchas tecnologías emergentes representadas por ChatGPT. Este dilema incluye el dilema de la información y el dilema de control. El llamado dilema de la información significa que las consecuencias sociales de una tecnología emergente no pueden anticiparse en las primeras etapas de la tecnología; el llamado dilema de control significa que cuando una tecnología emergente trae consigo; acerca de Cuando se descubren consecuencias sociales adversas, la tecnología a menudo se ha convertido en parte de toda la estructura social y económica, haciendo imposible controlar eficazmente las consecuencias sociales adversas. En la actualidad, el campo de la inteligencia artificial, especialmente el campo de la tecnología de procesamiento del lenguaje natural, se encuentra en una etapa de rápido desarrollo. Es probable que esta tecnología caiga en el llamado "dilema de Collingridge" y no parece que exista la supervisión legal correspondiente. para "seguir el ritmo". Actualmente no existe en nuestro país una legislación sobre la industria de la inteligencia artificial a nivel nacional, pero ha habido intentos legislativos locales relevantes. En septiembre pasado, Shenzhen anunció la legislación especial nacional para la industria de la inteligencia artificial, el "Reglamento de promoción de la industria de la inteligencia artificial de la zona económica especial de Shenzhen", y luego Shanghai también aprobó el "Reglamento de Shanghai para la promoción del desarrollo de la industria de la inteligencia artificial". Creo que pronto varios lugares introducirán leyes similares para la industria de la inteligencia artificial. En términos de regulación ética de la inteligencia artificial, el Comité Profesional Nacional de Gobernanza de la Inteligencia Artificial de Nueva Generación también publicó el "Código de Ética de la Inteligencia Artificial de Nueva Generación" en 2021, que propone integrar la ética y la moral en el ciclo de vida completo de la investigación y el desarrollo de la inteligencia artificial. aplicación Quizás en un futuro próximo En el futuro, las "Tres leyes de la robótica", similares a las de las novelas de Asimov, se convertirán en las leyes de hierro que gobiernan el campo de la inteligencia artificial.En segundo lugar, los riesgos legales de información falsa provocados por ChatGPT han desplazado el enfoque de lo macro a lo micro. Dejando de lado el panorama regulatorio general de la industria de la inteligencia artificial y la regulación ética de la inteligencia artificial, los problemas prácticos de cumplimiento existentes en el chat de IA. Fundaciones como ChatGPT también requieren atención urgente. El problema más problemático es la información falsa que responde ChatGPT. Como se mencionó en la segunda parte de este artículo, el principio de funcionamiento de ChatGPT significa que sus respuestas pueden ser "una tontería grave". Realmente escandaloso. Extremadamente engañoso. Por supuesto, las respuestas falsas a preguntas como "¿Qué atracciones turísticas hay en Dalian?" pueden no causar consecuencias graves, pero si ChatGPT se aplica a motores de búsqueda, sistemas de quejas de clientes, etc., la información falsa que responda puede causar consecuencias extremadamente graves. riesgos legales. De hecho, tales riesgos legales ya han surgido. Galactica, un modelo de lenguaje para el campo de investigación científica del servicio Meta, que se lanzó casi al mismo tiempo que ChatGPT en noviembre de 2022, fue cerrado por los usuarios después de solo 3 días de prueba. debido a problemas con respuestas mixtas de verdadero y falso. Partiendo de la premisa de que los principios técnicos no se pueden romper en poco tiempo, si ChatGPT y modelos de lenguaje similares se aplican a motores de búsqueda, sistemas de quejas de clientes y otros campos, deben transformarse para cumplirlos. Cuando se detecta que un usuario puede hacer una pregunta profesional, se debe guiar al usuario para que consulte al profesional correspondiente en lugar de buscar respuestas de la inteligencia artificial. Al mismo tiempo, se debe recordar claramente al usuario que la autenticidad de las preguntas devueltas. por la IA del chat puede necesitar una verificación adicional para minimizar el riesgo de los correspondientes riesgos de cumplimiento. En tercer lugar, los problemas de cumplimiento de la propiedad intelectual provocados por ChatGPT. Cuando dirigimos nuestra atención de lo macro a lo micro, además de la autenticidad de los mensajes de respuesta de la IA, deberían abordarse los problemas de propiedad intelectual de la IA del chat, especialmente los modelos de lenguaje grandes como ChatGPT. También causan problemas de cumplimiento. Atención del personal. La primera cuestión de cumplimiento es si la “minería de datos de texto” requiere la correspondiente autorización de propiedad intelectual. Como se indicó anteriormente, el principio de funcionamiento de ChatGPT se basa en una gran cantidad de textos en lenguaje natural (o corpus de voz). ChatGPT necesita extraer y entrenar los datos en el corpus para copiar el contenido del corpus en su propia base de datos. El comportamiento correspondiente suele denominarse "minería de datos de texto" en el campo del procesamiento del lenguaje natural.Todavía es controvertido si la minería de datos textuales infringe el derecho de reproducción cuando los datos textuales correspondientes pueden constituir una obra. En el campo del derecho comparado, tanto Japón como la Unión Europea han ampliado el alcance del uso legítimo en su legislación de derechos de autor, agregando la "minería de datos de texto" en la IA como una nueva situación de uso legítimo. Aunque algunos académicos abogaron por cambiar el sistema de uso legítimo de mi país de "cerrado" a "abierto" durante la revisión de la Ley de derechos de autor de mi país en 2020, esta idea finalmente no fue adoptada. En la actualidad, la ley de derechos de autor de mi país aún mantiene el uso legítimo. Estrechamente estipulado, solo las trece situaciones estipuladas en el artículo 24 de la Ley de derechos de autor pueden reconocerse como uso legítimo. En otras palabras, la Ley de derechos de autor de mi país actualmente no incluye la "minería de datos de texto" en la IA dentro del alcance de aplicación razonable. La minería de datos de texto todavía requiere la correspondiente autorización de propiedad intelectual en mi país. El segundo desafío de cumplimiento es: ¿son originales las respuestas generadas por ChatGPT? Con respecto a la cuestión de si las obras generadas por IA son originales, el equipo de Sajie cree que los criterios de juicio no deberían ser diferentes de los criterios de juicio existentes. En otras palabras, si una determinada respuesta es completada por IA o por humanos, debe basarse en. estándares existentes de originalidad. De hecho, detrás de esta pregunta hay otra pregunta más controvertida. Si la respuesta generada por AI es original, ¿puede ser AI el titular de los derechos de autor? Obviamente, según las leyes de propiedad intelectual de la mayoría de los países, incluido el nuestro, el autor de una obra sólo puede ser una persona física y la IA no puede ser el autor de la obra. Finalmente, si ChatGPT incorpora trabajos de terceros en su respuesta, ¿cómo deberían manejarse sus problemas de propiedad intelectual? El equipo de Sajie cree que si la respuesta de ChatGPT contiene obras protegidas por derechos de autor en el corpus (aunque según el principio de funcionamiento de ChatGPT, la probabilidad de que esto suceda es pequeña), entonces, de acuerdo con la ley de derechos de autor actual de China, a menos que constituya un uso justo, de lo contrario la reproducción es no está permitido sin el permiso del titular de los derechos de autor.