Suy nghĩ sâu sắc: Tại sao nói ChatGPT là hình ảnh mờ toàn bộ văn bản trên Internet?

Như các bạn đã biết, tôi là một người đam mê GPT và đã tích hợp nó vào mọi khía cạnh của công việc và cuộc sống. Nhưng GPT không phải là toàn năng. Chúng ta cần hiểu bản chất của nó để tận dụng tốt hơn các khả năng của nó. Tôi đặc biệt giới thiệu bài viết sâu sắc của Ted Jiang "ChatGPT là một hình ảnh mờ ảo của tất cả văn bản trên Internet". Mình đã tóm tắt 3 điểm, mời bạn đọc.
Ted Jiang là một nhà văn khoa học viễn tưởng người Trung Quốc tốt nghiệp Khoa Khoa học Máy tính tại Đại học Brown. Truyện ngắn "Câu chuyện về cuộc đời bạn" của ông đã được chuyển thể thành phim "Arrival" vào năm 2016. Nền tảng kép về công nghệ và khoa học viễn tưởng của ông đã mang lại. cho anh ấy một góc nhìn độc đáo về ChatGPT.
TL;DR
 ChatGPT là tính năng nén làm mất dữ liệu tất cả văn bản trên Internet. Hãy cảnh giác với "sự làm mờ đẹp mắt" và "sự thể hiện kém các ý tưởng ban đầu" thay vì "sự thể hiện rõ ràng các ý tưởng không nguyên bản" 1. ChatGPT là tính năng nén làm mất dữ liệu tất cả văn bản trên Internet.
Nếu tất cả các văn bản trên Internet được coi là bản gốc, có tính đến tốc độ xử lý và độ chính xác thì ChatGPT thực sự là một giao diện tương tác ngôn ngữ tự nhiên sau khi nén các văn bản này một cách mất mát. Vì đây là quá trình nén làm mất dữ liệu nên một số chi tiết và thậm chí cả thông tin quan trọng sẽ bị loại bỏ.
Liên quan đến vấn đề nén loss loss có thể gây ra, tác giả đưa ra một ví dụ sinh động: Năm 2013, một công ty xây dựng của Đức đã sao chép sơ đồ một ngôi nhà và ba phòng đều có dán nhãn ghi diện tích: 14,13, 21,11 và 17,42 mét vuông. Sau đó trong bản sao ghi cả ba phòng đều có diện tích là 14,13 m2.
Sau khi điều tra, người ta phát hiện ra máy photocopy Xerox hoạt động bằng cách scan tài liệu thành ảnh kỹ thuật số rồi in ra. Để tiết kiệm dung lượng, việc quét sang hình ảnh kỹ thuật số sử dụng định dạng nén bị mất có tên là jbig2. Máy photocopy xác định nhãn khu vực của 3 phòng rất giống nhau nên chỉ lưu trữ 1 nhãn rồi sử dụng lại 1 nhãn đó cho cả 3 phòng khi in.
Máy photocopy Xerox sử dụng định dạng nén lossy thay vì định dạng lossless, bản thân điều này không phải là vấn đề. Vấn đề là nếu nó chỉ in ra một bức ảnh mờ, mọi người sẽ biết đó không phải là bản sao chính xác của bản gốc, nhưng máy photocopy sẽ in ra. Hình ảnh rõ ràng nhưng không chính xác có thể gây nhầm lẫn cho người dùng
Các tác giả tin rằng cần phải ghi nhớ ví dụ này khi chúng tôi sử dụng ChatGPT của OpenAI và các mô hình ngôn ngữ lớn tương tự khác. ChatGPT lưu giữ hầu hết thông tin trên World Wide Web, giống như JPEG lưu giữ hầu hết thông tin trên hình ảnh có độ phân giải cao. Nhưng nếu bạn đang tìm kiếm chuỗi bit chính xác thì bạn không thể tìm thấy nó, tất cả những gì bạn nhận được chỉ là một giá trị gần đúng.
Có thể thấy, trong đánh giá tính xác thực mới nhất của bài báo OpenAI, mặc dù GPT-4 cao hơn nhiều so với các mẫu trước đó nhưng vẫn có khả năng cao tạo ra câu trả lời sai (đặc biệt là trong lĩnh vực công nghệ, mã hóa và kinh doanh), và chúng ta cần phải cẩn thận.
 2. Hãy cảnh giác với “hình mờ đẹp”
Sự hiểu biết của chúng ta về thế giới về cơ bản là việc tiếp nhận và nén thông tin. Chúng ta xác định và loại bỏ những thông tin không quan trọng, bỏ lại những thông tin quan trọng, đồng thời rèn luyện và sử dụng các kỹ năng ra quyết định của mình trong quá trình này. Cả hai đều là tính năng nén thông tin bị mất. Chúng tôi khác với ChatGPT như thế nào? - Việc nén thông tin của chúng tôi dựa trên sự hiểu biết về các sự kiện và cuối cùng cái còn lại là "tính chính xác mờ" - ChatGPT không thực sự "hiểu" thông tin và đưa ra "mờ đẹp" dựa trên luật thống kê. Hãy xem thêm 2 ví dụ đồ họa:
 Nếu bạn yêu cầu ChatGPT tính 3457*43216 thì sẽ trả lời sai là 149299312 (đáp án đúng là 149397712) Chữ số cuối cùng đúng vì có nhiều phép nhân của các số tận cùng bằng 6 và 7 để ChatGPT học, nhưng vì nó không thực sự hiểu các nguyên tắc số học nên đáp án cuối cùng là sai. Bất kỳ phân tích văn bản nào cũng sẽ tiết lộ rằng các cụm từ như “nguồn cung thiếu hụt” thường xuất hiện gần các cụm từ như “tăng giá”. Khi được hỏi về việc thiếu nguồn cung, AI có thể đưa ra câu trả lời bao gồm cả việc tăng giá. Nếu một AI đã tổng hợp một số lượng lớn các mối tương quan giữa các thuật ngữ kinh tế, nhiều đến mức nó có thể đưa ra câu trả lời hợp lý cho nhiều câu hỏi khác nhau, liệu chúng ta có nên nói rằng nó thực sự hiểu lý thuyết kinh tế không? Rõ ràng là không.
ChatGPT rất giỏi trong việc đưa ra những câu trả lời hay, nhưng lại đẹp ≠ chính xác. Chúng ta phải luôn ghi nhớ điều này, kết quả mà ChatGPT đưa ra có thể đẹp, rõ ràng nhưng không chính xác và việc xác định chúng đòi hỏi phải so sánh chúng với bản gốc, nếu không sẽ có nguy cơ đưa ra quyết định sai lầm dựa trên nội dung bịa đặt. Câu trả lời do bing tạo ra bên dưới là một "hình mờ đẹp" điển hình.
 3. “Thể hiện kém những ý tưởng độc đáo” còn tốt hơn “trình bày rõ ràng những ý tưởng không độc đáo”
Có khả thi không khi để văn bản do ChatGPT tạo ra làm điểm khởi đầu cho người viết khi tạo tác phẩm gốc, cho phép tác giả tập trung vào những phần thực sự sáng tạo? Tác giả tin rằng bắt đầu từ một tác phẩm mơ hồ, không có nguyên bản không phải là cách hay để tạo nên một tác phẩm nguyên gốc.
Nếu bạn là một nhà văn, bạn sẽ viết rất nhiều tác phẩm không có nguyên bản trước khi viết tác phẩm gốc. Thời gian và năng lượng dành cho công việc không có nguồn gốc sẽ không bị lãng phí. Đúng hơn, đó là thứ cho phép bạn tạo ra tác phẩm gốc. Thời gian bạn dành để chọn từ phù hợp và sắp xếp lại các câu sẽ dạy bạn cách truyền đạt ý nghĩa mà bạn muốn diễn đạt thông qua bài viết của mình.
Yêu cầu học sinh viết bài luận không chỉ là một cách để kiểm tra khả năng nắm vững tài liệu mà còn mang lại cho học sinh trải nghiệm thể hiện ý tưởng của mình. Nếu học sinh không bao giờ phải viết về những thứ chúng ta đều đọc, các em sẽ không bao giờ đạt được những kỹ năng cần thiết để viết về những thứ chúng ta chưa từng đọc.
Liệu có thể sử dụng các mẫu được cung cấp bởi các mô hình ngôn ngữ lớn như ChatGPT một cách an toàn sau khi rời khỏi trạng thái sinh viên không? Nhưng không. Cuộc đấu tranh để nói lên suy nghĩ của bạn sẽ không biến mất sau khi bạn tốt nghiệp. Cuộc đấu tranh này nảy sinh mỗi khi bạn bắt đầu soạn thảo một bài viết mới. Đôi khi chỉ trong quá trình viết, bạn mới khám phá ra những ý tưởng ban đầu của mình và điều đó rất quan trọng.
Một số người có thể nói rằng đầu ra của một mô hình ngôn ngữ lớn trông không khác nhiều so với bản thảo đầu tiên của con người, nhưng đó chỉ là sự giống nhau bề ngoài mà thôi. Bản thảo đầu tiên của bạn không phải là "sự thể hiện rõ ràng về một ý tưởng nguyên bản"; một nỗ lực kém cỏi đối với một ý tưởng ban đầu." cách diễn đạt", nó đồng hành cùng bạn với sự bất mãn vô định hình, và bạn nhận ra khoảng cách giữa những gì nó nói và những gì bạn muốn nói.
Đây là thứ có thể hướng dẫn bạn khi viết lại, thứ bạn thiếu khi bắt đầu làm việc với văn bản do AI tạo ra. Dựa trên “ý tưởng ban đầu được thể hiện rõ ràng”, mọi người rất dễ đánh mất ý tưởng của mình; bắt đầu từ “sự thể hiện kém của các ý tưởng ban đầu” và dần dần đánh bóng chúng, cuối cùng bạn sẽ có được “sự thể hiện chính xác của các ý tưởng ban đầu”. ngọc bích, nếu không có sự độc đáo sẽ chỉ trở nên phổ biến.
Tóm tắt 2 điểm Lấy đi:
 ChatGPT là bản nén mất dữ liệu của tất cả văn bản trên Internet. Chúng ta phải luôn ghi nhớ điều này và cảnh giác khi coi "hình mờ đẹp" là thông tin chính xác, ảnh hưởng đến khả năng phán đoán và ra quyết định 2. Khám phá "ý tưởng ban đầu" trong cuộc đấu tranh và. biểu cảm kém, đồng thời nâng cao kỹ năng Biểu đạt của bản thân, mài giũa thành ngọc, rèn luyện trí tưởng tượng, kỹ năng ra quyết định và giao tiếp, đồng thời tạo ra khả năng cạnh tranh mà máy móc không thể có được