Nhà khoa học Elisabeth Bik đang chỉ ra cách AI tạo lập văn bản. Ảnh: Phys. |
Vào đầu tháng 8, OpenAI, cha đẻ của ChatGPT, đã chính thức thông báo hoàn thành một công cụ dò nội dung AI. Tuy nhiên, vì phản ứng trái chiều của công chúng, đơn vị này quyết định kéo dài thời gian thử nghiệm. Trước đó, tại Anh, CEO của công ty Springer Nature nhận định: “Ngành xuất bản phải đối mặt với mối đe dọa nguy hiểm từ nội dung chưa kiểm chứng khoa học do AI tạo ra”. Vì vậy đơn vị này cũng tham gia vào cuộc đua chống lại việc lạm dụng trí tuệ nhân tạo.
Trong khi hai đơn vị trên vẫn đang nỗ lực để đưa ra sản phẩm tốt nhất, thị trường hiện nay ghi nhận sự xuất hiện của các công cụ dò AI. Chúng dựa trên chính cách AI tạo nên văn bản để phát hiện và phân loại nội dung.
Bốn cách để phát hiện nội dung AI
Các công cụ phát hiện nội dung AI đã trở thành phương tiện quan trọng trong việc xác định nội dung do máy móc tạo ra so với nội dung do con người viết. Đa phần chúng đều dựa trên kỹ thuật phân tích mô hình ngôn ngữ lớn và so sánh độ tự nhiên của văn bản qua những yếu tố nhất định.
Thứ nhất, bộ phân loại (classifier) là một mô hình học máy được sử dụng để phân loại văn bản theo các danh mục đã xác định trước. Bộ phân loại dựa trên dữ liệu được nạp vào một số công cụ AI hiện nay.
Ví dụ, văn bản AI nói về chủ đề thể thao sẽ chia làm hai loại: các môn chơi với vợt hoặc các môn chơi với gậy. Trong các môn chơi với gậy, AI sẽ viết về bóng chày. Trong môn bóng chày, AI mô tả những điểm đặc trưng về người chơi, dụng cụ, luật. Nếu chúng tạo ra một mạng lưới từ ngữ với nhau giống với kiến thức AI được nạp, công cụ dò sẽ báo hiệu văn bản do trí tuệ nhân tạo viết.
Các phần mềm AI có thể tổng hợp thông tin từ Internet. Ảnh: Popular Science. |
Thứ hai, kỹ thuật embedding sử dụng để phân tích từ ngữ trong văn bản dưới dạng các vector trong không gian nhiều chiều. Mỗi từ được biểu đạt bằng một điểm duy nhất dựa trên ý nghĩa và cách sử dụng trong ngôn ngữ.
Dễ hiểu hơn, các từ ngữ được AI coi là hai ký tự 0 và 1. Chúng sẽ tự động loại ra một số từ gần nghĩa để tạo lập văn bản. Nhờ đó, công cụ dò sẽ phân tích các vector được tạo ra từ số 0 (từ bị loại) và 1 (từ được chọn) để phát hiện nội dung AI. Vì việc lựa chọn từ hạn chế khi loại bỏ hết từ gần nghĩa, nên tần suất lặp từ của AI khá lớn.
Thứ ba, perplexity là một thước đo thể hiện mức độ "ngạc nhiên" của mô hình AI khi tạo ra văn bản. Các công cụ dò sẽ dựa trên từ cảm thán trong văn bản để xác nhận đây có phải do AI tạo ra hay không.
Cuối cùng, các công cụ phát hiện AI còn sử dụng kỹ thuật phân tích cấu trúc câu. Nếu các cấu trúc bị lặp lại nhiều, máy dò sẽ tự động cảnh báo nội dung trí tuệ nhân tạo.
Sự kiểm soát của con người đối với nội dung AI
Theo PGS Gautam Kamath (chuyên ngành khoa học máy tính tại Đại học Waterloo, Anh), không có một phương pháp nào có hiệu quả vĩnh viễn. Thậm chí nếu không được cập nhật, chúng còn cản trở người dùng và các công việc khác trong lĩnh vực xuất bản. Do đó, vai trò của người biên tập vẫn đóng vai trò lớn hơn hết.
Hơn nữa, đứng trước việc AI đang tiến hóa từng ngày, các nhà sáng tạo nội dung cũng liên tục thử tìm đến phương pháp mới. Trong quá trình thử nghiệm hơn 8 công cụ dò AI đang xuất hiện trên thị trường, ông David Gewirtz (quản lý cấp cao tại trang blog ZDnet) nhận thấy có bốn cách để biên tập viên kiểm tra nội dung AI.
Ảnh minh họa công cụ dò nội dung AI. Ảnh: Shopify. |
Trước tiên, biên tập viên cần tìm kiếm điểm bất thường trong văn bản. Một trong những dấu hiệu dễ thấy nhất của nội dung do AI tạo ra là sự lặp lại của các cụm từ không tự nhiên. AI có xu hướng lặp lại một số cụm từ hoặc sử dụng các cấu trúc do phụ thuộc vào những ngữ pháp và từ vựng đã được học từ dữ liệu trước đó.
Kiểm tra sự thiếu tính sáng tạo cũng là một bước quan trọng để phát hiện nội dung AI. Một trong những điểm yếu của AI là khả năng sáng tạo hạn chế. Nếu một văn bản dường như chỉ đơn thuần là tổng hợp thông tin từ các nguồn khác mà không có sự sáng tạo hoặc góc nhìn mới mẻ, rất có thể đó là sản phẩm của AI.
Điều này đặc biệt rõ ràng khi văn bản chứa đựng thông tin phổ biến mà người viết không có sự phân tích hay ý tưởng độc đáo. Các biên tập viên có thể so sánh nội dung với những nguồn thông tin khác để xem liệu văn bản có chỉ đơn thuần sao chép thông tin hay không.
Ngoài ra, biên tập viên có thể sử dụng công cụ kiểm tra đạo văn là một phương pháp hiệu quả để phát hiện nội dung AI. Mặc dù công cụ này không thể hoàn toàn xác định một văn bản có phải do AI tạo ra hay không, nhưng nó có thể giúp biên tập viên nhận diện các đoạn văn bị sao chép từ các nguồn khác.
AI thường tạo ra văn bản bằng cách kết hợp thông tin từ nhiều nguồn có sẵn trên Internet. Nếu một đoạn văn bản bị phát hiện là giống hệt hoặc gần giống với một đoạn từ một nguồn khác, điều này có thể chỉ ra rằng văn bản được tạo ra bằng AI.
Cuối cùng, nhà báo David Gewirtz lưu ý rằng người biên tập cần chú ý đến những lỗi sai trong văn bản. Trí tuệ nhân tạo đôi khi có thể tạo ra văn bản rất chỉn chu về chính tả nhưng thực tế lại chứa đựng những lỗi sai nghiêm trọng. Đó có thể là lỗi thông tin sai lệch hoặc logic. Việc biên tập viên nhận ra và loại bỏ những lỗi này là rất quan trọng để đảm bảo tính chính xác của nội dung.
Trong bối cảnh công nghệ AI ngày càng phát triển, việc hiểu và áp dụng những phương pháp này là một kỹ năng không thể thiếu đối với mọi biên tập viên hay các nhà nghiên cứu. Từ đó, họ có thể đảm bảo một môi trường sáng tạo và xuất bản lành mạnh hơn.
Đọc được sách hay, hãy gửi review cho Tri Thức - Znews
Bạn đọc được một cuốn sách hay, bạn muốn chia sẻ những cảm nhận, những lý do mà người khác nên đọc cuốn sách đó, hãy viết review và gửi về cho chúng tôi. Tri Thức - Znews mở chuyên mục “Cuốn sách tôi đọc”, là diễn đàn để chia sẻ review sách do bạn đọc gửi đến qua Email: books@zingnews.vn. Bài viết cần gửi kèm ảnh chụp cuốn sách, tên tác giả, số điện thoại.
Trân trọng.