Hình minh họa: Kirillm/CNET. |
Theo CNET, AI khi sản xuất sách nói có lẽ không phải lo lắng về những âm thanh kỳ lạ lọt vào bản thu hay cách nhấn nhá câu chữ, nhưng người thu âm chuyên nghiệp thì có.
Giữa tháng 1, Leah Allers và kỹ sư Craig Hinkle thu âm cho Nashville Audio Productions (NAP). Hai người họ băn khoăn về những tiếng dạ dày kêu, thảo luận xem nên nhấn từ "increase" thế nào, tìm cách tạo ra giọng nói chân thật cho một cuốn sách có nội dung về cách thức các cặp giao tiếp.
Phòng thu của NAP tọa lạc tại Rukkus Room ở Nashville, Tennessee, là nơi Taylor Swift đã thu âm album đầu tay của mình. Mùi cà phê tràn ngập phòng chờ. Hinkle chú ý đến từng âm phát ra từ miệng của Allers, liếc nhìn từ chiếc iPad mở sẵn bản sách điện từ sang bảng điều hành trên màn hướng âm trong phòng thu.
Allers yêu cầu Hinkle đọc lại một đoạn và nói: "Tôi muốn có thêm cảm xúc trong những câu hỏi này".
Theo CNET, sách nói đang bùng nổ. Acumen Research and Consulting đã đưa ra những phân tích thị trường, cho rằng doanh thu sách nói sẽ đạt 33,5 tỷ USD vào năm 2030.
Cho dù đây là một nhánh trong đà tăng trưởng của podcast, hay là một hệ quả từ đại dịch, sách nói vẫn không thoát khỏi sự chú ý của các công ty công nghệ và trí tuệ nhân tạo.
Người ta phấn khích trước tiềm năng của AI nhưng cũng lo lắng rằng AI sẽ cướp đi công việc của những nhà sáng tạo đang gặp khó khăn. ChatGPT được cho là có thể viết bất cứ thứ gì, từ thư ủy quyền trước bảo hiểm đến phần giới thiệu trên ứng dụng hẹn hò.
Các nền tảng AI như Lensa AI và OpenAI's Dall-E đã trưng ra "tác phẩm nghệ thuật" do AI sản xuất. Điều này khiến nhiều người kiếm sống bằng nghệ thuật kỹ thuật số lo lắng về tương lai của mình.
Các công ty công nghệ như Apple và Google đang nghiên cứu sản phẩm sách nói AI sản xuất. Trong năm 2022, Google đã cung cấp dịch vụ cho các nhà xuất bản ở 6 quốc gia. Các giọng đọc AI của Google được đặt cho những cái tên như Archie hay Santiago.
Vào đầu tháng 1, Apple đã giới thiệu một loạt giọng đọc AI ổn định với những cái tên như Madison, Jackson... các tác giả và người làm xuất bản quy mô nhỏ bán sách trên Apple Books cũng có thể tạo sách nói.
Độ phủ sóng ngày một dày đặc của AI trong thị trường sách nói khiến những người đọc sách nói chính quy như Tanya Eby gặp nhiều khó khăn.
Eby là một giọng đọc làm việc ở Grand Rapids, Michigan. Trong 21 năm, bà đã thu âm hơn 1.000 cuốn sách. Bà cho biết: "Tôi không biết liệu trong 5 năm nữa, tôi có thể làm việc toàn thời gian được nữa không".
Giọng đọc sách nói chuyên nghiệp Tanya Eby. Ảnh: CNET. |
Những giọng đọc như Eby tin rằng nhân tính của họ chính là thứ giúp họ thực hiện công việc của mình. Đặc biệt với tiểu thuyết, người kể chuyện đưa ra quyết định về mọi thứ, từ giọng nói của nhân vật đến cách truyền đạt sắc thái và cảm xúc phản ánh mạch truyện.
Kathleen Li, một giọng đọc ở Austin, Texas chia sẻ: “Nếu một nhân vật khóc nức nở sau cái chết của cha mình, tôi phải truyền tải vào bản ghi những giọt nước mắt và tiếng thở hổn hển".
Người này cho rằng ngay cả AI giống thật nhất cũng sẽ trở nên thiếu thuyết phục trong những phân đoạn nhiều cảm xúc. Mối bận tâm nhất của những giọng đọc chuyên nghiệp về giọng đọc AI là sự gián đoạn trải nghiệm.
Nhịp độ và cách nhấn nhá biểu cảm là điểm gây khó dễ ngay cả những giọng đọc AI trôi chảy nhất. Jonathan Sleep, một giọng đọc sống bên rìa Atlanta, Georgia, cho rằng sự phát triển của giọng đọc AI chỉ là một hệ quả của chủ nghĩa tiêu thụ truyền thông.
Sự phát triển của giọng đọc AI
Những người thích nghe sách nói tỏ ra khó hiểu khi có người lại chọn nghe giọng đọc AI thay vì giọng đọc của con người. Nhưng đối với các nhà xuất bản và tác giả ít tiếng tăm, thời gian và tiền bạc có thể tạo ra một lập luận mạnh mẽ hơn là sự tôn nghiêm của một màn trình diễn sáng tạo.
Sách nói không làm ra nhiều tiền cho Nhà xuất bản Đại học Michigan. Đơn vị này phát hành khoảng 100 cuốn sách học thuật hàng năm. Đại diện đơn vị này chia sẻ rằng có thể tốn tới 6.000 USD để thuê một giọng đọc chuyên nghiệp cho một cuốn sách chỉ kiếm được vài trăm USD. Đó là còn chưa tính đến chi phí sản xuất chuyên sâu.
Theo ACX, Sàn giao dịch sáng tạo sách nói của Amazon, có thể mất khoảng sáu tiếng để sản xuất một tiếng ghi âm hoàn thiện của một cuốn sách nói.
Charles Watkinson, Giám đốc Nhà xuất bản Đại học Michigan và cộng tác viên thư viện đại học xuất bản tại Thư viện Đại học Michigan cho biết nếu sách không bán chạy, làm sách nói sẽ chẳng mang lại lợi nhuận.
Đối với các tác giả và nhà xuất bản nhỏ hơn, không có nhiều quỹ thời gian và chi phí sản xuất sách nói, AI có thể hỗ trợ họ.
Khoảng hai năm trước, Google đã tiếp cận Nhà xuất bản Đại học Michigan để thuyết phục họ tham gia vào một chương trình thử nghiệm. Đơn vị này đã có thể sử dụng công cụ của Google để tạo khoảng 100 cuốn sách nói kỹ thuật số. Watkinson cho biết dù con người vẫn phải tham gia ở một mức độ nhất định (một số giáo sư đã cho sinh viên nghe đoạn ghi âm để đối chiếu với văn bản), nhưng cách làm này giúp họ tối ưu công sức và chi phí.
Trong những ngày đầu thử nghiệm, họ đã liên hệ với khoảng 900 tác giả để cung cấp một mẫu tường thuật. Phản hồi chung của các tác giả là giọng đọc AI chỉ tốt hơn một chút so với trình đọc màn hình cho người khiếm thị.
Ngoài những tên tuổi lớn như Apple và Google, còn có một nhóm các công ty nhỏ đang phát triển tham gia vào lĩnh vực làm sách nói với AI.
DeepZen, được thành lập năm 2018, đã xây dựng một hệ thống xử lý ngôn ngữ tự nhiên có thể nhận tín hiệu từ văn bản và sử dụng giọng đọc AI lấy mẫu từ giọng đọc con người (có sự cho phép).
Giám đốc điều hành và đồng sáng lập Taylan Kamis cho biết một trong những thách thức lớn nhất là tạo ra một nền tảng không chỉ là văn bản sáo rỗng mà truyền tải nó bằng giọng điệu.
Phải mất vài năm để có mặt trên thị trường, nhưng giờ đây DeepZen cho phép khách hàng tải lên bản thảo và tùy thuộc vào gói giá của họ, chọn dịch vụ có sẵn hoặc tùy ý. Cả hai lựa chọn đều đã được kiểm soát chất lượng, nhưng hạn mức giá cao sẽ được kiểm định và chỉnh sửa âm thanh tốt hơn.
Đến nay, DeepZen đã sản xuất gần 3.000 cuốn sách, cả hư cấu và phi hư cấu. Kamis cho rằng việc cấp phép giọng nói có thể là một cách để người kể chuyện cùng tồn tại với AI trong sản xuất sách nói.
Karmis nói: "Người kể chuyện đó sẽ kiếm tiền ngay cả trong khi ngủ và giọng nói của họ sẽ kiếm được tiền bản quyền ở Nhật Bản, Trung Quốc hoặc Nam Phi".
DeepZen cũng đang nghiên cứu cách để giọng đọc AI nói được các ngôn ngữ khác, nhằm tăng khả năng tiếp cận thị trường.
DeepZen đã tiếp cận gia đình của diễn viên lồng tiếng và người kể chuyện nổi tiếng Edward Hermann, người đã qua đời vào năm 2014, về việc cấp phép sử dụng giọng nói của người này. Họ đã ký đồng thuận. Vậy là, giọng của Hermann vẫn được làm việc ngay cả khi Hermann đã qua đời.
Kamis không phải đơn vị duy nhất nghĩ rằng AI và con người hòa hợp với nhau trong công việc này. Watkinson, từ Đại học Michigan, muốn sử dụng AI như một cách để kiểm tra xem cuốn sách nào đáng để thuê người ghi âm.
Tranh luận xoay quanh giọng đọc AI
Dù vậy, một số người trong ngành vẫn lo lắng sẽ có ít việc làm hơn cho những người kể chuyện kém nổi.
Andrea Fleck-Nisbet, Giám đốc điều hành của Hiệp hội nhà xuất bản tư, cho biết: “Có nhiều người kể chuyện làm rất tốt công việc của họ, coi đó là kế sinh nhai, nhưng họ không phải lúc nào cũng là người có tiếng tăm”.
Sau hai thập kỷ kinh doanh, Eby tự hỏi điều gì sẽ xảy ra nếu có ngày bà không tìm được công việc ghi âm sách nói toàn thời gian.
Người kể chuyện Jonathan Sleep cho biết ông nhận thức được rằng mình cần chú ý hơn về các hợp đồng đã ký cũng như những quyền hạn ông sẽ chuyển giao liên quan đến giọng nói của mình.
Giọng đọc Andy Garcia-Ruse, muốn phát huy thế mạnh của họ: "Chúng tôi chỉ có thể tập trung làm tốt công việc, khiến họ yêu thích màn trình diễn của mình và tiếp tục làm việc".
Cũng có những tác giả từ chối sử dụng giọng đọc AI. Nhà văn Elizabeth Bell cho biết: "Tôi cảm thấy mục đích của tiểu thuyết là khơi gợi cảm xúc của độc giả hoặc thính giả; tiểu thuyết là về ý nghĩa của việc làm người. Và máy móc không thể tái tạo điều đó".
John Behrens, người sở hữu Nashville Audio Productions, đã làm việc kiểm soát chất lượng cho hai bản sách nói do AI sản xuất trong vài năm qua. Ông nhận định AI vẫn gặp vấn đề như không thể phát âm các câu trong Kinh thánh và phải vật lộn với các câu hỏi tu từ trong văn bản.
Behrens cho biết, một cuốn sách nói tồi có thể tạo ra 50 đến 100 mục cho các vấn đề cần được khắc phục. Ông tin rằng những giọng đọc con người sẽ không bị thay thế - ít nhất là trong một thời gian dài.
Trở lại Rukkus Room, Allers và Hinkle nghỉ giải lao để trò chuyện về người máy. Hinkle không mấy ấn tượng với AI. Ông nói: "Tôi chỉ nghe thấy một người máy đọc sách. Tôi vẫn nghĩ sẽ mất một thời gian dài trước khi nó nghe có vẻ tự nhiên và có năng khiếu".