آیا هوش مصنوعی به کتاب های صوتی نیز رحم نمیکند؟
روزی دیگر در استودیوی ضبط کتابهای صوتی آغاز شد. این روز با حضور دو گوینده فعال در این حوزه، Leah Allers و Craig Hinkle، در تیم Nashville و گفتگوهایشان درباره مسائلی چون نگرانی از صدای معده هنگام ضبط، تأکید بر آوای کلمات و نحوه بروز جزئیات مکالمه شخصیتهای کتاب آغاز میشود؛ مسائلی که برای هوش مصنوعی اهمیتی ندارند و دغدغهای برای آن به شمار نمیروند.
استودیوی نپ در ساختمان Nashville واقع شده است، همان جایی که تیلور سوییفت آلبومش را ضبط کرده است. در همین حین، بوی قهوه فضا را پر کرده و Hinkle و Allers، در حال گویندگی، چشمهایشان را از صفحه نمایش آیپد به مانیتور بزرگی که در استودیو قرار دارد برمیگردانند. در این لحظه، Allers به Hinkle میگوید که قصد دارد به سوالات مطرح شده در کتاب عمق بیشتری بدهد و آنها بار دیگر فصل کتاب را از ابتدا شروع میکنند.
کتابهای صوتی روند رو به رشدی دارند و بر اساس تحقیقات، این صنعت تا سال 2030 به درآمدی بالغ بر 33.5 میلیارد دلار خواهد رسید، در حالی که درآمد این حوزه در سال 2021 برابر با 4.2 میلیارد دلار بوده است.
در سال 2023 و با ظهور شگفتانگیز فناوریهای هوش مصنوعی، نگرانیهای فعالان در صنایع مختلف افزایش یافته است. به عنوان مثال، ChatGPT قادر به نوشتن تاییدیههای بیمه و ساخت پروفایلهای کاربران برنامههای دوستیابی است و پلتفرمهای هوش مصنوعی مانند Dalle-E و Lensa آثار هنری خلق میکنند که فراتر از تصورات هنرمندان انسانی است و این موضوع موجب نگرانی از تهدید شغلها میشود.
در زمینه کتابهای صوتی نیز، شرکتهای بزرگ مانند گوگل و اپل مدتهاست که در حال توسعه ابزارهای مبتنی بر هوش مصنوعی هستند و بدون نیاز به حضور نیروهای انسانی، این ابزارها را در صنایع مختلف وارد میکنند.
در سال گذشته، گوگل از سرویس جدید خود برای ناشران در شش کشور مانند آمریکا و کانادا رونمایی کرد. هوش مصنوعیهای گوینده گوگل با نامهایی که به کشورهای مختلف مرتبط هستند معرفی شدهاند، مانند Archie که نامی بریتانیایی است و Santiago که در اسپانیا شناختهشده است.
در همین راستا، اپل نیز از هوش مصنوعی گویندههای خود با نامهای Madison و Jackson پرده برداشت که نویسندگان و ناشران مستقل میتوانند با انتخاب سبک نوشتار، نوع گویش هوش مصنوعی را تنظیم کنند.
Tanya Eby، یکی از گویندگان برجسته کتابهای صوتی که در طول 21 سال بیش از 1000 کتاب صوتی تولید کرده، نگرانی خود را از پیشرفت سریع هوش مصنوعی ابراز کرده و گفت:
گویندگانی مانند Eby که در پروژههای متعدد مشارکت داشتهاند، تأکید میکنند که تنها انسانیت است که میتواند به این صنعت رنگ و عمق دهد. گویندگان با در نظر گرفتن سبک نوشتاری کتابها، شخصیتها و حالتهای مختلف، تصمیم میگیرند چگونه داستان را بیان کنند و این تصمیمها تأثیر زیادی بر روی مخاطب، محتوا و جو کلی کتاب دارند.
گویندگان و ارتباط عاطفی
گویندگان قادرند معنای واقعی ارتباط عاطفی را به شکلی عمیق به شنونده منتقل کنند؛ ویژگیای که در حال حاضر کمتر هوش مصنوعی توانایی بازآفرینی آن را دارد. هرچند میتوان نحوه گویش هوش مصنوعی را بر اساس متن تغییر داد، اما تنها یک گوینده حرفهای میتواند احساسات را به شکلی طبیعی به مخاطب انتقال دهد.
Kathleen Li و احساسات در گویندگی
Kathleen Li، یکی از گویندگان تگزاسی، درباره این موضوع گفته است:
"زمانی که شخصیت داستان به دلیل مرگ پدرش شروع به گریه میکند، وظیفه من است که در این گریه سهیم باشم و این احساسات را به شنونده منتقل کنم."
چالشهای استفاده از هوش مصنوعی در کتابهای صوتی
طرفداران کتابهای صوتی ممکن است درک کنند که چرا باید صدای هوش مصنوعی را به جای صدای انسانی بشنوند، اما استودیوهای کوچک برایشان زمان و هزینه اهمیت بیشتری نسبت به کیفیت کار دارد. برای مثال، کتابهای صوتی درآمد زیادی برای بخش مطبوعات دانشگاه میشیگان به ارمغان نمیآورد، اما همچنان بیش از ۱۰۰ کتاب صوتی توسط پژوهشگران برای دانشجویان تولید میشود.
هزینههای تولید و مشکلات گویندگی
هزینه استخدام گویندگان برای تولید یک کتاب صوتی بیش از ۶۰۰۰ دلار است و این در حالی است که دانشگاه تنها میتواند درآمد کمی از این راه به دست آورد. علاوه بر این، فرایند گویندگی میتواند زمان زیادی ببرد و گاهی تکمیل یک ساعت متن میتواند به شش ساعت زمان نیاز داشته باشد. این موضوع باعث میشود که تکرار متنهای طولانی برای گویندگان دشوار و کسلکننده باشد.
نظر مدیر مطبوعات دانشگاه میشیگان
Charles Watkinson، مدیر مطبوعات دانشگاه میشیگان، به مشکلات مالی ناشران اشاره کرده و گفته است که اگر ناشران کتابهای صوتی پرفروش نداشته باشند، نقدینگی آنها با مشکل مواجه میشود. به همین دلیل زمان و هزینه برای نویسندگان و ناشران کوچک اهمیت زیادی دارد و هوش مصنوعی میتواند این مشکلات را کاهش دهد.
تجربه گوگل با دانشگاه میشیگان
در دو سال گذشته، گوگل برنامه آزمایشی خود را برای دانشگاه میشیگان ارائه داده که نتیجه آن تولید ۱۰۰ کتاب صوتی بوده است. با این حال، Watkinson تأکید کرده است که استفاده از هوش مصنوعی نیازمند کنترل کیفیت است و استادان دانشگاه برای اصلاح مشکلات متن و صدا، از دانشآموزان کمک میگیرند.
کاربرد هوش مصنوعی برای افراد با مشکلات بینایی
تحقیقات نشان داده که صدای هوش مصنوعی عملکرد بهتری از Screen Reader دارد و میتواند برای افرادی که دچار ضعف شدید بینایی هستند، کمکبر باشد. همچنین، بسیاری از کاربران از صدای کتابهای صوتی لذت میبرند و زمانی که کتاب خود را همراه ندارند، از این نسخه صوتی استفاده میکنند.
ظهور فناوریهای جدید در گویندگی
در کنار نامهای بزرگی چون گوگل و اپل، شرکتهای کوچکی نیز در زمینه هوش مصنوعی در حال فعالیت هستند. Deepzen، یکی از این شرکتهاست که در سال ۲۰۱۸ تاسیس شد و از فیلم "Her" الهام گرفته است. Deepzen سیستمی توسعه داده که میتواند متون را بهطور طبیعی مشابه یک گوینده بازخوانی کند.
چالشها و خدمات Deepzen
یکی از چالشهای تولید هوش مصنوعی برای گویندگی این است که باید فراتر از بازخوانی متن برود و بتواند محتوای کتاب را بهطور طبیعی و با آواهای متمایز روایت کند. Deepzen به مشتریان خود این امکان را میدهد که متون را بارگذاری کرده و براساس قیمت، خدمات خود را انتخاب کنند.
هزینه و میزان پیشرفت Deepzen
هزینه گویندگی هوش مصنوعی در یک ساعت کتاب برابر با ۶۹ دلار است و این مبلغ میتواند به ۱۲۹ دلار برسد اگر خدمات اضافی انتخاب شود. این شرکت تاکنون بیش از ۳۰۰ کتاب صوتی تولید کرده و در حال تکمیل این ابزار است.
نگرش مثبت گویندگان به هوش مصنوعی
برخی گویندگان نگرش مثبتی به هوش مصنوعی دارند و معتقدند که این فناوری میتواند صدای آنها را حفظ کند و حتی پس از مرگ آنها، صدایشان در تولید محتوا استفاده شود. Edward Hermann، گویندهای که در سال ۲۰۱۴ درگذشت، از Deepzen خواسته بود تا صدای او را ثبت و مورد استفاده قرار دهد.
آینده گویندگان و هوش مصنوعی
گرچه Deepzen در چند سال گذشته پیشرفتهای زیادی داشته است، اما این بدان معنا نیست که گویندگان تا سالهای آینده بیکار خواهند شد. John Behrens، صاحب نشریه صوتی Nashaville، معتقد است که کتابهای صوتی تولید شده با هوش مصنوعی به کنترل کیفی نیاز دارند و در حال حاضر، مشکلاتی همچون تلفظ نادرست برخی کلمات وجود دارد. به همین دلیل هنوز نیازی به استخدام نیروی انسانی برای تولید کتابهای صوتی پرفروش احساس میشود.
نتیجهگیری
Hinkle نیز در نهایت اذعان کرده است که برای هوش مصنوعی هنوز راهی طولانی در پیش است تا بتواند مانند گویندگان انسانی طبیعی و با احساس صحبت کند.