آیا هوش مصنوعی به کتاب های صوتی نیز رحم نمی‌کند؟

آیا هوش مصنوعی به کتاب های صوتی نیز رحم نمی‌کند؟
0.0/5 امتیاز از 0 رای

خرید آنتی ویروس نود 32 از سایت نود ایرانی

سفارش طراحی سایت

روزی دیگر در استودیوی ضبط کتاب‌های صوتی آغاز شد. این روز با حضور دو گوینده فعال در این حوزه، Leah Allers و Craig Hinkle، در تیم Nashville و گفتگوهایشان درباره مسائلی چون نگرانی از صدای معده هنگام ضبط، تأکید بر آوای کلمات و نحوه بروز جزئیات مکالمه شخصیت‌های کتاب آغاز می‌شود؛ مسائلی که برای هوش مصنوعی اهمیتی ندارند و دغدغه‌ای برای آن به شمار نمی‌روند.

استودیوی نپ در ساختمان Nashville واقع شده است، همان جایی که تیلور سوییفت آلبومش را ضبط کرده است. در همین حین، بوی قهوه فضا را پر کرده و Hinkle و Allers، در حال گویندگی، چشم‌هایشان را از صفحه نمایش آیپد به مانیتور بزرگی که در استودیو قرار دارد برمی‌گردانند. در این لحظه، Allers به Hinkle می‌گوید که قصد دارد به سوالات مطرح شده در کتاب عمق بیشتری بدهد و آنها بار دیگر فصل کتاب را از ابتدا شروع می‌کنند.

کتاب‌های صوتی روند رو به رشدی دارند و بر اساس تحقیقات، این صنعت تا سال 2030 به درآمدی بالغ بر 33.5 میلیارد دلار خواهد رسید، در حالی که درآمد این حوزه در سال 2021 برابر با 4.2 میلیارد دلار بوده است.

در سال 2023 و با ظهور شگفت‌انگیز فناوری‌های هوش مصنوعی، نگرانی‌های فعالان در صنایع مختلف افزایش یافته است. به عنوان مثال، ChatGPT قادر به نوشتن تاییدیه‌های بیمه و ساخت پروفایل‌های کاربران برنامه‌های دوست‌یابی است و پلتفرم‌های هوش مصنوعی مانند Dalle-E و Lensa آثار هنری خلق می‌کنند که فراتر از تصورات هنرمندان انسانی است و این موضوع موجب نگرانی از تهدید شغل‌ها می‌شود.

در زمینه کتاب‌های صوتی نیز، شرکت‌های بزرگ مانند گوگل و اپل مدت‌هاست که در حال توسعه ابزارهای مبتنی بر هوش مصنوعی هستند و بدون نیاز به حضور نیروهای انسانی، این ابزارها را در صنایع مختلف وارد می‌کنند.

در سال گذشته، گوگل از سرویس جدید خود برای ناشران در شش کشور مانند آمریکا و کانادا رونمایی کرد. هوش مصنوعی‌های گوینده گوگل با نام‌هایی که به کشورهای مختلف مرتبط هستند معرفی شده‌اند، مانند Archie که نامی بریتانیایی است و Santiago که در اسپانیا شناخته‌شده است.

در همین راستا، اپل نیز از هوش مصنوعی گوینده‌های خود با نام‌های Madison و Jackson پرده برداشت که نویسندگان و ناشران مستقل می‌توانند با انتخاب سبک نوشتار، نوع گویش هوش مصنوعی را تنظیم کنند.

Tanya Eby، یکی از گویندگان برجسته کتاب‌های صوتی که در طول 21 سال بیش از 1000 کتاب صوتی تولید کرده، نگرانی خود را از پیشرفت سریع هوش مصنوعی ابراز کرده و گفت:
گویندگانی مانند Eby که در پروژه‌های متعدد مشارکت داشته‌اند، تأکید می‌کنند که تنها انسانیت است که می‌تواند به این صنعت رنگ و عمق دهد. گویندگان با در نظر گرفتن سبک نوشتاری کتاب‌ها، شخصیت‌ها و حالت‌های مختلف، تصمیم می‌گیرند چگونه داستان را بیان کنند و این تصمیم‌ها تأثیر زیادی بر روی مخاطب، محتوا و جو کلی کتاب دارند.

گویندگان و ارتباط عاطفی

گویندگان قادرند معنای واقعی ارتباط عاطفی را به شکلی عمیق به شنونده منتقل کنند؛ ویژگی‌ای که در حال حاضر کمتر هوش مصنوعی توانایی بازآفرینی آن را دارد. هرچند می‌توان نحوه گویش هوش مصنوعی را بر اساس متن تغییر داد، اما تنها یک گوینده حرفه‌ای می‌تواند احساسات را به شکلی طبیعی به مخاطب انتقال دهد.

Kathleen Li و احساسات در گویندگی

Kathleen Li، یکی از گویندگان تگزاسی، درباره این موضوع گفته است:

"زمانی که شخصیت داستان به دلیل مرگ پدرش شروع به گریه می‌کند، وظیفه من است که در این گریه سهیم باشم و این احساسات را به شنونده منتقل کنم."

چالش‌های استفاده از هوش مصنوعی در کتاب‌های صوتی

طرفداران کتاب‌های صوتی ممکن است درک کنند که چرا باید صدای هوش مصنوعی را به جای صدای انسانی بشنوند، اما استودیوهای کوچک برایشان زمان و هزینه اهمیت بیشتری نسبت به کیفیت کار دارد. برای مثال، کتاب‌های صوتی درآمد زیادی برای بخش مطبوعات دانشگاه میشیگان به ارمغان نمی‌آورد، اما همچنان بیش از ۱۰۰ کتاب صوتی توسط پژوهشگران برای دانشجویان تولید می‌شود.

هزینه‌های تولید و مشکلات گویندگی

هزینه استخدام گویندگان برای تولید یک کتاب صوتی بیش از ۶۰۰۰ دلار است و این در حالی است که دانشگاه تنها می‌تواند درآمد کمی از این راه به دست آورد. علاوه بر این، فرایند گویندگی می‌تواند زمان زیادی ببرد و گاهی تکمیل یک ساعت متن می‌تواند به شش ساعت زمان نیاز داشته باشد. این موضوع باعث می‌شود که تکرار متن‌های طولانی برای گویندگان دشوار و کسل‌کننده باشد.

نظر مدیر مطبوعات دانشگاه میشیگان

Charles Watkinson، مدیر مطبوعات دانشگاه میشیگان، به مشکلات مالی ناشران اشاره کرده و گفته است که اگر ناشران کتاب‌های صوتی پرفروش نداشته باشند، نقدینگی آنها با مشکل مواجه می‌شود. به همین دلیل زمان و هزینه برای نویسندگان و ناشران کوچک اهمیت زیادی دارد و هوش مصنوعی می‌تواند این مشکلات را کاهش دهد.

تجربه گوگل با دانشگاه میشیگان

در دو سال گذشته، گوگل برنامه آزمایشی خود را برای دانشگاه میشیگان ارائه داده که نتیجه آن تولید ۱۰۰ کتاب صوتی بوده است. با این حال، Watkinson تأکید کرده است که استفاده از هوش مصنوعی نیازمند کنترل کیفیت است و استادان دانشگاه برای اصلاح مشکلات متن و صدا، از دانش‌آموزان کمک می‌گیرند.

کاربرد هوش مصنوعی برای افراد با مشکلات بینایی

تحقیقات نشان داده که صدای هوش مصنوعی عملکرد بهتری از Screen Reader دارد و می‌تواند برای افرادی که دچار ضعف شدید بینایی هستند، کمک‌بر باشد. همچنین، بسیاری از کاربران از صدای کتاب‌های صوتی لذت می‌برند و زمانی که کتاب خود را همراه ندارند، از این نسخه صوتی استفاده می‌کنند.

ظهور فناوری‌های جدید در گویندگی

در کنار نام‌های بزرگی چون گوگل و اپل، شرکت‌های کوچکی نیز در زمینه هوش مصنوعی در حال فعالیت هستند. Deepzen، یکی از این شرکت‌هاست که در سال ۲۰۱۸ تاسیس شد و از فیلم "Her" الهام گرفته است. Deepzen سیستمی توسعه داده که می‌تواند متون را به‌طور طبیعی مشابه یک گوینده بازخوانی کند.

چالش‌ها و خدمات Deepzen

یکی از چالش‌های تولید هوش مصنوعی برای گویندگی این است که باید فراتر از بازخوانی متن برود و بتواند محتوای کتاب را به‌طور طبیعی و با آواهای متمایز روایت کند. Deepzen به مشتریان خود این امکان را می‌دهد که متون را بارگذاری کرده و براساس قیمت، خدمات خود را انتخاب کنند.

هزینه و میزان پیشرفت Deepzen

هزینه گویندگی هوش مصنوعی در یک ساعت کتاب برابر با ۶۹ دلار است و این مبلغ می‌تواند به ۱۲۹ دلار برسد اگر خدمات اضافی انتخاب شود. این شرکت تاکنون بیش از ۳۰۰ کتاب صوتی تولید کرده و در حال تکمیل این ابزار است.

نگرش مثبت گویندگان به هوش مصنوعی

برخی گویندگان نگرش مثبتی به هوش مصنوعی دارند و معتقدند که این فناوری می‌تواند صدای آنها را حفظ کند و حتی پس از مرگ آنها، صدای‌شان در تولید محتوا استفاده شود. Edward Hermann، گوینده‌ای که در سال ۲۰۱۴ درگذشت، از Deepzen خواسته بود تا صدای او را ثبت و مورد استفاده قرار دهد.

آینده گویندگان و هوش مصنوعی

گرچه Deepzen در چند سال گذشته پیشرفت‌های زیادی داشته است، اما این بدان معنا نیست که گویندگان تا سال‌های آینده بیکار خواهند شد. John Behrens، صاحب نشریه صوتی Nashaville، معتقد است که کتاب‌های صوتی تولید شده با هوش مصنوعی به کنترل کیفی نیاز دارند و در حال حاضر، مشکلاتی همچون تلفظ نادرست برخی کلمات وجود دارد. به همین دلیل هنوز نیازی به استخدام نیروی انسانی برای تولید کتاب‌های صوتی پرفروش احساس می‌شود.

نتیجه‌گیری

Hinkle نیز در نهایت اذعان کرده است که برای هوش مصنوعی هنوز راهی طولانی در پیش است تا بتواند مانند گویندگان انسانی طبیعی و با احساس صحبت کند.


با ما همراه باشید

  • email
  • linkedin
  • instagram
  • telegram