تازه‌های تکنولوژی:

صدای کیهان در گلوی ماشین: چرا هاوکینگ هرگز صدای رباتیکش را تغییر نداد؟

دیجیاتو پنج شنبه 11 تیر 1405 - 22:00

تاریخچه جذاب تکنولوژی تبدیل متن به گفتار (TTS) و دلایل پنهان علمی و روان‌شناختی که چرا استیون هاوکینگ هرگز صدای رباتیک خود را ارتقا نداد. The post صدای کیهان در گلوی ماشین: چرا هاوکینگ هرگز صدای رباتیکش را تغییر نداد؟ appeared first on دیجیاتو.

مردی که با صدای سیلیکون از سیاه‌چاله‌ها سخن گفت

وقتی به استیون هاوکینگ فکر می‌کنید، اولین چیزی که در ذهنتان تداعی می‌شود چیست؟ صندلی چرخ‌دار پیچیده‌اش؟ نظریه‌هایش درباره تابش سیاه‌چاله‌ها؟ یا آن صدای رباتیک، یکنواخت و فلزی که با لهجه‌ای عجیب از رازهای کیهان پرده برمی‌داشت؟ برای بیش از سه دهه، یکی از درخشان‌ترین ذهن‌های تاریخ بشر، نه با تارهای صوتی انسانی، بلکه از طریق مدارهای سیلیکونی و کدهای صفر و یک با جهان ارتباط برقرار می‌کرد.

صدای هاوکینگ به قدری نمادین بود که به محض شنیدن، حتی بدون دیدن تصویر او، همه می‌دانستند چه کسی در حال صحبت است. اما در پس این صدای مکانیکی، یک تناقض شگفت‌انگیز وجود داشت: در دهه‌های پایانی عمر او، تکنولوژی تبدیل متن به گفتار (Text-to-Speech یا به اختصار TTS) آن‌قدر پیشرفت کرده بود که دستیارهای هوشمندی مانند سیری (Siri) و الکسا (Alexa) با لحنی کاملاً انسانی و طبیعی صحبت می‌کردند. با این حال، فیزیک‌دان برجسته بریتانیایی که همواره در لبه مرزهای علم حرکت می‌کرد، تا آخرین روز حیاتش در سال 2018، سرسختانه از ارتقای صدای خود امتناع ورزید. او حاضر نشد لهجه رباتیک و آمریکایی دستگاه قدیمی‌اش را با هیچ صدای طبیعی و بریتانیایی دیگری عوض کند.

این مقاله، سفری است به تاریخچه پرفراز و نشیب تکنولوژی تبدیل متن به گفتار، از اولین تلاش‌ها برای تقلید صدای انسان تا رسیدن به دستگاهی که به حنجره مصنوعی استیون هاوکینگ تبدیل شد و بررسی این معمای روان‌شناختی که چرا یک دانشمند، هویت خود را در کدهای یک نرم‌افزار قدیمی پیدا کرد.

رویای شبیه‌سازی حنجره: از ماشین وودر تا کامپیوترهای آوازخوان

تلاش برای ساخت ماشینی که بتواند مانند انسان صحبت کند، ریشه‌ای طولانی در تاریخ مهندسی دارد. در سال 1939، در نمایشگاه جهانی نیویورک، دستگاهی به نام «وودر» (Voder) توسط هومر دادلی (Homer Dudley)، مهندس آزمایشگاه‌های بل (Bell Labs)، معرفی شد. وودر اولین سینث‌سایزر (ترکیب‌کننده) گفتار بود که با استفاده از کلیدها و پدال‌هایی که توسط یک اپراتور آموزش‌دیده کنترل می‌شد، صداهای وزوز و هیس‌هیس را به چیزی شبیه به کلمات انسانی تبدیل می‌کرد. این دستگاه عظیم و پیچیده بود، اما اثبات کرد که گفتار انسان را می‌توان به اجزای فرکانسی تجزیه و بازتولید کرد.

گام بزرگ بعدی در سال 1961 برداشته شد؛ زمانی که یک کامپیوتر عظیم‌الجثه IBM 704 در آزمایشگاه‌های بل، با استفاده از نرم‌افزاری که جان لری کلی (John Larry Kelly) نوشته بود، توانست آهنگ “Daisy Bell” را بخواند. (این همان رویدادی است که الهام‌بخش آرتور سی. کلارک برای خلق صحنه مرگ کامپیوتر HAL 9000 در فیلم «یک ادیسه فضایی: 2001» شد). با این حال، این سیستم‌ها نیازمند قدرت پردازشی عظیمی بودند و تبدیل متن به گفتار در لحظه (Real-time)، هنوز یک رویای دور از دسترس بود.

دنیس کلات و تولد «پاولِ بی‌نقص» (Perfect Paul)

برای رسیدن به صدای هاوکینگ، باید به دهه 1970 و 1980 میلادی سفر کنیم. در موسسه فناوری ماساچوست (MIT)، دانشمندی به نام دنیس کلات (Dennis Klatt)، پیشگام توسعه سیستم‌های مدرن تبدیل متن به گفتار بود. کلات صدای خود را با اشعه ایکس ثبت کرد تا نحوه تغییر شکل حنجره، زبان و لب‌هایش را هنگام ادای حروف مختلف مدل‌سازی کند.

او یک الگوریتم پیچیده ساخت که می‌توانست متن انگلیسی را دریافت کرده، آن را به آواها (Phonemes) تجزیه کند و سپس با استفاده از مدل‌سازی ریاضیِ مجرای صوتی انسان، آن را به صدا تبدیل نماید. در سال 1982، کلات سه صدای پایه برای سیستم خود طراحی کرد: یک صدای زنانه به نام «بتیوتفول بتی» (Beautiful Betty)، یک صدای کودکانه به نام «کیت ادراک‌گر» (Kit the Kid) و یک صدای مردانه که از صدای خودش الگوبرداری شده بود، به نام «پاول بی‌نقص» (Perfect Paul).

این سیستم که با نام MITalk شناخته می‌شد، به شرکت Speech Plus فروخته شد و آن‌ها این الگوریتم را در یک برد سخت‌افزاری به نام CallText 5010 پیاده‌سازی کردند. دستگاهی که قرار بود سرنوشت یکی از بزرگ‌ترین دانشمندان تاریخ را تغییر دهد.

تراژدی ژنو: از دست دادن صدا و ورود کُدهای نجات‌بخش

در تابستان سال 1985، استیون هاوکینگ که از بیماری اسکلروز جانبی آمیوتروفیک (ALS) رنج می‌برد، برای بازدید از مرکز سرن (CERN) به ژنو سفر کرده بود. در آنجا، او به یک ذات‌الریه شدید مبتلا شد. وضعیت او به قدری وخیم بود که پزشکان به همسرش، جین، پیشنهاد دادند دستگاه‌های پشتیبان حیات را قطع کنند. جین مخالفت کرد و پزشکان برای نجات جان هاوکینگ مجبور به انجام عمل تراکئوتومی (نای‌شکافی) شدند.

این عمل جان او را نجات داد، اما تنها راه ارتباطی باقی‌مانده‌اش یعنی صدای ضعیف و نامفهومش را برای همیشه از او گرفت. برای مردی که تمام زندگی‌اش در تبادل ایده‌های پیچیده فیزیک خلاصه می‌شد، این یک حکم اعدام خاموش بود. هاوکینگ برای مدتی تنها با بالا بردن ابروهایش و اشاره به حروف روی یک کارت املایی با دیگران ارتباط برقرار می‌کرد؛ فرآیندی طاقت‌فرسا که نوشتن یک جمله کوتاه را به ساعت‌ها تلاش نیازمند می‌ساخت.

نجات از راه دور فرا رسید. یک فیزیکدان کامپیوتر به نام والت ولتوز (Walt Woltosz) برنامه‌ای به نام Equalizer نوشته بود که به کاربر اجازه می‌داد با استفاده از یک سوییچ (دکمه)، کلمات و عبارات را از روی صفحه نمایش انتخاب کند. ولتوز این نرم‌افزار را به سینث‌سایزر صوتی Speech Plus CallText 5010 متصل کرد. این دستگاه که از صدای «پاول بی‌نقص» (Perfect Paul) ساخته دنیس کلات استفاده می‌کرد، به صندلی چرخ‌دار هاوکینگ متصل شد.

ناگهان، هاوکینگ دوباره صاحب صدا شد. او با استفاده از حرکات اندک دستش (و در سال‌های بعد، تنها با حرکات عضله گونه‌اش که توسط یک سنسور مادون قرمز روی عینکش تشخیص داده می‌شد)، کلمات را انتخاب می‌کرد و دستگاه با همان لحن مکانیکی، رباتیک و با لهجه‌ای آشکارا آمریکایی، جملات او را به زبان می‌آورد.

معمای لهجه آمریکایی در کالبد یک لُرد بریتانیایی

یکی از جالب‌ترین و شاید طنزآمیزترین جنبه‌های صدای جدید هاوکینگ این بود که این دانشمند برجسته بریتانیایی، متولد آکسفورد و استاد دانشگاه کمبریج، حالا با لهجه‌ای آمریکایی (و کمی شبیه به لهجه اسکاتلندی-آمریکایی قدیمی) صحبت می‌کرد.

در ابتدا، هاوکینگ و اطرافیانش فکر می‌کردند این یک راه‌حل موقت است. اما به زودی مشخص شد که این ترکیب عجیب یک ذهن کیهانی بریتانیایی با صدای یک ربات آمریکایی دهه هشتادی در حال تبدیل شدن به یک پدیده فرهنگی است. هاوکینگ با همین صدا در برنامه‌های تلویزیونی مانند «سیمپسون‌ها» (The Simpsons) و «پیشتازان فضا» (Star Trek) ظاهر شد و حتی صدای او در آهنگ “Keep Talking” از گروه افسانه‌ای پینک فلوید (Pink Floyd) در سال 1994 استفاده شد.

نبرد با زمان: وقتی مهندسان اینتل برای حفظ یک صدای قدیمی عرق ریختند

با گذشت زمان، شرکت‌های تولیدکننده سخت‌افزارِ CallText ورشکست شدند و تکنولوژی آن‌ها منسوخ شد. در اواخر دهه 1990، نرم‌افزارهای تبدیل متن به گفتار بسیار پیشرفت کردند. صداها طبیعی‌تر شدند، زیر و بم کلمات واقعی‌تر شد و لهجه‌های دقیق بریتانیایی به راحتی در دسترس بودند.

در سال 1997، گوردون مور (Gordon Moore)، یکی از بنیان‌گذاران شرکت اینتل (Intel)، با هاوکینگ دیدار کرد و متوجه شد که سیستم کامپیوتری او به شدت قدیمی و در حال فروپاشی است. مور به هاوکینگ پیشنهاد داد که اینتل از این پس مسئولیت تامین و ارتقای سیستم ارتباطی او را بر عهده بگیرد. هاوکینگ پذیرفت، اما یک شرط بسیار عجیب و سخت‌گیرانه داشت: «مغز کامپیوتر را عوض کنید، نرم‌افزار را سریع‌تر کنید، اما به صدای من دست نزنید.»

این شرط برای مهندسان اینتل یک کابوس فنی بود. صدای «پاول بی‌نقص» در واقع کدهای نرم‌افزاری بود که برای پردازنده‌های بسیار قدیمی و با معماری منسوخ نوشته شده بود و مستقیماً با سخت‌افزار آن دوران درگیر بود. آن‌ها نمی‌توانستند به سادگی یک فایل صوتی را در ویندوز جدید کپی کنند.

در سال 2014، زمانی که سخت‌افزار اصلی هاوکینگ در حال مرگ کامل بود، تیمی از مهندسان اینتل و متخصصان زبان‌شناسی ماه‌ها وقت صرف کردند تا کدهای اصلی ۳۰ سال پیشِ دنیس کلات را مهندسی معکوس کنند. آن‌ها مجبور شدند شبیه‌سازهای پیچیده‌ای بنویسند تا پردازنده‌های مدرن اینتل بتوانند دقیقاً همان خروجی صوتیِ پر از نویز، یکنواخت و رباتیک دهه 1980 را تولید کنند. آن‌ها حتی مجبور شدند نقص‌های صوتی و «باگ»‌های آن دستگاه قدیمی را هم شبیه‌سازی کنند، زیرا هاوکینگ با کوچک‌ترین تغییر در لحن صدا مخالفت می‌کرد.

چرا استیون هاوکینگ صدای رباتیک خود را تغییر نداد؟

پاسخ به این سوال، فراتر از تکنولوژی و در اعماق روان‌شناسی انسان نهفته است. در سال‌های بعد، زمانی که از هاوکینگ پرسیدند چرا لهجه‌ای طبیعی‌تر و بریتانیایی را انتخاب نمی‌کند، او پاسخ معروفی داد: «این صدا حالا به علامت تجاری من تبدیل شده است. من نمی‌خواهم صدایم شبیه به یک گوینده اخبار بریتانیایی باشد. این صدا، صدای من است.»

صدا، یکی از شخصی‌ترین و عمیق‌ترین اجزای هویت انسان است. برای فردی مانند هاوکینگ که کنترل تمام بدن خود را از دست داده بود، دستگاه CallText تنها یک ابزار جانبی نبود؛ بلکه بخشی از کالبد او شده بود. تغییر دادن آن صدا در دهه 2000 میلادی، برای او مانند این بود که یک انسان سالم بخواهد حنجره طبیعی خود را با حنجره شخص دیگری عوض کند.

علاوه بر این، آن صدای مکانیکی به طرز عجیبی با شخصیت علمی او همخوانی داشت. لحن فاقد احساس و رباتیک، به صحبت‌های او درباره مباحث سنگینی چون زمان موهومی، آنتروپی سیاه‌چاله‌ها و مرگ ستارگان، وزن و ابهتی پیامبرگونه می‌بخشید. صدای او از جنس این دنیا نبود؛ دقیقاً مانند افکارش که همیشه در میلیاردها سال نوری دورتر پرسه می‌زد.

جمع‌بندی: ماشینی که روح انسان را فریاد می‌زد

داستان تکنولوژی تبدیل متن به گفتار و استیون هاوکینگ، روایتی خیره‌کننده از تلاقی محدودیت‌های جسمانی و نبوغ تکنولوژیک است. تکامل TTS از دستگاه‌های غول‌پیکر وودر تا دستیارهای هوشمند امروزی، نشان‌دهنده عطش بی‌پایان انسان برای بخشیدن توانایی «ارتباط» به ماشین‌هاست. اما در این میان، انتخاب استیون هاوکینگ به ما درس بزرگ‌تری می‌دهد.

او به ما نشان داد که تکنولوژی تنها مجموعه‌ای از قطعات فلزی و کدهای کامپیوتری نیست. وقتی انسانی برای بقا و ارتباط با جهان به یک ماشین وابسته می‌شود، آن ماشین با تمام نقص‌ها و لحن رباتیکش، به امتداد روح آن انسان تبدیل می‌گردد. صدای استیون هاوکینگ شاید دستاورد مهندسیِ دنیس کلات در دهه 1980 بود، اما هویتی که به آن صدا جان می‌بخشید، متعلق به مردی بود که از روی یک صندلی چرخ‌دار، مرزهای کیهان را برای ما ترسیم کرد. صدایی که برای همیشه در تاریخ علم، با لهجه عجیب و آمریکایی‌اش، جاودانه شد.

مشاهده متن کامل خبر در "دیجیاتو"