مردی که با صدای سیلیکون از سیاهچالهها سخن گفت
وقتی به استیون هاوکینگ فکر میکنید، اولین چیزی که در ذهنتان تداعی میشود چیست؟ صندلی چرخدار پیچیدهاش؟ نظریههایش درباره تابش سیاهچالهها؟ یا آن صدای رباتیک، یکنواخت و فلزی که با لهجهای عجیب از رازهای کیهان پرده برمیداشت؟ برای بیش از سه دهه، یکی از درخشانترین ذهنهای تاریخ بشر، نه با تارهای صوتی انسانی، بلکه از طریق مدارهای سیلیکونی و کدهای صفر و یک با جهان ارتباط برقرار میکرد.
صدای هاوکینگ به قدری نمادین بود که به محض شنیدن، حتی بدون دیدن تصویر او، همه میدانستند چه کسی در حال صحبت است. اما در پس این صدای مکانیکی، یک تناقض شگفتانگیز وجود داشت: در دهههای پایانی عمر او، تکنولوژی تبدیل متن به گفتار (Text-to-Speech یا به اختصار TTS) آنقدر پیشرفت کرده بود که دستیارهای هوشمندی مانند سیری (Siri) و الکسا (Alexa) با لحنی کاملاً انسانی و طبیعی صحبت میکردند. با این حال، فیزیکدان برجسته بریتانیایی که همواره در لبه مرزهای علم حرکت میکرد، تا آخرین روز حیاتش در سال 2018، سرسختانه از ارتقای صدای خود امتناع ورزید. او حاضر نشد لهجه رباتیک و آمریکایی دستگاه قدیمیاش را با هیچ صدای طبیعی و بریتانیایی دیگری عوض کند.

این مقاله، سفری است به تاریخچه پرفراز و نشیب تکنولوژی تبدیل متن به گفتار، از اولین تلاشها برای تقلید صدای انسان تا رسیدن به دستگاهی که به حنجره مصنوعی استیون هاوکینگ تبدیل شد و بررسی این معمای روانشناختی که چرا یک دانشمند، هویت خود را در کدهای یک نرمافزار قدیمی پیدا کرد.
تلاش برای ساخت ماشینی که بتواند مانند انسان صحبت کند، ریشهای طولانی در تاریخ مهندسی دارد. در سال 1939، در نمایشگاه جهانی نیویورک، دستگاهی به نام «وودر» (Voder) توسط هومر دادلی (Homer Dudley)، مهندس آزمایشگاههای بل (Bell Labs)، معرفی شد. وودر اولین سینثسایزر (ترکیبکننده) گفتار بود که با استفاده از کلیدها و پدالهایی که توسط یک اپراتور آموزشدیده کنترل میشد، صداهای وزوز و هیسهیس را به چیزی شبیه به کلمات انسانی تبدیل میکرد. این دستگاه عظیم و پیچیده بود، اما اثبات کرد که گفتار انسان را میتوان به اجزای فرکانسی تجزیه و بازتولید کرد.

گام بزرگ بعدی در سال 1961 برداشته شد؛ زمانی که یک کامپیوتر عظیمالجثه IBM 704 در آزمایشگاههای بل، با استفاده از نرمافزاری که جان لری کلی (John Larry Kelly) نوشته بود، توانست آهنگ “Daisy Bell” را بخواند. (این همان رویدادی است که الهامبخش آرتور سی. کلارک برای خلق صحنه مرگ کامپیوتر HAL 9000 در فیلم «یک ادیسه فضایی: 2001» شد). با این حال، این سیستمها نیازمند قدرت پردازشی عظیمی بودند و تبدیل متن به گفتار در لحظه (Real-time)، هنوز یک رویای دور از دسترس بود.
برای رسیدن به صدای هاوکینگ، باید به دهه 1970 و 1980 میلادی سفر کنیم. در موسسه فناوری ماساچوست (MIT)، دانشمندی به نام دنیس کلات (Dennis Klatt)، پیشگام توسعه سیستمهای مدرن تبدیل متن به گفتار بود. کلات صدای خود را با اشعه ایکس ثبت کرد تا نحوه تغییر شکل حنجره، زبان و لبهایش را هنگام ادای حروف مختلف مدلسازی کند.
او یک الگوریتم پیچیده ساخت که میتوانست متن انگلیسی را دریافت کرده، آن را به آواها (Phonemes) تجزیه کند و سپس با استفاده از مدلسازی ریاضیِ مجرای صوتی انسان، آن را به صدا تبدیل نماید. در سال 1982، کلات سه صدای پایه برای سیستم خود طراحی کرد: یک صدای زنانه به نام «بتیوتفول بتی» (Beautiful Betty)، یک صدای کودکانه به نام «کیت ادراکگر» (Kit the Kid) و یک صدای مردانه که از صدای خودش الگوبرداری شده بود، به نام «پاول بینقص» (Perfect Paul).
این سیستم که با نام MITalk شناخته میشد، به شرکت Speech Plus فروخته شد و آنها این الگوریتم را در یک برد سختافزاری به نام CallText 5010 پیادهسازی کردند. دستگاهی که قرار بود سرنوشت یکی از بزرگترین دانشمندان تاریخ را تغییر دهد.

در تابستان سال 1985، استیون هاوکینگ که از بیماری اسکلروز جانبی آمیوتروفیک (ALS) رنج میبرد، برای بازدید از مرکز سرن (CERN) به ژنو سفر کرده بود. در آنجا، او به یک ذاتالریه شدید مبتلا شد. وضعیت او به قدری وخیم بود که پزشکان به همسرش، جین، پیشنهاد دادند دستگاههای پشتیبان حیات را قطع کنند. جین مخالفت کرد و پزشکان برای نجات جان هاوکینگ مجبور به انجام عمل تراکئوتومی (نایشکافی) شدند.
این عمل جان او را نجات داد، اما تنها راه ارتباطی باقیماندهاش یعنی صدای ضعیف و نامفهومش را برای همیشه از او گرفت. برای مردی که تمام زندگیاش در تبادل ایدههای پیچیده فیزیک خلاصه میشد، این یک حکم اعدام خاموش بود. هاوکینگ برای مدتی تنها با بالا بردن ابروهایش و اشاره به حروف روی یک کارت املایی با دیگران ارتباط برقرار میکرد؛ فرآیندی طاقتفرسا که نوشتن یک جمله کوتاه را به ساعتها تلاش نیازمند میساخت.
نجات از راه دور فرا رسید. یک فیزیکدان کامپیوتر به نام والت ولتوز (Walt Woltosz) برنامهای به نام Equalizer نوشته بود که به کاربر اجازه میداد با استفاده از یک سوییچ (دکمه)، کلمات و عبارات را از روی صفحه نمایش انتخاب کند. ولتوز این نرمافزار را به سینثسایزر صوتی Speech Plus CallText 5010 متصل کرد. این دستگاه که از صدای «پاول بینقص» (Perfect Paul) ساخته دنیس کلات استفاده میکرد، به صندلی چرخدار هاوکینگ متصل شد.
ناگهان، هاوکینگ دوباره صاحب صدا شد. او با استفاده از حرکات اندک دستش (و در سالهای بعد، تنها با حرکات عضله گونهاش که توسط یک سنسور مادون قرمز روی عینکش تشخیص داده میشد)، کلمات را انتخاب میکرد و دستگاه با همان لحن مکانیکی، رباتیک و با لهجهای آشکارا آمریکایی، جملات او را به زبان میآورد.

یکی از جالبترین و شاید طنزآمیزترین جنبههای صدای جدید هاوکینگ این بود که این دانشمند برجسته بریتانیایی، متولد آکسفورد و استاد دانشگاه کمبریج، حالا با لهجهای آمریکایی (و کمی شبیه به لهجه اسکاتلندی-آمریکایی قدیمی) صحبت میکرد.
در ابتدا، هاوکینگ و اطرافیانش فکر میکردند این یک راهحل موقت است. اما به زودی مشخص شد که این ترکیب عجیب یک ذهن کیهانی بریتانیایی با صدای یک ربات آمریکایی دهه هشتادی در حال تبدیل شدن به یک پدیده فرهنگی است. هاوکینگ با همین صدا در برنامههای تلویزیونی مانند «سیمپسونها» (The Simpsons) و «پیشتازان فضا» (Star Trek) ظاهر شد و حتی صدای او در آهنگ “Keep Talking” از گروه افسانهای پینک فلوید (Pink Floyd) در سال 1994 استفاده شد.
با گذشت زمان، شرکتهای تولیدکننده سختافزارِ CallText ورشکست شدند و تکنولوژی آنها منسوخ شد. در اواخر دهه 1990، نرمافزارهای تبدیل متن به گفتار بسیار پیشرفت کردند. صداها طبیعیتر شدند، زیر و بم کلمات واقعیتر شد و لهجههای دقیق بریتانیایی به راحتی در دسترس بودند.
در سال 1997، گوردون مور (Gordon Moore)، یکی از بنیانگذاران شرکت اینتل (Intel)، با هاوکینگ دیدار کرد و متوجه شد که سیستم کامپیوتری او به شدت قدیمی و در حال فروپاشی است. مور به هاوکینگ پیشنهاد داد که اینتل از این پس مسئولیت تامین و ارتقای سیستم ارتباطی او را بر عهده بگیرد. هاوکینگ پذیرفت، اما یک شرط بسیار عجیب و سختگیرانه داشت: «مغز کامپیوتر را عوض کنید، نرمافزار را سریعتر کنید، اما به صدای من دست نزنید.»

این شرط برای مهندسان اینتل یک کابوس فنی بود. صدای «پاول بینقص» در واقع کدهای نرمافزاری بود که برای پردازندههای بسیار قدیمی و با معماری منسوخ نوشته شده بود و مستقیماً با سختافزار آن دوران درگیر بود. آنها نمیتوانستند به سادگی یک فایل صوتی را در ویندوز جدید کپی کنند.
در سال 2014، زمانی که سختافزار اصلی هاوکینگ در حال مرگ کامل بود، تیمی از مهندسان اینتل و متخصصان زبانشناسی ماهها وقت صرف کردند تا کدهای اصلی ۳۰ سال پیشِ دنیس کلات را مهندسی معکوس کنند. آنها مجبور شدند شبیهسازهای پیچیدهای بنویسند تا پردازندههای مدرن اینتل بتوانند دقیقاً همان خروجی صوتیِ پر از نویز، یکنواخت و رباتیک دهه 1980 را تولید کنند. آنها حتی مجبور شدند نقصهای صوتی و «باگ»های آن دستگاه قدیمی را هم شبیهسازی کنند، زیرا هاوکینگ با کوچکترین تغییر در لحن صدا مخالفت میکرد.
پاسخ به این سوال، فراتر از تکنولوژی و در اعماق روانشناسی انسان نهفته است. در سالهای بعد، زمانی که از هاوکینگ پرسیدند چرا لهجهای طبیعیتر و بریتانیایی را انتخاب نمیکند، او پاسخ معروفی داد: «این صدا حالا به علامت تجاری من تبدیل شده است. من نمیخواهم صدایم شبیه به یک گوینده اخبار بریتانیایی باشد. این صدا، صدای من است.»
صدا، یکی از شخصیترین و عمیقترین اجزای هویت انسان است. برای فردی مانند هاوکینگ که کنترل تمام بدن خود را از دست داده بود، دستگاه CallText تنها یک ابزار جانبی نبود؛ بلکه بخشی از کالبد او شده بود. تغییر دادن آن صدا در دهه 2000 میلادی، برای او مانند این بود که یک انسان سالم بخواهد حنجره طبیعی خود را با حنجره شخص دیگری عوض کند.
علاوه بر این، آن صدای مکانیکی به طرز عجیبی با شخصیت علمی او همخوانی داشت. لحن فاقد احساس و رباتیک، به صحبتهای او درباره مباحث سنگینی چون زمان موهومی، آنتروپی سیاهچالهها و مرگ ستارگان، وزن و ابهتی پیامبرگونه میبخشید. صدای او از جنس این دنیا نبود؛ دقیقاً مانند افکارش که همیشه در میلیاردها سال نوری دورتر پرسه میزد.

داستان تکنولوژی تبدیل متن به گفتار و استیون هاوکینگ، روایتی خیرهکننده از تلاقی محدودیتهای جسمانی و نبوغ تکنولوژیک است. تکامل TTS از دستگاههای غولپیکر وودر تا دستیارهای هوشمند امروزی، نشاندهنده عطش بیپایان انسان برای بخشیدن توانایی «ارتباط» به ماشینهاست. اما در این میان، انتخاب استیون هاوکینگ به ما درس بزرگتری میدهد.
او به ما نشان داد که تکنولوژی تنها مجموعهای از قطعات فلزی و کدهای کامپیوتری نیست. وقتی انسانی برای بقا و ارتباط با جهان به یک ماشین وابسته میشود، آن ماشین با تمام نقصها و لحن رباتیکش، به امتداد روح آن انسان تبدیل میگردد. صدای استیون هاوکینگ شاید دستاورد مهندسیِ دنیس کلات در دهه 1980 بود، اما هویتی که به آن صدا جان میبخشید، متعلق به مردی بود که از روی یک صندلی چرخدار، مرزهای کیهان را برای ما ترسیم کرد. صدایی که برای همیشه در تاریخ علم، با لهجه عجیب و آمریکاییاش، جاودانه شد.