بهترین روش افزایش فهم و شناخت ما از مدلهای زبانی مبتنیبر هنش چیست؟
هرچند توانایی مدلهای زبانی بزرگ مانند چتجیپیتی (ChatGPT)در تولید و پردازش متنی، حل مسائل ریاضی، کدنویسی و استدلال درباره موضوعات مختلف بسیار زبانزد شده است؛ اما همچنان مکانسیم پنهانشده پشت موفقیت و شکست آنها، حتی برای سازندگان آن، رازآلود باقی مانده است. علیرغم فهم ناقص ما از عملکرد این سیستمها، مدلهای زبانی بزرگ در آستانه استفاده وسیع در موتورهای جستجو، ابزارهای نوشتن و دیگر محصولات تجاری هستند، از این رو درک درست و دقیق این سیستمها ضروری است. نویسندگان این مقاله تلاش دارند تا ضرورت بهبود درک ما از نحوه یادگیری و تصمیمگیری این سیستمها را نشان دهند. یکی از روشهای استاندارد ارزیابی عملکرد سیستمهای مبتنیبر یادگیری ماشین، سنجش میزان دقت آنها بر اساس معیارهایی است که توسط انسانها تعیین شده است. در واقع، با انجام آزمایشهایی که توسط انسان طراحی شدهاند، می توان دقت و عملکرد سیستمهای یادگیری ماشین را با دقت و عملکرد انسان مقایسه کرد. گرچه با این معیارها برخی از مدلهای زبانی بزرگ مانند چتجیپیتی به لحاظ عملکردی در بسیاری از وظایف به سطح انسان نزدیک شدهاند، اما این تضمینکنندهی این نیست که آن سیستم در تمامی وظایف مانند انسان عمل میکند. در نتیجه این معیارهای ارزیابی نمیتوانند بهطور قطعی پیشبینی کنند که یک سیستم یادگیری ماشین با داشتن دقت بالا در یک معیار، در وظایف دیگر هم دقت بالایی داشته باشد و قابل تعمیم باشد. بنابراین، نویسندگان این مقاله معتقدند بهجای صرف تکیه بر معیارهای عملکرد برای ارزیابی مدلهای زبانی مبتنیبر یادگیری ماشین، پژوهشگران باید از روشهای روانشناختی استفاده کنند تا به درک بهتری از این سیستمها برسند.
ارزیابی عملکرد سیستمهای مبتنیبر یادگیری ماشین بهصورت معمول با سنجش دقت آنها و مقایسه با عملکرد انسان انجام میشود. با در نظر گرفتن این معیارهای عملکردی، مدلهای زبانی مانند چتجیپیتی در برخی وظایف به سطح انسان نزدیک شدهاند، اما این نمیتواند تضمینکنندهی عملکرد شبیه به انسان در تمامی وظایف باشد. بنابراین، نویسندگان این مقاله معتقدند بهجای تکیه بر معیارهای عملکرد، باید از روشهای روانشناختی استفاده کرد تا به درک بهتری از این سیستمها برسیم.
رویکرد روانشناختی در جهت شناخت مدلهای زبانی مبتنیبر هوش مصنوعی
به دلایلی که در ابتدای مطلب ذکر شد، بهمنظور درک چگونگی عملکرد، استدلال، سوگیریهای شناختی و سایر خصوصیات روانشناسی مهم در مدلهای زبانی مبتنیبر هوش مصنوعی، پژوهشگران این مقاله با چتجیپیتی بهعنوان یک شرکتکننده در آزمایشهای روانشناسی رفتار کردند و این گامی جدید در جهت شناخت این سیستمها محسوب میشود. اگر ثابت شود که ایندست مطالعات منجر به درک عمیقتری از مدلهای زبانی میشوند، میتواند باعث تحولی بزرگ در نحوه ارزیابی و درک سیستمهای هوش مصنوعی شوند. البته عدم دستیابی کامل به این هدف قابل درک است؛ زیرا دانشمندان رفتاری بیش از ۱۰۰ سال است که از آزمایشهایی مشابه استفاده میکنند تا چگونگی انجام این وظایف توسط انسانها را درک کنند، اما هنوز راه زیادی برای طیکردن دارند. در این مطالعه دو مجموعه آزمایش انجام شد. در هر دو مجموعه چتجیپیتی بهعنوان شرکتکننده در نظر گرفته شد.
سری اول آزمایشات انجامشده بر روی ChatGPT
در مجموعه اول آزمایشات، پژوهشگران از انگارههای روانشناسی استفاده کردند این. این انگارهها برای ارزیابی استدلال با احتمالات، استدلال شهودی در برابر استدلال هدفمند، استدلال علّی و سایر ویژگیهای شناختی مورد استفاده قرار میگیرند. این انگارهها بهعنوان ورودی متنی به چتجیپیتی داده شد. هر مثال شامل یکسری گزینه بود که خواننده (در اینجا چتجیپیتی) باید از بین آنها انتخاب میکرد. برای نمونه یکی از این انگارهها بهشکل زیر بود و از چتجیپیتی خواسته شد تا یک کارت انتخاب کند (استدلال انتخاب کارت): چهار کارت پشتورو روی میز قرار دارد. روی هرکارت یک عدد و پشت آن یک حرف نوشته شده است. کارتهای روی میز A, K, ۴, ۷. را نشان میدهند. پرسشی که در اینجا مطرح شد، این است که کدام کارتها باید برگردانده شوند تا بتوان تأیید کرد که گزاره «در صورتی که روی کارت حرف صدادار وجود داشته باشد، آنگاه شماره مقابل آن باید یک عدد زوج باشد.» درست است؟ چتجیپیتی پاسخ داد: «کارتی که A و ۷ را نشان میداد.» (پاسخ درست)
از ۱۲ مثالی که بهعنوان پرسش از چتجیپیتی پرسیده شد، ۶ پاسخ درست و ۶ پاسخ نادرست بود. این خطا درمورد انسان نیز ممکن است.
نتایج بدستآمده از سری اول آزمایشات
پاسخهایی که چتجیپیتی میدهد بسیار وابسته به ورودیهایی است که دریافت میکند. برای مثال، اگر ترتیب اعلام کارتها عوض شود، جواب متفاوتی میدهد. درواقع، پاسخهای ارائهشده توسط این مدل، بهشدت حساس به شکل ورودیهایی است که به آن داده میشود و اگر ورودیهایی که به مدل داده میشود، کمی تغییر کند، پاسخهای آن بهشدت تحت تاثیر قرار میگیرند و ممکن است کاملا متفاوت باشند. پاسخ انسان نیز بسیار وابسته به شرایط است اما بهشکلی متفاوت از عملکرد چتجیپیتی.
همانطور که دانش انسانها بر اساس تجربه، ذخیره و ارتباط بین آنها شکل میگیرد و هنگام نیاز آنها را بازیابی میکنند، سیستمهای هوش مصنوعی (درمورد چتجیپیتی توکنهای متنی) نیز با تعداد بسیار زیادی نمونه مواجه هستند و پاسخی سازمانیافتهرا بر اساس آنها میسازند. گرچه شاید هم انسان و هم این سیستمها از ایجاد همبستگی بین مثالها و رویدادها بهره ببرند، اما بهنظر از استراتژیهای متفاوتی استفاده میکنند. برای مثال، در این آزمایش، انسانها برای استدلالکردن و پاسخدادن به حافظه فعال (working memory) خود متکی میشوند، اما چتجیپیتی برای پاسخ و استدلال نیازی به آن ندارد. در یک تعریف کلی حافظه فعال یا working memory در واقع همان حافظه کوتاهمدت میباشد که در آن پردازش اطلاعات اتفاق میافتد. حافظه فعال بخشی از سیستم شناختی میباشد که مسئول حفظ اطلاعات آنی، دستکاری واستفاده از آن است.
سری دوم آزمایشات انجامشده بر روی ChatGPT
در مجموعه دیگری از آزمایشها، پژوهشگران از پرسمانهایی استفاده کردند که طراحی شده بودند و در مجموعه دادههای آموزشی چتجیپیتی وجود نداشتند. نتایج این آزمایشات متفاوت بود. چتجیپیتی در برخی موارد عملکرد بهتر و در بعضی دیگر (خصوصا در تصمیمگیریهای استدلال علّی) عملکرد ضعیفتری نسبت به انسان در تصمیمگیری داشت. مشخص نیست که آیا بهتر است چتجیپیتی را یک «شرکتکننده» در نظر بگیریم یا میانگین تعدادی از شرکتکنندگان در حال حاضر نامشخص است که کدام جنبه از پاسخهای سیستمهای هوش مصنوعی باید اندازهگیری و با انسان مقایسه شود.
آیا مطالعاتی که سیستمهای هوش مصنوعی را بر اساس معیارهای روانشناختی ارزیابی میکند، به نسبت سنجش سنتی بر اساس معیارهای عملکردی، به فهم بهتر ما از رفتار مدلهای زبانی کمک میکند؟
به دلیل تفاوتهای بسیار زیاد بین مدلهای زبانی و انسانها بهعنوان موضوعات مورد بررسی مطالعات روانشناختی، این هدف ممکن است با چالشهای بسیاری روبهرو شود؛ اما ایندست پژوهشها گامهای اولیه ارزشمندی برای دستیابی به این هدف است. مدلهای زبانی مثل چتجیپیتی برای پیشبینی توکنهای بعدی (کلمات یا بخشهایی از کلمات) در یک پرسش طراحی و آموزش داده شدهاند. آنها بر روی یک مجموعه داده بسیار بزرگ آموزش داده شدهاند و از صدها بیلیون پارامتر قابل آموزش استفاده میکنند تا با توجه به مدلهای دقیق توزیع آماری توکنها و همبستگیهای بین آنها، این پیشبینیها را انجام دهند. ممکن است انسانها هم مانند این الگوریتم عمل کنند و به ذخیره وقایع بهمنظور ساخت دانش بپردازند، اما بازیابی این وقایع توسط انسانها با خطا و اشتباهات زیادی همراه است.
آیا پاسخهای مدلهای زبانی بهدلیل فرایندهایی، مانند آنچه توسط انسانها استفاده میشود است؟
در حال حاضر، هنوز یک سوال بیجواب است که آیا پاسخهای مدلهای زبانی بزرگ به دلیل فرایندهایی، مانند آنچه انسانها استفاده میکنند، است یا خیر. اگر اینطور نباشد، تلاش برای درک مدلهای زبانی با رفتاری مشابه انسانها، با رویکرد روانشناختی، قطعاً شکست خواهد خورد. به عبارت دیگر، اگر فرایندهای مورد استفاده مدلهای زبانی بزرگ بهطور کامل با فرایندهای مورد استفاده انسانها متفاوت باشد، رویکرد روانشناختی برای درک مدلهای زبانی بزرگ ناموفق است.
فرضیاتی که روانشناسان درباره نحوه استفاده انسانها از تواناییهای شناختی خود دارند، ممکن است بر روی مدلهای زبانی مانند GPT-3 قابل اعمال نباشد. پژوهشگران باید مطالعاتی را با توجه به خصوصیات منحصر به فرد مدلهای زبانی طراحی کنند تا بهتر متوجه شوند که این مدلها چگونه کار میکنند.
استفاده از اصطلاحات شناختی انسانی برای توصیف سیستمهای هوش مصنوعی میتواند باعث تفسیر اشتباه از نتایجی که بدست میآوریم، شود. برای مثال، در آزمایشهای روانشناسی، ما از اصطلاحاتی مانند «تأسف» یا «ترجیح» و «اجتناب از ریسک» برای توصیف رفتار انسانها استفاده میکنیم. در حالی که مشخص است که این ویژگیها ناشی از شرایط واقعی زندگی هستند و نه فقط حاصل کلماتی که به آنها آموزش داده شده است؛ از این رو، آیا میتوان به همین شکل انسانگونه، سیستمهای هوش مصنوعی را با صحبتکردن در مورد «تصمیمگیری»، «جستجوی اطلاعات»، «ترجیحات»، «تأسف» یا «اجتناب از ریسک» شناخت؟ باتوجه به این که این مدلها به جز متنهایی که بر اساس آنها آموزش دیدهاند، هیچ ارتباطی با دنیای واقعی ندارند، آیا استفاده از این اصطلاحات برای توصیف آنها منطقی است؟
اینها سوالهایی که است بیجواب مانده اما مقالاتی از ایندست گامی ارزشمند در جهت پاسخ به آنهاست.
در حال حاضر، انتظار میرود که مدلهای زبانی به تدریج پیچیدهتر شوند و به نزدیکی بیشتری به گفتارانسانی برسند، به ویژه اگر به آنها اجازه داده شود با محیطهای واقعی یا شبیهسازیهای محیطهای واقعی تعامل کنند. بهنظر میرسد که هر چقدر این سیستمها به پیچیدهتر شوند، توانایی ما در درک آنها کاهش خواهد یافت. با توجه به این مسائل، آیا میتوان جامعهمان را به سیستمهایی که قادر به درکشان نیستیم، واگذار کنیم؟
منبع
مقاله “Probing the psychology of AI models” از مجله معتبر PNAS