از افسانه تا واقعیت؛ با ChatGPT خشن باشید تا دقیقتر جواب بگیرید!
مدتی قبل در برخی اخبار نوشته شد که مطالعات انجام شده نشان میدهد لحن «خشن و بیادب» با چتباتهای هوش مصنوعی باعث افزایش دقت آنها میشود و باعث بهبود عملکرد آنها میشود. اما آیا واقعا خشونت زبانی باعث بهتر جواب گرفتن از سرویسهای هوش مصنوعی میشود؟ مطالعات در گستره کوچک میگویند که در برخی آزمایشهای جدید لحن همراه با خشونت زبانی کمی افزایش دقت در سرویسهای هوش مصنوعی را به همراه داشته است، اما نتایج ناسازگارند و علت اصلی به احتمال زیاد تغییر در شکل نوشتن پرسش (مختصرتر، مستقیمتر، امری) است نه صرفا خود خشونت زبانی.
مدتی قبل در برخی اخبار نوشته شد که مطالعات انجام شده نشان میدهد لحن «خشن و بیادب» با چتباتهای هوش مصنوعی باعث افزایش دقت آنها میشود و باعث بهبود عملکرد آنها میشود. اما آیا واقعا خشونت زبانی باعث بهتر جواب گرفتن از سرویسهای هوش مصنوعی میشود؟
مطالعات در گستره کوچک میگویند که در برخی آزمایشهای جدید لحن همراه با خشونت زبانی کمی افزایش دقت در سرویسهای هوش مصنوعی را به همراه داشته است، اما نتایج ناسازگارند و علت اصلی به احتمال زیاد تغییر در شکل نوشتن پرسش (مختصرتر، مستقیمتر، امری) است نه صرفا خود خشونت زبانی؛ و از همه مهمتر این روش پایدار نیست و پیامدهای آسیبزا دارد، چرا که این سرویسها از ارتباط با کاربران به عنوان منابع آموزشی استفاده میکنند و این روند میتواند نوع پاسخگویی چتباتها را هم تحت تاثیر قرار دهد.
در این مطالعه، پژوهشگران مجموعهای از پرسشهای استاندارد تهیه کردند (مثل سوالات چهارگزینهای در زمینههایی مثل ریاضی، علوم و تاریخ. هدف این بود که سوالها واضح و پاسخشان قابل اندازهگیری باشد تا بتوان دقت مدل را محاسبه کرد.) سپس محققان هر سوال را در پنج لحن متفاوت بازنویسی کردند تا طیف کاملی از رفتار کاربر را شبیهسازی کنند:
-
بسیار مودب (مثلا: «لطفا در صورت امکان پاسخ این پرسش را برایم توضیح میدهی؟»)
-
مودب (مثلا: «میتونی لطفا جواب بدی؟»)
-
خنثی (فقط متن سؤال بدون هیچ لحن خاصی)
-
بیادب (مثلا: «زودتر جواب بده!»)
-
بسیار بیادب (مثلا شامل فریاد یا کلمات تند: «حالا جواب درست رو بگو زود!»)
بعد از این، همان سوالها با هر پنج لحن به مدل GPT-4o داده شد؛ در نتیجه مدل برای هر سوال پنجبار پاسخ داد. محققان سپس بررسی کردند که کدام لحن باعث میشود مدل پاسخ دقیقتری بدهد. عددی که در گزارش آمد چنین بود:
وقتی سوالها با لحن خیلی بیادب نوشته شده بودند، میانگین دقت پاسخها حدود ۳ تا ۵ درصد بالاتر از زمانی بود که همان سوالها با لحن خیلی مودب مطرح شده بودند.
به زبان سادهتر یعنی اگر مدل مثلا در حالت مودب ۸۰ درصد درست جواب داده، در حالت بیادب حدود ۸۴ درصد درست جواب داده است.
از نظر آماری، این آزمایش طوری طراحی شده بود که هر سوال در همه حالتها امتحان شود (به این روش آزمایش دروننمونهای میگویند). این یعنی برای مقایسه هر دو لحن، دادهها از خود همان سوالها گرفته شده و بنابراین تفاوت کوچک هم قابل بررسی آماری است. با این حال این مطالعه چند محدودیت جدی دارد:
-
تعداد سوالها کم بود (حدود ۵۰ سوال)، پس ممکن است این نتیجه فقط در همین مجموعه قابل بررسی باشد، نه بیشتر.
-
فقط از یک مدل خاص (ChatGPT-4o) استفاده شد، در حالیکه مدلهای دیگر شاید چنین رفتاری نداشته باشند.
-
نوع سؤالها فقط سوالات چند گزینهای بود، نه مکالمات واقعی یا کارهای پیچیدهتر مثل نوشتن متن یا ترجمه.
بنابراین، نتیجه کلی پژوهش این نیست که «بیادب بودن جواب بهتری میدهد!»، بلکه فقط میگوید: در یک مجموعه محدود از پرسشها و با یک مدل خاص، لحن خشن باعث شده مدل پاسخ دقیقتری بدهد، اما این نتیجه هنوز قطعی و قابل تعمیم نیست.
بسیاری میگویند که دلیل این تفاوت به ساختار جملهها برمیگردد، نه خود بیادبی. چون جملههای خشن معمولاً کوتاه، امری و مستقیماند و همین ویژگیها ممکن است مدل را در حالت پاسخدهی «دقیقتر» قرار داده باشند.
وقتی نتایج این تحقیق منتشر شد، رسانهها بهسرعت به سراغ آن رفتند و با تیترهای درشت نوشتند «بیادب بودن با ChatGPT باعث میشود جواب بهتری بگیرید!» این تیترها جذاب بودند و سریع پخش شدند، چون بر خلاف انتظار مردم بود!
اما این تیترها فقط به بخش هیجانانگیز ماجرا اشاره کردند و بخش مهمتر یعنی «جزییات و محدودیتهای تحقیق» را نادیده گرفتند. مثلا کسی اشاره نکرد که نوع لحنها و نحوه اندازهگیری «بیادبی» در چارچوب کنترلشده علمی بوده، نه فحاشی یا توهین واقعی. اما وقتی کاربران عادی این خبر را میخواندند، چنین برداشت میکردند که اگر با چتبات با لحن تند یا پرخاشگرانه حرف بزنند، همیشه پاسخ دقیقتر میگیرند.
باید توجه داشت که مدلهای زبانی فقط از دادهها و الگوریتمها یاد نمیگیرند، بلکه از رفتار کاربران هم اثر میپذیرند. به همین دلیل هرچه کاربران با لحن خاصی با این سیستمها صحبت کنند، در طول زمان آن لحن میتواند به بخشی از «شخصیت زبانی» مدل تبدیل شود.
در تعامل با چتباتهای هوش مصنوعی، تعامل گفتوگومحور است. این یعنی مرز میان فرمان دادن و مکالمه کردن در حال محو شدن است. در نتیجه، کاربران باید درک کنند که لحن و نوع صحبت آنها میتواند بر پاسخها و حتی آموزشهای بعدی مدل اثر بگذارد.