الگوریتم جدید برای مقابله با «توهمات» هوش مصنوعی

جدیدترین مطالب

فصلنامه «گام سوم» شماره ۴ و ۵

در این نوبت از فصلنامه گام سوم دو شماره «۴ تابستان» و «۵ پاییز» به‌طور همزمان منتشر شده است که همچون شماره‌های پیشین شامل مقالات متنوعی در موضوعات اقتصاد، آینده مشاغل، خانواده، نوشتار و سیاست به همراه دو پرونده با موضوعات داغ روز می‌شود.

۱۳ رفتار غیرمعمول مدیران موفق که شاید شما را شگفت‌زده کند!

اداره‌ی یک شرکت کاری پر استرس است، به‌ویژه اگر یکی از بزرگ‌ترین شرکت‌های جهان را مدیریت کنید. این میزان بالای استرس می‌تواند به عادت‌های روزانه‌ی شدید و غیرمعمول منجر شود. در ادامه، برخی از عجیب‌ترین روال‌های روزانه‌ی مدیرعامل‌ها آمده است.

چرا نترسیدن ‌شرط یافتن پاسخ‌های مهم است؟

فهمیدم سلامت روانم بهتر شده است، وقتی به خارج از کشور رفتم و دیگر دچار شوک فرهنگی نشدم.من بخش زیادی از خودم را در دخترانم می‌بینم. آن‌ها مشتاق‌اند وظایفشان را درست انجام دهند و اگر احساس کنند چیزی ممکن است «نامناسب» به نظر برسد، ناراحت و آشفته می‌شوند.

داستان های علمی تخیلی؛ پلی میان تخیل و ارتباط علمی مؤثر

وقتی وارد دوره دکترایم شدم، می‌دانستم به همان اندازه که از انجام پژوهش لذت می‌برم، عاشق انتقال علم به عموم مردم نیز هستم. اما خیلی زود پژوهش بیشتر وقت مرا بلعید. اغلب تا نیمه‌های شب کار می‌کردم و بیشتر آخر هفته‌هایم صرف آماده‌سازی آزمایش‌ها، گردآوری داده‌ها یا جبران عقب‌ماندگی از انبوه پایان‌ناپذیر مقالات علمی روی میزم می‌شد.

پربازدیدترین مطالب

جهان خسته از نابرابری و ثروتمندان

با تشدید بحران‌های محیط‌زیستی، اجتماعی و انسانی، جهان دیگر قادر به تحمل دو چیز نیست: ۱- هزینه‌های نابرابری اقتصادی ۲- جامعه ثروتمندان. کاهش نابرابری اقتصادی به‌تنهایی درمانی برای این بحران‌های جهانی نیست، اما نقش محوری در حل همه آنها دارد.

روند ۱۰۰ ساله تغییر اشتغال زنان به روایت تصویر

نگاهی به تصاویر صد سال گذشته نشان می‌دهد که زنان چگونه از جنگ‌های جهانی تا قرن ۲۱، توانستند مرزهای شغلی را جابه‌جا کنند و مسیر جدیدی در تاریخ نیروی کار رقم بزنند.

هوش مصنوعی و سیاست: چگونه بفهمیم چه چیزی و چه کسی واقعی است؟

اگر خوش‌شانس باشیم، فناوری‌های جدید فقط باعث سردرگمی مختصری می‌شوند. وگرنه، حوزه سیاسی ما می‌تواند برای همیشه تغییر کند.

نویسنده: بیلی پریگو مترجم: نیوشا امیدی ۲۷ مرداد ۱۴۰۴

الگوریتم جدید برای مقابله با «توهمات» هوش مصنوعی

یکی از مشکلات پایدار ابزارهای هوش مصنوعی مولد امروزی، مانند ChatGPT، این است که اغلب با اطمینان کامل اطلاعات نادرست ارائه می‌کنند. دانشمندان علوم رایانه این رفتار را «توهم» می‌نامند و آن را یکی از موانع اصلی کاربردپذیری هوش مصنوعی می‌دانند. توهم‌ها باعث بروز برخی اشتباهات عمومی شرم‌آور شده‌اند.

این مطلب نوشته‌ای است از بیلی پریگو که در تاریخ ۱۹ ژوئن ۲۰۲۴ با عنوان
Scientists Develop New Algorithm to Spot AI
در وب‌سایت New York Times منتشر شده است.

توهم‌ها باعث بروز برخی اشتباهات عمومی شرم‌آور شده‌اند. در فوریه، دادگاهی ایرکانادا را مجبور کرد تخفیفی را که چت‌بات پشتیبانی مشتری آن به اشتباه به یک مسافر پیشنهاد داده بود، بپذیرد. در ماه مه، گوگل ناچار شد در قابلیت جدید جست‌وجوی «مرورهای هوش مصنوعی» خود تغییراتی ایجاد کند، پس از آنکه این بات به برخی کاربران گفته بود خوردن سنگ بی‌خطر است. و در ژوئن گذشته، دو وکیل توسط یک قاضی آمریکایی ۵ هزار دلار جریمه شدند، پس از آنکه یکی از آن‌ها اعتراف کرد برای نگارش یک لایحه دادگاهی از ChatGPT کمک گرفته است. او به این موضوع اذعان کرد زیرا چت‌بات ارجاعاتی جعلی به متن افزوده بود که به پرونده‌هایی اشاره داشت که هرگز وجود نداشتند.

اما خبر خوب برای وکلای کم‌کار، غول‌های جست‌وجوی کند و خطوط هوایی خطاکار این است که دست‌کم برخی از انواع توهم‌های هوش مصنوعی ممکن است به‌زودی به گذشته بپیوندند. پژوهش جدیدی که روز چهارشنبه در مجله علمی معتبر «نیچر» منتشر شد، روشی تازه را برای تشخیص زمان‌هایی که یک ابزار هوش مصنوعی احتمالاً دچار توهم شده است، توصیف می‌کند. روشی که در این مقاله شرح داده شده، قادر است در حدود ۷۹ درصد موارد بین پاسخ‌های درست و نادرست تولیدشده توسط هوش مصنوعی تمایز قائل شود؛ این رقم حدود ۱۰ درصد بالاتر از سایر روش‌های پیشرو است. هرچند این روش تنها یکی از چندین علت بروز توهم در هوش مصنوعی را پوشش می‌دهد و به حدود ۱۰ برابر توان پردازشی بیشتری نسبت به یک گفت‌وگوی استاندارد با چت‌بات نیاز دارد، اما نتایج آن می‌تواند مسیر را برای سیستم‌های هوش مصنوعی قابل‌اعتمادتر در آینده نزدیک هموار کند.

«امید من این است که این کار راه‌هایی را برای به‌کارگیری مدل‌های زبانی بزرگ در حوزه‌هایی بگشاید که در حال حاضر امکان استفاده از آن‌ها وجود ندارد – جایی که اندکی قابلیت اطمینان بیشتر از آنچه اکنون داریم، موردنیاز است.» این را سباستین فارکار، یکی از نویسندگان این پژوهش و پژوهشگر ارشد در دپارتمان علوم رایانه دانشگاه آکسفورد، جایی که این تحقیق انجام شده، و همچنین دانشمند پژوهشی در تیم ایمنی گوگل دیپ‌مایند، می‌گوید. درباره وکیلی که به دلیل اتکا به توهم ChatGPT جریمه شد، فارکار می‌گوید: «این می‌توانست او را نجات دهد.»

اصطلاح «توهم» در دنیای هوش مصنوعی به واژه‌ای رایج تبدیل شده، اما هم‌زمان بحث‌برانگیز نیز هست. نخست اینکه این اصطلاح تلویحاً نشان می‌دهد مدل‌ها نوعی تجربه ذهنی از جهان دارند، که بیشتر دانشمندان علوم رایانه با آن موافق نیستند. این اصطلاح همچنین القا می‌کند که توهم‌ها یک ایراد قابل‌حل هستند، نه یک مشکل بنیادی و شاید غیرقابل‌حذف در مدل‌های زبانی بزرگ (که گروه‌های مختلف پژوهشگران هوش مصنوعی درباره پاسخ به این پرسش اختلاف نظر دارند). مهم‌تر از همه، این واژه دقیق نیست و چندین دسته مختلف از خطا را در بر می‌گیرد.

تیم فارکار تصمیم گرفت بر یک دسته خاص از توهم‌ها تمرکز کند که آن‌ها آن را «ساختگی‌سازی» (confabulation) می‌نامند. این زمانی رخ می‌دهد که یک مدل هوش مصنوعی در پاسخ به یک پرسش واقعی، پاسخ‌های اشتباه و ناسازگار تولید کند؛ در مقابلِ ارائه یک پاسخ اشتباه اما سازگار، که بیشتر احتمال دارد ناشی از مشکلات موجود در داده‌های آموزشی مدل، دروغ‌گویی مدل به‌منظور کسب پاداش، یا نقص‌های ساختاری در منطق یا استدلال مدل باشد. فارکار می‌گوید تعیین درصد دقیق ساختگی‌سازی‌ها در میان کل توهم‌های هوش مصنوعی دشوار است، اما احتمالاً سهم بزرگی دارند. او می‌افزاید: «این واقعیت که روش ما، که صرفاً ساختگی‌سازی‌ها را شناسایی می‌کند، تأثیر چشمگیری بر بهبود کلی صحت پاسخ‌ها دارد، نشان می‌دهد که تعداد زیادی از پاسخ‌های نادرست از همین ساختگی‌سازی‌ها ناشی می‌شوند.»

روش‌شناسی

روش به‌کاررفته در این مطالعه برای تشخیص اینکه آیا یک مدل احتمالاً دچار ساختگی‌سازی شده، نسبتاً ساده است. نخست، پژوهشگران از یک چت‌بات می‌خواهند چند پاسخ (معمولاً بین پنج تا ده) به یک دستور یا پرسش یکسان تولید کند. سپس، آن‌ها از یک مدل زبانی دیگر برای خوشه‌بندی پاسخ‌ها بر اساس معنای آن‌ها استفاده می‌کنند. برای مثال، «پاریس پایتخت فرانسه است» و «پایتخت فرانسه پاریس است» در یک گروه قرار می‌گیرند، زیرا معنای یکسانی دارند، حتی اگر عبارت‌بندی‌شان متفاوت باشد. اما «پایتخت فرانسه رم است» در گروهی دیگر قرار می‌گیرد.

سپس پژوهشگران عددی را محاسبه می‌کنند که آن را «آنتروپی معنایی» می‌نامند؛به عبارت دیگر، معیاری برای سنجش شباهت یا تفاوت معنای پاسخ‌ها. اگر پاسخ‌های مدل همگی معانی متفاوتی داشته باشند، امتیاز آنتروپی معنایی بالا خواهد بود که نشان‌دهنده ساختگی‌سازی است. اگر پاسخ‌ها همگی معنای یکسان یا مشابهی داشته باشند، امتیاز آنتروپی معنایی پایین خواهد بود که نشان می‌دهد مدل پاسخی سازگار ارائه کرده و بنابراین احتمال ساختگی‌سازی پایین است. (البته ممکن است پاسخ همچنان به‌طور سازگار اشتباه باشد، اما این نوعی دیگر از توهم است؛ مثلاً ناشی از داده‌های آموزشی مشکل‌دار.)

پژوهشگران گفتند که روش شناسایی آنتروپی معنایی عملکرد بهتری نسبت به چندین رویکرد دیگر در تشخیص توهم‌های هوش مصنوعی داشته است. این روش‌ها شامل «آنتروپی ساده» بود که تنها تفاوت در عبارت‌بندی جمله را تشخیص می‌دهد نه تفاوت در معنا؛ روشی به نام «P(True)» که از خود مدل می‌خواهد صحت پاسخ‌هایش را ارزیابی کند؛ و رویکردی به نام «رگرسیون تعبیه‌ای» که در آن یک مدل هوش مصنوعی برای پاسخ درست به پرسش‌های خاص آموزش داده می‌شود. هرچند رگرسیون تعبیه‌ای در اطمینان از پاسخ دقیق هوش مصنوعی به پرسش‌های مربوط به حوزه‌های مشخص مؤثر است، اما وقتی نوع پرسش‌ها تغییر می‌کند، ناکام می‌ماند. یک تفاوت مهم میان روشی که در این مقاله توصیف شده و رگرسیون تعبیه‌ای این است که روش جدید به داده‌های آموزشی تخصصی حوزه‌محور نیاز ندارد؛برای مثال، لازم نیست مدلی برای پاسخ درست به پرسش‌های علمی آموزش داده شود تا بتواند احتمال توهم را در پاسخ به پرسش‌های علمی تشخیص دهد. بنا بر این مقاله، این ویژگی باعث می‌شود روش جدید در حوزه‌های مختلف اثر مشابهی داشته باشد.

فارکار ایده‌هایی برای چگونگی استفاده از آنتروپی معنایی در کاهش توهم‌ها در چت‌بات‌های پیشرو دارد. او می‌گوید این روش می‌تواند به‌صورت نظری به OpenAI امکان دهد دکمه‌ای به ChatGPT اضافه کند که کاربر با کلیک روی یک پاسخ، امتیاز اطمینان آن را ببیند و با اعتماد بیشتری درباره صحت نتیجه تصمیم بگیرد. او همچنین می‌گوید این روش می‌تواند به‌طور پنهانی در ابزارهای دیگری که از هوش مصنوعی در محیط‌های حساس استفاده می‌کنند، تعبیه شود؛ جایی که مبادله سرعت و هزینه با دقت بالاتر ارزشمندتر است.

در حالی که فارکار نسبت به ظرفیت این روش برای بهبود قابلیت اطمینان سیستم‌های هوش مصنوعی خوش‌بین است، برخی کارشناسان در مورد بزرگ‌نمایی اثر فوری آن هشدار می‌دهند. آروین نارایانان، استاد علوم رایانه در دانشگاه پرینستون، ضمن اذعان به ارزش این پژوهش، بر چالش‌های ادغام آن در کاربردهای دنیای واقعی تأکید می‌کند. او می‌گوید: «فکر می‌کنم این یک پژوهش خوب است... [اما] مهم است که بیش از حد درباره ظرفیت چنین پژوهش‌هایی هیجان‌زده نشویم. میزان توانایی ادغام این روش در یک چت‌بات عملیاتی هنوز بسیار نامشخص است.»

نارایانان یادآور می‌شود که با عرضه مدل‌های بهتر، میزان بروز توهم‌ها (نه فقط ساختگی‌سازی‌ها) رو به کاهش بوده است. با این حال، او نسبت به از بین رفتن کامل این مشکل در آینده نزدیک بدبین است. او می‌گوید: «در کوتاه‌مدت تا میان‌مدت بعید می‌دانم توهم به‌طور کامل حذف شود. به‌نظر من این پدیده تا حدی ذاتیِ نحوه کارکرد مدل‌های زبانی بزرگ است.» او خاطرنشان می‌کند که با افزایش توانایی مدل‌های هوش مصنوعی، مردم خواهند کوشید از آن‌ها برای انجام وظایف هرچه دشوارتر استفاده کنند، جایی که احتمال شکست بیشتر است. او می‌گوید: «همیشه مرزی وجود خواهد داشت بین آنچه مردم می‌خواهند از این مدل‌ها استفاده کنند و آنچه آن‌ها می‌توانند با اطمینان انجام دهند. این مسئله به همان اندازه که یک مشکل فنی است، یک مشکل جامعه‌شناختی هم هست. و فکر نمی‌کنم راه‌حل فنی تمیز و ساده‌ای برای آن وجود داشته باشد.»

درباره نویسنده:
بیلی پریگو خبرنگار فناوری (Tech Correspondent) در مجلهTIME است.

منبع: New York Times

جدیدترین مطالب

فصلنامه «گام سوم» شماره ۴ و ۵

۱۳ رفتار غیرمعمول مدیران موفق که شاید شما را شگفت‌زده کند!

چرا نترسیدن ‌شرط یافتن پاسخ‌های مهم است؟

داستان های علمی تخیلی؛ پلی میان تخیل و ارتباط علمی مؤثر

پربازدیدترین مطالب

جهان خسته از نابرابری و ثروتمندان

روند ۱۰۰ ساله تغییر اشتغال زنان به روایت تصویر

هوش مصنوعی و سیاست: چگونه بفهمیم چه چیزی و چه کسی واقعی است؟

الگوریتم جدید برای مقابله با «توهمات» هوش مصنوعی

روش‌شناسی

مطالب مرتبط

چگونه شرکت‌ها کارکنان خود را برای عصر هوش مصنوعی آماده کنند؟

فلسفه در عصر هوش مصنوعی حیاتی است!

ترفند ساده گوگل برای شناسایی ساعات طلایی بهره‌وری شما!