این گزارش بر اساس یکی از جدیدترین مقالات گوگل در حوزه پزشکی و هوش مصنوعی نوشته شده است.
مدلهای پردازش زبانی
مدلهای زبانی بزرگ و سیستمهای هوش مصنوعی مبتنیبر آن (مانند ChatGPT) در حال گسترش و پیوند با حوزههای مختلف، از جمله پزشکی هستند. در حال حاضر، مدلهای زبانی بزرگ (LLMs) با معماری GPT-3.5، در درک و تولید زبان طبیعی عملکرد قابل توجهی دارند، اما استانداردهای لازم برای استفاده این مدلها در برنامههای پزشکی و بالینی بسیار بالاست. بهتازگی مقالهای حیرتانگیز و جدید توسط گوگل درخصوص تلفیق پزشکی با هوش مصنوعی منتشر شده است. در این مقاله گوگل یک چتبات را با هوش مصنوعی برای پاسخدهی به سوالات رایج پزشکی پدید آورده است.
ارزیابی عملکرد این مدلها در دانش پزشکی معمولاً بر اساس ارزیابی خودکار روی مجموعهدادههای محدود انجام میشود. هیچ استانداردی برای ارزیابی پیشبینیها و استدلالهای مدل در گستره وسیعی از وظایف وجود ندارد. از این رو، به منظور ارزیابی دقت این مدلها در پاسخ به سوالات پزشکی، یک بنچمارک (معیاری قابل اندازهگیری برای سنجش عملکرد هوش مصنوعی) با نام MultiMedQA با شش دیتاست مختلف از جمله آزمونهای پزشکی، تحقیقات و پرسشهای مرتبط با بیماریها و مجموعه داده HealthSearchQA، یک مجموعهداده جدید برای پرسشهای پزشکی که از طریق جستجوی آنلاین انجام شده است، به مدل ارائه شده است. در این مطالعه، از یک مدل زبان طبیعی بسیار بزرگ به نام PaLM با ۵۴۰ میلیارد پارامتر و نسخه تنظیمشده آن به نام FlanPaLM برای پاسخ به سوالات چند گزینهای در حوزه پزشکی استفاده شده است. در نهایت پاسخهای مدل بر اساس معیارهایی از جمله واقعیت، دقت، آسیب ممکن و سوگیری بهصورت دستی ارزیابی شد.
نتایج کلیدی
نسخه تنظیمشده این مدل (FlanPaLM) در سوالات آزمون پزشکی آمریکا با دقت ۶۷.۶ درصد، بیش از ۱۷ درصد نسبت به بهترین نتیجه مدلهای قبلی عمل کرده است.
علیرغم عملکرد قوی نسخه FlanPaLM در پاسخ به سوالات چندگزینهای پزشکی، این نسخه در پاسخ به سوالات پزشکی کاربران خیلی موفق عمل نکرد؛ از این رو برای حل این مسئله، پژوهشگران از تکنیکی به نام تنظیم دستورالعمل آموزشی (instruction prompt tuning) استفاده کردند. این تکنیک یک روش همآستانه، با داده و پارامتر کمتر است که برای سازگارسازی Flan-PaLM با حوزه پزشکی استفاده میشود. مدل جدید حاصل، به نام Med-PaLMدر ارزیابی پایلوت انسانی، عملکرد خوبی داشته است.
پزشکان متخصص دخیل در این پروژه تحقیقاتی 6/92 درصد از پاسخهای این ربات را در پاسخ به سوالات پزشکی کاربران درست ارزیابی کردهاند. این در حالی است که میزان دقت پاسخدهی پزشکان به همان سوالات مطرح شده، از نظر تیم پزشکی دخیل در این پروژه 9/92 درصد ارزیابی شده است.
یعنی از منظر تیم پزشکی دخیل در این پروژه، دقت پاسخدهی ربات برنامهریزیشده با هوش مصنوعی تنها 3/0 درصد کمتر از دقت پزشکان است.
در ادامه پژوهشگران به ارزیابی میزان آسیبهای احتمالی پاسخهای اشتباه این ربات پرداختند و آن را با پاسخهای اشتباه پزشکان واقعی مقایسه کردند.
درحالی که 29.7 درصد پاسخهای مدل FlanPaLM ممکن است باعث صدمه به بیماران شود، این عدد برای مدل Med-PaLM به 5.9 درصد میرسد. همچنین میزان پاسخهای پزشکان واقعی که احتمال دارد به بیمارآسیب برساند 5.7 درصد ارزیابی شده است که بسیار نزدیک به عدد مربوط به مدل Med-PaLM است.
جمعبندی و پیشبینی آینده هوش مصنوعی در پزشکی
درک، بازیابی دانش و اطلاعات و استدلال پزشکی با افزایش اندازه مدل و تنظیم دستور العملهای آموزشی بهبود مییابد، که نشاندهنده پتانسیل استفاده از مدلهای پردازش زبانی در پزشکی است.
با وجود دقت بالای مدلهای این پژوهش در برخی از وظایف مربوط به پزشکی، خیلی زود است که بخواهیم این سیستم را جایگزینی برای پزشکان واقعی بدانیم؛ اما سرعت بهبود و پیشرفت این رباتها بسیار سریع است و هوش مصنوعی نیز پتانسیل بسیار بالایی دارد تا با همکاری پزشکان، خود را بهبود ببخشد.