شرکت‌های هوش مصنوعی از داده‌های آکادمیک منصفانه‌تر استفاده کنند

محققان و دانشمندان دنیا با روی کار آمدن مدل‌های زبان بزرگ مانند ChatGPT با اظهار نگرانی در مورد استفاده بی‌رویه از داده‌های تحقیقات‌شان بدون رعایت مالکیت معنوی خواستار تصویب قوانین از سوی شرکت‌ها و رگولاتورها شدند.

به گزارش خبرنگار علم و فناوری ایسکانیوز؛ مجله معتبر «نیچر» اخیرا مقاله‌ای چالش‌برانگیز در مورد هوش مصنوعی منتشر کرده است که در آن می‌گوید: هیچ کس هنوز دقیقا نمی‌داند که ChatGPT -معروف‌ترین محصول هوش مصنوعی- و ابزار مشابه آن روی چه چیزی آموزش دیده‌اند. اما مطالعات نشان می‌دهد که میلیون‌ها مقاله دانشگاهی که در وب منتشر شده‌اند، بخشی از داده‌هایی هستند که مدل‌های زبان بزرگ را تغذیه می‌کنند. حال سوال اینجاست که آیا سازندگان چنین داده‌های آموزشی می‌توانند بابت آنها اعتبار کسب کنند یا بابت آنها حق مالکیت معنوی داشته باشند؟

تعداد کمی از مدل‌های زبان بزرگ -حتی آنهایی که «منبع‌باز» توصیف می‌شوند- توسعه‌دهندگانی دارند که دقیقا می‌دادند از چه داده‌هایی برای آموزش آن استفاده کنند. آنها با استفاده از داده‌های مربوط به مقالات علمی متون غنی از اطلاعات و ارزشمند تهیه کنند. براساس تحقیقات واشنگتن پست، یکی از بزرگ‌ترین و معتبرترین روزنامه‌های آمریکا، و موسسه «آلن» فعال در حوزه هوش مصنوعی، مطالب مجموعه مجلات با دسترسی آزاد PLOS -که محتوای مقالات علمی در حوزه‌های مختلف علوم و پزشکی را برای همه قابل دسترس می‌کند- به طور برجسته‌ای در یک مجموعه داده با نام C4 گردآوری می‌شوند. مدل‌های زبان بزرگ که شرکت متا (فیس‌بوک سابق) آنها را طراحی کرده است، از این مجموعه برای آموزش بهره می‌برد. البته دانشمندان حدس می‌زنند که حتی مقالات با حق کپی‌رایت نیز برای آموزش به این مدل‌های هوش مصنوعی نیز قابل دسترس قرار می‌گیرند.

نظر سازمان جهانی مالکیت معنوی چیست؟

سوال اساسی اینجاست که طبق قوانین فعلی چه چیزی مجاز است؟ سازمان جهانی مالکیت معنوی (WIPO) مستقر در ژنو سوئیس، می‌گوید مشخص نیست که آیا جمع‌آوری داده‌ها یا استفاده از آنها برای ایجاد خروجی‌های مدل‌های زبان بزرگ نقض حق نسخه‌برداری محسوب می‌شود؟ یا اینکه این فعالیت‌ها تحت یکی از چندین معافیت قرار می‌گیرند؟

برخی از ناشران به دنبال شفاف‌سازی در دادگاه هستند. به طور مثال، در یک پرونده در حال جریان، نیویورک تایمز ادعا کرده است که شرکت‌های فناوری مایکروسافت و OpenAI -شرکتی که ChatGPT را توسعه داده است- از مقالات این روزنامه معتبر آمریکایی برای آموزش مدل زبان بزرگ خود کپی‌برداری کرده‌اند. طبق توصیه سازمان جهانی مالکیت معنوی، شرکت‌های هوش مصنوعی برای جلوگیری از خطر دعوی قضایی باید مجوزهایی را از دارندگان حق چاپ برای داده‌های آموزشی خریداری کنند. صاحبان محتوا همچنین از کدی در وب‌سایت‌های خود استفاده می‌کنند که به ابزارهایی که داده‌ها را برای مدل‌های زبان بزرگ جمع‌آوری می‌کنند، می‌گوید آیا مجاز به انجام این کار هستند یا خیر.

وقتی مطالبی تحت مجوزهایی منتشر می‌شوند که توزیع رایگان و استفاده مجدد را تشویق می‌کنند، اوضاع مبهم‌تر می‌شود. البته باز هم امکان اعمال محدودیت‌های خاص وجود دارد. «کریتیو کامنز»،‌ یک سازمان غیرانتفاعی در ماونتین ویوی کالیفرنیا، که هدف آن افزایش اشتراک‌گذاری آثار خلاقانه است، می‌گوید که کپی کردن مطالب برای آموزش یک هوش مصنوعی معمولاً نباید به عنوان تخلف تلقی شود. اما همچنین نگرانی‌ها در مورد تأثیر هوش مصنوعی بر سازندگان و چگونگی اطمینان از اینکه هوش مصنوعی که در مورد «اشتراک‌ها» آموزش دیده است - مجموعه مطالب آزادانه در دسترس – وجود دارد.

این پرسش‌های گسترده‌تر درباره انصاف به‌ویژه برای هنرمندان، نویسندگان و برنامه‌نویسان، که معیشت‌شان به خروجی‌های خلاقانه‌شان بستگی دارد و کارشان در معرض خطر جایگزینی با محصولات هوش مصنوعی مولد است، ضروری است. البته در این شرایط نباید موضوع وابستگی محققان به ابزارهای هوش مصنوعی در تحقیقات را نباید از یاد برد.

حرکت به سمت انتشار با دسترسی آزاد به صراحت به نفع توزیع رایگان و استفاده مجدد از کار علمی است - و این احتمالاً در مورد مدل‌های زبان بزرگ نیز صدق می‌کند. یادگیری از مقالات علمی می‌تواند مدل‌های زبان بزرگ را بهبود می‌بخشد و در نهایت این به نفع محققان است که از مدل‌های بهبود یافته هوش مصنوعی در تحقیقات و نوشتن مقالات خود استفاده کنند و بینش‌های جدیدی کسب کنند.

اعتبار در جایی که شرایط پرداخت پول است

بحث نگرانی دانشمندان مبنی بر استفاده از داده‌های تحقیقات‌شان توسط مدل‌های زبان بزرگ به کنار، نگرانی دیگری در پله بعدی وجود دارد که اگر قرار باشد شرکت‌های سازنده مدل‌های زبان بزرگ براساس استفاده از داده‌ها حق اشتراکی بپردازند، واحد پولی که علم براساس آن عمل می‌کند، چه چیزی باشد؟

یک روش منصفانه شرایط استفاده مجدد از CC BY است. CC BY مجوزی است که به کاربران امکان می‌دهد در هر رسانه یا قالبی، مطالب را توزیع، تلفیق، تطبیق و ایجاد کنند؛ آن هم در شرایطی که انتساب به سازنده داده شود. این مجوز یک مجوز کپی‌رایت منبع با دسترسی آزاد مرسوم به شمار می‌آید. در حوزه‌های قضایی مانند موارد حقوقی در اتحادیه اروپا و ژاپن، معافیت‌هایی از قوانین حق چاپ وجود دارد که عواملی مانند انتساب را پوشش می‌دهد - برای مثال، متن و داده‌کاوی در تحقیقات با استفاده از تجزیه و تحلیل خودکار منابع برای یافتن الگوها. این در حالی است که برخی از دانشمندان برداشت داده‌های مدل‌های زبان بزرگ برای مدل‌های اختصاصی را فراتر از آنچه این معافیت‌ها برای دستیابی به آن در نظر گرفته شده بود، می‌دانند.

با این حال، زمانی که یک مدل زبان بزرگ تجاری از میلیون‌ها منبع برای تولید یک خروجی معین استفاده می‌کند، انتساب عملا غیرممکن است. اما زمانی که توسعه‌دهندگان ابزارهای هوش مصنوعی را برای استفاده در علم ایجاد می‌کنند، روشی به نام «تولید تقویت‌شده بازیابی» می‌تواند کمک کند. «لوسی لو وانگ»، محقق هوش مصنوعی در دانشگاه واشنگتن در سیاتل، می‌گوید: این تکنیک اعتباری به داده‌هایی که مدل زبان بزرگ را آموزش داده مختص نمی‌شود، اما به مدل اجازه می‌دهد تا مقالات مرتبط با خروجی خود را ذکر کند.

دادن توانایی به محققان برای انصراف از استفاده از کار خود در آموزش مدل زبان بزرگ نیز می‌تواند نگرانی آنها را کاهش دهد. «یانیو بنهامو» که حقوق دیجیتال و حق چاپ را در دانشگاه ژنو مطالعه می‌کند، می‌گوید که سازندگان این حق را بر اساس قوانین اتحادیه اروپا دارند، اما اجرای آن در عمل دشوار است.

شرکت‌ها در حال ابداع راه‌های نوآورانه برای آسان‌تر کردن این فرآیند هستند. به طور مثال، شرکت «اسپانینگ»، یک شرکت نوپا در مینیاپولیس آمریکا، ابزاری را توسعه داده است که به سازندگان اجازه می‌دهد از حذف داده‌ها خودداری کنند. برخی از توسعه‌دهندگان نیز در حال کار هستند: برای مثال، ابزار OpenAI's Media Manager به سازندگان اجازه می‌دهد تا نحوه استفاده از آثارشان را توسط الگوریتم‌های یادگیری ماشینی مشخص کنند.

شفافیت بیشتر نیز می‌تواند نقش مهمی در این زمینه ایفا کند. قانون هوش مصنوعی اتحادیه اروپا که از اول اوت اجرایی شد، توسعه‌دهندگان را ملزم می‌کند خلاصه‌ای از کارهای مورد استفاده برای آموزش مدل‌های هوش مصنوعی خود را منتشر کنند. این امر می‌تواند توانایی سازندگان برای انصراف را تقویت کند و ممکن است به عنوان الگویی برای سایر حوزه‌های قضایی باشد. اما باید دید این در عمل چگونه عمل خواهد کرد.

در همین حال، تحقیقات باید در مورد اینکه آیا نیازی به راه‌حل‌های رادیکال‌تر، مانند انواع جدید مجوزها یا تغییرات در قانون کپی‌رایت وجود دارد یا خیر، ادامه یابد. «سیلوی دلاکروا»، محقق حقوق دیجیتال در کینگز کالج لندن، می‌گوید ابزارهای مولد هوش مصنوعی از اکوسیستم داده‌ای استفاده می‌کنند که توسط جنبش‌های منبع باز ساخته شده است، با این حال اغلب انتظارات متقابل و استفاده منطقی را نادیده می‌گیرند. این ابزارها همچنین خطر آلودگی اینترنت را با محتوای تولید شده توسط هوش مصنوعی با کیفیت مشکوک دارند. با ناتوانی در هدایت کاربران به منابع ساخته شده توسط انسان، مدل‌های بزرگ زبان می‌توانند ایجاد اولیه را از بین ببرند. بدون قرار دادن قدرت بیشتر در دست سازندگان، سیستم تحت فشار شدید قرار خواهد گرفت. رگولاتورها و شرکت‌ها باید اقدام کنند.

انتهای پیام/

کد خبر: 1241942

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.
  • نظرات حاوی توهین و هرگونه نسبت ناروا به اشخاص حقیقی و حقوقی منتشر نمی‌شود.
  • نظراتی که غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نمی‌شود.
  • 0 + 0 =