به گزارش خبرنگار علم و فناوری ایسکانیوز؛ مجله معتبر «نیچر» اخیرا مقالهای چالشبرانگیز در مورد هوش مصنوعی منتشر کرده است که در آن میگوید: هیچ کس هنوز دقیقا نمیداند که ChatGPT -معروفترین محصول هوش مصنوعی- و ابزار مشابه آن روی چه چیزی آموزش دیدهاند. اما مطالعات نشان میدهد که میلیونها مقاله دانشگاهی که در وب منتشر شدهاند، بخشی از دادههایی هستند که مدلهای زبان بزرگ را تغذیه میکنند. حال سوال اینجاست که آیا سازندگان چنین دادههای آموزشی میتوانند بابت آنها اعتبار کسب کنند یا بابت آنها حق مالکیت معنوی داشته باشند؟
تعداد کمی از مدلهای زبان بزرگ -حتی آنهایی که «منبعباز» توصیف میشوند- توسعهدهندگانی دارند که دقیقا میدادند از چه دادههایی برای آموزش آن استفاده کنند. آنها با استفاده از دادههای مربوط به مقالات علمی متون غنی از اطلاعات و ارزشمند تهیه کنند. براساس تحقیقات واشنگتن پست، یکی از بزرگترین و معتبرترین روزنامههای آمریکا، و موسسه «آلن» فعال در حوزه هوش مصنوعی، مطالب مجموعه مجلات با دسترسی آزاد PLOS -که محتوای مقالات علمی در حوزههای مختلف علوم و پزشکی را برای همه قابل دسترس میکند- به طور برجستهای در یک مجموعه داده با نام C4 گردآوری میشوند. مدلهای زبان بزرگ که شرکت متا (فیسبوک سابق) آنها را طراحی کرده است، از این مجموعه برای آموزش بهره میبرد. البته دانشمندان حدس میزنند که حتی مقالات با حق کپیرایت نیز برای آموزش به این مدلهای هوش مصنوعی نیز قابل دسترس قرار میگیرند.
نظر سازمان جهانی مالکیت معنوی چیست؟
سوال اساسی اینجاست که طبق قوانین فعلی چه چیزی مجاز است؟ سازمان جهانی مالکیت معنوی (WIPO) مستقر در ژنو سوئیس، میگوید مشخص نیست که آیا جمعآوری دادهها یا استفاده از آنها برای ایجاد خروجیهای مدلهای زبان بزرگ نقض حق نسخهبرداری محسوب میشود؟ یا اینکه این فعالیتها تحت یکی از چندین معافیت قرار میگیرند؟
برخی از ناشران به دنبال شفافسازی در دادگاه هستند. به طور مثال، در یک پرونده در حال جریان، نیویورک تایمز ادعا کرده است که شرکتهای فناوری مایکروسافت و OpenAI -شرکتی که ChatGPT را توسعه داده است- از مقالات این روزنامه معتبر آمریکایی برای آموزش مدل زبان بزرگ خود کپیبرداری کردهاند. طبق توصیه سازمان جهانی مالکیت معنوی، شرکتهای هوش مصنوعی برای جلوگیری از خطر دعوی قضایی باید مجوزهایی را از دارندگان حق چاپ برای دادههای آموزشی خریداری کنند. صاحبان محتوا همچنین از کدی در وبسایتهای خود استفاده میکنند که به ابزارهایی که دادهها را برای مدلهای زبان بزرگ جمعآوری میکنند، میگوید آیا مجاز به انجام این کار هستند یا خیر.
وقتی مطالبی تحت مجوزهایی منتشر میشوند که توزیع رایگان و استفاده مجدد را تشویق میکنند، اوضاع مبهمتر میشود. البته باز هم امکان اعمال محدودیتهای خاص وجود دارد. «کریتیو کامنز»، یک سازمان غیرانتفاعی در ماونتین ویوی کالیفرنیا، که هدف آن افزایش اشتراکگذاری آثار خلاقانه است، میگوید که کپی کردن مطالب برای آموزش یک هوش مصنوعی معمولاً نباید به عنوان تخلف تلقی شود. اما همچنین نگرانیها در مورد تأثیر هوش مصنوعی بر سازندگان و چگونگی اطمینان از اینکه هوش مصنوعی که در مورد «اشتراکها» آموزش دیده است - مجموعه مطالب آزادانه در دسترس – وجود دارد.
این پرسشهای گستردهتر درباره انصاف بهویژه برای هنرمندان، نویسندگان و برنامهنویسان، که معیشتشان به خروجیهای خلاقانهشان بستگی دارد و کارشان در معرض خطر جایگزینی با محصولات هوش مصنوعی مولد است، ضروری است. البته در این شرایط نباید موضوع وابستگی محققان به ابزارهای هوش مصنوعی در تحقیقات را نباید از یاد برد.
حرکت به سمت انتشار با دسترسی آزاد به صراحت به نفع توزیع رایگان و استفاده مجدد از کار علمی است - و این احتمالاً در مورد مدلهای زبان بزرگ نیز صدق میکند. یادگیری از مقالات علمی میتواند مدلهای زبان بزرگ را بهبود میبخشد و در نهایت این به نفع محققان است که از مدلهای بهبود یافته هوش مصنوعی در تحقیقات و نوشتن مقالات خود استفاده کنند و بینشهای جدیدی کسب کنند.
اعتبار در جایی که شرایط پرداخت پول است
بحث نگرانی دانشمندان مبنی بر استفاده از دادههای تحقیقاتشان توسط مدلهای زبان بزرگ به کنار، نگرانی دیگری در پله بعدی وجود دارد که اگر قرار باشد شرکتهای سازنده مدلهای زبان بزرگ براساس استفاده از دادهها حق اشتراکی بپردازند، واحد پولی که علم براساس آن عمل میکند، چه چیزی باشد؟
یک روش منصفانه شرایط استفاده مجدد از CC BY است. CC BY مجوزی است که به کاربران امکان میدهد در هر رسانه یا قالبی، مطالب را توزیع، تلفیق، تطبیق و ایجاد کنند؛ آن هم در شرایطی که انتساب به سازنده داده شود. این مجوز یک مجوز کپیرایت منبع با دسترسی آزاد مرسوم به شمار میآید. در حوزههای قضایی مانند موارد حقوقی در اتحادیه اروپا و ژاپن، معافیتهایی از قوانین حق چاپ وجود دارد که عواملی مانند انتساب را پوشش میدهد - برای مثال، متن و دادهکاوی در تحقیقات با استفاده از تجزیه و تحلیل خودکار منابع برای یافتن الگوها. این در حالی است که برخی از دانشمندان برداشت دادههای مدلهای زبان بزرگ برای مدلهای اختصاصی را فراتر از آنچه این معافیتها برای دستیابی به آن در نظر گرفته شده بود، میدانند.
با این حال، زمانی که یک مدل زبان بزرگ تجاری از میلیونها منبع برای تولید یک خروجی معین استفاده میکند، انتساب عملا غیرممکن است. اما زمانی که توسعهدهندگان ابزارهای هوش مصنوعی را برای استفاده در علم ایجاد میکنند، روشی به نام «تولید تقویتشده بازیابی» میتواند کمک کند. «لوسی لو وانگ»، محقق هوش مصنوعی در دانشگاه واشنگتن در سیاتل، میگوید: این تکنیک اعتباری به دادههایی که مدل زبان بزرگ را آموزش داده مختص نمیشود، اما به مدل اجازه میدهد تا مقالات مرتبط با خروجی خود را ذکر کند.
دادن توانایی به محققان برای انصراف از استفاده از کار خود در آموزش مدل زبان بزرگ نیز میتواند نگرانی آنها را کاهش دهد. «یانیو بنهامو» که حقوق دیجیتال و حق چاپ را در دانشگاه ژنو مطالعه میکند، میگوید که سازندگان این حق را بر اساس قوانین اتحادیه اروپا دارند، اما اجرای آن در عمل دشوار است.
شرکتها در حال ابداع راههای نوآورانه برای آسانتر کردن این فرآیند هستند. به طور مثال، شرکت «اسپانینگ»، یک شرکت نوپا در مینیاپولیس آمریکا، ابزاری را توسعه داده است که به سازندگان اجازه میدهد از حذف دادهها خودداری کنند. برخی از توسعهدهندگان نیز در حال کار هستند: برای مثال، ابزار OpenAI's Media Manager به سازندگان اجازه میدهد تا نحوه استفاده از آثارشان را توسط الگوریتمهای یادگیری ماشینی مشخص کنند.
شفافیت بیشتر نیز میتواند نقش مهمی در این زمینه ایفا کند. قانون هوش مصنوعی اتحادیه اروپا که از اول اوت اجرایی شد، توسعهدهندگان را ملزم میکند خلاصهای از کارهای مورد استفاده برای آموزش مدلهای هوش مصنوعی خود را منتشر کنند. این امر میتواند توانایی سازندگان برای انصراف را تقویت کند و ممکن است به عنوان الگویی برای سایر حوزههای قضایی باشد. اما باید دید این در عمل چگونه عمل خواهد کرد.
در همین حال، تحقیقات باید در مورد اینکه آیا نیازی به راهحلهای رادیکالتر، مانند انواع جدید مجوزها یا تغییرات در قانون کپیرایت وجود دارد یا خیر، ادامه یابد. «سیلوی دلاکروا»، محقق حقوق دیجیتال در کینگز کالج لندن، میگوید ابزارهای مولد هوش مصنوعی از اکوسیستم دادهای استفاده میکنند که توسط جنبشهای منبع باز ساخته شده است، با این حال اغلب انتظارات متقابل و استفاده منطقی را نادیده میگیرند. این ابزارها همچنین خطر آلودگی اینترنت را با محتوای تولید شده توسط هوش مصنوعی با کیفیت مشکوک دارند. با ناتوانی در هدایت کاربران به منابع ساخته شده توسط انسان، مدلهای بزرگ زبان میتوانند ایجاد اولیه را از بین ببرند. بدون قرار دادن قدرت بیشتر در دست سازندگان، سیستم تحت فشار شدید قرار خواهد گرفت. رگولاتورها و شرکتها باید اقدام کنند.
انتهای پیام/
نظر شما