"مهندس یادگیری ماشین" کیست؟

شغل‌های قرن بیست و یکم که پیشرفت بزرگی در این صنعت ایجاد کرده باعث شد تا همه افراد به طور طبیعی به دنبال نقش جدیدی در شغل‌های مطرح باشند که یادگیری داده یکی از آن‌هاست.

به گزارش گروه علم و فناوری ایسکانیوز، علاوه بر این، سازمان‌ها تلاش کردند تا دانشمندان داده را برای ادامه روند مسابقه استخدام کنند. با این حال، هنگامی که دانشمندان داده کار خود را آغاز کردند تمام مردم انتظار داشتند تا این افراد برای هر مشکلی راه حل جادویی داشته باشند.

انتظار می‌رود که این افراد تحلیل‌گر مشاغل، مهندسین نرم افزار، ریاضیدانان، آمارشناس و غیره باشند که در قالب یک انسان بسته بندی شده‌اند. از این افراد مهارت‌های مختلفی مانند تجزیه و تحلیل کسب و کار، SQL، DevOps و برنامه نویسی انتظار می‌رفت.

مطمئناً این افراد همه کاره هستند؛ با این حال، این ویژگی برای اثبات مفاهیم یا پروژه‌های آزمایشی خوب بود اما برای تولید یک سیستم داده محور مشکل داشت.

علم داده شامل تجزیه و تحلیل آماری زیاد، مدل سازی ریاضی و غیره است. از این رو، افراد با پیشینه علمی و سوابق کمی بر این نقش‌ها مسلط بودند زمانی‌که صحبت از سیستم‌های واقعی به میان می‌آمد آنها فاقد تجربه لازم بودند. این امر به ویژه با افزایش مقیاس و پیچیدگی داده‌ها (داده‌های بزرگ) بدتر شد. از این رو دانشمند داده برای از بین بردن این شکاف با عنوان شغلی مهندس داده به‌وجود آمد.

ظهور مهندسی داده

مهندسان داده به طور معمول وظیفه ایجاد و نگهداری داده (که دانشمند داده از آن‌ها برای پردازش استفاده می‌کنند) را داشتند.

این نقش توسط توسعه دهندگان سنتی ETL (بعضاً توسعه دهندگان پایگاه داده) پدید آمده است. با این حال، با تغییر الگو، ابزارها و فناوری‌ها مرزها را تغییر دادند.

داده‌ها زیاد شدند و همین منجر به ظهور معماری لامبدا شد. معماری لامبدا یک معماری پردازش داده است که با استفاده از روش‌های پردازش دسته‌ای و جریان، مقادیر انبوهی از داده‌ها را اداره می‌کند.

استخراج، تبدیل، بارگذاری (ETL) روشی کلی برای کپی کردن داده‌ها از یک یا چند منبع در یک سیستم مقصد است که داده‌ها را متفاوت از منبع (ها) یا در یک زمینه متفاوت از منبع (ها) نشان می‌دهد.

بنابراین، تیم علوم داده اکنون شامل تحلیل‌گرها، دانشمندان داده‌ها و مهندسین داده است. مهندسان داده داده‌ها را استخراج، پردازش و پاکسازی بخشی از چرخه عمر علوم داده را انجام می‌دهند. این امر باعث می‌شود که نفر بعدی روی درک کسب و کار، توسعه مدل و غیره متمرکز شود. با این وجود، استقرار مدل و تبدیل به محصول داده در دنیای واقعی همچنان یک چالش برای تیم‌های علوم داده است. اینجا بود که افراد حرفه‌ای به نام مهندسین یادگیری ماشین پدیدار شدند.

نیاز به مهندسان ML

دموکراتیک سازی هوش مصنوعی با ابزاری مانند یادگیری ماشین آژور (Azure Machine Learning) چرخه حیات علم داده را بسیار ساده‌تر کرده است. در اینجا مثالی از نمونه اولیه اینترنت اشیا و یادگیری ماشین در عمل با هم آورده شده است. در این مثال‌ها می‌توانید اولین نمونه‌های برش یافته از یک سیستم ML را در عمل مشاهده کنید. هر دانشمند و مهندس داده می‌تواند چنین سیستم‌هایی را بسازد. همچنین این سیستم‌ها ایستا هستند، یعنی این مقالات در مورد آموزش مدل توضیحی نمی‌دهند.

از این رو، یک سؤال طبیعی این خواهد بود که چرا مدل‌ها را مجدداً آموزش دهیم؟

پاسخ مفهوم «drift» است. برای درک مفهوم drift، باید ببینیم که چرا سیستم های ML اساساً با سیستم های نرم افزاری سنتی تفاوت دارند.

در یک سیستم نرم افزاری سنتی، ورودی و یک منطق برای محاسبه خروجی داریم. با این حال، در سیستم‌های ML ، ما خروجی و ورودی داریم و سیستم یک الگوی یا رابطه بین آنها را مشخص می‌کند. برای مثال، بگذارید بگوییم سیستم معادله‌ای از خط مستقیم است.

y = mx + c در سیستم‌های سنتی،m ، x و c برای محاسبه y داریم. در سیستم های یادگیری ماشین ما y و x داریم در حالی که ما m و c را تعیین می‌کنیم تا مقادیر y را در آینده استخراج کنیم. این اساس استدلال استقرایی را تشکیل می‌دهد.

به طور شهودی، سیستم‌های ML به توزیع اساسی داده‌ها بستگی دارند. تغییر کوچکی در توزیع داده‌های ورودی، سیستم را از مسیر خارج‌ می‌کند؛ زیرا رابطه بین متغیرهای ورودی و خروجی تغییر می‌کند. به این مفهوم دریف در یادگیری ماشین گفته می‌شود.

ظهور مهندسان یادگیری ماشین

این مشکل یکی از مواردی است که مهندسان ML با ایجاد شیوه‌های DevOps (می توان آن را DataOps نامید) آن را حل کرده‌اند. با این حال ، DataOps اساساً با DevOps متفاوت است.

در سیستم‌های نرم افزاری سنتی، DevOps از نسخه‌های کد و استقرار و نگهداری در سیستم‌های تولیدی مراقبت می‌کند. در مورد نسخه و تعمیر و نگهداری، تمام کاری که باید انجام دهند، حفظ کد و نظارت بر سلامت و امنیت سیستم است. با این حال، در سیستم‌های ML، یک بار اضافی برای نسخه سازی داده و مدل‌ها برای ردیابی تاریخچه آموزش مدل‌ها وجود دارد.

علاوه بر این‌، از دیدگاه امنیتی، هر کاربر هوشمند می‌تواند مدل ML را با فهمیدن الگویی که در آن سیستم پاسخ می‌دهد فریب دهد.

مجموعه ابزار و مهارت

از آنجا که مجموعه مهارت‌ها متفاوت است، تفاوت در ابزار طبیعی است. مهندسی یادگیری ماشین بیشتر در مورد طرز تفکر است تا مهارت و یا ابزار،( اگرچه آن‌ها هم ضروری هستند) طرز تفکری که عدم قطعیت دنیای واقعی را در دست بگیرد. این در مورد حفظ سیستم‌های سنتی بزرگ نیست بلکه یک زیرساخت داده و مدل زیرساخت‌ها در کنار هم است. از این رو، مهندس یادگیری ماشین نقش ترکیبی از مهندس داده، دانشمند داده و یک مهندس نرم افزار است.

انتهای پیام/

کد خبر: 1058957

وب گردی

وب گردی