یادگیری ماشین به بخشی جدایی ناپذیر از زندگی ما تبدیل شده است، از توصیه های شخصی سازی شده در پلتفرم های استریم تا خود رانندگی ماشین ها اما آیا تا به حال فکر کرده اید که ماشین ها چگونه یاد می گیرند؟ خوب، یکی از مؤلفههای کلیدی یادگیری ماشین، دیتاست ها است.
در این مقاله شما را با دیتاست ها در یادگیری ماشین آشنا می کنیم و توضیح می دهیم که چرا اینقدر مهم هستند.
نقش دیتاست ها در هوش مصنوعی
بنابراین، دیتاست دقیقاً چیست؟ به عبارت ساده، دیتاست مجموعه ای از داده ها است که برای آموزش یک مدل یادگیری ماشین استفاده می شود.
می توان آن را به عنوان مجموعه ای از مثال ها در نظر گرفت که الگوریتم یادگیری ماشین از آنها برای یادگیری الگوها و پیش بینی استفاده می کند.
این نمونه ها می توانند به شکل تصویر، متن، صدا یا هر نوع داده دیگری باشند که مدل نیاز به پردازش دارد.
دیتاستها بسیار مهم هستند زیرا اطلاعات لازم را برای یادگیری مدل یادگیری ماشین فراهم میکنند.
بدون دیتاست، مدل ورودی برای یادگیری نخواهد داشت و قادر به پیشبینی دقیق نخواهد بود.
به این فکر کنید که معلم برای دانشآموز مثالهایی ارائه میکند تا به درک بهتر مفهوم کمک کند.
به طور مشابه، یک دیتاست نمونه هایی را برای مدل یادگیری ماشین ارائه می دهد و آن را قادر به یادگیری و پیش بینی می کند.
اکنون، ممکن است تعجب کنید که این دیتاست ها از کجا آمده اند.
خوب، دیتاست ها را می توان به روش های مختلفی ایجاد کرد.
آنها می توانند به صورت دستی توسط انسان تنظیم شوند، جایی که کارشناسان داده ها را جمع آوری و برچسب گذاری می کنند.
به عنوان مثال، در وظایف تشخیص تصویر، کارشناسان ممکن است به صورت دستی هزاران تصویر را برای ایجاد یک دیتاست برچسب گذاری کنند.
این فرآیند می تواند زمان بر باشد و به تخصص دامنه نیاز دارد، اما داده های با کیفیت بالا را تضمین می کند.
راه دیگری برای ایجاد دیتاست ها از طریق خراش دادن داده ها است.
این شامل استخراج خودکار داده ها از منابع مختلف، مانند وب سایت ها یا پایگاه های داده است.
خراش دادن داده ها می تواند هنگام برخورد با مقادیر زیادی داده مفید باشد، اما همچنین می تواند چالش برانگیز باشد زیرا کیفیت و قابلیت اطمینان داده ها ممکن است متفاوت باشد.
دیتاست ها را نیز می توان از منابع عمومی به دست آورد یا توسط محققان دیگر به اشتراک گذاشت.
بسیاری از سازمان ها و مؤسسات تحقیقاتی دیتاست های خود را برای ترویج همکاری و پیشرفت در زمینه یادگیری ماشینی در دسترس عموم قرار می دهند.
این دیتاست های در دسترس عموم می تواند منبع ارزشمندی برای محققان و توسعه دهندگان باشد، زیرا در زمان و تلاش در جمع آوری داده ها صرفه جویی می کند.
هنگامی که یک دیتاست ایجاد یا به دست آمد، قبل از اینکه بتوان از آن برای آموزش یک مدل یادگیری ماشین استفاده کرد، باید از قبل پردازش شود.
پیش پردازش شامل تمیز کردن داده ها، حذف هر گونه نویز یا نقاط پرت و تبدیل آن به قالب مناسب برای مدل است.
این مرحله بسیار مهم است زیرا تضمین می کند که داده ها از کیفیت بالایی برخوردار هستند و می توانند به طور موثر توسط مدل استفاده شوند.
در نتیجه، دیتاست ها جزء ضروری یادگیری ماشین هستند.
آنها مثال های لازم را برای مدل ارائه می دهند تا از آنها یاد بگیرد و پیش بینی های دقیق انجام دهد.
دیتاست ها را می توان به صورت دستی، از طریق خراش دادن داده ها، یا از منابع عمومی به دست آورد.
پیش پردازش دیتاست نیز برای اطمینان از کیفیت بالا و مناسب بودن داده ها برای آموزش مدل بسیار مهم است.
بنابراین، دفعه بعد که یک مدل یادگیری ماشین را دیدید که پیشبینی میکند، به یاد داشته باشید که همه چیز با یک دیتاست شروع شد.
انواع دیتاستهای مورد استفاده در یادگیری ماشینی
به عبارت ساده، دیتاست مجموعه ای از نقاط داده یا نمونه هایی است که برای آموزش یک مدل یادگیری ماشین استفاده می شود.
این نقاط داده می تواند هر چیزی از تصاویر و متن گرفته تا مقادیر عددی باشد.
کیفیت و تنوع دیتاست نقش حیاتی در دقت و عملکرد مدل یادگیری ماشین دارد.
یکی از انواع متداول دیتاست مورد استفاده در یادگیری ماشینی، دیتاست برچسبدار است.
دیتاست برچسبدار
همانطور که از نام آن پیداست، این دیتاست حاوی نقاط داده ای است که با خروجی یا مقدار هدف مربوطه خود برچسب یا حاشیه نویسی می شوند.
به عنوان مثال، در یک دیتاست برای طبقه بندی تصویر، هر تصویر با شیئی که نشان می دهد برچسب گذاری می شود.
این دیتاست برچسبگذاری شده به مدل یادگیری ماشینی کمک میکند تا رابطه بین دادههای ورودی و خروجی مورد نظر را بیاموزد.
نوع دیگری از دیتاست، دیتاست بدون برچسب است.
دیتاست بدون برچسب
برخلاف دیتاستهای برچسبگذاریشده، مجموعههای داده بدون برچسب هیچ مقدار خروجی از پیش تعریفشدهای ندارند.
این دیتاست ها اغلب در یادگیری بدون نظارت استفاده می شوند، جایی که مدل یادگیری ماشین سعی می کند الگوها یا ساختارهایی را در داده ها بدون هیچ راهنمایی بیابد.
دیتاست های بدون برچسب به ویژه زمانی مفید هستند که خروجی مورد نظر ناشناخته باشد یا تعریف آن دشوار باشد.
علاوه بر دیتاست های برچسب دار و بدون برچسب، دیتاست های نیمه نظارت شده نیز وجود دارد.
دیتاست های نیمه نظارت شده
همانطور که از نام آن پیداست، این دیتاست ها حاوی ترکیبی از نقاط داده برچسب دار و بدون برچسب هستند.
الگوریتمهای یادگیری نیمهنظارتی از دادههای برچسبگذاریشده برای هدایت فرآیند یادگیری استفاده میکنند و در عین حال از دادههای بدون برچسب برای کشف الگوها یا اطلاعات اضافی نیز استفاده میکنند.
این نوع دیتاست معمولاً زمانی استفاده می شود که برچسب گذاری مقادیر زیادی از داده ها وقت گیر یا گران باشد.
در ادامه، اجازه دهید نوع مهم دیگری از دیتاست به نام دیتاست سری زمانی را مورد بحث قرار دهیم.
دیتاست زمانی
دیتاستهای سری زمانی شامل نقاط دادهای است که در یک دوره زمانی جمعآوری میشوند و هر نقطه داده با یک مهر زمانی خاص مرتبط است.
این دیتاست ها معمولاً در پیش بینی و پیش بینی مقادیر آینده بر اساس الگوهای گذشته استفاده می شوند.
به عنوان مثال، داده های بازار سهام یا داده های آب و هوا را می توان به عنوان دیتاست های سری زمانی نشان داد.
در نهایت، ما دیتاست نامتعادل را داریم.
دیتاست نامتعادل
همانطور که از نام آن پیداست، دیتاست نامتعادل مجموعه ای است که در آن توزیع کلاس ها یا دسته ها ناهموار است.
این به این معنی است که یک کلاس ممکن است به طور قابل توجهی نقاط داده بیشتری نسبت به سایرین داشته باشد.
دیتاستهای نامتعادل میتواند چالشهایی را در یادگیری ماشین ایجاد کند، زیرا ممکن است مدل نسبت به طبقه اکثریت سوگیری پیدا کند.
تکنیک هایی مانند نمونه برداری بیش از حد یا کم نمونه گیری می تواند برای رسیدگی به این موضوع و اطمینان از نمایش عادلانه همه طبقات استفاده شود.
در نتیجه، دیتاستها جزء حیاتی یادگیری ماشین هستند.
دیتاست های برچسب دار راهنمایی لازم را برای مدل ارائه می کنند تا خروجی مورد نظر را بیاموزد، در حالی که دیتاست های بدون برچسب امکان یادگیری و کشف الگوها را بدون نظارت فراهم می کنند.
دیتاست های نیمه نظارت شده تعادلی بین داده های برچسب دار و بدون برچسب ایجاد می کنند، در حالی که دیتاست های سری زمانی برای پیش بینی و پیش بینی مقادیر آینده استفاده می شود.
در نهایت، دیتاست های نامتعادل نیاز به توجه ویژه ای برای اطمینان از نمایش عادلانه همه طبقات دارد.
درک انواع مختلف دیتاستهای مورد استفاده در یادگیری ماشین برای ساخت مدلهای دقیق و قوی که میتوانند پیشبینیها و تصمیمگیریهای هوشمندانه انجام دهند، ضروری است.
پیش پردازش دادهها Techniques for Machine Learning Datasets
تکنیک های پیش پردازش داده برای دیتاست های یادگیری ماشین
دیتاست مجموعه ای از نقاط داده است که برای آموزش یک مدل یادگیری ماشین استفاده می شود.
این نقاط داده می تواند هر چیزی از تصاویر و متن گرفته تا مقادیر عددی باشد.
با این حال، قبل از اینکه بتوانیم این داده ها را به یک الگوریتم یادگیری ماشین وارد کنیم، باید آن را از قبل پردازش کنیم.
پیش پردازش داده ها گامی مهم در یادگیری ماشینی است زیرا به تمیز کردن و تبدیل داده های خام به قالبی که به راحتی توسط الگوریتم ها قابل درک است کمک می کند.
در این مقاله، برخی از تکنیکهای رایج پیشپردازش دادهها را که برای تهیه دیتاستهای یادگیری ماشین استفاده میشوند، بررسی میکنیم.
اولین مرحله در پیش پردازش داده ها، پاکسازی داده ها است.
این شامل مدیریت مقادیر از دست رفته، داده های پرت و پر سر و صدا است.
مقادیر از دست رفته می تواند مشکل ساز باشد زیرا می تواند منجر به نتایج مغرضانه شود.
یکی از راه های رسیدگی به مقادیر از دست رفته حذف کل سطر یا ستون حاوی مقادیر از دست رفته است.
روش دیگر پر کردن مقادیر از دست رفته با میانگین یا میانه ویژگی مربوطه است.
از سوی دیگر، نقاط پرت، نقاط داده ای هستند که به طور قابل توجهی از بقیه داده ها انحراف دارند.
اینها می تواند ناشی از خطاهای اندازه گیری یا سایر ناهنجاری ها باشد.
نقاط دورافتاده می توانند تأثیر قابل توجهی بر عملکرد یک مدل یادگیری ماشینی داشته باشند، بنابراین مهم است که آنها را به طور مناسب مدیریت کنید.
یکی از تکنیک های رایج حذف نقاط پرت یا جایگزینی آنها با مقدار معقول تر است.
هنگامی که داده ها پاک شدند، مرحله بعدی تبدیل داده است.
این شامل تبدیل داده ها به قالبی است که برای الگوریتم یادگیری ماشین مناسب است.
یکی از تکنیکهای تبدیل رایج، مقیاسبندی ویژگی است که شامل مقیاسسازی مقادیر ویژگیها به یک محدوده خاص است.
این مهم است زیرا تضمین می کند که همه ویژگی ها به طور یکسان در عملکرد مدل نقش دارند.
یکی دیگر از تکنیک های تبدیل مهم، رمزگذاری ویژگی است.
این برای تبدیل متغیرهای طبقهبندی به مقادیر عددی قابل درک توسط الگوریتمها استفاده میشود.
یکی از روشهای رمزگذاری محبوب، رمزگذاری تک داغ است که در آن هر دسته با یک بردار باینری نشان داده میشود.
پس از تبدیل داده ها، مرحله بعدی انتخاب ویژگی است.
این شامل انتخاب مرتبط ترین ویژگی هایی است که برای آموزش مدل یادگیری ماشین استفاده می شود.
انتخاب ویژگی مهم است زیرا به کاهش ابعاد دیتاست کمک می کند، که به نوبه خود عملکرد مدل را بهبود می بخشد و زمان آموزش را کاهش می دهد.
چندین تکنیک برای انتخاب ویژگی وجود دارد، از جمله تجزیه و تحلیل همبستگی، که رابطه بین هر ویژگی و متغیر هدف را اندازه گیری می کند.
تکنیک دیگر حذف ویژگی بازگشتی است که به صورت بازگشتی ویژگی ها را با کمترین اهمیت حذف می کند تا زمانی که به تعداد مطلوبی از ویژگی ها برسد.
در نهایت، هنگامی که داده ها از قبل پردازش شدند، آماده هستند تا برای آموزش به الگوریتم یادگیری ماشینی وارد شوند.
انتخاب الگوریتم به ماهیت مسئله و نوع داده بستگی دارد.
برخی از الگوریتمهای معروف یادگیری ماشین شامل درختهای تصمیم، ماشینهای بردار پشتیبان و شبکههای عصبی هستند.
در نتیجه، پیش پردازش داده ها گامی مهم در یادگیری ماشینی است زیرا به تمیز کردن و تبدیل داده های خام به قالبی که به راحتی توسط الگوریتم ها قابل درک است کمک می کند.
با به کارگیری تکنیک هایی مانند پاک کردن داده ها، تبدیل، و انتخاب ویژگی، می توانیم عملکرد مدل های یادگیری ماشین خود را بهبود بخشیم و پیش بینی های دقیق تری انجام دهیم.
بنابراین، دفعه بعد که با یک الگوریتم یادگیری ماشین مواجه شدید، به یاد داشته باشید که همه چیز با یک دیتاست به خوبی از پیش پردازش شده شروع می شود.
داده های اکتشافی تجزیه و تحلیل (EDA) برای دیتاست های یادگیری ماشین
تحلیل داده های اکتشافی (EDA) برای دیتاست های یادگیری ماشین
وقتی صحبت از یادگیری ماشینی می شود، یکی از حیاتی ترین مراحل کاوش و درک دیتاست است.
این فرآیند، که به عنوان تجزیه و تحلیل داده های اکتشافی (EDA) شناخته می شود، به ما کمک می کند تا بینش هایی را در مورد داده ها به دست آوریم و در مورد نحوه پیش پردازش و مدل سازی آن تصمیمات آگاهانه بگیریم.
در این مقاله، به اهمیت EDA برای دیتاست های یادگیری ماشین می پردازیم و برخی از تکنیک های رایج مورد استفاده در این فرآیند را مورد بحث قرار می دهیم.
EDA همه چیز در مورد شناخت داده های شما است.
این شامل بررسی ساختار، الگوها و روابط درون دیتاست است.
با انجام این کار، میتوانیم مقادیر گمشده، نقاط دورافتاده یا ناسازگاریهایی را که ممکن است بر عملکرد مدلهای یادگیری ماشین ما تأثیر بگذارد، شناسایی کنیم.
EDA همچنین به ما در درک توزیع متغیرها و تأثیر آنها بر متغیر هدف کمک می کند.
یکی از اولین گامها در EDA بارگذاری دیتاست و نگاهی سریع به محتویات آن است.
ما می توانیم از کتابخانه های پایتون مانند پانداها برای خواندن داده ها در یک DataFrame و نمایش چند ردیف اول استفاده کنیم.
این به ما احساسی از متغیرهای موجود در دیتاست و انواع داده های آنها می دهد.
همچنین میتوانیم مقادیر از دست رفته یا رکوردهای تکراری را در این مرحله بررسی کنیم.
در مرحله بعد، میتوانیم آمار خلاصه دیتاست را بررسی کنیم.
این شامل معیارهایی مانند میانگین، میانه، انحراف استاندارد، و چارک برای متغیرهای عددی است.
برای متغیرهای طبقهبندی میتوان به توزیع فراوانی دستههای مختلف نگاه کرد.
این آمار درک سطح بالایی از داده ها را به ما ارائه می دهد و به ما کمک می کند تا مشکلات احتمالی را شناسایی کنیم.
تجسمسازیها نقش مهمی در EDA بازی میکنند زیرا به ما امکان میدهند الگوها و روابطی را ببینیم که ممکن است در دادههای خام آشکار نباشند.
نمودارهای پراکنده، هیستوگرام ها، نمودارهای جعبه ای و نمودارهای میله ای برخی از تجسم های رایج مورد استفاده در EDA هستند.
این نمودارها به ما کمک می کند تا توزیع متغیرها را درک کنیم، نقاط پرت را شناسایی کنیم و هر گونه همبستگی بین متغیرها را شناسایی کنیم.
آنها همچنین به انتخاب ویژگی و مهندسی کمک می کنند، که مراحل مهمی در آماده سازی داده ها برای مدل سازی هستند.
یکی دیگر از جنبه های مهم EDA مدیریت مقادیر از دست رفته است.
مقادیر از دست رفته می تواند به طور قابل توجهی بر عملکرد مدل های یادگیری ماشین ما تأثیر بگذارد.
ما باید تصمیم بگیریم که آیا مقادیر از دست رفته را نسبت دهیم یا رکوردهای مربوطه را به طور کامل حذف کنیم.
EDA به ما کمک می کند ماهیت و الگوهای ارزش های گمشده را درک کنیم، که می تواند فرآیند تصمیم گیری ما را هدایت کند.
نقاط پرت یکی دیگر از مسائلی است که باید در طول EDA مورد توجه قرار گیرد.
مقادیر پرت مقادیر شدیدی هستند که به طور قابل توجهی از بقیه داده ها انحراف دارند.
آنها می توانند بر عملکرد مدل های ما تأثیر بگذارند، به ویژه مدل هایی که به توزیع داده ها حساس هستند.
EDA به ما کمک می کند تا نقاط پرت را شناسایی کنیم و تصمیم بگیریم که آیا آنها را حذف کنیم یا تغییر دهیم تا تأثیرگذاری کمتری داشته باشند.
EDA همچنین شامل بررسی روابط بین متغیرها می شود.
تجزیه و تحلیل همبستگی به ما کمک می کند تا قدرت و جهت روابط بین متغیرهای عددی را درک کنیم.
این اطلاعات برای انتخاب ویژگی مفید است و می تواند به ما در شناسایی متغیرهای اضافی یا بسیار همبسته کمک کند.
برای متغیرهای طبقهبندی، میتوانیم از تکنیکهایی مانند آزمونهای مجذور کای برای تعیین اینکه آیا ارتباط معنیداری بین دستههای مختلف وجود دارد استفاده کنیم.
در نتیجه، تجزیه و تحلیل داده های اکتشافی (EDA) یک گام مهم در خط لوله یادگیری ماشین است.
این به ما کمک می کند تا بینش هایی در مورد دیتاست به دست آوریم، هر گونه مشکلی را شناسایی کنیم، و تصمیمات آگاهانه ای در مورد پیش پردازش و مدل سازی بگیریم.
با بررسی ساختار، الگوها و روابط درون دادهها، میتوانیم مطمئن شویم که مدلهای یادگیری ماشینی ما بر پایهی محکمی ساخته شدهاند.
بنابراین، دفعه بعد که پروژه یادگیری ماشینی را آغاز کردید، سرمایه گذاری در EDA را فراموش نکنید.
در درازمدت نتیجه خواهد داد.
بهترین شیوه ها برای مدیریت دیتاست های نامتعادل در یادگیری ماشین
یادگیری ماشینی به بخشی جدایی ناپذیر از بسیاری از صنایع، از مراقبت های بهداشتی گرفته تا امور مالی تبدیل شده است.
این به ما امکان می دهد تا بر اساس الگوها و روند داده ها پیش بینی و تصمیم گیری کنیم.
با این حال، یکی از چالشهایی که اغلب در یادگیری ماشین مطرح میشود، برخورد با دیتاستهای نامتعادل است.
در این مقاله، ما برخی از بهترین روشها را برای مدیریت دیتاستهای نامتعادل در یادگیری ماشین مورد بحث قرار خواهیم داد.
ابتدا بیایید بفهمیم که دیتاست نامتعادل چیست.
در یادگیری ماشین، یک دیتاست زمانی نامتعادل در نظر گرفته میشود که کلاسها یا دستههایی که میخواهیم پیشبینی کنیم به طور یکسان نمایش داده نمیشوند.
به عنوان مثال، اگر بخواهیم پیش بینی کنیم که آیا تراکنش با کارت اعتباری تقلبی است یا خیر، و 1000 تراکنش غیر جعلی و تنها 10 تراکنش متقلبانه داشته باشیم، دیتاست ما نامتعادل است.
دیتاستهای نامتعادل میتوانند مشکل ایجاد کنند، زیرا الگوریتمهای یادگیری ماشین تمایل دارند به سمت طبقه اکثریت سوگیری کنند.
در مثال کلاهبرداری کارت اعتباری ما، اگر بخواهیم مدلی را بر روی این دیتاست نامتعادل آموزش دهیم، احتمالاً اکثر تراکنشها را به عنوان غیر متقلبانه طبقهبندی میکند، زیرا این امر منجر به نرخ دقت بالایی میشود.
با این حال، این چیزی نیست که ما می خواهیم.
ما می خواهیم مدل ما بتواند معاملات جعلی را به دقت شناسایی کند.
بنابراین، چگونه می توانیم دیتاست های نامتعادل را در یادگیری ماشین مدیریت کنیم؟ یک رویکرد استفاده از تکنیک های نمونه گیری مجدد است.
نمونه گیری مجدد شامل نمونه برداری بیش از حد از کلاس اقلیت یا کم نمونه برداری از کلاس اکثریت برای ایجاد یک دیتاست متعادل تر است.
نمونه برداری بیش از حد شامل تکرار تصادفی نمونه ها از کلاس اقلیت است، در حالی که نمونه برداری کم شامل حذف تصادفی نمونه ها از کلاس اکثریت است.
روش دیگر استفاده از معیارهای ارزیابی مختلف است.
دقت همیشه بهترین معیار برای ارزیابی عملکرد یک مدل در دیتاست های نامتعادل نیست.
در عوض، معیارهایی مانند دقت، یادآوری و امتیاز F1 میتوانند درک جامعتری از عملکرد مدل ارائه دهند.
دقت نسبت مثبتهای واقعی را از تمام پیشبینیهای مثبت اندازهگیری میکند، در حالی که یادآوری نسبت مثبتهای واقعی را از همه موارد مثبت واقعی اندازهگیری میکند.
امتیاز F1 میانگین هارمونیک دقت و یادآوری است.
علاوه بر این، ما همچنین میتوانیم از روشهای مجموعه برای مدیریت دیتاستهای نامتعادل استفاده کنیم.
روشهای مجموعه شامل ترکیب چندین مدل برای پیشبینی است.
یکی از روشهای محبوب مجموعه، کیسهبندی نام دارد که شامل آموزش مدلهای متعدد بر روی زیرمجموعههای مختلف داده و سپس ترکیب پیشبینیهای آنها میشود.
یکی دیگر از روشهای گروهی، تقویت نامیده میشود، که شامل آموزش مدلها به صورت متوالی است، با تمرکز هر مدل بر نمونههایی که توسط مدل قبلی به اشتباه طبقهبندی شدهاند.
در نهایت، مهم است که تأثیر عدم تعادل کلاس در طول فرآیند مهندسی ویژگی را در نظر بگیریم.
مهندسی ویژگی شامل انتخاب و تبدیل متغیرها در دیتاست ما برای بهبود عملکرد مدل ما است.
هنگام برخورد با دیتاستهای نامتعادل، مهم است که ویژگیهایی را انتخاب کنید که هم برای اکثریت و هم برای کلاسهای اقلیت آموزنده باشد.
علاوه بر این، ما همچنین میتوانیم ویژگیهای جدیدی ایجاد کنیم که عدم تعادل در دیتاست را نشان میدهد، مانند نسبت نمونهها در کلاس اقلیت به نمونههایی در کلاس اکثریت.
در نتیجه، مدیریت دیتاست های نامتعادل در یادگیری ماشین نیاز به بررسی دقیق و اجرای بهترین شیوه ها دارد.
تکنیکهای نمونهگیری مجدد، معیارهای ارزیابی مختلف، روشهای مجموعه، و مهندسی ویژگیهای متفکرانه، همگی میتوانند به بهبود عملکرد مدلها در دیتاستهای نامتعادل کمک کنند.
با پرداختن به چالشهای ناشی از دیتاستهای نامتعادل، میتوانیم اطمینان حاصل کنیم که مدلهای یادگیری ماشینی ما در برنامههای کاربردی دنیای واقعی دقیقتر و قابل اعتمادتر هستند.
منبع » آکادمی اشکان مستوفی