دوره یادگیری ماشین دانشگاه استنفورد به فارسی > هفته نهم > انتخاب ویژگی‌ها

انتخاب ویژگی‌ها

1 دقیقه　|　 2020/10/30

ویژگی‌ها تاثیر بسیاری بر الگوریتم تشخیص ناهنجاری خواهند داشت.

برای بررسی این مسئله که ویژگی‌ها گاوسی هستند، می‌توان نمودار هیستوگرام را برای داده‌ها رسم و شکل ناقوسی منحنی را بررسی کرد.

برخی از تغییراتی که می‌توان روی ویژگی x یک نمونه امتحان کرد که منحنی ناقوس شکل ندارد:

$log(x)$
$log(x+1)$
$log(x+c)$ برای بعضی مقادیر ثابت
$\sqrt{x}$
$x^{\frac{1}{3}}$

می‌توان هرکدام از موارد بالا را برای دستیابی به شکل گاوسی در داده‌ها دست کاری کرد.

یک روش تجزیه و تحلیل خطا برای تشخیص ناهنجاری وجود دارد که بسیار شبیه روندی است که در یادگیری با نظارت به کار برده می‌شود.

هدف ما این است که مقدار p(x) مقداری بزرگ برای نمونه‌های طبیعی و مقداری کوچک برای نمونه‌های ناهنجار داشته باشد.

یک مشکل رایج هنگامی است که p(x) برای هر دو نمونه مقدار مشابهی داشته باشد. در این صورت باید نمونه‌های ناهنجاری را که احتمال بالایی دارند با دقت بررسی کرده و ویژگی‌های جدیدی را پیدا کنید که داده‌ها را بهتر متمایز می‌کنند.

به طور کلی، ویژگی‌هایی را انتخاب کنید که در صورت ناهنجاری ممکن است مقادیر غیرمعمول بزرگ یا کوچکی داشته باشند.