ویژگیها تاثیر بسیاری بر الگوریتم تشخیص ناهنجاری خواهند داشت.
برای بررسی این مسئله که ویژگیها گاوسی هستند، میتوان نمودار هیستوگرام را برای دادهها رسم و شکل ناقوسی منحنی را بررسی کرد.
برخی از تغییراتی که میتوان روی ویژگی x یک نمونه امتحان کرد که منحنی ناقوس شکل ندارد:
$log(x)$
$log(x+1)$
$log(x+c)$ برای بعضی مقادیر ثابت
$\sqrt{x}$
$x^{\frac{1}{3}}$
میتوان هرکدام از موارد بالا را برای دستیابی به شکل گاوسی در دادهها دست کاری کرد.
یک روش تجزیه و تحلیل خطا برای تشخیص ناهنجاری وجود دارد که بسیار شبیه روندی است که در یادگیری با نظارت به کار برده میشود.
هدف ما این است که مقدار p(x) مقداری بزرگ برای نمونههای طبیعی و مقداری کوچک برای نمونههای ناهنجار داشته باشد.
یک مشکل رایج هنگامی است که p(x) برای هر دو نمونه مقدار مشابهی داشته باشد. در این صورت باید نمونههای ناهنجاری را که احتمال بالایی دارند با دقت بررسی کرده و ویژگیهای جدیدی را پیدا کنید که دادهها را بهتر متمایز میکنند.
به طور کلی، ویژگیهایی را انتخاب کنید که در صورت ناهنجاری ممکن است مقادیر غیرمعمول بزرگ یا کوچکی داشته باشند.