کاربرد علم آمار در داده کاوی
آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.
همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمیData mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.
تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسايل (پیش گویی ،کلاس بندی و کشف)استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.
در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربر(تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.
در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.
به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.
بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Databaseمربوط می شود.
روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.
در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.
روشهای آماری چون پایه ریاضی دارندنتایج دقیق تری نسبت به دیگر روشها ی Data miningاریه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.
مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است.هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.
تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining در جدول اريه شده است:
| |
ِِدیگر روشهای Data mining
|
روشهای آماری
|
| |
بدون فرض اولیه
|
داشتن فرض اولیه
|
| |
در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی
|
تنها برای داده های عددی کاربرد دارند
|
| |
در محدوده وسیع تری از داده ها
|
در محدوده کوچکی از داده ها
|
| |
Data mining به دادهای درست clean data بستگي دارند
|
حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty data
|
| |
استفاده از شبكه عصبي
|
روشهای رگرسیون و استفاده از معادلات
|
| |
استفاده ازData visulization
|
استفاده از چارتهای دو بعدی و سه بعدی
|
| |
استفاده از روشهای یادگیری ماشین و هوش مصنوعی
|
استفاده از روابط ریاضی
|
| |
در یادگیری غیر نظارتی کاربرد بیشتر دارد
|
در descriptive statisticalوcluster analysis کاربرد دارد.
|
همچنین می توان گفت که درDM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند.
تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.
با ارايه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آما روDM می پردازیم .
كاربردهاي روشهاي آماري:
Data mining معمولا وظايف يا به عبارت بهتر استراتژهاي زير را در داده ها بكار مي برد:
- توضيح و تفسير (description)
- تخمينestimation) )
- پيش بينيprediction) )
- كلاس بنديclassification) )
- خوشه سازي (clustering)
- وابسته سازي وايجاد رابطه (association)
در جدول زير استراتژي ها و روشهاي هر استراتژي مشخص شده است:
|
روشها
|
استراتژيها
|
|
تحليل داده ها
|
توضيح وتفسير
|
|
تحليل هاي آماري
|
تخمين
|
|
تحليل هاي آماري
|
پيش بيني
|
|
الگوريتم نزديك ترين همسايه
|
كلاس بندي
|
|
درخت تصميم
|
كلاس بندي
|
|
شبكه هاي عصبي
|
كلاس بندي
|
|
خوشه سازي k-mean
|
خوشه سازي
|
|
شبكه هاي kohonen
|
خوشه سازي
|
|
وابسته سازي و ايجاد رابطه
|
رابطه سازي
|
البته بايد گفت كه روشهاي data mining تنها به يك استراتژي خاص محدود نمي شوندو نتايج يك را همپوشاني بين روشها نشان مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تعريف تقسيم بندي از وظايف در نظرگرفته شود بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف dataminig آشنايي پيدا كرديم در نظر گرفته مي شود.
همانگونه كه ازجدول پيداست روشهاي آماري در مباحث تخمين وپيش بيني كاربرد دارند. در تحليل آماري تخمين وپيش بيني عناصري از استنباطهاي آماري هستند.استنباطهاي آماري شامل روشهايي براي تخمين وتست فرضيات درباره جمعيتي از ويژگيها براساس اطلاعات حاصل از نمونه است .يك جمعيت شامل مجموعه اي از عناصر از قبيل افراد ايتم ياداده ها يي كه دريك مطالعه خاص آمده است. بنابراين در اينجا به توضيح یکی از اين دواستراتژي مي پردازيم.
- تخمين:
در تخمین به دنبال این هستیم که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسایل تخمین بیشتر عددی هستند تا قیاسی .بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند.مثلا موارد بلی،خیر به 0 و1 تبدیل می شود.
تكنيكهاي نظارتي DM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را.یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.
روشهاي آماري مورد استفاده دراين مورد بطوركلي شامل تخمين نقطه و فا صله اطمينان ميباشد. تحليل هاي آماري تخمين وتحليل هاي يك متغيره و...از اين جمله مي باشند.
در توضيح اينكه چرا به سراغ تخمين مي رويم بايد گفت كه مقدار واقعي پارامترها براي ما ناشناخته است.مثلا مقدار واقعي ميانگين يك جامعه مشخص نيست.داده ها ممكن است كه بطور رضايت بخشي جمع آوري نشده باشد يا به عبارتيwarehouse نشده باشد. به همين دليل تحليل گران از تخمين استفاده ميكنند.
در خيلي از موارد تعيين ميانگين مجموعه اي از داده ها براي ما مهم است.مثلا ميانگين نمرات درسي يك كلاس،ميانگين تعداد نفراتي كه در يك روز به بانك مراجعه مي كنند،متوسط مقدار پولي كه افراد دريك شعبه خاص از بانك واريز مي كنند وموارد اينچنيني.
زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم،آن پارامتر را تخمین زده ایم،وبه مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم.در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم.از مهمترین تخمین زننده ها است که به ترتیب برآورد واریانس و میانگین جامعه هستند.خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی،ناسازگاری،بسندگی و... هستند،که هر یک به بیان ویژگی خاصی از آنها می پردازندو میزان توانایی آنها را در تخمین درست و دقیق یک پارامترتعیین می کنند.
در تخمین نیازمند داشتن اندازه نمونه هستیم،در تعیین اندازه نمونه می توان از رابطه زیر استفاده کرد:
که p احتمال رخدادو e درصد خطای پذیرفته شده است که در اینجا 5% در نظر می گیریم.
پر کاربرد ترین تخمین زننده ،تخمین زننده میانگین جامعه است،ساده ترين رابطه اي كه براي ميانگين داده ها مي توان نوشت بدين صورت است:
كه n تعداد نمونه ها و مقدارهر نمونه است.در اينجا تمام نمونه ها ارزش يكساني دارند ولي گاهي اوقات نياز است كه نمونه ها بر اساس اهميتي كه دارند وزن دهي شوند.
در مواردي نيز تخمين فاصله براي ما اهميت دارد.فاصله اطمينان شامل فاصله اي است كه با درصدي از اطمينان مي توانيم بگوييم كه مقدار يك پارامتر درون اين اين فاصله قرار مي گيرد.به عبارت دیگراگر چه برآورد نقطه ای طریقه متداول توصیف .برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است.مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است.و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد پارامتر را با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس ،یا اطلاعات دیگری درباره توزیع نمونه گیری کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم.