Translate with google:
پروپوزال ، پروپوزال کارشناسی ارشد ، پروپوزال های کارشناسی ارشد ، پروپزال ارشد مدیریت ، پرپزال کارشناسی ارشد و دکتری ، پروپوزال دکتری ، پروپوزال دکترای مدیریت ، پروپوزال پی اچ دی ، پروپوزال های پی اچ دی ، پروپزال دکترای خارج، پروپوزال مالزی ، پروپوزال خارجی ، پایان نامه خارجی ، پروپوزال دانشگاه آزاد ، پروپوزال دانشگاه آزاد اسلامی ، طرح پیشنهادی تحقیق کارشناسی ارشد، طرح تحقیق دکتری ، طرح تحقیق دکتری مدیریت ، طرح تحقیق کارشناسی ارشد و دکترای مدیریت ، مدیریت سازمان ، مدیریت منابع

کاربرد علم آمار در داده کاوی

کاربرد  علم آمار در داده کاوی

آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد.  می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه  DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.

همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمیData  mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.

تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسايل (پیش گویی ،کلاس بندی و کشف)استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.

 در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربر(تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.

به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.

بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Databaseمربوط می شود.

روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise  وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف  noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.

در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.

روشهای آماری چون پایه ریاضی دارندنتایج دقیق تری نسبت به دیگر روشها ی Data miningاریه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.

مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است.هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.

تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining  در جدول اريه شده است:

 

 

      ِِدیگر روشهای Data mining

 

روشهای آماری

 

 

 

بدون فرض اولیه

 

داشتن فرض اولیه

 

 

در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی

تنها برای داده های  عددی کاربرد دارند

 

در محدوده وسیع تری از داده ها

در محدوده کوچکی از داده ها

 

Data mining به دادهای درست clean data بستگي دارند

حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty data

 

استفاده از شبكه عصبي

روشهای رگرسیون و استفاده از معادلات

 

استفاده ازData visulization

استفاده از چارتهای دو بعدی و سه بعدی

 

استفاده از روشهای یادگیری ماشین و هوش مصنوعی

استفاده از روابط ریاضی

 

در یادگیری غیر نظارتی کاربرد بیشتر دارد

در  descriptive statisticalوcluster   analysis  کاربرد دارد.

 

همچنین می توان گفت که درDM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند. 

تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.

با ارايه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آما روDM  می پردازیم .

 

كاربردهاي روشهاي آماري:

Data  mining   معمولا  وظايف يا به  عبارت بهتر استراتژهاي  زير را  در  داده ها بكار  مي برد:

- توضيح و تفسير (description)

- تخمينestimation)  )

- پيش بينيprediction)  )

- كلاس بنديclassification) )

- خوشه سازي  (clustering) 

- وابسته سازي وايجاد رابطه (association)

در جدول زير  استراتژي ها  و روشهاي هر استراتژي مشخص شده است:

روشها

استراتژيها

 

تحليل  داده ها

توضيح  وتفسير

تحليل هاي آماري

تخمين

تحليل هاي آماري

پيش بيني

الگوريتم نزديك ترين همسايه

كلاس بندي

درخت  تصميم

كلاس بندي

شبكه هاي عصبي

كلاس بندي

خوشه سازي  k-mean

خوشه سازي

شبكه هاي kohonen

خوشه سازي

وابسته سازي  و ايجاد رابطه

رابطه سازي

  البته بايد  گفت كه روشهاي data mining  تنها  به يك استراتژي خاص محدود  نمي شوندو  نتايج  يك را همپوشاني بين روشها نشان  مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تعريف تقسيم بندي از وظايف در نظرگرفته   شود‏ بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف dataminig  آشنايي پيدا كرديم در نظر گرفته مي شود.

همانگونه كه ازجدول پيداست روشهاي آماري  در مباحث تخمين وپيش بيني كاربرد دارند. در تحليل آماري تخمين وپيش بيني عناصري از استنباطهاي آماري هستند.استنباطهاي آماري شامل روشهايي براي تخمين وتست فرضيات درباره جمعيتي از ويژگيها براساس اطلاعات حاصل از نمونه است .يك  جمعيت شامل مجموعه اي از عناصر از قبيل افراد ايتم ياداده ها يي كه دريك مطالعه خاص آمده است. بنابراين در اينجا به توضيح یکی از اين  دواستراتژي مي پردازيم.

 - تخمين:

در تخمین به دنبال این هستیم  که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسایل تخمین بیشتر عددی هستند تا قیاسی .بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند.مثلا موارد بلی،خیر به 0 و1 تبدیل می شود.  

 تكنيكهاي نظارتي DM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را.یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.

روشهاي آماري مورد استفاده دراين مورد بطوركلي شامل تخمين نقطه و فا صله اطمينان ميباشد. تحليل هاي آماري تخمين وتحليل هاي يك متغيره و...از اين جمله  مي باشند.

در توضيح  اينكه چرا به سراغ تخمين مي رويم بايد گفت كه مقدار واقعي پارامترها براي ما ناشناخته است.مثلا مقدار واقعي ميانگين يك جامعه مشخص نيست.داده ها ممكن است كه بطور رضايت بخشي جمع آوري نشده باشد‏ يا به  عبارتيwarehouse نشده باشد. به همين دليل تحليل گران از تخمين استفاده ميكنند.

در خيلي از موارد تعيين  ميانگين   مجموعه اي از داده ها براي ما مهم است.مثلا ميانگين نمرات درسي يك كلاس،ميانگين تعداد نفراتي كه در يك روز به بانك مراجعه مي كنند،متوسط مقدار پولي كه افراد دريك  شعبه خاص از بانك واريز مي كنند وموارد  اينچنيني.

زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم،آن پارامتر را تخمین زده ایم،وبه مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم.در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم.از مهمترین تخمین زننده ها  است که به ترتیب برآورد واریانس و میانگین جامعه هستند.خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی،ناسازگاری،بسندگی و... هستند،که هر یک به بیان ویژگی خاصی از آنها می پردازندو میزان  توانایی آنها را در تخمین درست و دقیق یک پارامترتعیین می کنند.

در تخمین نیازمند داشتن اندازه نمونه هستیم،در تعیین اندازه نمونه می توان از رابطه زیر استفاده کرد:

که p احتمال رخدادو e درصد خطای پذیرفته شده است که در اینجا 5% در نظر می گیریم.

پر کاربرد ترین تخمین زننده ،تخمین زننده میانگین جامعه است،ساده ترين رابطه اي كه براي ميانگين  داده ها مي توان نوشت بدين صورت است:

كه n  تعداد نمونه ها و  مقدارهر نمونه است.در اينجا تمام  نمونه ها ارزش يكساني دارند ولي گاهي اوقات نياز است كه نمونه ها بر اساس اهميتي كه دارند وزن دهي شوند.

در مواردي نيز تخمين فاصله براي ما اهميت دارد.فاصله   اطمينان شامل فاصله اي است كه  با درصدي از اطمينان مي توانيم بگوييم كه مقدار يك  پارامتر درون اين اين فاصله قرار مي گيرد.به عبارت دیگراگر چه برآورد نقطه ای طریقه متداول توصیف .برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است.مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است.و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد  پارامتر  را با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس  ،یا اطلاعات دیگری درباره توزیع نمونه گیری  کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم.


روش های تحقیق
گرایش های مدیریت
تهیه پرسشنامه
دانلود پایان نامه ها
مقالات مدیریتی
پیشنهاد موضوع
نحوه نگارش پروپوزال
صندوق پیشنهادات
کاربران آنلاین
2 تعداد کاربران عضو/مهمان:
0 تعداد کاربران عضو:
2 تعداد کاربران مهمان:

سخن روز
payanname33@yahoo.com

Copyright © 2008 'Webgostaran'. All rights reserved.