دسته بندی : اخبار فن آوری اطلاعات
دادهکاوی عبارت است از فرآیند اکتشاف الگو و روندهای منظم و پنهان در دادههای بزرگ و توزیع شده، با استفاده از مجموعه وسیعی از الگوریتمهای مبتنی بر علوم ریاضی و آمار
داده کاوی به فرایند آنالیز الگو های پنهان داده ها از دیدگاه های مختلف برای طبقه بندی مفید اطلاعاتی که در مناطق مشترک گفته می شود مانند انبار داده ها ، برای تجزیه و تحلیل کارآمد، الگوریتم های داده کاوی ، تسهیل تصمیم گیری کسب و کار و سایر نیاز های اطلاعاتی که در نهایت باعث افزایش درآمد و کاهش هزینه ها می شود.
همچنین به داده کاوی کشف داده یا دانش کشف کردن نیز گفته می شود.
مراحل عمده در فرایند استخراج داده ها عبارتند از:
اولین قدم در داده کاوی ، جمع آوری اطلاعات مرتبط به کسب و کار مورد نظر است.داده های شرکت شامل متادیتا ها، تراکنش ها و داده های غیر عملیاتی می شود.تراکنش ها مربوط به عملیات هایی هستند که به طور روزانه انجام می شوند مانند فروش ، موجودی ، هزینه و غیره. داده های غیر عملیاتی به طور معمول برای پیش بینی ها استفاده می شوند در حالی که ابر داده (متا دیتا) مربوط به طراحی پایگاه داده منطقی است.الگو ها و روابط بین عناصر داده ها ، اطلاعات مرتبط را ارائه می دهند که ممکن است درآمد سازمان را افزایش دهند.سازمان هایی که از تکنیک های داده کاوی استفاده می کنند میتوانند تصویر روشنی از محصولاتی که بیشتر به فروش می رسند ، قیمت ها ، رقابت های موجود در کسب و کار و گروه جمعیتی مشتریان خود داشته باشند.
به طور مثال ، تمامی شعبه های Wal-Mart (بزرگترین شرکت خرده فروشی آمریکایی با بزرگترین شبکه فروشگاه هی زنجیره ای مواد غذایی ، سوپرمارکت ها و هایپرمارکت ها در جهان) داده های مربوطه را به یک انبار داده متشکل از چند صد ترابایت داده، منتقل می کنند.این داده ها به سادگی در دسترس تامین کنندگان قرار می گیرند تا بتوانند از الگوی خرید مشتریان مطلع شوند. آن ها میتوانند الگوی عادت های خرید مشتریان ، روزهایی که بیشترین خرید را دارد ، محصولاتی با بیشترین جستجو و سایر اطلاعات را با استفاده از تکنیک های داده کاوی بدست آورند.
دومین گام در داده کاوی انتخاب یک الگوریتم مناسب است. کار کلی الگوریتم شامل شناسایی روند در مجموعه ای از داده ها و استفاده از خروجی برای تعریف پارامتر است. الگوریتم های محبوب مورد استفاده برای استخراج داده ها عبارتند از الگوریتم های طبقه بندی (classification) و الگوریتم های رگرسیون(regression) که برای شناسایی روابط میان عناصر داده استفاده می شوند. فروشندگان پایگاه داده های بزرگ مانند اوراکل و SQL شامل الگوریتم های داده کاوی، مانند خوشه بندی(clustering) و رگرسیون ترس(regression tress) هستند.
منبع : TechoPedia
تعداد بازدید : 38692 تاریخ : ۱۳۹۷/۰۸/۳ برابر است با 2018/10/25