دادهکاوی، طیف وسیعی از فعالیتها را پوشش میدهد. و به دنبال ارائه جواب به سوالاتی از قبیل سوالات زیر است:
در دادهکاوی، مجموعهدادهها میتوانند کلان[2] باشند- ممکن است میلیونها مورد وجود داشته باشد. با اینحال، انواع صنایع متفاوت از لحاظ تعداد مواردی که از فرایندهای کسب و کار پدیدار میشوند تا حد زیادی با هم فرق میکنند. برای مثال، اپلیکیشنهای وب میتوانند دادهها را از میلیونها کوکی[3] جمعآوری کند در حالیکه سایر اپلیکیشنها مانند باشگاه طرفداران[4] یا برنامههای مدیریت ارتباط با مشتری[5]، ممکن است موارد محدودتری داشته باشند. قوانین محافظت از دادهها و بازار محلی و مشتریان صنعت فرق میکنند اما در بسیاری از کشورها، امکان خریداری یا اجاره اطلاعات هم در یک سطح پرجزئیات و هم خلاصه یا در سطح انبوه[6]، وجود دارد.
دادهکاوی از روش علمی کاوش و کاربرد استفاده میکند. ما با حجم انبوهی از دادهها روبرو هستیم که در برخی موارد میتوانیم آن را به عنوان یک جمعیت کل درنظر بگیریم. به عبارت دیگر، ما تمام اطلاعاتی موجود را داریم. در موارد دیگر، مجموعهداده ما ممکن است به عنوان یک نمونه بزرگ درنظر گرفته شود. اگر با مقادیر نسبتاً کم دادهها (بالغ بر 10هزارمورد) سروکار داشته باشیم، در آنصورت شاید ترجیح دهیم با کل مجموعهداده کار کنیم. اگر با مجموعهدادههای بزرگ سروکار داشته باشیم، شاید برای سهولت در کار با دادهها، کار با یک زیرمجموعه را انتخاب کنیم. اگر این تجزیه و تحلیل روی یک نمونه اجرا شود، پیامد آن این است که نتایج، نمونه معرف کل جمعیت خواهند بود. به عبارت دیگر، نتایج این تجزیه و تحلیل روی نمونه را میتوان طوری تعمیم داد که برای کل جمعیت، وارد باشد.
بنابراین این نمونه باید خوب باشد، در اینجا منظورمان از خوب بودن این است که باید نمونه معرف کل و بدون جانبداری (سوگیری)[7] باشد. خود نمونهگیری یک موضوع کلی است. با توجه به اینکه ما معمولاً با جمعیتهای بزرگ سروکار داریم و میتوانیم از پس نمونههای بزرگ بربیاییم، میتوانیم یک نمونه تصادفی را بگیریم که در آن تمام اعضاء جمعیت، شانس برابری برای انتخابشدن دارند. ما مباحث عملی پیرامون نمونهگیری در سایر بخشهای این کتاب را بررسی خواهیم کرد. همچنین میتوانیم مجموعهداده را به درون نمونههای متعدد قسمتبندی کنیم طوری که بتوانیم نتایج خود را آزمایش کنیم. اگر یک مجموعهداده کوچک داشته باشیم در آنصورت با گرفتن زیرمجموعههای تصادفی درون همان نمونه، که به عنوان خودراهاندازی[8] به آن اشاره میشود، مجدداً نمونه گیری میکنیم. سپس باید روشهای بررسی اینکه آیا نمونه حاصل نمونه معرف هست یا خیر، را درنظر بگیریم.
گاهی اوقات ما تنها بخشی از این جمعیت را برای یک تجزیه و تحلیل خاص در نظر میگیریم، برای مثال، شاید تنها به رفتار خرید نزدیک کریسمس یا در ماههای تابستان علاقمند باشیم. در این مورد، این زیرمجموعه به عنوان یک چارچوب نمونهگیری یاد میشود چرا که نمونههای بیشتر دقیقاً از این زیرمجموعه انتخاب خواهد شد.
آمادهسازی داده برای دادهکاوی یک گام حیاتی است که گاهی اوقات نادیده گرفته میشود. ما از سالها قبل میدانستیم که «دو به اضافه دو میشود چهار». اعداد عینی[10]، ملموس[11]، جامد[12]، رویدادنی[13] و فراتر از بحث و ابزاری دانسته میشوند که میتوانند برای اندازهگیری همهچیز و هرچیز استفاده شوند. اما اعداد وردش (تنوع یا واریاسیون) ذاتی[14] دارند، برای مثال، دو محصول شاید طی یک روز معین فروخته شده باشند اما ممکن است قیمت فروش آنها متفاوت باشد؛ تفسیر بر اساس ارزش اسمی[15] شاید درست نباشد. برخی از کسب و کارها برای تصمیمگیری از دادهها استفاده میکنند بدون اینکه حتی مطمئن شوند دادهها بامعنی هستند و بدون اینکه در ابتدا دادهها را به دانش و درنهایت به آگاهی[16] تبدیل کنند. «آگاهی» از دادههایی ناشی میشود که اعتبار آنها از طریق استفاده از تجربیات گذشته سنجیده شده است و بر اساس ملاحظات زمینه آن، توصیف میشود.
دادهکاوی، فرایندی است که از انواع روشهای تجزیه و تحلیل داده برای کشف الگوهای نامعلوم، غیرمنتظره، جالب و وارد و روابط میان دادهها استفاده میکند که ممکن است برای معتبرسازی و پیشبینیهای دقیق استفاده شود. درکل، دو روش تجزیه و تحلیل داده وجود دارد: نظارتشده و نظارت نشده (شکل 2-1 و شکل 2-2 را ببینید). در هر دو مورد، نمونهای از دادههای مشاهدهشده موردنیاز است. این دادهها شاید نمونه آموزشی[18] نامیده شوند. نمونه آموزشی توسط فعالیتهای دادهکاوی برای یادگیری الگوهای این دادهها استفاده میشود.
تجزیه و تحلیل دادههای نظارتشده برای برآورد یک وابستگی مجهول بین دادههای ورودی-خروجی معلوم استفاده میشود. متغیرهای ورودی ممکن است شامل کمیتهایی از اقلام متفاوت خریداری شده توسط یک مشتری خاص باشند، اطلاعاتی که در خرید اعلام کردهاند، موقعیت مکانی و قیمتی که پرداخت کردهاند. متغیرهای خروجی ممکن است شامل نشانهای از این باشد که آیا مشتری به یک کمپین فروش (مثل کمپین حراج) واکنش نشان میدهد یا خیر. متغیرهای خروجی همچنین در دادهکاوی به عنوان نشانهها یا اهداف درنظر گرفته میشوند. در محیط نظارتشده، متغیرهای ورودی نمونه از طریق یک سیستم یادگیری پذیرفته میشوند و خروجی متعاقب از این سیستم یادگیری با خروجی از این نمونه مقایسه میشود. به عبارت دیگر، ما سعی میکنیم پیشبینی کنیم که چه کسی به یک کمپین فروش پاسخ خواهد داد. تفاوت میان خروجی سیستم یادگیری و خروجی نمونه را می توان مثلاً از یک سیگنال خطا[1] آموخت. سیگنالهای خطا برای تنظیم سیستم یادگیری استفاده میشوند. این فرایند بارها با دادههای این نمونه انجام میشود و سیستم یادگیری تا زمانی که خروجی به یک حد آستانه خطای کمینه برسد، تنظیم میشود. این همان فرایندی است که برای کوک دقیق یک پیانوی به تازگی خریداری شده انجام میشود. کوک دقیق باید توسط یک کارشناس یا با استفاده از برخی ابزارآلات الکترونیکی انجام داد. کارشناس، نتها را برای نمونه آموزشی آماده میکند و پیانوی تازه خریداریشده، سیستم یادگیری است. این کوک کردن زمانی کامل میشود که ارتعاش نتهای کلیدی پیانو با ارتعاش در گوش کارشناس، مطابقت داشته باشد.
تجزیه و تحلیل داده های نظارتنشده شامل هیچ کوک دقیقی نیست. الگوریتمهای دادهکاوی از میان دادهها جستجو میکنند تا الگوها را کشف کنند و هیچ متغیر هدف یا نشانهای وجود ندارد. تنها مقادیر ورودی به سیستم یادگیری ارائه میشوند بدون اینکه نیاز به اعتبارسنجی در مقابل هر خروجی وجود داشته باشد. هدف از تجزیه و تحلیل دادههای نظارتنشده، کشف ساختارهای «طبیعی» در دادههای ورودی است. در سیستمهای بیولوژیک، ادراک، کاری است که از طریق یک تکنیک نظارتنشده آموخته میشود.
یک تحلیلگر بسته به مشخصات مسائل کسب و کار و دسترسپذیری دادههای «تمیز[3]» و مناسب برای تجزیه و تحلیل، باید درباره اینکه از کدام تکنیک کشف دانش برای کسب بهترین خروجی استفاده کند، تصمیم بگیرد. از جمله تکنیکهای موجود عبارتند از:
این فهرست دقیق و کامل نیست و ترتیب آن نشانه هیچگونه الویتبندی در کاربرد این تکنیکها نیست. این کتاب روی روشهایی تمرکز خواهد کرد که بطور گسترده که در طیف وسیعی از محصولات نرمافزاری دادهکاوی استفاده و اجرا میشوند و روشهایی که برای ارائه نتایج خوب به سوالات کسب و کار در یک زمان نسبتاً کوتاه، معروف هستند. ما بیشتر روی نیاز کسب و کار تمرکز خواهیم کرد تا جنبههای علمی. کتابشناسی شامل منابع ادبیاتی است که تمام این تکنیکها را پوشش میدهد.
[1] error signal
[2] Knowledge-Discovery
[3] clean
[4] Statistical methods
[5] multiple regression
[6] logistic regression
[7] analysis of variance
[8] log-linear models
[9] Bayesian inference
[10] Decision trees
[11] decision rules
[12] Classification And Regression Tree algorithms
[13] pruning algorithms
[14] Cluster analysis
[15] divisible algorithm
[16] agglomerative algorithms
[17] Hierarchical clustering
[18] partitional clustering
[19] incremental clustering
[20] Association rule
[21] market basket analysis
[22] a priori algorithm
[23] Sequence patterns
[24] social network analysis
[25] Artificial neural networks
[26] multilayer perceptrons with back-propagation learning
[27] radial networks
[28] Self-Organising Maps (SOM)
[29] Kohonen
[30] Genetic algorithms
[31] Fuzzy inference systems
[32] fuzzy sets
[33] fuzzy logics
[34] N-dimensional visualisation methods
[35] geometric
[36] icon-based
[37] pixel-oriented
[38] hierarchical
[39] Case-Based Reasoning (CBR)
[1] Population and Sample
[2] enormous
[3] Cookies: کوکی یک فایل است که توسط یک وب سایت برای حفظ اطلاعات بر روی رایانه شما قرار میگیرد. یک کوکی میتواند شامل اطلاعاتی باشد که شما در آن لیست وارد کرده اید مانند ایمیل، نشانی، شماره تلفن و سایر اطلاعات شخصی.
[4] Loyalty clubs
[5] Customer Relationship Management
[6] summary or aggregate level
[7] unbiased
[8] bootstrapping
[9] Data Preparation
[10] concrete
[11] tangible
[12] solid
[13] inevitable
[14] inherent variation
[15] Face value
[16] intelligence
[17] Supervised and Unsupervised Methods
[18] training sample
امور ثبت و صدور گواهینامه های ایزو شرکت BRSM
تهران سعادت آباد خیابان سپیدار پلاک ۱۰
تلفن : ۰۲۱۲۶۷۶۱۲۸۱
www.BRSCERTIFICATION.com
www.BRSM.ir
#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد
منبع :https://brsm.ir/node/83
چه به دنبال کسب گواهی باشید و چه صرفاً بخواهید استانداردهای ایزو 9001 را به اجرا درآورید، فقط یک راه برای رسیدن به این هدف دارید:
در مسیر کسب این گواهی، احتمالاً باید مراحلی را دنبال کنید:
شرکت بین المللی BRS تحت اعتبار IAS امریکا ، TURKAK ترکیه و گروه داخلی بیکران راهکار سعادت زیر نظر اداره استاندارد ایران و مرکز ملی تایید صلاحیت، ارائه دهنده خدمات ثبت و صدور گواهینامه های ایزو و استاندارد های جهانی
امور ثبت و صدور گواهینامه BRS
تهران سعادت آباد خیابان سپیدار پلاک ۱۰
تلفن : ۰۲۱۲۶۷۶۱۲۸۱
www.BRSMENA.com
www.BRS.ir
#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد
منبع : https://brs.ir/node/73