3: همه چیز درباره داده
در اکثر شرکتها، بازاریابی، فروش و کنترل فرایند از محرکهای اصلی برای ارتقای کیفیت دادهها و تولید اعداد و اطلاعات مشابهی درباره کسب و کار هستند. اما، حتی بخشهای تولید و تحقیق و توسعه (R&D) برای استفاده از روشهای آماری یا دادهکاوی بهمنظور ارتقای نتایج خروجی و افزایش سودآوری، به منابع داده قابل اعتماد نیاز دارند. در اکثر شرکتها، انگیزه اصلی برای بررسی و بازسازی دادهها و فرایندها، استفاده از فرآیند مدیریت ارتباط با مشتری (CRM)[1] است. استفاده از مدیریت ارتباط با مشتری به دادههای شرکت معانی جدیدی میدهد. روزهایی که مدیریت دادههای مشتری فقط به معنی استفاده از فهرست آدرسهای پستی بود، به پایان رسیده است. امروزه در فرآیند مدیریت دادهها باید هر یک از مشتریان هدف قرار داده شوند و ارتباطات بیشتر و اطلاعات با کیفیت بهتری برای این مشتریان خاص و رفتارشان فراهم شوند. مدیریت داده، پایه و اساسی را برای استفاده از روشهای هوشمندانه از قبیل دادهکاوی برای تحلیل ثروت و دانش موجود در یک شرکت و ایجاد ارتباط بهینه با مشتریان و گروههای ذینفع شکل میدهد.
در بسیاری از شرکتها، به سختی هر گونه تمایزی بین اصطلاحات دانش[2]، اطلاعات[3] و داده[4] وجود دارد. در منابع علمی در حوزه اقتصاد و علوم کامپیوتر میتوان مشاهده کرد که نظرات بشدت واگرا[5] و روشهای مختلفی در دو حوزه تخصصی وجود دارد. در علوم کامپیوتر، اصطلاحات اطلاعات و داده اغلب به جای یکدیگر استفاده میشوند، از آنجایی که یک تفاوت آشکار ضروری به نظر نمیرسد. دادهها مساوی با اطلاعاتی هستند که نمایش میدهند. با این وجود یک اقتصاددان، اطلاعات را بعنوان یک عامل مهم تولید و همچنین محصول میانی یا نهایی فرایند تبدیل شرکتی در نظر میگیرد. اطلاعات و دادهها برای اقتصاددان متفاوت هستند. این واگرایی نظرات بین علم کامپیوتر و علم اقتصاد دارای پیامدهایی است که چطور حوزههای تخصصی مختلف آمادهسازی دادهها را در نظر میگیرند. علوم کامپیوتری اغلب اطلاعاتی که مستقیماً در دادهها کدگذاری نمیشود را از دست میدهند، درحالی که اقتصاددانان با استفاده از دانش اضافی ذخیره نشده در سیستمهای داده آشناتر هستند (شکل-3-1- را ببینید).
در اینجا ما یک تمایز آشکار را بین دانش و داده نشان میدهیم. نقطه شروع اغلب تعریفِ اطلاعات بعنوان دانش مورد نیاز برای اهداف خاص است.
یک نشانه اولیه از برداشت ضمنی از داده، اطلاعات، دانش، و خرد (DIKW) در شعر الیوت[7] به نام "صخره"[8] (1934) ارائه شده است. در این شعر در ابتدا این سلسله مراتب ذکر میشود:
کجاست آن زندگی که ما در زنده بودن گم کردیم؟
کجاست آن خردی که ما در دانش گم کردیم؟
کجاست آن دانشی که ما در اطلاعات گم کردیم؟
ممکن است پرداختن به مدیریت دانش و تئوری دادهها در یک کتاب کاربردی برای دادهکاوی غیر عادی بنظر برسد، اما این نقطه نظر ممکن است به درک این موضوع کمک کند که چطور دانشی که ممکن است قسمتی از خود داده باشد یا نباشد، میتواند و باید در آمادهسازی دادهها در نظر گرفته شود. برای مثال، ممکن است مشخص شده باشد یک شرکت دارای یک رقیب فصلی[9] است که روی فروشهایشان بصورت متناوب تأثیر میگذارد، یا وقفه موقتی در تولید ممکن است بوسیله یک خطای[10] شناخته شده بوجود آید.
دادههایی که باید برای تولید اطلاعات و دانش شرکت استفاده شوند میتوانند از منابع داخلی یا خارجی نشئت بگیرند (شکل-3-3- را ببینید). سیستم اطلاعات عملیاتی[12]، مقدار بزرگی از دادههای تولید شده بصورت داخلی را از طریق فرایندهای مختلف حرکت میدهد. از آنجایی که دادههای داخلی عمدتاً برای مدیریت کسب و کار روزانه استفاده میشوند، سیستمهای عملیاتی دارای هیچ گونه امکاناتی برای نگهداری تاریخ جامع نیستند. تناقضهایی ممکن است بخاطر ذخیرهسازی دادههای بطور ناقص کپی شده در زیرسیستمها[13] بسیار متفاوت بوجود آیند. فقط از آنجایی که معایب کیفیت بسیاری روی دادههای استفاده شده در سیستمهای عملیاتی تأثیر میگذارند، در نتیجه معایب کیفیت دارای اثر حتی بزرگتری روی سیستمهای اطلاعات تحلیل-محور[14] هستند. کیفیت دادهها تأثیر قابل توجهی روی کیفیت تحلیل مبتنی بر آن دارد. حداقل، کیفیت و قابلیت اعتماد دادههای داخلی در کنترل شرکت است. این مورد به دادههای خارجی مربوط نمیشود.
دادههای خارجی خارج از فرایندهای خود شرکت تولید میشوند؛ این دادهها اغلب بعنوان اطلاعات اضافی (برای مثال رتبه بندی اعتبار[15]) یا بعنوان مقادیر مرجع[16] (برای مثال دادههای ادارات آمار دولتی[17] یا مؤسسههای آمار ملی[18]) لازم هستند. برای سیستمهای اطلاعات با تمرکز تحلیلی در حوزههایی از قبیل بازاریابی پایگاه داده (DBM)[19] و مدیریت ارتباط با مشتری[20] (CRM)، دادههای خارجی بطور متناوب اضافه میشوند؛ ممکن است اطلاعات اضافیِ بطور خاص خریداری شدهای درباره مشتری یا آدرس مشتری وجود داشته باشد.
اغلب کیفیت دادههای داخلی بهتر از منابع خارجی است، مخصوصاً بخاطر اینکه شما میتوانید دقیقاً کنترل کنید چطور و چه زمانی دادههای داخلی تولید میشوند. یک مسئله دیگر مربوط به دادههای خارجی، این است که آنها ممکن است دقیقاً با دادههای خارجی از نظر زمانی (همزمان بودن) یا مکانی منطبق نشوند. این اختلافات باید در نظر گرفته شوند، اما معمولاً، حتی دادههای خارجی بطور ضعیف منطبق شده میتوانند برای تأمین کردن اطلاعات مرتبط اضافی مفید باشند.
انواع مختلفی از دادههای کمّی وجود دارد، که همه آنها میتوانند دارای محتوای اطلاعاتی خوبی باشند. اصطلاحات مختلف زیادی وجود دارد که برای توصیف انواع مختلف دادهها استفاده میشوند، و رایجترین کلمات در قسمت زیر تشریح شدهاند.
سادهترین سطح اندازهگیری بصورت دادههای اسمی[22] بیان میشود که نشان میدهند کدام دستهبندی نامگذاری شده قابل استفاده است. برای مثال، یک مشتری ممکن است در یک ناحیه شهری، یا ناحیه روستایی یا یک ناحیه ترکیبی زندگی کند. این متغیر دادههای اسمی شامل یک ستون از شهری/روستایی/ترکیبی[23] خواهد بود و یک ردیف برای هر مشتری. اگر فقط دو سطح وجود داشته باشد، برای مثال "خرید کردن" یا "خرید نکردن"، در نتیجه به دادهها متغیرهای باینری[24] گفته میشود. اگر هر گونه ترتیبی مرتبط با دستهبندیها وجود داشته باشد، در نتیجه به آنها دادههای اصلی گفته میشود. برای مثال، متن مرتبط با دلایل عودت کالاها ممکن است چیزی مانند این باشد:
لباسها اندازه نبودند.
این کامنت میتواند بعنوان یک شکایت در مورد اندازه (سایز) طبقهبندی شود. فراوانی شکایات درباره سایز میتواند با فراوانی شکایات مرتبط با غیر-سایز مقایسه شود. مرتبط با سایز/غیر-سایز، یک متغیر باینری است که دارای دو سطح است، و ما میتوانیم تعداد شکایات در هر سطح را مقایسه کنیم.
اگر دلیل عودت کالا بصورت زیر باشد
لباسها خیلی بزرگ بودند،
در نتیجه میتوانیم این شکایت را بصورت یک شکایت درباره سایز نامناسب "بسیار بزرگ" طبقهبندی کنیم، و میتوانیم فراوانی سایزهای نامناسب "بسیار بزرگ" را با "بسیار کوچک" یا "غیر-اندازه" مرتبط مقایسه کنیم. یک متغیر حاوی اطلاعات درباره شکایات طبقهبندی شده مانند شکایات مرتبط با بسیار بزرگ/بسیار کوچک/اندازه مشخص نشده/غیر-اندازه، یک متغیر دستهبندی با اندازهگیری اسمی در چهار سطح است.
اگر دستهبندیها با یک مرتبه صعودی یا نزولی مرتبط باشند، همچنین ممکن است یک اندازهگیری سطح ترتیبی وجود داشته باشد. برای مثال، سطوح متغیر میتوانند اولین عودت، دومین عودت، سومین عودت، و … باشند. اگر بیش از دو مرحله برای یک متغیر اسمی وجود داشته باشد، اما هیچ مرتبه ضمنی وجود نداشته باشد، در نتیجه بعضی از فرایندهای دادهکاوی ممکن است آنها را ملزم کنند تا به یک سری از متغیرهای شناساگر تبدیل شوند. برای مثال، شهری/روستایی/ترکیبی میتواند به سه متغیر شناساگر تبدیل شود: شهری یا نه، روستایی یا نه و ترکیبی یا نه. متغیر آخر زائد است از آنجایی که مقدار آن هنگامی نشان داده میشود که نه شهری و نه روستایی درست نباشند.
به متغیرهایی که سایز را نشان میدهند، اندازه[25]، اندازهگیری[26] یا معیار[27] گفته میشود و بصورت متریک توصیف میشوند. در دادهکاوی، عبارت "متریک (معیار)[28]" شامل شمارشهای نوع بعضی دادهها مانند بازدید صفحه میشود، و ممکن است با یک ستون داده مطابقت داشته باشد.
سطح اندازهگیری داخلی[29] خواهد بود اگر متغیرها تعداد رویدادها باشند، برای مثال، تعداد عودتها برای یک مشتری (یعنی، تعداد دفعاتی که یک مشتری یک سفارش را عودت داده است). در این مورد، ممکن است تعداد زیادی مشتری با عودتهای صفر وجود داشته باشند اما تعداد کمی مشتری با عودت یک، دو، سه یا بیشتر وجود داشته باشد. اینها دادههای گسسته[30]هستند که در یک مقیاس بازهای[31] اندازهگیری میشوند. یک مثال دیگر از اندازهها یا معیارهای سطح بازه، بوسیله دگرسنجهها[32] ارائه میشوند، که اندازهگیریهای تعامل مبتنی بر وب اجتماعی هستند که منجر به متغیرهایی مانند تعداد کلیکها و نام بردنها در وب میشوند. موضوعاتی از قبیل نتنوگرافی[33]، فعالیت وب را بصورت کاملاً مفصل بررسی میکنند.
آیتمهای داده بسیاری روی یک مقیاس پیوسته اندازهگیری میشوند، برای مثال، فاصله طی شده برای خرید کردن. دادههای پیوسته لازم نیست عدد کامل باشند مانند 4 km بلکه میتوانند کسری از عدد کامل باشند مانند 5.68 km. دادههای پیوسته[34]ممکن است از نوع بازه یا از نوع نسبت باشند. دادههای بازهای دارای بازههای مساوی بین واحدها هستند (برای مثال 3.1 یکی کمتر از 4.5 است، و 4.5 یکی کمتر از 5.5 است). داده نسبتی[35]، داده نوع بازهای است با این ویژگی اضافی که صفر بامعنی است و نسبتها ثابت هستند (برای مثال 12 دو برابر 6 است، و 6 دو برابر 3 است).
به متغیرهای اسمی و ترتیبی[36]، متغیرهای دستهبندی و طبقهبندی[37] گفته میشود. آنها اغلب نشان دهنده ابعاد[38]، فاکتورها[39] یا متغیرهای سفارشی[40] هستند که به شما اجازه میدهند یک معیار را بوسیله یک مقدار خاص، مانند بازدیدهای صفحه بوسیله نام صفحه تجزیه کنید.
بطور خلاصه، در دادهکاوی ما متغیرهای طبقهبندی یا دستهبندی را مورد نظر قرار میدهیم که میتوانند اسمی، باینری یا ترتیبی باشند و همچنین متغیرهای مقیاس یا معیار را که میتوانند شمارشی، پیوسته، بازه یا نسبتی[41] باشند.
دادههای کیفیتی[42] از قبیل تصاویر یا متن، میتوانند به دادههای کمّی خلاصه شوند. برای مثال، یک تحلیل از مقدار میتواند بر حسب شمارشها بیان شود و بر حسب تأثیر یا کیفیت روابط اندازهگیری شود. تحلیل محتوا ممکن است باعث بوجود آمدن دادههای اسمی شود که در آنها دستهبندیها میتوانند نامگذاری شوند اما دارای هیچ مرتبه ضمنی نیستند.
[1] Customer Relationship Management (CRM)
[2] knowledge
[3] information
[4] data
[5] divergent
[6] Data, Information, Knowledge and Wisdom
[7] T.S. Eliot
[8] The Rock
[9] seasonal competitor
[10] fault
[11] Sources and Quality of Data
[12] The operational information system
[13] sub-systems
[14] analysis-oriented
[15] credit rating
[16] Reference values
[17] Government Statistical Offices
[18] National Statistics Institutes
[19] Database Marketing (DBM)
[20] Customer Relationship Management
[21] Measurement Level
[22] nominal data
[23] urban/rural/mixed
[24] binary
[25] measures
[26] measurements
[27] metrics
[28] metric
[29] interval
[30] discrete
[31] interval scale
[32] Altmetrics
از ترکیب دو واژهٔ دیگر به صورت (altmetrics = alternative + metrice) ایجاد شدهاست و منظور از آن سنجش از طریق سنجههای جایگزین و غیر متداول میباشد. در حال حاضر برخی از ناشران مجلات مؤسسات علمی با ایجاد وبگاههایی به جمعآوری این نوع سنجهها جهت ارزیابی مقالات، بخصوص مقالات جدید که استنادهای دریافتی آنها مشخصکننده وضعیت علمی آنها نیست میپردازند (اضافه مترجم).
[33] Netnography
اتنوگرافی شاخهای از انسانشناسی است که به دنبال شرح علمی فرهنگهای متمایز است. اتنوگرافی دیجیتال تحقیقی اتنوگرافیک است که در فضای مجازی انجام میگیرد. این شاخه از اتنوگرافی "نتنوگرافی" نیز نامیده میشود (اضافه مترجم).
[34] Continuous
[35] Ratio
[36] Nominal and ordinal
[37] categorical or classification
[38] dimensions
[39] factors
[40] custom
[41] Count, continuous, interval or ratio
[42] Qualitative
تحقیق و توسعه شرکت BRS
تهران سعادت آباد خیابان سپیدار پلاک ۱۰
تلفن : ۰۲۱۲۶۷۶۱۲۸۱
www.BRSMENA.com
www.BRS.ir
#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد
ممیزی، شرکت ایزو، شرکت معتبر استاندارد، اداره استاندارد ، شرکت استاندارد ، شرکت معتبر ایزو، شرکت بیکران ، صدور گواهینامه ، داده کاوی ، متن کاوی ، داده ، داده سازی ، داده یابی ، مدیریت داده ، داده کلان ، سیستم داده ، datamininig ، دیتا ماینیگ ، data mining
منبع : https://brs.ir/node/105
دادهکاوی، طیف وسیعی از فعالیتها را پوشش میدهد. و به دنبال ارائه جواب به سوالاتی از قبیل سوالات زیر است:
در دادهکاوی، مجموعهدادهها میتوانند کلان[2] باشند- ممکن است میلیونها مورد وجود داشته باشد. با اینحال، انواع صنایع متفاوت از لحاظ تعداد مواردی که از فرایندهای کسب و کار پدیدار میشوند تا حد زیادی با هم فرق میکنند. برای مثال، اپلیکیشنهای وب میتوانند دادهها را از میلیونها کوکی[3] جمعآوری کند در حالیکه سایر اپلیکیشنها مانند باشگاه طرفداران[4] یا برنامههای مدیریت ارتباط با مشتری[5]، ممکن است موارد محدودتری داشته باشند. قوانین محافظت از دادهها و بازار محلی و مشتریان صنعت فرق میکنند اما در بسیاری از کشورها، امکان خریداری یا اجاره اطلاعات هم در یک سطح پرجزئیات و هم خلاصه یا در سطح انبوه[6]، وجود دارد.
دادهکاوی از روش علمی کاوش و کاربرد استفاده میکند. ما با حجم انبوهی از دادهها روبرو هستیم که در برخی موارد میتوانیم آن را به عنوان یک جمعیت کل درنظر بگیریم. به عبارت دیگر، ما تمام اطلاعاتی موجود را داریم. در موارد دیگر، مجموعهداده ما ممکن است به عنوان یک نمونه بزرگ درنظر گرفته شود. اگر با مقادیر نسبتاً کم دادهها (بالغ بر 10هزارمورد) سروکار داشته باشیم، در آنصورت شاید ترجیح دهیم با کل مجموعهداده کار کنیم. اگر با مجموعهدادههای بزرگ سروکار داشته باشیم، شاید برای سهولت در کار با دادهها، کار با یک زیرمجموعه را انتخاب کنیم. اگر این تجزیه و تحلیل روی یک نمونه اجرا شود، پیامد آن این است که نتایج، نمونه معرف کل جمعیت خواهند بود. به عبارت دیگر، نتایج این تجزیه و تحلیل روی نمونه را میتوان طوری تعمیم داد که برای کل جمعیت، وارد باشد.
بنابراین این نمونه باید خوب باشد، در اینجا منظورمان از خوب بودن این است که باید نمونه معرف کل و بدون جانبداری (سوگیری)[7] باشد. خود نمونهگیری یک موضوع کلی است. با توجه به اینکه ما معمولاً با جمعیتهای بزرگ سروکار داریم و میتوانیم از پس نمونههای بزرگ بربیاییم، میتوانیم یک نمونه تصادفی را بگیریم که در آن تمام اعضاء جمعیت، شانس برابری برای انتخابشدن دارند. ما مباحث عملی پیرامون نمونهگیری در سایر بخشهای این کتاب را بررسی خواهیم کرد. همچنین میتوانیم مجموعهداده را به درون نمونههای متعدد قسمتبندی کنیم طوری که بتوانیم نتایج خود را آزمایش کنیم. اگر یک مجموعهداده کوچک داشته باشیم در آنصورت با گرفتن زیرمجموعههای تصادفی درون همان نمونه، که به عنوان خودراهاندازی[8] به آن اشاره میشود، مجدداً نمونه گیری میکنیم. سپس باید روشهای بررسی اینکه آیا نمونه حاصل نمونه معرف هست یا خیر، را درنظر بگیریم.
گاهی اوقات ما تنها بخشی از این جمعیت را برای یک تجزیه و تحلیل خاص در نظر میگیریم، برای مثال، شاید تنها به رفتار خرید نزدیک کریسمس یا در ماههای تابستان علاقمند باشیم. در این مورد، این زیرمجموعه به عنوان یک چارچوب نمونهگیری یاد میشود چرا که نمونههای بیشتر دقیقاً از این زیرمجموعه انتخاب خواهد شد.
آمادهسازی داده برای دادهکاوی یک گام حیاتی است که گاهی اوقات نادیده گرفته میشود. ما از سالها قبل میدانستیم که «دو به اضافه دو میشود چهار». اعداد عینی[10]، ملموس[11]، جامد[12]، رویدادنی[13] و فراتر از بحث و ابزاری دانسته میشوند که میتوانند برای اندازهگیری همهچیز و هرچیز استفاده شوند. اما اعداد وردش (تنوع یا واریاسیون) ذاتی[14] دارند، برای مثال، دو محصول شاید طی یک روز معین فروخته شده باشند اما ممکن است قیمت فروش آنها متفاوت باشد؛ تفسیر بر اساس ارزش اسمی[15] شاید درست نباشد. برخی از کسب و کارها برای تصمیمگیری از دادهها استفاده میکنند بدون اینکه حتی مطمئن شوند دادهها بامعنی هستند و بدون اینکه در ابتدا دادهها را به دانش و درنهایت به آگاهی[16] تبدیل کنند. «آگاهی» از دادههایی ناشی میشود که اعتبار آنها از طریق استفاده از تجربیات گذشته سنجیده شده است و بر اساس ملاحظات زمینه آن، توصیف میشود.
دادهکاوی، فرایندی است که از انواع روشهای تجزیه و تحلیل داده برای کشف الگوهای نامعلوم، غیرمنتظره، جالب و وارد و روابط میان دادهها استفاده میکند که ممکن است برای معتبرسازی و پیشبینیهای دقیق استفاده شود. درکل، دو روش تجزیه و تحلیل داده وجود دارد: نظارتشده و نظارت نشده (شکل 2-1 و شکل 2-2 را ببینید). در هر دو مورد، نمونهای از دادههای مشاهدهشده موردنیاز است. این دادهها شاید نمونه آموزشی[18] نامیده شوند. نمونه آموزشی توسط فعالیتهای دادهکاوی برای یادگیری الگوهای این دادهها استفاده میشود.
تجزیه و تحلیل دادههای نظارتشده برای برآورد یک وابستگی مجهول بین دادههای ورودی-خروجی معلوم استفاده میشود. متغیرهای ورودی ممکن است شامل کمیتهایی از اقلام متفاوت خریداری شده توسط یک مشتری خاص باشند، اطلاعاتی که در خرید اعلام کردهاند، موقعیت مکانی و قیمتی که پرداخت کردهاند. متغیرهای خروجی ممکن است شامل نشانهای از این باشد که آیا مشتری به یک کمپین فروش (مثل کمپین حراج) واکنش نشان میدهد یا خیر. متغیرهای خروجی همچنین در دادهکاوی به عنوان نشانهها یا اهداف درنظر گرفته میشوند. در محیط نظارتشده، متغیرهای ورودی نمونه از طریق یک سیستم یادگیری پذیرفته میشوند و خروجی متعاقب از این سیستم یادگیری با خروجی از این نمونه مقایسه میشود. به عبارت دیگر، ما سعی میکنیم پیشبینی کنیم که چه کسی به یک کمپین فروش پاسخ خواهد داد. تفاوت میان خروجی سیستم یادگیری و خروجی نمونه را می توان مثلاً از یک سیگنال خطا[1] آموخت. سیگنالهای خطا برای تنظیم سیستم یادگیری استفاده میشوند. این فرایند بارها با دادههای این نمونه انجام میشود و سیستم یادگیری تا زمانی که خروجی به یک حد آستانه خطای کمینه برسد، تنظیم میشود. این همان فرایندی است که برای کوک دقیق یک پیانوی به تازگی خریداری شده انجام میشود. کوک دقیق باید توسط یک کارشناس یا با استفاده از برخی ابزارآلات الکترونیکی انجام داد. کارشناس، نتها را برای نمونه آموزشی آماده میکند و پیانوی تازه خریداریشده، سیستم یادگیری است. این کوک کردن زمانی کامل میشود که ارتعاش نتهای کلیدی پیانو با ارتعاش در گوش کارشناس، مطابقت داشته باشد.
تجزیه و تحلیل داده های نظارتنشده شامل هیچ کوک دقیقی نیست. الگوریتمهای دادهکاوی از میان دادهها جستجو میکنند تا الگوها را کشف کنند و هیچ متغیر هدف یا نشانهای وجود ندارد. تنها مقادیر ورودی به سیستم یادگیری ارائه میشوند بدون اینکه نیاز به اعتبارسنجی در مقابل هر خروجی وجود داشته باشد. هدف از تجزیه و تحلیل دادههای نظارتنشده، کشف ساختارهای «طبیعی» در دادههای ورودی است. در سیستمهای بیولوژیک، ادراک، کاری است که از طریق یک تکنیک نظارتنشده آموخته میشود.
یک تحلیلگر بسته به مشخصات مسائل کسب و کار و دسترسپذیری دادههای «تمیز[3]» و مناسب برای تجزیه و تحلیل، باید درباره اینکه از کدام تکنیک کشف دانش برای کسب بهترین خروجی استفاده کند، تصمیم بگیرد. از جمله تکنیکهای موجود عبارتند از:
این فهرست دقیق و کامل نیست و ترتیب آن نشانه هیچگونه الویتبندی در کاربرد این تکنیکها نیست. این کتاب روی روشهایی تمرکز خواهد کرد که بطور گسترده که در طیف وسیعی از محصولات نرمافزاری دادهکاوی استفاده و اجرا میشوند و روشهایی که برای ارائه نتایج خوب به سوالات کسب و کار در یک زمان نسبتاً کوتاه، معروف هستند. ما بیشتر روی نیاز کسب و کار تمرکز خواهیم کرد تا جنبههای علمی. کتابشناسی شامل منابع ادبیاتی است که تمام این تکنیکها را پوشش میدهد.
[1] error signal
[2] Knowledge-Discovery
[3] clean
[4] Statistical methods
[5] multiple regression
[6] logistic regression
[7] analysis of variance
[8] log-linear models
[9] Bayesian inference
[10] Decision trees
[11] decision rules
[12] Classification And Regression Tree algorithms
[13] pruning algorithms
[14] Cluster analysis
[15] divisible algorithm
[16] agglomerative algorithms
[17] Hierarchical clustering
[18] partitional clustering
[19] incremental clustering
[20] Association rule
[21] market basket analysis
[22] a priori algorithm
[23] Sequence patterns
[24] social network analysis
[25] Artificial neural networks
[26] multilayer perceptrons with back-propagation learning
[27] radial networks
[28] Self-Organising Maps (SOM)
[29] Kohonen
[30] Genetic algorithms
[31] Fuzzy inference systems
[32] fuzzy sets
[33] fuzzy logics
[34] N-dimensional visualisation methods
[35] geometric
[36] icon-based
[37] pixel-oriented
[38] hierarchical
[39] Case-Based Reasoning (CBR)
[1] Population and Sample
[2] enormous
[3] Cookies: کوکی یک فایل است که توسط یک وب سایت برای حفظ اطلاعات بر روی رایانه شما قرار میگیرد. یک کوکی میتواند شامل اطلاعاتی باشد که شما در آن لیست وارد کرده اید مانند ایمیل، نشانی، شماره تلفن و سایر اطلاعات شخصی.
[4] Loyalty clubs
[5] Customer Relationship Management
[6] summary or aggregate level
[7] unbiased
[8] bootstrapping
[9] Data Preparation
[10] concrete
[11] tangible
[12] solid
[13] inevitable
[14] inherent variation
[15] Face value
[16] intelligence
[17] Supervised and Unsupervised Methods
[18] training sample
امور ثبت و صدور گواهینامه های ایزو شرکت BRSM
تهران سعادت آباد خیابان سپیدار پلاک ۱۰
تلفن : ۰۲۱۲۶۷۶۱۲۸۱
www.BRSCERTIFICATION.com
www.BRSM.ir
#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد
منبع :https://brsm.ir/node/83