بیکران راهکار سعادت

ثبت و صدور گواهینامه های بین المللی استاندارد

بیکران راهکار سعادت

ثبت و صدور گواهینامه های بین المللی استاندارد

همه چیز درباره داده (اقتباسی از کتاب یک راهنمای عملی در داده‌کاوی )

 3: همه چیز درباره داده

3-1- چند اصل بنیادی

در اکثر شرکت‌ها، بازاریابی، فروش و کنترل فرایند از محرک‌های اصلی برای ارتقای کیفیت داده‌ها و تولید اعداد و اطلاعات مشابهی درباره کسب‌ و کار هستند. اما، حتی بخش‌های تولید و تحقیق و توسعه (R&D) برای استفاده از روش‌های آماری یا داده‌کاوی به­منظور ارتقای نتایج خروجی و افزایش سودآوری، به منابع داده قابل اعتماد نیاز دارند. در اکثر شرکت‌ها، انگیزه اصلی برای بررسی و بازسازی داده‌ها و فرایند‌ها، استفاده از فرآیند مدیریت ارتباط با مشتری (CRM)[1] است. استفاده از مدیریت ارتباط با مشتری به داده‌های شرکت معانی جدیدی می‌دهد. روز‌هایی که مدیریت داده‌های مشتری فقط به معنی استفاده از فهرست آدرس­های پستی بود، به پایان رسیده است. امروزه در فرآیند مدیریت داده‌ها باید هر یک از مشتریان هدف قرار داده شوند و ارتباطات بیشتر و اطلاعات با کیفیت بهتری برای این مشتریان خاص و رفتارشان فراهم شوند. مدیریت داده، پایه و اساسی را برای استفاده از روش‌های هوشمندانه از قبیل داده‌کاوی برای تحلیل ثروت و دانش موجود در یک شرکت و ایجاد ارتباط بهینه با مشتریان و گروه‌های ذی‌نفع شکل می‌دهد.

 


در بسیاری از شرکت‌ها، به سختی هر گونه تمایزی بین اصطلاحات دانش[2]، اطلاعات[3] و داده[4] وجود دارد. در منابع علمی‌ در حوزه اقتصاد و علوم کامپیوتر می‌توان مشاهده کرد که نظرات بشدت واگرا[5] و روش‌های مختلفی در دو حوزه تخصصی وجود دارد. در علوم کامپیوتر، اصطلاحات اطلاعات و داده اغلب به جای یکدیگر استفاده می‌شوند، از آنجایی که یک تفاوت آشکار ضروری به نظر نمی‌رسد. داده‌ها مساوی با اطلاعاتی هستند که نمایش می‌دهند. با این وجود یک اقتصاددان، اطلاعات را بعنوان یک عامل مهم تولید و همچنین محصول میانی یا نهایی فرایند تبدیل شرکتی در نظر می‌گیرد. اطلاعات و داده‌ها برای اقتصاددان متفاوت هستند. این واگرایی نظرات بین علم کامپیوتر و علم اقتصاد دارای پیامد‌هایی است که چطور حوزه‌های تخصصی مختلف آماده‌سازی داده‌ها را در نظر می‌گیرند. علوم کامپیوتری اغلب اطلاعاتی که مستقیماً در داده‌ها کدگذاری نمی‌شود را از دست می‌دهند، درحالی که اقتصاددانان با استفاده از دانش اضافی ذخیره نشده در سیستم‌های داده آشناتر هستند (شکل-3-1- را ببینید).

3-1-1- داده، اطلاعات، دانش و خرد[6]

در اینجا ما یک تمایز آشکار را بین دانش و داده نشان می‌دهیم. نقطه شروع اغلب تعریفِ اطلاعات بعنوان دانش مورد نیاز برای اهداف خاص است.

یک نشانه اولیه از برداشت ضمنی از داده، اطلاعات، دانش، و خرد (DIKW) در شعر الیوت[7] به نام "صخره"[8] (1934) ارائه شده است. در این شعر در ابتدا این سلسله مراتب ذکر می‌شود:

کجاست آن زندگی که ما در زنده بودن گم کردیم؟

کجاست آن خردی که ما در دانش گم کردیم؟

کجاست آن دانشی که ما در اطلاعات گم کردیم؟


ممکن است پرداختن به مدیریت دانش و تئوری داده‌ها در یک کتاب کاربردی برای داده‌کاوی غیر عادی بنظر برسد، اما این نقطه نظر ممکن است به درک این موضوع کمک کند که چطور دانشی که ممکن است قسمتی از خود داده باشد یا نباشد، می‌تواند و باید در آماده‌سازی داده‌ها در نظر گرفته شود. برای مثال، ممکن است مشخص شده باشد یک شرکت دارای یک رقیب فصلی[9] است که روی فروش‌هایشان بصورت متناوب تأثیر می‌گذارد، یا وقفه موقتی در تولید ممکن است بوسیله یک خطای[10] شناخته شده بوجود آید.

3-1-2- منابع و کیفیت داده‌ها[11]

داده‌هایی که باید برای تولید اطلاعات و دانش شرکت استفاده شوند می‌توانند از منابع داخلی یا خارجی نشئت بگیرند (شکل-3-3- را ببینید). سیستم اطلاعات عملیاتی[12]، مقدار بزرگی از داده‌های تولید شده بصورت داخلی را از طریق فرایند‌های مختلف حرکت می‌دهد. از آنجایی که داده‌های داخلی عمدتاً برای مدیریت کسب‌ و کار روزانه استفاده می‌شوند، سیستم‌های عملیاتی دارای هیچ گونه امکاناتی برای نگهداری تاریخ جامع نیستند. تناقض‌هایی ممکن است بخاطر ذخیره‌سازی داده‌های بطور ناقص کپی شده در زیر­سیستم‌ها[13] بسیار متفاوت بوجود آیند. فقط از آنجایی که معایب کیفیت بسیاری روی داده‌های استفاده شده در سیستم‌های عملیاتی تأثیر می‌گذارند، در نتیجه معایب کیفیت دارای اثر حتی بزرگتری روی سیستم‌های اطلاعات تحلیل-محور[14] هستند. کیفیت داده‌ها تأثیر قابل توجهی روی کیفیت تحلیل مبتنی بر آن دارد. حداقل، کیفیت و قابلیت اعتماد داده‌های داخلی در کنترل شرکت است. این مورد به داده‌های خارجی مربوط نمی‌شود.

داده‌های خارجی خارج از فرایند‌های خود شرکت تولید می‌شوند؛ این داده‌ها اغلب بعنوان اطلاعات اضافی (برای مثال رتبه بندی اعتبار[15]) یا بعنوان مقادیر مرجع[16] (برای مثال داده‌های ادارات آمار دولتی[17] یا مؤسسه‌های آمار ملی[18]) لازم هستند. برای سیستم‌های اطلاعات با تمرکز تحلیلی در حوزه‌هایی از قبیل بازاریابی پایگاه داده (DBM)[19] و مدیریت ارتباط با مشتری[20] (CRM)، داده‌های خارجی بطور متناوب اضافه می‌شوند؛ ممکن است اطلاعات اضافیِ بطور خاص خریداری شد‌ه‌ای درباره مشتری یا آدرس مشتری وجود داشته باشد.

اغلب کیفیت داده‌های داخلی بهتر از منابع خارجی است، مخصوصاً بخاطر اینکه شما می‌توانید دقیقاً کنترل کنید چطور و چه زمانی داده‌های داخلی تولید می‌شوند. یک مسئله دیگر مربوط به داده‌های خارجی، این است که آن‌ها ممکن است دقیقاً با داده‌های خارجی از نظر زمانی (همزمان بودن) یا مکانی منطبق نشوند. این اختلافات باید در نظر گرفته شوند، اما معمولاً، حتی داده‌های خارجی بطور ضعیف منطبق شده می‌توانند برای تأمین کردن اطلاعات مرتبط اضافی مفید باشند.

3-1-3- سطح اندازه‌گیری[21] و انواع داده

انواع مختلفی از داده‌های کمّی‌ وجود دارد، که همه آن‌ها می‌توانند دارای محتوای اطلاعاتی خوبی باشند. اصطلاحات مختلف زیادی وجود دارد که برای توصیف انواع مختلف داده‌ها استفاده می‌شوند، و رایج‌ترین کلمات در قسمت زیر تشریح شد‌ه‌اند.

ساده‌ترین سطح اندازه‌گیری بصورت داده‌های اسمی[22]‌ بیان می‌شود که نشان می‌دهند کدام دسته‌بندی نام‌گذاری شده قابل استفاده است. برای مثال، یک مشتری ممکن است در یک ناحیه شهری، یا ناحیه روستایی یا یک ناحیه ترکیبی زندگی کند. این متغیر داده‌های اسمی‌ شامل یک ستون از شهری/روستایی/ترکیبی[23] خواهد بود و یک ردیف برای هر مشتری. اگر فقط دو سطح وجود داشته باشد، برای مثال "خرید کردن" یا "خرید نکردن"، در نتیجه به داده‌ها متغیر‌های باینری[24] گفته می‌شود. اگر هر گونه ترتیبی مرتبط با دسته‌بندی‌ها وجود داشته باشد، در نتیجه به آن‌ها داده‌های اصلی گفته می‌شود. برای مثال، متن مرتبط با دلایل عودت کالا‌ها ممکن است چیزی مانند این باشد:

لباس‌ها اندازه نبودند.

این کامنت می‌تواند بعنوان یک شکایت در مورد اندازه (سایز) طبقه‌بندی شود. فراوانی شکایات درباره سایز می‌تواند با فراوانی شکایات مرتبط با غیر-سایز مقایسه شود. مرتبط با سایز/غیر-سایز، یک متغیر باینری است که دارای دو سطح است، و ما می‌توانیم تعداد شکایات در هر سطح را مقایسه کنیم.

اگر دلیل عودت کالا بصورت زیر باشد

لباس‌ها خیلی بزرگ بودند،

در نتیجه می‌توانیم این شکایت را بصورت یک شکایت درباره سایز نامناسب "بسیار بزرگ" طبقه‌بندی کنیم، و می‌توانیم فراوانی سایز‌های نامناسب "بسیار بزرگ" را با "بسیار کوچک" یا "غیر-اندازه" مرتبط مقایسه کنیم. یک متغیر حاوی اطلاعات درباره شکایات طبقه‌بندی شده مانند شکایات مرتبط با بسیار بزرگ/بسیار کوچک/اندازه مشخص نشده/غیر-اندازه، یک متغیر دسته‌بندی با اندازه‌گیری اسمی‌ در چهار سطح است.

اگر دسته‌بندی‌ها با یک مرتبه صعودی یا نزولی مرتبط باشند، همچنین ممکن است یک اندازه‌گیری سطح ترتیبی وجود داشته باشد. برای مثال، سطوح متغیر می‌توانند اولین عودت، دومین عودت، سومین عودت، و  باشند. اگر بیش از دو مرحله برای یک متغیر اسمی‌ وجود داشته باشد، اما هیچ مرتبه ضمنی وجود نداشته باشد، در نتیجه بعضی از فرایند‌های داده‌کاوی ممکن است آن‌ها را ملزم کنند تا به یک سری از متغیر‌های شناساگر تبدیل شوند. برای مثال، شهری/روستایی/ترکیبی می‌تواند به سه متغیر شناساگر تبدیل شود: شهری یا نه، روستایی یا نه و ترکیبی یا نه. متغیر آخر زائد است از آنجایی که مقدار آن هنگامی‌ نشان داده می‌شود که نه شهری و نه روستایی درست نباشند.

به متغیر‌هایی که سایز را نشان می‌دهند، اندازه[25]، اندازه‌گیری[26] یا معیار[27] گفته می‌شود و بصورت متریک توصیف می‌شوند. در داده‌کاوی، عبارت "متریک (معیار)[28]" شامل شمارش‌های نوع بعضی داده‌ها مانند بازدید صفحه می‌شود، و ممکن است با یک ستون داده مطابقت داشته باشد.

سطح اندازه‌گیری داخلی[29] خواهد بود اگر متغیر‌ها تعداد رویداد‌ها باشند، برای مثال، تعداد عودت‌ها برای یک مشتری (یعنی، تعداد دفعاتی که یک مشتری یک سفارش را عودت داده است). در این مورد، ممکن است تعداد زیادی مشتری با عودت‌های صفر وجود داشته باشند اما تعداد کمی‌ مشتری با عودت یک، دو، سه یا بیشتر وجود داشته باشد. این‌ها داده‌های گسسته[30]هستند که در یک مقیاس بازه‌ای[31] اندازه‌گیری می‌شوند. یک مثال دیگر از اندازه‌ها یا معیار‌های سطح بازه، بوسیله دگرسنجه‌ها[32] ارائه می‌شوند، که اندازه‌گیری‌های تعامل مبتنی بر وب اجتماعی هستند که منجر به متغیر‌هایی مانند تعداد کلیک‌ها و نام بردن‌ها در وب می‌شوند. موضوعاتی از قبیل نتنوگرافی[33]، فعالیت وب را بصورت کاملاً مفصل بررسی می‌کنند.

آیتم‌های داده بسیاری روی یک مقیاس پیوسته اندازه‌گیری می‌شوند، برای مثال، فاصله طی شده برای خرید کردن. داده‌های پیوسته لازم نیست عدد کامل باشند مانند 4 km بلکه می‌توانند کسری از عدد کامل باشند مانند 5.68 km. داده‌های پیوسته[34]ممکن است از نوع بازه یا از نوع نسبت باشند. داده‌های بازه‌ای دارای بازه‌های مساوی بین واحد‌ها هستند (برای مثال 3.1 یکی کمتر از 4.5 است، و 4.5 یکی کمتر از 5.5 است). داده نسبتی[35]، داده نوع بازه‌ای است با این ویژگی اضافی که صفر بامعنی است و نسبت‌ها ثابت هستند (برای مثال 12 دو برابر 6 است، و 6 دو برابر 3 است).

به متغیر‌های اسمی‌ و ترتیبی[36]، متغیر‌های دسته‌بندی و طبقه‌بندی[37] گفته می‌شود. آن‌ها اغلب نشان دهنده ابعاد[38]، فاکتور‌ها[39] یا متغیر‌های سفارشی[40] هستند که به شما اجازه می‌دهند یک معیار را بوسیله یک مقدار خاص، مانند بازدید‌های صفحه بوسیله نام صفحه تجزیه کنید.

بطور خلاصه، در داده‌کاوی ما متغیر‌های طبقه‌بندی یا دسته‌بندی را مورد نظر قرار می‌دهیم که می‌توانند اسمی‌، باینری یا ترتیبی باشند و همچنین متغیر‌های مقیاس یا معیار را که می‌توانند شمارشی، پیوسته، بازه یا نسبتی[41] باشند.

داده‌های کیفیتی[42] از قبیل تصاویر یا متن، می‌توانند به داده‌های کمّی‌ خلاصه شوند. برای مثال، یک تحلیل از مقدار می‌تواند بر حسب شمارش‌ها بیان شود و بر حسب تأثیر یا کیفیت روابط اندازه‌گیری شود. تحلیل محتوا ممکن است باعث بوجود آمدن داده‌های اسمی‌ شود که در آن‌ها دسته‌بندی‌ها می‌توانند نام‌گذاری شوند اما دارای هیچ مرتبه ضمنی نیستند.


[1] Customer Relationship Management (CRM)

[2] knowledge

[3] information

[4] data

[5] divergent

[6] Data, Information, Knowledge and Wisdom

[7] T.S. Eliot

[8] The Rock

[9] seasonal competitor

[10] fault

[11] Sources and Quality of Data

[12] The operational information system

[13] sub-systems

[14] analysis-oriented

[15] credit rating

[16] Reference values

[17] Government Statistical Offices

[18] National Statistics Institutes

[19] Database Marketing (DBM)

[20] Customer Relationship Management

[21] Measurement Level

[22] nominal data

[23] urban/rural/mixed

[24] binary

[25] measures

[26] measurements

[27] metrics

[28] metric

[29] interval

[30] discrete

[31] interval scale

[32] Altmetrics

از ترکیب دو واژهٔ دیگر به صورت (altmetrics = alternative + metrice) ایجاد شده‌است و منظور از آن سنجش از طریق سنجه‌های جایگزین و غیر متداول می‌باشد. در حال حاضر برخی از ناشران مجلات مؤسسات علمی با ایجاد وب‌گاه‌هایی به جمع‌آوری این نوع سنجه‌ها جهت ارزیابی مقالات، بخصوص مقالات جدید که استنادهای دریافتی آن‌ها مشخص‌کننده وضعیت علمی آن‌ها نیست می‌پردازند (اضافه مترجم).

[33] Netnography

اتنوگرافی شاخه‌ای از انسان‌شناسی است که به دنبال شرح علمی فرهنگ‌های متمایز است. اتنوگرافی دیجیتال تحقیقی اتنوگرافیک است که در فضای مجازی انجام می‌گیرد. این شاخه از اتنوگرافی "نتنوگرافی" نیز نامیده می‌شود (اضافه مترجم).

[34] Continuous

[35] Ratio

[36] Nominal and ordinal

[37] categorical or classification

[38] dimensions

[39] factors

[40] custom

[41] Count, continuous, interval or ratio

[42] Qualitative


تحقیق و توسعه شرکت BRS

تهران سعادت آباد خیابان سپیدار پلاک ۱۰

تلفن : ۰۲۱۲۶۷۶۱۲۸۱

www.BRSMENA.com

www.BRS.ir

#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد 

ممیزی، شرکت ایزو، شرکت معتبر استاندارد، اداره استاندارد ، شرکت استاندارد ، شرکت معتبر ایزو، شرکت بیکران ، صدور گواهینامه ، داده کاوی ، متن کاوی ، داده ، داده سازی ، داده یابی ، مدیریت داده ، داده کلان ، سیستم داده ، datamininig ، دیتا ماینیگ ، data mining

منبع : https://brs.ir/node/105


انواع سوالات داده‌کاوی

داده‌کاوی، طیف وسیعی از فعالیت‌ها را پوشش می‌دهد. و به دنبال ارائه جواب به سوالاتی از قبیل سوالات زیر است:

  • چه چیزی در این داده‌ها هست؟
  • چه نوع الگوهایی را می‌توان از هزارتوی داده‌ها تشخیص داد؟
  • چطور می‌توان تمام این داده‌ها را برای منافع آتی، استفاده کرد؟

2-1-1- جمعیت و نمونه[1]

در داده‌کاوی، مجموعه‌داده‌ها می‌توانند کلان[2] باشند- ممکن است میلیون‌ها مورد وجود داشته باشد. با این‌حال، انواع صنایع متفاوت از لحاظ تعداد مواردی که از فرایندهای کسب و کار پدیدار می‌شوند تا حد زیادی با هم فرق می‌کنند. برای مثال، اپلیکیشن‌های وب می‌توانند داده‌ها را از میلیون‌ها کوکی[3] جمع‌آوری کند در حالیکه سایر اپلیکیشن‌ها مانند باشگاه طرفداران[4] یا برنامه‌های مدیریت ارتباط با مشتری[5]، ممکن است موارد محدودتری داشته باشند. قوانین محافظت از داده‌ها و بازار محلی و مشتریان صنعت فرق می‌کنند اما در بسیاری از کشورها، امکان خریداری یا اجاره اطلاعات هم در یک سطح پرجزئیات و هم خلاصه یا در سطح انبوه[6]، وجود دارد.

داده‌کاوی از روش علمی کاوش و کاربرد استفاده می‌کند. ما با حجم انبوهی از داده‌ها روبرو هستیم که در برخی موارد می‌توانیم آن را به عنوان یک جمعیت کل درنظر بگیریم. به عبارت دیگر، ما تمام اطلاعاتی موجود را داریم. در موارد دیگر، مجموعه‌داده ما ممکن است به عنوان یک نمونه بزرگ درنظر گرفته شود. اگر با مقادیر نسبتاً کم داده‌ها (بالغ بر 10هزارمورد) سروکار داشته باشیم، در آنصورت شاید ترجیح دهیم با کل مجموعه‌داده کار کنیم. اگر با مجموعه‌داده‌های بزرگ سروکار داشته باشیم، شاید برای سهولت در کار با داده‌ها، کار با یک زیرمجموعه را انتخاب کنیم. اگر این تجزیه و تحلیل روی یک نمونه اجرا شود، پیامد آن این است که نتایج، نمونه معرف کل جمعیت خواهند بود. به عبارت دیگر، نتایج این تجزیه و تحلیل روی نمونه را می‌توان طوری تعمیم داد که برای کل جمعیت، وارد باشد.

بنابراین این نمونه باید خوب باشد، در اینجا منظورمان از خوب بودن این است که باید نمونه معرف کل و بدون جانبداری (سوگیری)[7] باشد. خود نمونه‌گیری یک موضوع کلی است. با توجه به اینکه ما معمولاً با جمعیت‌های بزرگ سروکار داریم و می‌توانیم از پس نمونه‌های بزرگ بربیاییم، می‌توانیم یک نمونه تصادفی را بگیریم که در آن تمام اعضاء جمعیت، شانس برابری برای انتخاب‌شدن دارند. ما مباحث عملی پیرامون نمونه‌گیری در سایر بخش‌های این کتاب را بررسی خواهیم کرد. همچنین می‌توانیم مجموعه‌داده را به درون نمونه‌های متعدد قسمت‌بندی کنیم طوری که بتوانیم نتایج خود را آزمایش کنیم. اگر یک مجموعه‌داده کوچک داشته باشیم در آنصورت با گرفتن زیرمجموعه‌های تصادفی درون همان نمونه، که به عنوان خودراه‌اندازی[8] به آن اشاره می‌شود، مجدداً نمونه گیری می‌کنیم. سپس باید روش‌های بررسی اینکه آیا نمونه حاصل نمونه معرف هست یا خیر، را درنظر بگیریم.

گاهی اوقات ما تنها بخشی از این جمعیت را برای یک تجزیه و تحلیل خاص در نظر می‌گیریم، برای مثال، شاید تنها به رفتار خرید نزدیک کریسمس یا در ماه‌های تابستان علاقمند باشیم. در این مورد، این زیرمجموعه به عنوان یک چارچوب نمونه‌گیری یاد می‌شود چرا که نمونه‌های بیشتر دقیقاً از این زیرمجموعه انتخاب خواهد شد.

2-1-2 آماده‌سازی داده‌ها[9]

آماده‌سازی داده برای داده‌کاوی یک گام حیاتی است که گاهی اوقات نادیده گرفته می‌شود. ما از سال‌ها قبل می‌دانستیم که «دو به اضافه دو می‌شود چهار». اعداد عینی[10]، ملموس[11]، جامد[12]، رویدادنی[13] و فراتر از بحث و ابزاری دانسته می‌شوند که می‌توانند برای اندازه‌گیری همه‌چیز و هرچیز استفاده شوند. اما اعداد وردش (تنوع یا واریاسیون) ذاتی[14] دارند، برای مثال، دو محصول شاید طی یک روز معین فروخته شده باشند اما ممکن است قیمت فروش آنها متفاوت باشد؛ تفسیر بر اساس ارزش اسمی[15] شاید درست نباشد. برخی از کسب و کارها برای تصمیم‌گیری از داده‌ها استفاده می‌کنند بدون اینکه حتی مطمئن شوند داده‌ها بامعنی هستند و بدون اینکه در ابتدا داده‌ها را به دانش و درنهایت به آگاهی[16] تبدیل کنند. «آگاهی» از داده‌هایی ناشی می‌شود که اعتبار آنها از طریق استفاده از تجربیات گذشته سنجیده شده است و بر اساس ملاحظات زمینه آن، توصیف می‌شود.

2-1-3- روش‌های نظارت‌شده و نظارت‌نشده[17]

داده‌کاوی، فرایندی است که از انواع روش‌های تجزیه و تحلیل داده برای کشف الگوهای نامعلوم، غیرمنتظره، جالب و وارد و روابط میان داده‌ها استفاده می‌کند که ممکن است برای معتبرسازی و پیش‌بینی‌های دقیق استفاده شود. درکل، دو روش تجزیه و تحلیل داده وجود دارد: نظارت‌شده و نظارت نشده (شکل 2-1 و شکل 2-2 را ببینید). در هر دو مورد، نمونه‌ای از داده‌های مشاهده‌شده موردنیاز است. این داده‌ها شاید نمونه آموزشی[18] نامیده شوند. نمونه آموزشی توسط فعالیت‌های داده‌کاوی برای یادگیری الگوهای این داده‌ها استفاده می‌شود.

تجزیه و تحلیل داده‌های نظارت‌شده برای برآورد یک وابستگی مجهول بین داده‌های ورودی-خروجی معلوم استفاده می‌شود. متغیرهای ورودی ممکن است شامل کمیت‌هایی از اقلام متفاوت خریداری شده توسط یک مشتری خاص باشند، اطلاعاتی که در خرید اعلام کرده‌اند، موقعیت مکانی و قیمتی که پرداخت کرده‌اند. متغیرهای خروجی ممکن است شامل نشانه‌ای از این باشد که آیا مشتری به یک کمپین فروش (مثل کمپین حراج) واکنش نشان می‌دهد یا خیر. متغیرهای خروجی همچنین در داده‌کاوی به عنوان نشانه‌ها یا اهداف درنظر گرفته می‌شوند. در محیط نظارت‌شده، متغیرهای ورودی نمونه از طریق یک سیستم یادگیری پذیرفته می‌شوند و خروجی متعاقب از این سیستم یادگیری با خروجی از این نمونه مقایسه می‌شود. به عبارت دیگر، ما سعی می‌کنیم پیش‌بینی کنیم که چه کسی به یک کمپین فروش پاسخ خواهد داد. تفاوت میان خروجی سیستم یادگیری و خروجی نمونه را می توان مثلاً از یک سیگنال خطا[1] آموخت. سیگنال‌های خطا برای تنظیم سیستم یادگیری استفاده می‌شوند. این فرایند بارها با داده‌های این نمونه انجام می‌شود و سیستم یادگیری تا زمانی که خروجی به یک حد آستانه خطای کمینه برسد، تنظیم می‌شود. این همان فرایندی است که برای کوک دقیق یک پیانوی به تازگی خریداری شده انجام می‌شود. کوک دقیق باید توسط یک کارشناس یا با استفاده از برخی ابزارآلات الکترونیکی انجام داد. کارشناس، نت‌ها را برای نمونه آموزشی آماده می‌کند و پیانوی تازه خریداری‌شده، سیستم یادگیری است. این کوک کردن زمانی کامل می‌شود که ارتعاش نت‌های کلیدی پیانو با ارتعاش در گوش کارشناس، مطابقت داشته باشد.

تجزیه و تحلیل داده های نظارت‌نشده شامل هیچ کوک دقیقی نیست. الگوریتم‌های داده‌کاوی از میان داده‌ها جستجو می‌کنند تا الگوها را کشف کنند و هیچ متغیر هدف یا نشانه‌ای وجود ندارد. تنها مقادیر ورودی به سیستم یادگیری ارائه می‌شوند بدون اینکه نیاز به اعتبارسنجی در مقابل هر خروجی وجود داشته باشد. هدف از تجزیه و تحلیل داده‌های نظارت‌نشده، کشف ساختارهای «طبیعی» در داده‌های ورودی است. در سیستم‌های بیولوژیک، ادراک، کاری است که از طریق یک تکنیک نظارت‌نشده آموخته می‌شود.

2-1-4- تکنیک‌های کشف دانش[2]

یک تحلیل‌گر بسته به مشخصات مسائل کسب و کار و دسترس‌پذیری داده‌های «تمیز[3]» و مناسب برای تجزیه و تحلیل، باید درباره اینکه از کدام تکنیک‌ کشف دانش برای کسب بهترین خروجی استفاده کند، تصمیم بگیرد. از جمله تکنیک‌های موجود عبارتند از:

  • روش‌های آماری[4]: رگرسیون چندگانه[5]، رگرسیون لجستیک[6]، تجزیه و تحلیل واریانس[7] و مدل‌های لگاریتم خطی[8] و استنباط بیزین[9].
  • درخت‌های تصمیم[10] و قواعد تصمیم‌گیری[11]: الگوریتم‌های دسته بندی و درخت رگرسیون[12] (CART) و الگوریتم‌های هرس[13]
  • تجزیه و تحلیل خوشه‌ای[14]: الگوریتم بخش‌پذیر[15]، الگوریتم‌های توده‌شو[16]، خوشه‌بندی سلسله‌مراتبی[17]، خوشه‌بندی تیغه‌ای[18] و خوشه‌بندی صعود تدریجی[19]
  • قواعد مربوطه[20]: تجزیه و تحلیل سبد بازار[21]، الگوریتم قیاسی[22] و الگوهای زنجیروار (توالی)[23] و تجزیه و تحلیل شبکه اجتماعی[24]
  • شبکه‌های عصبی مصنوعی[25]: پرسپترون‌های چندلایه با یادگیری انتشار به عقب[26]، شبکه‌های شعاعی[27]، نقشه‌های خودسازمان‌دهنده (SOM)[28] و شبکه‌های کوهونن[29]
  • الگوریتم‌های ژنتیک[30]: که به عنوان یک روش‌شناسی برای حل مسائل بهینه‌سازی سخت استفاده می‌شوند
  • سیستم‌های استنباط فازی[31]: براساس نظریه مجموعه‌ها[32] و منطق فازی[33] است
  • روش‌های بصری‌سازی Nبعدی[34]: تکنیک‌های هندسی[35]، مبتنی بر آیکون[36]، پیکسل‌گرا[37] و سلسله‌مراتبی[38]
  • استدلال مبتنی بر مورد (CBR)[39]: براساس مقایسه موارد جدید با موارد ذخیره‌شده، از اندازه‌گیری‌های تشابه استفاده می‌کند و می‌تواند هنگامی که تنها یک چند مورد معدود در اختیار هستند، استفاده شود

این فهرست دقیق و کامل نیست و ترتیب آن نشانه هیچ‌گونه الویت‌بندی در کاربرد این تکنیک‌ها نیست. این کتاب روی روش‌هایی تمرکز خواهد کرد که بطور گسترده که در طیف وسیعی از محصولات نرم‌افزاری داده‌کاوی استفاده و اجرا می‌شوند و روش‌هایی که برای ارائه نتایج خوب به سوالات کسب و کار در یک زمان نسبتاً کوتاه، معروف هستند. ما بیشتر روی نیاز کسب و کار تمرکز خواهیم کرد تا جنبه‌های علمی. کتاب‌شناسی شامل منابع ادبیاتی است که تمام این تکنیک‌ها را پوشش می‌دهد.


[1] error signal

[2] Knowledge-Discovery

[3] clean

[4] Statistical methods

[5] multiple regression

[6] logistic regression

[7] analysis of variance

[8] log-linear models

[9] Bayesian inference

[10] Decision trees

[11] decision rules

[12] Classification And Regression Tree algorithms

[13] pruning algorithms

[14] Cluster analysis

[15] divisible algorithm

[16] agglomerative algorithms

[17] Hierarchical clustering

[18] partitional clustering

[19] incremental clustering

[20] Association rule

[21] market basket analysis

[22] a priori algorithm

[23] Sequence patterns

[24] social network analysis

[25] Artificial neural networks

[26] multilayer perceptrons with back-propagation learning

[27] radial networks

[28] Self-Organising Maps (SOM)

[29] Kohonen

[30] Genetic algorithms

[31] Fuzzy inference systems

[32] fuzzy sets

[33] fuzzy logics

[34] N-dimensional visualisation methods

[35] geometric

[36] icon-based

[37] pixel-oriented

[38] hierarchical

[39] Case-Based Reasoning (CBR)


[1] Population and Sample

[2] enormous

[3] Cookies: کوکی یک فایل است که توسط یک وب سایت برای حفظ اطلاعات بر روی رایانه شما قرار می‌گیرد. یک کوکی می‌تواند شامل اطلاعاتی باشد که شما در آن لیست وارد کرده اید مانند ایمیل، نشانی، شماره تلفن و سایر اطلاعات شخصی.

[4] Loyalty clubs

[5] Customer Relationship Management

[6] summary or aggregate level

[7] unbiased

[8] bootstrapping

[9] Data Preparation

[10] concrete

[11] tangible

[12] solid

[13] inevitable

[14] inherent variation

[15] Face value

[16] intelligence

[17] Supervised and Unsupervised Methods

[18] training sample

امور ثبت و صدور گواهینامه های ایزو شرکت BRSM

تهران سعادت آباد خیابان سپیدار پلاک ۱۰

تلفن : ۰۲۱۲۶۷۶۱۲۸۱

www.BRSCERTIFICATION.com

www.BRSM.ir

#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد 

منبع :https://brsm.ir/node/83