بیکران راهکار سعادت

ثبت و صدور گواهینامه های بین المللی استاندارد

بیکران راهکار سعادت

ثبت و صدور گواهینامه های بین المللی استاندارد

همه چیز درباره داده (اقتباسی از کتاب یک راهنمای عملی در داده‌کاوی )

 3: همه چیز درباره داده

3-1- چند اصل بنیادی

در اکثر شرکت‌ها، بازاریابی، فروش و کنترل فرایند از محرک‌های اصلی برای ارتقای کیفیت داده‌ها و تولید اعداد و اطلاعات مشابهی درباره کسب‌ و کار هستند. اما، حتی بخش‌های تولید و تحقیق و توسعه (R&D) برای استفاده از روش‌های آماری یا داده‌کاوی به­منظور ارتقای نتایج خروجی و افزایش سودآوری، به منابع داده قابل اعتماد نیاز دارند. در اکثر شرکت‌ها، انگیزه اصلی برای بررسی و بازسازی داده‌ها و فرایند‌ها، استفاده از فرآیند مدیریت ارتباط با مشتری (CRM)[1] است. استفاده از مدیریت ارتباط با مشتری به داده‌های شرکت معانی جدیدی می‌دهد. روز‌هایی که مدیریت داده‌های مشتری فقط به معنی استفاده از فهرست آدرس­های پستی بود، به پایان رسیده است. امروزه در فرآیند مدیریت داده‌ها باید هر یک از مشتریان هدف قرار داده شوند و ارتباطات بیشتر و اطلاعات با کیفیت بهتری برای این مشتریان خاص و رفتارشان فراهم شوند. مدیریت داده، پایه و اساسی را برای استفاده از روش‌های هوشمندانه از قبیل داده‌کاوی برای تحلیل ثروت و دانش موجود در یک شرکت و ایجاد ارتباط بهینه با مشتریان و گروه‌های ذی‌نفع شکل می‌دهد.

 


در بسیاری از شرکت‌ها، به سختی هر گونه تمایزی بین اصطلاحات دانش[2]، اطلاعات[3] و داده[4] وجود دارد. در منابع علمی‌ در حوزه اقتصاد و علوم کامپیوتر می‌توان مشاهده کرد که نظرات بشدت واگرا[5] و روش‌های مختلفی در دو حوزه تخصصی وجود دارد. در علوم کامپیوتر، اصطلاحات اطلاعات و داده اغلب به جای یکدیگر استفاده می‌شوند، از آنجایی که یک تفاوت آشکار ضروری به نظر نمی‌رسد. داده‌ها مساوی با اطلاعاتی هستند که نمایش می‌دهند. با این وجود یک اقتصاددان، اطلاعات را بعنوان یک عامل مهم تولید و همچنین محصول میانی یا نهایی فرایند تبدیل شرکتی در نظر می‌گیرد. اطلاعات و داده‌ها برای اقتصاددان متفاوت هستند. این واگرایی نظرات بین علم کامپیوتر و علم اقتصاد دارای پیامد‌هایی است که چطور حوزه‌های تخصصی مختلف آماده‌سازی داده‌ها را در نظر می‌گیرند. علوم کامپیوتری اغلب اطلاعاتی که مستقیماً در داده‌ها کدگذاری نمی‌شود را از دست می‌دهند، درحالی که اقتصاددانان با استفاده از دانش اضافی ذخیره نشده در سیستم‌های داده آشناتر هستند (شکل-3-1- را ببینید).

3-1-1- داده، اطلاعات، دانش و خرد[6]

در اینجا ما یک تمایز آشکار را بین دانش و داده نشان می‌دهیم. نقطه شروع اغلب تعریفِ اطلاعات بعنوان دانش مورد نیاز برای اهداف خاص است.

یک نشانه اولیه از برداشت ضمنی از داده، اطلاعات، دانش، و خرد (DIKW) در شعر الیوت[7] به نام "صخره"[8] (1934) ارائه شده است. در این شعر در ابتدا این سلسله مراتب ذکر می‌شود:

کجاست آن زندگی که ما در زنده بودن گم کردیم؟

کجاست آن خردی که ما در دانش گم کردیم؟

کجاست آن دانشی که ما در اطلاعات گم کردیم؟


ممکن است پرداختن به مدیریت دانش و تئوری داده‌ها در یک کتاب کاربردی برای داده‌کاوی غیر عادی بنظر برسد، اما این نقطه نظر ممکن است به درک این موضوع کمک کند که چطور دانشی که ممکن است قسمتی از خود داده باشد یا نباشد، می‌تواند و باید در آماده‌سازی داده‌ها در نظر گرفته شود. برای مثال، ممکن است مشخص شده باشد یک شرکت دارای یک رقیب فصلی[9] است که روی فروش‌هایشان بصورت متناوب تأثیر می‌گذارد، یا وقفه موقتی در تولید ممکن است بوسیله یک خطای[10] شناخته شده بوجود آید.

3-1-2- منابع و کیفیت داده‌ها[11]

داده‌هایی که باید برای تولید اطلاعات و دانش شرکت استفاده شوند می‌توانند از منابع داخلی یا خارجی نشئت بگیرند (شکل-3-3- را ببینید). سیستم اطلاعات عملیاتی[12]، مقدار بزرگی از داده‌های تولید شده بصورت داخلی را از طریق فرایند‌های مختلف حرکت می‌دهد. از آنجایی که داده‌های داخلی عمدتاً برای مدیریت کسب‌ و کار روزانه استفاده می‌شوند، سیستم‌های عملیاتی دارای هیچ گونه امکاناتی برای نگهداری تاریخ جامع نیستند. تناقض‌هایی ممکن است بخاطر ذخیره‌سازی داده‌های بطور ناقص کپی شده در زیر­سیستم‌ها[13] بسیار متفاوت بوجود آیند. فقط از آنجایی که معایب کیفیت بسیاری روی داده‌های استفاده شده در سیستم‌های عملیاتی تأثیر می‌گذارند، در نتیجه معایب کیفیت دارای اثر حتی بزرگتری روی سیستم‌های اطلاعات تحلیل-محور[14] هستند. کیفیت داده‌ها تأثیر قابل توجهی روی کیفیت تحلیل مبتنی بر آن دارد. حداقل، کیفیت و قابلیت اعتماد داده‌های داخلی در کنترل شرکت است. این مورد به داده‌های خارجی مربوط نمی‌شود.

داده‌های خارجی خارج از فرایند‌های خود شرکت تولید می‌شوند؛ این داده‌ها اغلب بعنوان اطلاعات اضافی (برای مثال رتبه بندی اعتبار[15]) یا بعنوان مقادیر مرجع[16] (برای مثال داده‌های ادارات آمار دولتی[17] یا مؤسسه‌های آمار ملی[18]) لازم هستند. برای سیستم‌های اطلاعات با تمرکز تحلیلی در حوزه‌هایی از قبیل بازاریابی پایگاه داده (DBM)[19] و مدیریت ارتباط با مشتری[20] (CRM)، داده‌های خارجی بطور متناوب اضافه می‌شوند؛ ممکن است اطلاعات اضافیِ بطور خاص خریداری شد‌ه‌ای درباره مشتری یا آدرس مشتری وجود داشته باشد.

اغلب کیفیت داده‌های داخلی بهتر از منابع خارجی است، مخصوصاً بخاطر اینکه شما می‌توانید دقیقاً کنترل کنید چطور و چه زمانی داده‌های داخلی تولید می‌شوند. یک مسئله دیگر مربوط به داده‌های خارجی، این است که آن‌ها ممکن است دقیقاً با داده‌های خارجی از نظر زمانی (همزمان بودن) یا مکانی منطبق نشوند. این اختلافات باید در نظر گرفته شوند، اما معمولاً، حتی داده‌های خارجی بطور ضعیف منطبق شده می‌توانند برای تأمین کردن اطلاعات مرتبط اضافی مفید باشند.

3-1-3- سطح اندازه‌گیری[21] و انواع داده

انواع مختلفی از داده‌های کمّی‌ وجود دارد، که همه آن‌ها می‌توانند دارای محتوای اطلاعاتی خوبی باشند. اصطلاحات مختلف زیادی وجود دارد که برای توصیف انواع مختلف داده‌ها استفاده می‌شوند، و رایج‌ترین کلمات در قسمت زیر تشریح شد‌ه‌اند.

ساده‌ترین سطح اندازه‌گیری بصورت داده‌های اسمی[22]‌ بیان می‌شود که نشان می‌دهند کدام دسته‌بندی نام‌گذاری شده قابل استفاده است. برای مثال، یک مشتری ممکن است در یک ناحیه شهری، یا ناحیه روستایی یا یک ناحیه ترکیبی زندگی کند. این متغیر داده‌های اسمی‌ شامل یک ستون از شهری/روستایی/ترکیبی[23] خواهد بود و یک ردیف برای هر مشتری. اگر فقط دو سطح وجود داشته باشد، برای مثال "خرید کردن" یا "خرید نکردن"، در نتیجه به داده‌ها متغیر‌های باینری[24] گفته می‌شود. اگر هر گونه ترتیبی مرتبط با دسته‌بندی‌ها وجود داشته باشد، در نتیجه به آن‌ها داده‌های اصلی گفته می‌شود. برای مثال، متن مرتبط با دلایل عودت کالا‌ها ممکن است چیزی مانند این باشد:

لباس‌ها اندازه نبودند.

این کامنت می‌تواند بعنوان یک شکایت در مورد اندازه (سایز) طبقه‌بندی شود. فراوانی شکایات درباره سایز می‌تواند با فراوانی شکایات مرتبط با غیر-سایز مقایسه شود. مرتبط با سایز/غیر-سایز، یک متغیر باینری است که دارای دو سطح است، و ما می‌توانیم تعداد شکایات در هر سطح را مقایسه کنیم.

اگر دلیل عودت کالا بصورت زیر باشد

لباس‌ها خیلی بزرگ بودند،

در نتیجه می‌توانیم این شکایت را بصورت یک شکایت درباره سایز نامناسب "بسیار بزرگ" طبقه‌بندی کنیم، و می‌توانیم فراوانی سایز‌های نامناسب "بسیار بزرگ" را با "بسیار کوچک" یا "غیر-اندازه" مرتبط مقایسه کنیم. یک متغیر حاوی اطلاعات درباره شکایات طبقه‌بندی شده مانند شکایات مرتبط با بسیار بزرگ/بسیار کوچک/اندازه مشخص نشده/غیر-اندازه، یک متغیر دسته‌بندی با اندازه‌گیری اسمی‌ در چهار سطح است.

اگر دسته‌بندی‌ها با یک مرتبه صعودی یا نزولی مرتبط باشند، همچنین ممکن است یک اندازه‌گیری سطح ترتیبی وجود داشته باشد. برای مثال، سطوح متغیر می‌توانند اولین عودت، دومین عودت، سومین عودت، و  باشند. اگر بیش از دو مرحله برای یک متغیر اسمی‌ وجود داشته باشد، اما هیچ مرتبه ضمنی وجود نداشته باشد، در نتیجه بعضی از فرایند‌های داده‌کاوی ممکن است آن‌ها را ملزم کنند تا به یک سری از متغیر‌های شناساگر تبدیل شوند. برای مثال، شهری/روستایی/ترکیبی می‌تواند به سه متغیر شناساگر تبدیل شود: شهری یا نه، روستایی یا نه و ترکیبی یا نه. متغیر آخر زائد است از آنجایی که مقدار آن هنگامی‌ نشان داده می‌شود که نه شهری و نه روستایی درست نباشند.

به متغیر‌هایی که سایز را نشان می‌دهند، اندازه[25]، اندازه‌گیری[26] یا معیار[27] گفته می‌شود و بصورت متریک توصیف می‌شوند. در داده‌کاوی، عبارت "متریک (معیار)[28]" شامل شمارش‌های نوع بعضی داده‌ها مانند بازدید صفحه می‌شود، و ممکن است با یک ستون داده مطابقت داشته باشد.

سطح اندازه‌گیری داخلی[29] خواهد بود اگر متغیر‌ها تعداد رویداد‌ها باشند، برای مثال، تعداد عودت‌ها برای یک مشتری (یعنی، تعداد دفعاتی که یک مشتری یک سفارش را عودت داده است). در این مورد، ممکن است تعداد زیادی مشتری با عودت‌های صفر وجود داشته باشند اما تعداد کمی‌ مشتری با عودت یک، دو، سه یا بیشتر وجود داشته باشد. این‌ها داده‌های گسسته[30]هستند که در یک مقیاس بازه‌ای[31] اندازه‌گیری می‌شوند. یک مثال دیگر از اندازه‌ها یا معیار‌های سطح بازه، بوسیله دگرسنجه‌ها[32] ارائه می‌شوند، که اندازه‌گیری‌های تعامل مبتنی بر وب اجتماعی هستند که منجر به متغیر‌هایی مانند تعداد کلیک‌ها و نام بردن‌ها در وب می‌شوند. موضوعاتی از قبیل نتنوگرافی[33]، فعالیت وب را بصورت کاملاً مفصل بررسی می‌کنند.

آیتم‌های داده بسیاری روی یک مقیاس پیوسته اندازه‌گیری می‌شوند، برای مثال، فاصله طی شده برای خرید کردن. داده‌های پیوسته لازم نیست عدد کامل باشند مانند 4 km بلکه می‌توانند کسری از عدد کامل باشند مانند 5.68 km. داده‌های پیوسته[34]ممکن است از نوع بازه یا از نوع نسبت باشند. داده‌های بازه‌ای دارای بازه‌های مساوی بین واحد‌ها هستند (برای مثال 3.1 یکی کمتر از 4.5 است، و 4.5 یکی کمتر از 5.5 است). داده نسبتی[35]، داده نوع بازه‌ای است با این ویژگی اضافی که صفر بامعنی است و نسبت‌ها ثابت هستند (برای مثال 12 دو برابر 6 است، و 6 دو برابر 3 است).

به متغیر‌های اسمی‌ و ترتیبی[36]، متغیر‌های دسته‌بندی و طبقه‌بندی[37] گفته می‌شود. آن‌ها اغلب نشان دهنده ابعاد[38]، فاکتور‌ها[39] یا متغیر‌های سفارشی[40] هستند که به شما اجازه می‌دهند یک معیار را بوسیله یک مقدار خاص، مانند بازدید‌های صفحه بوسیله نام صفحه تجزیه کنید.

بطور خلاصه، در داده‌کاوی ما متغیر‌های طبقه‌بندی یا دسته‌بندی را مورد نظر قرار می‌دهیم که می‌توانند اسمی‌، باینری یا ترتیبی باشند و همچنین متغیر‌های مقیاس یا معیار را که می‌توانند شمارشی، پیوسته، بازه یا نسبتی[41] باشند.

داده‌های کیفیتی[42] از قبیل تصاویر یا متن، می‌توانند به داده‌های کمّی‌ خلاصه شوند. برای مثال، یک تحلیل از مقدار می‌تواند بر حسب شمارش‌ها بیان شود و بر حسب تأثیر یا کیفیت روابط اندازه‌گیری شود. تحلیل محتوا ممکن است باعث بوجود آمدن داده‌های اسمی‌ شود که در آن‌ها دسته‌بندی‌ها می‌توانند نام‌گذاری شوند اما دارای هیچ مرتبه ضمنی نیستند.


[1] Customer Relationship Management (CRM)

[2] knowledge

[3] information

[4] data

[5] divergent

[6] Data, Information, Knowledge and Wisdom

[7] T.S. Eliot

[8] The Rock

[9] seasonal competitor

[10] fault

[11] Sources and Quality of Data

[12] The operational information system

[13] sub-systems

[14] analysis-oriented

[15] credit rating

[16] Reference values

[17] Government Statistical Offices

[18] National Statistics Institutes

[19] Database Marketing (DBM)

[20] Customer Relationship Management

[21] Measurement Level

[22] nominal data

[23] urban/rural/mixed

[24] binary

[25] measures

[26] measurements

[27] metrics

[28] metric

[29] interval

[30] discrete

[31] interval scale

[32] Altmetrics

از ترکیب دو واژهٔ دیگر به صورت (altmetrics = alternative + metrice) ایجاد شده‌است و منظور از آن سنجش از طریق سنجه‌های جایگزین و غیر متداول می‌باشد. در حال حاضر برخی از ناشران مجلات مؤسسات علمی با ایجاد وب‌گاه‌هایی به جمع‌آوری این نوع سنجه‌ها جهت ارزیابی مقالات، بخصوص مقالات جدید که استنادهای دریافتی آن‌ها مشخص‌کننده وضعیت علمی آن‌ها نیست می‌پردازند (اضافه مترجم).

[33] Netnography

اتنوگرافی شاخه‌ای از انسان‌شناسی است که به دنبال شرح علمی فرهنگ‌های متمایز است. اتنوگرافی دیجیتال تحقیقی اتنوگرافیک است که در فضای مجازی انجام می‌گیرد. این شاخه از اتنوگرافی "نتنوگرافی" نیز نامیده می‌شود (اضافه مترجم).

[34] Continuous

[35] Ratio

[36] Nominal and ordinal

[37] categorical or classification

[38] dimensions

[39] factors

[40] custom

[41] Count, continuous, interval or ratio

[42] Qualitative


تحقیق و توسعه شرکت BRS

تهران سعادت آباد خیابان سپیدار پلاک ۱۰

تلفن : ۰۲۱۲۶۷۶۱۲۸۱

www.BRSMENA.com

www.BRS.ir

#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد 

ممیزی، شرکت ایزو، شرکت معتبر استاندارد، اداره استاندارد ، شرکت استاندارد ، شرکت معتبر ایزو، شرکت بیکران ، صدور گواهینامه ، داده کاوی ، متن کاوی ، داده ، داده سازی ، داده یابی ، مدیریت داده ، داده کلان ، سیستم داده ، datamininig ، دیتا ماینیگ ، data mining

منبع : https://brs.ir/node/105