3: همه چیز درباره داده
در اکثر شرکتها، بازاریابی، فروش و کنترل فرایند از محرکهای اصلی برای ارتقای کیفیت دادهها و تولید اعداد و اطلاعات مشابهی درباره کسب و کار هستند. اما، حتی بخشهای تولید و تحقیق و توسعه (R&D) برای استفاده از روشهای آماری یا دادهکاوی بهمنظور ارتقای نتایج خروجی و افزایش سودآوری، به منابع داده قابل اعتماد نیاز دارند. در اکثر شرکتها، انگیزه اصلی برای بررسی و بازسازی دادهها و فرایندها، استفاده از فرآیند مدیریت ارتباط با مشتری (CRM)[1] است. استفاده از مدیریت ارتباط با مشتری به دادههای شرکت معانی جدیدی میدهد. روزهایی که مدیریت دادههای مشتری فقط به معنی استفاده از فهرست آدرسهای پستی بود، به پایان رسیده است. امروزه در فرآیند مدیریت دادهها باید هر یک از مشتریان هدف قرار داده شوند و ارتباطات بیشتر و اطلاعات با کیفیت بهتری برای این مشتریان خاص و رفتارشان فراهم شوند. مدیریت داده، پایه و اساسی را برای استفاده از روشهای هوشمندانه از قبیل دادهکاوی برای تحلیل ثروت و دانش موجود در یک شرکت و ایجاد ارتباط بهینه با مشتریان و گروههای ذینفع شکل میدهد.
در بسیاری از شرکتها، به سختی هر گونه تمایزی بین اصطلاحات دانش[2]، اطلاعات[3] و داده[4] وجود دارد. در منابع علمی در حوزه اقتصاد و علوم کامپیوتر میتوان مشاهده کرد که نظرات بشدت واگرا[5] و روشهای مختلفی در دو حوزه تخصصی وجود دارد. در علوم کامپیوتر، اصطلاحات اطلاعات و داده اغلب به جای یکدیگر استفاده میشوند، از آنجایی که یک تفاوت آشکار ضروری به نظر نمیرسد. دادهها مساوی با اطلاعاتی هستند که نمایش میدهند. با این وجود یک اقتصاددان، اطلاعات را بعنوان یک عامل مهم تولید و همچنین محصول میانی یا نهایی فرایند تبدیل شرکتی در نظر میگیرد. اطلاعات و دادهها برای اقتصاددان متفاوت هستند. این واگرایی نظرات بین علم کامپیوتر و علم اقتصاد دارای پیامدهایی است که چطور حوزههای تخصصی مختلف آمادهسازی دادهها را در نظر میگیرند. علوم کامپیوتری اغلب اطلاعاتی که مستقیماً در دادهها کدگذاری نمیشود را از دست میدهند، درحالی که اقتصاددانان با استفاده از دانش اضافی ذخیره نشده در سیستمهای داده آشناتر هستند (شکل-3-1- را ببینید).
در اینجا ما یک تمایز آشکار را بین دانش و داده نشان میدهیم. نقطه شروع اغلب تعریفِ اطلاعات بعنوان دانش مورد نیاز برای اهداف خاص است.
یک نشانه اولیه از برداشت ضمنی از داده، اطلاعات، دانش، و خرد (DIKW) در شعر الیوت[7] به نام "صخره"[8] (1934) ارائه شده است. در این شعر در ابتدا این سلسله مراتب ذکر میشود:
کجاست آن زندگی که ما در زنده بودن گم کردیم؟
کجاست آن خردی که ما در دانش گم کردیم؟
کجاست آن دانشی که ما در اطلاعات گم کردیم؟
ممکن است پرداختن به مدیریت دانش و تئوری دادهها در یک کتاب کاربردی برای دادهکاوی غیر عادی بنظر برسد، اما این نقطه نظر ممکن است به درک این موضوع کمک کند که چطور دانشی که ممکن است قسمتی از خود داده باشد یا نباشد، میتواند و باید در آمادهسازی دادهها در نظر گرفته شود. برای مثال، ممکن است مشخص شده باشد یک شرکت دارای یک رقیب فصلی[9] است که روی فروشهایشان بصورت متناوب تأثیر میگذارد، یا وقفه موقتی در تولید ممکن است بوسیله یک خطای[10] شناخته شده بوجود آید.
دادههایی که باید برای تولید اطلاعات و دانش شرکت استفاده شوند میتوانند از منابع داخلی یا خارجی نشئت بگیرند (شکل-3-3- را ببینید). سیستم اطلاعات عملیاتی[12]، مقدار بزرگی از دادههای تولید شده بصورت داخلی را از طریق فرایندهای مختلف حرکت میدهد. از آنجایی که دادههای داخلی عمدتاً برای مدیریت کسب و کار روزانه استفاده میشوند، سیستمهای عملیاتی دارای هیچ گونه امکاناتی برای نگهداری تاریخ جامع نیستند. تناقضهایی ممکن است بخاطر ذخیرهسازی دادههای بطور ناقص کپی شده در زیرسیستمها[13] بسیار متفاوت بوجود آیند. فقط از آنجایی که معایب کیفیت بسیاری روی دادههای استفاده شده در سیستمهای عملیاتی تأثیر میگذارند، در نتیجه معایب کیفیت دارای اثر حتی بزرگتری روی سیستمهای اطلاعات تحلیل-محور[14] هستند. کیفیت دادهها تأثیر قابل توجهی روی کیفیت تحلیل مبتنی بر آن دارد. حداقل، کیفیت و قابلیت اعتماد دادههای داخلی در کنترل شرکت است. این مورد به دادههای خارجی مربوط نمیشود.
دادههای خارجی خارج از فرایندهای خود شرکت تولید میشوند؛ این دادهها اغلب بعنوان اطلاعات اضافی (برای مثال رتبه بندی اعتبار[15]) یا بعنوان مقادیر مرجع[16] (برای مثال دادههای ادارات آمار دولتی[17] یا مؤسسههای آمار ملی[18]) لازم هستند. برای سیستمهای اطلاعات با تمرکز تحلیلی در حوزههایی از قبیل بازاریابی پایگاه داده (DBM)[19] و مدیریت ارتباط با مشتری[20] (CRM)، دادههای خارجی بطور متناوب اضافه میشوند؛ ممکن است اطلاعات اضافیِ بطور خاص خریداری شدهای درباره مشتری یا آدرس مشتری وجود داشته باشد.
اغلب کیفیت دادههای داخلی بهتر از منابع خارجی است، مخصوصاً بخاطر اینکه شما میتوانید دقیقاً کنترل کنید چطور و چه زمانی دادههای داخلی تولید میشوند. یک مسئله دیگر مربوط به دادههای خارجی، این است که آنها ممکن است دقیقاً با دادههای خارجی از نظر زمانی (همزمان بودن) یا مکانی منطبق نشوند. این اختلافات باید در نظر گرفته شوند، اما معمولاً، حتی دادههای خارجی بطور ضعیف منطبق شده میتوانند برای تأمین کردن اطلاعات مرتبط اضافی مفید باشند.
انواع مختلفی از دادههای کمّی وجود دارد، که همه آنها میتوانند دارای محتوای اطلاعاتی خوبی باشند. اصطلاحات مختلف زیادی وجود دارد که برای توصیف انواع مختلف دادهها استفاده میشوند، و رایجترین کلمات در قسمت زیر تشریح شدهاند.
سادهترین سطح اندازهگیری بصورت دادههای اسمی[22] بیان میشود که نشان میدهند کدام دستهبندی نامگذاری شده قابل استفاده است. برای مثال، یک مشتری ممکن است در یک ناحیه شهری، یا ناحیه روستایی یا یک ناحیه ترکیبی زندگی کند. این متغیر دادههای اسمی شامل یک ستون از شهری/روستایی/ترکیبی[23] خواهد بود و یک ردیف برای هر مشتری. اگر فقط دو سطح وجود داشته باشد، برای مثال "خرید کردن" یا "خرید نکردن"، در نتیجه به دادهها متغیرهای باینری[24] گفته میشود. اگر هر گونه ترتیبی مرتبط با دستهبندیها وجود داشته باشد، در نتیجه به آنها دادههای اصلی گفته میشود. برای مثال، متن مرتبط با دلایل عودت کالاها ممکن است چیزی مانند این باشد:
لباسها اندازه نبودند.
این کامنت میتواند بعنوان یک شکایت در مورد اندازه (سایز) طبقهبندی شود. فراوانی شکایات درباره سایز میتواند با فراوانی شکایات مرتبط با غیر-سایز مقایسه شود. مرتبط با سایز/غیر-سایز، یک متغیر باینری است که دارای دو سطح است، و ما میتوانیم تعداد شکایات در هر سطح را مقایسه کنیم.
اگر دلیل عودت کالا بصورت زیر باشد
لباسها خیلی بزرگ بودند،
در نتیجه میتوانیم این شکایت را بصورت یک شکایت درباره سایز نامناسب "بسیار بزرگ" طبقهبندی کنیم، و میتوانیم فراوانی سایزهای نامناسب "بسیار بزرگ" را با "بسیار کوچک" یا "غیر-اندازه" مرتبط مقایسه کنیم. یک متغیر حاوی اطلاعات درباره شکایات طبقهبندی شده مانند شکایات مرتبط با بسیار بزرگ/بسیار کوچک/اندازه مشخص نشده/غیر-اندازه، یک متغیر دستهبندی با اندازهگیری اسمی در چهار سطح است.
اگر دستهبندیها با یک مرتبه صعودی یا نزولی مرتبط باشند، همچنین ممکن است یک اندازهگیری سطح ترتیبی وجود داشته باشد. برای مثال، سطوح متغیر میتوانند اولین عودت، دومین عودت، سومین عودت، و … باشند. اگر بیش از دو مرحله برای یک متغیر اسمی وجود داشته باشد، اما هیچ مرتبه ضمنی وجود نداشته باشد، در نتیجه بعضی از فرایندهای دادهکاوی ممکن است آنها را ملزم کنند تا به یک سری از متغیرهای شناساگر تبدیل شوند. برای مثال، شهری/روستایی/ترکیبی میتواند به سه متغیر شناساگر تبدیل شود: شهری یا نه، روستایی یا نه و ترکیبی یا نه. متغیر آخر زائد است از آنجایی که مقدار آن هنگامی نشان داده میشود که نه شهری و نه روستایی درست نباشند.
به متغیرهایی که سایز را نشان میدهند، اندازه[25]، اندازهگیری[26] یا معیار[27] گفته میشود و بصورت متریک توصیف میشوند. در دادهکاوی، عبارت "متریک (معیار)[28]" شامل شمارشهای نوع بعضی دادهها مانند بازدید صفحه میشود، و ممکن است با یک ستون داده مطابقت داشته باشد.
سطح اندازهگیری داخلی[29] خواهد بود اگر متغیرها تعداد رویدادها باشند، برای مثال، تعداد عودتها برای یک مشتری (یعنی، تعداد دفعاتی که یک مشتری یک سفارش را عودت داده است). در این مورد، ممکن است تعداد زیادی مشتری با عودتهای صفر وجود داشته باشند اما تعداد کمی مشتری با عودت یک، دو، سه یا بیشتر وجود داشته باشد. اینها دادههای گسسته[30]هستند که در یک مقیاس بازهای[31] اندازهگیری میشوند. یک مثال دیگر از اندازهها یا معیارهای سطح بازه، بوسیله دگرسنجهها[32] ارائه میشوند، که اندازهگیریهای تعامل مبتنی بر وب اجتماعی هستند که منجر به متغیرهایی مانند تعداد کلیکها و نام بردنها در وب میشوند. موضوعاتی از قبیل نتنوگرافی[33]، فعالیت وب را بصورت کاملاً مفصل بررسی میکنند.
آیتمهای داده بسیاری روی یک مقیاس پیوسته اندازهگیری میشوند، برای مثال، فاصله طی شده برای خرید کردن. دادههای پیوسته لازم نیست عدد کامل باشند مانند 4 km بلکه میتوانند کسری از عدد کامل باشند مانند 5.68 km. دادههای پیوسته[34]ممکن است از نوع بازه یا از نوع نسبت باشند. دادههای بازهای دارای بازههای مساوی بین واحدها هستند (برای مثال 3.1 یکی کمتر از 4.5 است، و 4.5 یکی کمتر از 5.5 است). داده نسبتی[35]، داده نوع بازهای است با این ویژگی اضافی که صفر بامعنی است و نسبتها ثابت هستند (برای مثال 12 دو برابر 6 است، و 6 دو برابر 3 است).
به متغیرهای اسمی و ترتیبی[36]، متغیرهای دستهبندی و طبقهبندی[37] گفته میشود. آنها اغلب نشان دهنده ابعاد[38]، فاکتورها[39] یا متغیرهای سفارشی[40] هستند که به شما اجازه میدهند یک معیار را بوسیله یک مقدار خاص، مانند بازدیدهای صفحه بوسیله نام صفحه تجزیه کنید.
بطور خلاصه، در دادهکاوی ما متغیرهای طبقهبندی یا دستهبندی را مورد نظر قرار میدهیم که میتوانند اسمی، باینری یا ترتیبی باشند و همچنین متغیرهای مقیاس یا معیار را که میتوانند شمارشی، پیوسته، بازه یا نسبتی[41] باشند.
دادههای کیفیتی[42] از قبیل تصاویر یا متن، میتوانند به دادههای کمّی خلاصه شوند. برای مثال، یک تحلیل از مقدار میتواند بر حسب شمارشها بیان شود و بر حسب تأثیر یا کیفیت روابط اندازهگیری شود. تحلیل محتوا ممکن است باعث بوجود آمدن دادههای اسمی شود که در آنها دستهبندیها میتوانند نامگذاری شوند اما دارای هیچ مرتبه ضمنی نیستند.
[1] Customer Relationship Management (CRM)
[2] knowledge
[3] information
[4] data
[5] divergent
[6] Data, Information, Knowledge and Wisdom
[7] T.S. Eliot
[8] The Rock
[9] seasonal competitor
[10] fault
[11] Sources and Quality of Data
[12] The operational information system
[13] sub-systems
[14] analysis-oriented
[15] credit rating
[16] Reference values
[17] Government Statistical Offices
[18] National Statistics Institutes
[19] Database Marketing (DBM)
[20] Customer Relationship Management
[21] Measurement Level
[22] nominal data
[23] urban/rural/mixed
[24] binary
[25] measures
[26] measurements
[27] metrics
[28] metric
[29] interval
[30] discrete
[31] interval scale
[32] Altmetrics
از ترکیب دو واژهٔ دیگر به صورت (altmetrics = alternative + metrice) ایجاد شدهاست و منظور از آن سنجش از طریق سنجههای جایگزین و غیر متداول میباشد. در حال حاضر برخی از ناشران مجلات مؤسسات علمی با ایجاد وبگاههایی به جمعآوری این نوع سنجهها جهت ارزیابی مقالات، بخصوص مقالات جدید که استنادهای دریافتی آنها مشخصکننده وضعیت علمی آنها نیست میپردازند (اضافه مترجم).
[33] Netnography
اتنوگرافی شاخهای از انسانشناسی است که به دنبال شرح علمی فرهنگهای متمایز است. اتنوگرافی دیجیتال تحقیقی اتنوگرافیک است که در فضای مجازی انجام میگیرد. این شاخه از اتنوگرافی "نتنوگرافی" نیز نامیده میشود (اضافه مترجم).
[34] Continuous
[35] Ratio
[36] Nominal and ordinal
[37] categorical or classification
[38] dimensions
[39] factors
[40] custom
[41] Count, continuous, interval or ratio
[42] Qualitative
تحقیق و توسعه شرکت BRS
تهران سعادت آباد خیابان سپیدار پلاک ۱۰
تلفن : ۰۲۱۲۶۷۶۱۲۸۱
www.BRSMENA.com
www.BRS.ir
#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد
ممیزی، شرکت ایزو، شرکت معتبر استاندارد، اداره استاندارد ، شرکت استاندارد ، شرکت معتبر ایزو، شرکت بیکران ، صدور گواهینامه ، داده کاوی ، متن کاوی ، داده ، داده سازی ، داده یابی ، مدیریت داده ، داده کلان ، سیستم داده ، datamininig ، دیتا ماینیگ ، data mining
منبع : https://brs.ir/node/105