डाटा माइनिंग की परिभाषा
अनेक वस्तुओं का संग्रह / / July 04, 2021
नवंबर में गुइलम अलसीना गोंजालेज द्वारा। 2018
मैं लंबे समय से यह कहावत सुन रहा हूं कि डेटा नया तेल है, लेकिन अगर हमें इसके शोषण और उपयोग से संबंधित विषयों में से एक के नाम से न्याय करना है, तो तथाकथित खुदाई आंकड़े का, मैं उन्हें उनके रूपों के सादृश्य द्वारा "नया कोयला" कहूंगा निष्कर्षण.
डेटा माइनिंग एक अनुशासन है जिसमें डेटा के एक बड़े संग्रह के स्वचालित सांख्यिकीय विश्लेषण से निष्कर्ष निकालना शामिल है।
यह डेटा कई स्रोतों से आ सकता है, अलग-अलग संरचनाएं हो सकती हैं, या संरचित भी नहीं हो सकती हैं। इस कारण से, डेटा माइनिंग में सिस्टम शामिल हैं कृत्रिम होशियारी और का यंत्र अधिगम असंरचित डेटा के अनुकूल होने और इसे फ़िल्टर के माध्यम से पारित करने में सक्षम है जो इसके विश्लेषण की अनुमति देता है।
अंत में, बात यह है कि निष्कर्ष मदद करने के लिए काम करते हैं निर्णय लेना एक निश्चित प्रणाली पर, जो बहुत भिन्न हो सकती है: किसी शहर या क्षेत्र में सड़क यातायात से लेकर प्रावधान संभावित आपात स्थितियों से निपटने के लिए अग्निशामकों और अन्य सार्वजनिक सेवाओं की।
यह उन पैटर्नों को उजागर करने के बारे में भी है जिनका डेटा अनुसरण करता है और जो अब तक छिपे हुए थे या हम सभी दलदल के बीच में, मौजूदा डेटा की बड़ी मात्रा में स्पष्ट रूप से नहीं देख सके।
डेटा माइनिंग को क्या अलग करता है बड़ा डेटा? खैर, खनन केवल विश्लेषण से संबंधित है, जबकि खनन बड़ा डेटा यह एक अनुशासन है जो डेटा को पकड़ने और संग्रहीत करने के साथ-साथ इसके प्रशासन के लिए जिम्मेदार है।
सेवा विश्लेषण डेटा सही ढंग से, सबसे पहले हमें कुछ उद्देश्यों को निर्धारित करना चाहिए जिनका हम अनुसरण करते हैं विश्लेषण, प्रश्नों की एक श्रृंखला जिसका उत्तर हमें खोजना होगा, क्योंकि ये मार्गदर्शन करेंगे कि कहाँ हमें खोजना चाहिए।
परिसर के रूप में इन प्रश्नों से शुरू करते हुए, हम संसाधित करने के लिए डेटा चुनते हैं (हो सकता है कि हमें केवल एक भाग की आवश्यकता हो डेटाबेस, और सभी नहीं)।
प्रसंस्करण चरण प्रत्येक मामले में भिन्न होता है, और यह कृत्रिम बुद्धि उपकरणों का उपयोग करता है और यंत्र अधिगम, ताकि वे दर्ज किए गए डेटा को गतिशील रूप से अनुकूलित कर सकें, यदि आवश्यक हो तो उनके संचालन को संशोधित कर सकें।
इस प्रसंस्करण का अंतिम उत्पाद निष्कर्षों की एक श्रृंखला होना चाहिए, लेकिन आइए इन्हें उन लोगों के साथ भ्रमित न करें जो सिस्टम के लिए जिम्मेदार हैं या जो अंतिम निर्णय लेते हैं। ये निष्कर्ष विश्लेषण किए गए डेटा की मात्रा के बारे में हैं।
यदि हम फिर से किसी शहर में सड़क यातायात का उदाहरण लेते हैं, तो हम प्राप्त कर सकते हैं: निष्कर्ष कि एक निश्चित सड़क पर वाहनों का अत्यधिक प्रवाह प्राप्त होता है, लेकिन सिस्टम हमें उक्त अतिरिक्त को हल करने के लिए जादू की रेसिपी नहीं देगा।
हालांकि सिस्टम के पास है बुद्धि कृत्रिम जो समाधान प्रस्तावित कर सकता है, अंतिम शब्द रखना हमेशा मानव कर्मियों का कार्य होगा।
बड़ी संख्या में विषयों में डेटा माइनिंग को व्यवहार में लागू किया जा रहा है, जिनमें से वित्तीय बाहर खड़े हैं।
इस प्रकार, हम शेयर बाजार (शेयरों के व्यवहार की भविष्यवाणी करने के लिए) जैसे वर्गों में आवेदन पा सकते हैं, लेकिन यह भी ऐसे क्षेत्र जो कड़ाई से वित्तीय नहीं हैं लेकिन क्षेत्र के साथ घनिष्ठ संबंध रखते हैं, जैसा कि मामला बीमा।
प्राकृतिक भाषा प्रसंस्करण, ऑनलाइन खोज या स्मार्ट कार अन्य विषय हैं जिनमें डेटा खनन लागू किया जा रहा है।
फ़ोटोलिया तस्वीरें: Moartist / Thingglass
डाटा माइनिंग में विषय