अपाचे हडूप वितरित अनुप्रयोगों को चलाने और सस्ते कमोडिटी हार्डवेयर के क्लस्टर पर बड़ी मात्रा में संरचित, अर्ध-संरचित और असंरचित डेटा संग्रहीत करने के लिए एक ओपन सोर्स सॉफ़्टवेयर फ़्रेमवर्क है।
हडूप को बड़े डेटा एनालिटिक्स को लोकतांत्रिक बनाने का श्रेय दिया जाता है। हडूप से पहले, बड़ी मात्रा में डेटा को संसाधित करना और संग्रहीत करना एक चुनौतीपूर्ण और महंगा काम था जिसके लिए उच्च-स्तरीय, मालिकाना हार्डवेयर और सॉफ़्टवेयर की आवश्यकता होती थी। हडूप के ओपन-सोर्स फ़्रेमवर्क और कमोडिटी हार्डवेयर पर चलने की इसकी क्षमता ने बड़े डेटा एनालिटिक्स को संगठनों की एक विस्तृत श्रृंखला के लिए अधिक सुलभ बना दिया।
2006 में पहली बार हडूप जारी होने के बाद से, क्लाउड कंप्यूटिंग, साथ ही कंटेनरीकरण और माइक्रोसर्विस आर्किटेक्चर ने अनुप्रयोगों को विकसित करने, तैनात करने और स्केल करने के तरीके को काफी हद तक बदल दिया है। जबकि हडूप को अब बड़े डेटा के लिए एक विरासत तकनीक माना जाता है, फिर भी फ़्रेमवर्क के पास विशिष्ट उपयोग के मामले हैं।
हडूप सॉफ़्टवेयर फ़्रेमवर्क डग कटिंग और माइक कैफ़रेला द्वारा बनाया गया था और यह इस बात से प्रेरित था कि Google वितरित कंप्यूटिंग वातावरण में बड़ी मात्रा में डेटा को कैसे संसाधित और संग्रहीत करता है।
"हडूप" नाम का कोई मतलब नहीं है; डग कटिंग ने अपने बेटे के खिलौने हाथी के नाम पर फ्रेमवर्क का नाम रखा। अनोखे, चंचल नाम ने बड़े, जटिल डेटासेट से कार्रवाई योग्य जानकारी प्राप्त करने के लिए ओपन-सोर्स टूल के एक पारिस्थितिकी तंत्र को प्रेरित किया।
हालाँकि आज परियोजनाओं में Hadoop की भूमिका Apache Spark जैसे अधिक उन्नत फ्रेमवर्क के कारण सीमित हो सकती है, Hadoop अभी भी उन परिदृश्यों में एक भूमिका निभाता है जहाँ संगठनों ने पहले से ही Hadoop के बुनियादी ढाँचे में निवेश किया है और Hadoop पारिस्थितिकी तंत्र का उपयोग करने के लिए अभी भी विशिष्ट उपयोग के मामले हैं।
Apache Hadoop बनाम Apache Spark
Hadoop की क्षैतिज रूप से स्केल करने और Hadoop फ्रेमवर्क के भीतर सीधे डेटा प्रोसेसिंग एप्लिकेशन चलाने की क्षमता ने इसे उन संगठनों के लिए एक लागत प्रभावी समाधान बना दिया जिनकी कम्प्यूटेशनल ज़रूरतें बड़ी थीं लेकिन बजट सीमित था।
हालाँकि, यह याद रखना महत्वपूर्ण है कि Hadoop को बैच प्रोसेसिंग के लिए डिज़ाइन किया गया था न कि स्ट्रीम प्रोसेसिंग के लिए। यह प्रत्येक प्रोसेसिंग चरण के बीच डिस्क पर डेटा पढ़ता और लिखता है। इसका मतलब है कि यह बड़े डेटासेट के साथ सबसे अच्छा काम करता है जिन्हें निरंतर डेटा स्ट्रीम के बजाय अलग-अलग हिस्सों में प्रोसेस किया जा सकता है।
जबकि यह Hadoop को बड़े पैमाने पर, लंबे समय तक चलने वाले संचालन के लिए आदर्श बनाता है जहाँ तत्काल परिणाम महत्वपूर्ण नहीं होते हैं, इसका यह भी अर्थ है कि फ्रेमवर्क उन उपयोग मामलों के लिए सबसे अच्छा विकल्प नहीं हो सकता है जिनके लिए वास्तविक समय डेटा प्रोसेसिंग और कम विलंबता प्रतिक्रियाओं की आवश्यकता होती है।
इसके विपरीत, अपाचे स्पार्क इन-मेमोरी प्रोसेसिंग को प्राथमिकता देता है और मध्यवर्ती डेटा को रैंडम एक्सेस मेमोरी (RAM) में रखता है। इसने स्पार्क को स्ट्रीमिंग एनालिटिक्स, रियल-टाइम प्रेडिक्टिव एनालिसिस और मशीन लर्निंग (ML) उपयोग मामलों के लिए अधिक उपयोगी टूल बना दिया है।
0 Comments