Synthetic Data - सिंथेटिक डेटा का क्या मतलब है?

सिंथेटिक डेटा वह इनपुट है जो सांख्यिकीय मॉडल से गणितीय रूप से उत्पन्न होता है। सिंथेटिक डेटा वित्त, स्वास्थ्य देखभाल और कृत्रिम बुद्धिमत्ता (एआई) में एक महत्वपूर्ण भूमिका निभाता है, जब इसका उपयोग कच्चे डेटा में व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) की रक्षा करने और मशीन लर्निंग (एमएल) एल्गोरिदम को प्रशिक्षित करने के लिए भारी मात्रा में नए डेटा बनाने के लिए किया जाता है।

वास्तविक दुनिया के डेटा स्रोत में प्रत्येक चर के विरुद्ध अनुक्रमिक सांख्यिकीय प्रतिगमन मॉडल निष्पादित करके सिंथेटिक डेटा बनाया जाता है। प्रतिगमन मॉडल से एकत्र किए गए किसी भी नए डेटा में सांख्यिकीय रूप से मूल डेटा के समान गुण होंगे, लेकिन इसके मान किसी विशिष्ट रिकॉर्ड, व्यक्ति या डिवाइस के अनुरूप नहीं होंगे।

सिंथेटिक डेटा डेटा वैज्ञानिकों और विश्लेषकों को अतिरिक्त डेटा तक त्वरित पहुंच प्रदान करता है और उन्हें अनुपालन के बारे में चिंता करने से मुक्त करता है। इसके विविध उपयोगों में शामिल हैं:

  • मशीन लर्निंग (एमएल) - सिंथेटिक डेटा का उपयोग जल्दी से अतिरिक्त डेटा बनाने के लिए किया जा सकता है जो सांख्यिकीय रूप से मूल कच्चे डेटा जैसा दिखता है।
  • एनालिटिक्स - सिंथेटिक डेटा का उपयोग अपेक्षाकृत छोटे डेटासेट से जानकारी निकालकर बड़े डेटासेट बनाने के लिए किया जा सकता है।
  • अनुपालन - किसी रिकॉर्ड में मौजूद जानकारी को उसके मूल स्रोत से अलग करके डेटा गोपनीयता प्रदान करने के लिए सिंथेटिक डेटा का उपयोग किया जा सकता है।
  • सूचना सुरक्षा - सिंथेटिक डेटा का उपयोग हनीपोट्स को मनगढ़ंत डेटा से भरने के लिए किया जा सकता है जो हमलावरों को आकर्षित करने के लिए पर्याप्त यथार्थवादी है।
  • सॉफ्टवेयर विकास - सैंडबॉक्स वातावरण में कोड परिवर्तनों का परीक्षण करने के लिए गुणवत्ता आश्वासन (क्यूए) में सिंथेटिक डेटा का उपयोग किया जा सकता है।


शायद सिंथेटिक डेटा की अवधारणा को समझाने का सबसे स्पष्ट तरीका यह है कि सिंथेटिक डेटा वास्तविक दुनिया, "आईआरएल" या "मीटस्पेस" में स्वाभाविक रूप से बनाया गया "वास्तविक" डेटा नहीं है क्योंकि पेशेवर कभी-कभी गैर-डिजिटल दुनिया को संदर्भित करते हैं। सिंथेटिक डेटा वास्तविक ड्राइविंग ऑर्गेनिक डेटा इवेंट के बिना बनाया जाता है।

 

उदाहरण के लिए, जबकि एक प्लेटफ़ॉर्म का उपयोग करने वाले ग्राहक के बारे में पहचानकर्ताओं का एक वास्तविक सेट एकत्र किया जाता है, एक इंजीनियर अंततः एक काल्पनिक ग्राहक के लिए समान पहचानकर्ता बना सकता है, और उन्हें सिस्टम में लोड कर सकता है - और यह सिंथेटिक डेटा का एक उदाहरण होगा।

सिंथेटिक डेटा की बेहतर समझ इस बात से संबंधित है कि मशीन लर्निंग और इसी तरह की प्रौद्योगिकियों में इसका उपयोग कैसे किया जाता है। मुख्य बात यह है कि डेटा कैसे उत्पन्न होता है, क्योंकि वास्तविक डेटा के विपरीत, सिंथेटिक डेटा बनाना पड़ता है।

नई डेटा प्रौद्योगिकियों में सिंथेटिक डेटा एक मौलिक अवधारणा है जो गैर-प्रामाणिक, आविष्कृत या स्वचालित रूप से उत्पन्न डेटा का उपयोग करता है जो वास्तविक दुनिया में घटना-उत्पन्न नहीं होते हैं। वास्तविक और सिंथेटिक डेटा के विपरीत, यह समझना संभव है कि मशीन लर्निंग और कृत्रिम बुद्धिमत्ता के अन्य नए रूप कैसे काम करते हैं।

तंत्रिका नेटवर्क जैसी मशीन लर्निंग प्रौद्योगिकियों से भविष्य के परीक्षण और प्रशिक्षण डेटा सेट के विकास में सिंथेटिक डेटा का उपयोग एक प्रमुख मुद्दा है।

Post a Comment

0 Comments