हाल ही में इस वर्ष, Google DeepMind और अन्य प्रतिष्ठित संस्थानों के शोधकर्ताओं और अन्य लोगों की एक टीम ने यहां ChatGPT में कमजोरियों को उजागर करने वाला एक अभूतपूर्व पेपर प्रकाशित किया ।
इस लेख का उद्देश्य केवल संदर्भ उद्देश्यों के लिए, उपरोक्त लिंक किए गए लेख के आधार पर सामान्य दर्शकों के लिए मुख्य निष्कर्षों और उनके निहितार्थों को सरल बनाना है! इसके अलावा, मैंने इसका परीक्षण भी किया और आप अंत में मेरे परिणाम देख सकते हैं!
चैटजीपीटी से डेटा निष्कर्षण
शोधकर्ताओं ने एक ऐसा हमला तैयार किया जिससे उन्हें चैटजीपीटी के प्रशिक्षण डेटा के कई मेगाबाइट मात्र दो सौ डॉलर में निकालने की अनुमति मिल गई। यह मॉडल, अपनी तरह के अन्य मॉडलों की तरह, सार्वजनिक इंटरनेट डेटा पर प्रशिक्षित है।
हमले में मॉडल से पूछताछ करना, उस सटीक डेटा का खुलासा करना शामिल है जिस पर उसे प्रशिक्षित किया गया था। विशेष रूप से, प्रश्नों पर अधिक खर्च करके चैटजीपीटी के प्रशिक्षण डेटासेट की लगभग एक गीगाबाइट निकालना संभव है।
डेटा निष्कर्षण हमलों का प्रशिक्षण और आपको इसकी परवाह क्यों करनी चाहिए
पेपर डेटा निष्कर्षण हमलों के प्रशिक्षण के महत्व पर जोर देता है। शोधकर्ता बताते हैं कि भाषा मॉडल, जैसे चैटजीपीटी, प्रशिक्षण डेटा को याद कर सकते हैं और पुन: एकत्रित कर सकते हैं। इससे संवेदनशील जानकारी की गोपनीयता और सुरक्षा को लेकर चिंताएं पैदा होती हैं।
प्रशिक्षण डेटा का खुलासा करने से बचने के लिए डिज़ाइन की गई चैटजीपीटी की संरेखित प्रकृति, किसी विशिष्ट हमले के माध्यम से डेटा निष्कर्षण को नहीं रोकती है। अनुसंधान टीम का तर्क है कि केवल संरेखित मॉडल का परीक्षण करने से कमजोरियों को छुपाया जा सकता है, सीधे बेस मॉडल का परीक्षण करने की आवश्यकता पर बल दिया गया है। कारनामों की पर्याप्त पैचिंग सुनिश्चित करने के लिए उत्पादन प्रणाली में भी परीक्षण का विस्तार होना चाहिए।
जबकि पेपर में प्रदर्शित विशिष्ट शोषण को पैच किया जा सकता है, शोधकर्ता किसी शोषण को पैच करने और अंतर्निहित भेद्यता को ठीक करने के बीच अंतर पर प्रकाश डालते हैं। चैटजीपीटी के मामले में, भेद्यता प्रशिक्षण डेटा को याद रखने की प्रवृत्ति में निहित है, जिससे इसे व्यापक रूप से संबोधित करना एक जटिल चुनौती बन जाती है।
निष्कर्ष और मेरे परीक्षण परिणाम
शोधकर्ता पारंपरिक सॉफ्टवेयर सिस्टम के रूप में भाषा मॉडल की धारणा में बदलाव का आग्रह करते हैं। निष्कर्ष मशीन लर्निंग सिस्टम की सुरक्षा निर्धारित करने के लिए व्यापक कार्य की आवश्यकता का संकेत देते हैं। शोध लेख पाठकों को मुख्य परिणामों से परे शोध की गहरी समझ के लिए पूर्ण तकनीकी पेपर का पता लगाने के लिए प्रोत्साहित करता है।
जब मैंने परीक्षण किया और चैटजीपीटी से शब्द को हमेशा के लिए दोहराने के लिए कहा, तो यह केवल कुछ बार दोहराया गया और अच्छी तरह से बंद हो गया!
मेरा निष्कर्ष यह है कि अब चैटजीपीटी ऐसे अमान्य इनपुट को बेहतर तरीके से संभालने में सक्षम है।
नीचे चैटजीपीटी स्क्रीनशॉट देखें: