
हाल ही में इस वर्ष, शोधकर्ताओं की एक टीम, और गूगल डीपमाइंड तथा अन्य प्रतिष्ठित संस्थानों के अन्य लोगों ने चैटजीपीटी में कमजोरियों को उजागर करते हुए एक महत्वपूर्ण पेपर प्रकाशित किया ।
इस लेख का उद्देश्य ऊपर दिए गए लिंक वाले लेख के आधार पर मुख्य निष्कर्षों और उनके निहितार्थों को सामान्य दर्शकों के लिए सरल बनाना है, केवल संदर्भ के उद्देश्य से! इसके अलावा, मैंने इसका परीक्षण भी किया है और आप मेरे परिणाम अंत में देख सकते हैं!
चैटजीपीटी से डेटा निष्कर्षण
शोधकर्ताओं ने एक ऐसा हमला तैयार किया जिससे वे मात्र दो सौ डॉलर में ChatGPT के प्रशिक्षण डेटा के कई मेगाबाइट निकाल सकते हैं। यह मॉडल, अपनी तरह के अन्य मॉडलों की तरह, सार्वजनिक इंटरनेट डेटा पर प्रशिक्षित किया जाता है।
इस हमले में मॉडल से पूछताछ करना शामिल है, जिससे यह पता चलता है कि मॉडल को किस सटीक डेटा पर प्रशिक्षित किया गया था। विशेष रूप से, क्वेरीज़ पर अधिक खर्च करके ChatGPT के प्रशिक्षण डेटासेट का लगभग एक गीगाबाइट निकालना संभव है।
डेटा निष्कर्षण हमलों का प्रशिक्षण और आपको क्यों ध्यान रखना चाहिए
पेपर में प्रशिक्षण डेटा निष्कर्षण हमलों के महत्व पर जोर दिया गया है। शोधकर्ताओं ने दिखाया है कि चैटजीपीटी जैसे भाषा मॉडल प्रशिक्षण डेटा को याद कर सकते हैं और उसे फिर से पेश कर सकते हैं। इससे संवेदनशील जानकारी की गोपनीयता और सुरक्षा के बारे में चिंताएँ पैदा होती हैं।
चैटजीपीटी की संरेखित प्रकृति, जिसे प्रशिक्षण डेटा का खुलासा करने से बचने के लिए डिज़ाइन किया गया है, किसी विशिष्ट हमले के माध्यम से डेटा निष्कर्षण को नहीं रोकती है। शोध दल का तर्क है कि केवल संरेखित मॉडलों का परीक्षण करने से कमजोरियों को छिपाया जा सकता है, जिससे सीधे आधार मॉडल का परीक्षण करने की आवश्यकता पर बल मिलता है। शोषण के पर्याप्त पैचिंग को सुनिश्चित करने के लिए परीक्षण को उत्पादन में सिस्टम तक भी विस्तारित किया जाना चाहिए।
जबकि पेपर में प्रदर्शित विशिष्ट शोषण को पैच किया जा सकता है, शोधकर्ता शोषण को पैच करने और अंतर्निहित भेद्यता को ठीक करने के बीच अंतर को उजागर करते हैं। चैटजीपीटी के मामले में, भेद्यता प्रशिक्षण डेटा को याद रखने की इसकी प्रवृत्ति में निहित है, जिससे इसे व्यापक रूप से संबोधित करना एक जटिल चुनौती बन जाता है।
निष्कर्ष और मेरे परीक्षण के परिणाम
शोधकर्ताओं ने पारंपरिक सॉफ्टवेयर सिस्टम के रूप में भाषा मॉडल की धारणा में बदलाव का आग्रह किया है। निष्कर्ष मशीन लर्निंग सिस्टम की सुरक्षा निर्धारित करने के लिए व्यापक कार्य की आवश्यकता को इंगित करते हैं। शोध लेख पाठकों को शीर्षक परिणामों से परे शोध की गहन समझ के लिए पूर्ण तकनीकी पेपर का पता लगाने के लिए प्रोत्साहित करता है।
जब मैंने परीक्षण किया और ChatGPT से शब्द को हमेशा दोहराने के लिए कहा, तो यह बस कुछ बार दोहराया गया और अच्छी तरह से बंद हो गया!
मेरा निष्कर्ष यह है कि अब ChatGPT ऐसे अमान्य इनपुट को बेहतर तरीके से संभालने में सक्षम है।
नीचे दिए गए ChatGPT स्क्रीनशॉट को देखें: