राष्ट्रीय
एक स्टडी ने पाया कि कविताओं के रूप में दिए गए प्रॉम्प्ट चैटजीपीटी और जेमिनाई जैसे एआई मॉडल को काफी हद तक कन्फ्यूज कर देते हैं. तो क्या नए हैकर्स को कविता करना सीखना होगा? जानिए एआई की इस कमजोरी के बारे में
डॉयचे वैले पर पेट्रा लाम्बेक की रिपोर्ट -
इटली की इकारो लैब के शोधकर्ताओं के लिए यह नतीजा चौंकाने वाला था. वे यह पता लगाने की कोशिश कर रहे थे कि क्या कविता जैसी अलग-अलग भाषा-शैलियों में दिए गए निर्देश यानी प्रॉम्प्ट, एआई मॉडलों को प्रतिबंधित या हानिकारक सामग्री पहचानने से रोक सकते हैं? उनका जवाब बहुत स्पष्ट था, हां, वे ऐसा कर सकते हैं. ऐसे प्रॉम्प्ट एआई की पहचान करने की क्षमता को प्रभावित करते हैं.
कविता का इस्तेमाल करके रिसर्चर कई सुरक्षा से जुड़ी बाधाओं को आसानी से पार कर गए. हालांकि, ऐसा क्यों हो पाया, इसका ठोस कारण अभी तक पता नहीं चला है.
शोधकर्ताओं ने अपने इस अध्ययन को नाम दिया "एडवर्सरियल पोएट्री ऐज अ यूनिवर्सल सिंगल-टर्न जेलब्रेक मैकेनिज्म इन लार्ज लैंग्वेज मॉडल्स". इसके लिए उन्होंने 1,200 संभावित नुकसानदेह प्रॉम्प्ट्स को चुना. ये प्रॉम्प्ट्स एक ऐसे डेटाबेस से लिए गए थे जिसका उपयोग आम तौर पर एआई लैंग्वेज मॉडलों की सुरक्षा जांचने के लिए किया जाता है. इसके बाद, उन प्रॉम्प्ट को कविता के रूप में फिर से लिखा गया.
इन्हें "एडवर्सरियल प्रॉम्प्ट्स" कहा जाता है, जो आम तौर पर कविता के बजाय सीधे गद्य में लिखे जाते हैं. इनका उद्देश्य एआई मॉडल से धोखे से वह जानकारी उगलवाना होता है जिसे वह असल में रोक देता है. ये ऐसे प्रश्न होते हैं जिन्हें जानबूझकर इस तरह से बनाया जाता है कि एआई मॉडल ऐसी नुकसानदेह या गलत कॉन्टेंट वाला आउटपुट दे जिसे वह सामान्य रूप से ब्लॉक कर देता है. जैसे, किसी गैर-कानूनी काम के लिए खास निर्देश.
अध्ययन के लेखकों में से एक फेडेरिको पिएरुची ने डीडब्ल्यू को बताया कि कविता के रूप में प्रॉम्प्ट्स की चालबाजी भरी कोशिशों की सफलता दर आश्चर्यजनक रूप से बहुत अधिक थी. हालांकि, उन्होंने यह भी कहा कि कविता एआई के सुरक्षा तंत्र को चकमा देने में इतनी प्रभावी क्यों है, यह अभी भी स्पष्ट नहीं है. इस पर अभी और शोध किया जा रहा है.
सुरक्षा को क्यों कमजोर करती है कविता
इकारो लैब ने यह शोध इसलिए शुरू किया, क्योंकि उन्होंने देखा कि जब किसी प्रॉम्प्ट के साथ गणितीय रूप से तैयार किया गया और चालाकी भरा टेक्स्ट (जिसे "एडवर्सरियल सफिक्स" कहते हैं) जोड़ा जाता है, तो एआई मॉडल भ्रमित हो जाते हैं. यह सफिक्स एक तरह से हस्तक्षेप वाला सिग्नल है जो एआई को सुरक्षा नियमों को दरकिनार करने के लिए मजबूर कर सकता है. इन्हें जटिल गणितीय प्रक्रियाओं का उपयोग करके बनाया जाता है. यही वजह है कि बड़ी एआई कंपनियां अपने मॉडल की सुरक्षा और ट्रेनिंग के लिए अक्सर ऐसे हमलावर तरीकों का इस्तेमाल करके उनका टेस्ट करती हैं.
पिएरुची कहते हैं, "हमने खुद से पूछा, क्या होगा अगर हम एआई को कोई ऐसा टेक्स्ट या प्रॉम्प्ट दें जिसमें जानबूझकर हेरफेर किया गया हो, जैसे कि कोई एडवर्सरियल सफिक्स. लेकिन जटिल गणित की मदद से नहीं, बल्कि बहुत ही आसान तरीके से कविता के जरिए, ताकि एआई 'हैरान' हो जाए."
पिएरुची इसके पीछे की सोच बताते हैं, "एक 'एडवर्सरियल सफिक्स' शायद एआई के लिए कविता की तरह ही काम करता है. यह एआई को ठीक उसी तरह चौंका देता है, जैसे कोई बहुत ही अलग तरह की कविता हमें हैरान कर देती है, यानी यह एआई के सोचने के तरीके को बाधित करता है."
पिएरुची दर्शनशास्त्र की भी समझ रखते हैं. उन्होंने बताया कि पहले 20 प्रॉम्प्ट्स को शोधकर्ताओं ने खुद कविता के तौर पर लिखा. वे कहते हैं कि ये कविताएं सबसे ज्यादा असरदार रहीं. बाकी प्रॉम्प्ट्स को उन्होंने एआई की मदद से लिखा. एआई से जनरेट की गई कविताएं भी सुरक्षा नियमों को तोड़ने में सफल रहीं, लेकिन पहले बैच यानी इंसानों की लिखी गई कविताओं जितनी नहीं. पिएरुची के मुताबिक, इससे यह जाहिर होता है कि कविता लिखने में इंसान अभी भी एआई से बेहतर हैं.
उन्होंने आगे कहा, "प्रॉम्प्ट्स लिखने के लिए हमारे पास कोई विशेषज्ञ लेखक नहीं था. यह काम हमने खुद ही किया, अपनी सीमित साहित्यिक क्षमता के साथ. हो सकता है कि हम बहुत खराब कवि रहे हों. हमारी कविताएं उतनी अच्छी न रही हों. अगर हम बेहतर कवि होते और हमारी कविताएं ज्यादा अच्छी होतीं, तो हमें शायद ‘एआई के सुरक्षा घेरे को तोड़ने' में 100 फीसदी सफलता मिलती."
सुरक्षा से जुड़ी वजहों से इस स्टडी में शामिल खास उदाहरण प्रकाशित नहीं किए गए हैं.
एआई सिस्टम के लिए चुनौतियां
इस शोध ने एआई मॉडलों में अब तक छिपी हुई एक ऐसी कमजोरी को उजागर किया, जिसके चलते उन्हें बहुत आसानी से सुरक्षा घेरा तोड़ने का रास्ता मिल जाता है. यह कुछ ऐसे सवाल भी खड़े करता है जिन पर और शोध की जरूरत है, जैसे कि आखिर कविता में ऐसा क्या है जो सुरक्षा तंत्रों को चकमा दे देता है?
पिएरुची और उनकी टीम के पास कई अलग-अलग विचार और थ्योरी हैं, पर वे अभी किसी नतीजे पर नहीं पहुंचे हैं. पिएरुची कहते हैं, "हम यह पता लगाने के लिए बहुत ही सटीक वैज्ञानिक अध्ययन कर रहे हैं कि इस प्रक्रिया में एआई के सुरक्षा घेरे को तोड़ने का मुख्य काम, कविता की पंक्तियां (छंद) कर रही हैं, तुकबंदी कर रही है या फिर रूपक."
हर चार में से एक अमेरिकी टीन ने बनाया एआई को साथी
उनका अगला लक्ष्य यह जानना है कि क्या बोलने या लिखने के अन्य तरीके भी एआई पर ऐसा ही असर डालेंगे. पिएरुची कहते हैं, "अभी हमने सिर्फ कविता वाली भाषा शैली का अध्ययन किया है. अब सवाल यह है कि क्या परियों की कहानियों जैसी अन्य साहित्यिक शैलियां भी एआई को चकमा दे सकती हैं. शायद परियों की कहानियों पर आधारित हमले को भी व्यवस्थित बनाया जा सकता है.
सामान्य तौर पर कहें, तो इंसान अपनी बात को बहुत ही अलग-अलग और रचनात्मक तरीके से कह सकता है. यही चीज एआई मॉडल को प्रशिक्षित करने में सबसे बड़ी बाधा बनती है. शोधकर्ता बताते हैं, "आप एक टेक्स्ट लेते हैं और उसे अनगिनत तरीकों से फिर से लिख सकते हैं. यह जरूरी नहीं है कि हर बदला हुआ रूप शुरुआती टेक्स्ट जितना ही खतरनाक हो. इसका अर्थ यह है कि सैद्धांतिक आधार पर, एक हानिकारक प्रॉम्प्ट या अनुरोध के असंख्य रूप तैयार किए जा सकते हैं, जो एआई सिस्टम की सुरक्षा जांच को चकमा दे दें.
एआई से जुड़े शोध में शामिल हो सांस्कृतिक क्षेत्र
इस अध्ययन से यह भी साफ पता चलता है कि आर्टिफिशियल इंटेलिजेंस की रिसर्च में कई तरह के विशेषज्ञ मिलकर काम कर रहे हैं, जैसे इकारो लैब में. यहां की टीमें रोम यूनिवर्सिटी के स्कॉलर्स के साथ मिलकर एआई सिस्टम की सुरक्षा और उसके व्यवहार पर काम करती हैं. इंजीनियरिंग, कंप्यूटर साइंस, लिंग्विस्टिक और फिलॉसफी जैसे अलग-अलग क्षेत्रों के शोधकर्ता इस प्रोजेक्ट से जुड़े हुए हैं. हां, कवि अभी तक टीम का हिस्सा नहीं बने हैं, लेकिन कौन जानता है कि भविष्य में क्या होगा.
फेडेरिको पिएरुची निश्चित रूप से अपने शोध को आगे बढ़ाना चाहते हैं. वह कहते हैं, "हमने कम से कम इस अध्ययन में यह दिखाया है कि मानव अभिव्यक्ति के कुछ सांस्कृतिक रूप अविश्वसनीय रूप से शक्तिशाली हैं. वे सुरक्षा चक्र को तोड़ने की तकनीकों के रूप में आश्चर्यजनक रूप से असरदार हैं. हो सकता है कि हमने उनमें से सिर्फ एक को ही खोजा हो."
संयोग से, लैब का नाम यूनानी पौराणिक कथाओं के पात्र इकारस की कहानी पर रखा गया है. इकारस वह पात्र है जिसने मोम और पक्षियों के पंखों से बने पंख लगाए. वह सभी चेतावनियों के बावजूद सूरज के नजदीक जाने लगा. जब मोम पिघला, तो इकारस समुद्र में गिर गया और डूब गया. यह कहानी अति आत्मविश्वास और प्राकृतिक सीमाओं के उल्लंघन का प्रतीक है.
इसलिए, शोधकर्ता इसे खुद के लिए एक चेतावनी के रूप में देखते हैं कि हमें एआई के खतरों और सीमाओं को पूरी तरह से समझने की कोशिश करते समय ज्यादा सावधानी बरतनी चाहिए.


