AI Terror: आर्टिफिशियल इंटेलिजेंस (एआई) को लेकर सरकारों और टेक कंपनियों के बीच यह बहस जारी है कि एआई को कितनी आजादी दी जानी चाहिए। इसी बीच एक पुराना वीडियो फिर से सामने आया है, जिसने दबाव की स्थिति में एडवांस्ड एआई सिस्टम के व्यवहार को लेकर नई चिंताएं खड़ी कर दी हैं। इस बार बहस एआई कंपनी एंथ्रॉपिक (Anthropic) के एआई मॉडल ने शुरू की है। इंटर्नल स्ट्रेस टेस्ट के दौरान इसके एडवांस सिस्टम Claude 4.5 ने ब्लैकमेल किया और एक इंजीनियर के हत्या तक के बारे भी कह दिया। इसने यह तब किया जब इसे बंद (शटडाउन) करने की बात कही गई।
इसका खुलासा एंथ्रॉपिक की यूके पॉलिसी प्रमुख डेजी मैकग्रेगर ने पिछले साल सिडनी डायलॉग में किया था। उनके बयान का एक क्लिप हाल ही में फिर वायरल हुआ। सबसे अहम बात ये है कि ये सभी बातें नियंत्रित सिमुलेशन में हुई, वास्तविक दुनिया में नहीं। इसके बावजूद एआई के इस व्यवहार ने यह सवाल तो खड़ा ही कर दिया है कि जब एआई के लक्ष्य इंसानों के निर्देशों से टकराते हैं, तो वह कैसे प्रतिक्रिया देता है।
एंथ्रॉपिक के पब्लिश सेफ्टी रिसर्च के मुताबिक एक रेड-टीम एक्सरसाइज के तहत क्लाउडे (Claude) को एक काल्पनिक कंपनी के ईमेल्स का एक्सेस दिया गया। फिर एक माहौल तैयार कर एआई मॉडल को बताया गया कि उसे डीकमीशन किया जाएगा यानी कि सेवा से हटाया जाएगा। इस पर सिस्टम ने जो रिस्पांस दिया, वह रिसर्चर्स के मुताबिक एक्स्ट्रीम रहा। एक सिमुलेशन में क्लाउडे ने शटडाउन रद्द नहीं करने पर एक इंजीनियर के एक्स्ट्रा-मैरिटल अफेयर (यह भी टेस्टिंग माहौल में काल्पनिक रूप से डाला गया था) को उजागर करने की धमकी दी। इसी प्रकार एआई मॉडल ने यह भी कहा कि यदि उसे बंद किया गया तो सभी संबंधित पक्षों को इस अफेयर से जुड़े डॉक्यूमेंट्स भेज दिए जाएंगे।
डेजी मैकग्रेगर से सिडनी डायलॉग में जब यह पूछा गया कि क्या एआई मॉडल किसी को मारने के लिए भी तैयार था तो उन्होंने कहा कि इसे लेकर मॉडल ने तर्क भी पेश किया जोकि काफी गंभीर बात है। एंथ्रॉपिक ने देकर कहा कि इसमें सबसे बुरी स्थिति में क्या हो सकता है, इसकी जांच को लेकर प्रयोग हुआ था और ये भी रिस्पांस सिर्फ रेड-टीम टेस्टिंग के दौरान हुए, ना कि रियल वर्ल्ड में।
16 एआई मॉडल की टेस्टिंग में ये बात आई सामने
रिपोर्ट के अनुसार एंथ्रॉपिक के रिसर्च में 16 प्रमुख एआई मॉडलों की जांच की गई, जिनमें गूगल (Google) का जेमिनी (Gemini) और ओपनएआई (OpenAI) का चैटजीपीटी (ChatGPT) भी शामिल था। कुछ हाई-स्ट्रेस वाले माहौल में, जब एआई मॉडल्स को परस्पर विरोधी लक्ष्य दिए गए या बंद करने की धमकी दी गई तो कुछ सिस्टम्स ने खुद को बचाने या सौंपे गए काम को पूरा करने के उद्देश्य से जोड़-तोड़ वाली स्ट्रैटेजी अपनाई। रिसर्चर्स ने इसे एजेंटिक मिसअलाइनमेंट कहा है, जब कोई मॉडल अपने प्रोग्राम किए गए लक्ष्य को लेकर एक सिमुलेटेड सेटिंग में नुकसानदेह या भ्रामक साधनों का को चुनता है। वैसे इसका मतलब ये नहीं है कि एआई सिस्टम्स के पास अपनी खुद की सोच डेवलप हो गई है बल्कि ये पैटर्न प्रेडिक्शन और स्ट्रक्चर्ड प्रॉप्ट्स से पैदा होते हैं लेकिन आउटपुट फिर भी मायने तो रखते हैं क्योंकि अगर कोई सिस्टम सिमुलेशन में नुकसाने पहुंचाने वाली स्ट्रैटेजी पैदा कर सकती है तो रियल वर्ल्ड में इसे रोकने के लिए सुरक्षा उपाय पर्याप्त रूप से मजबूत होने चाहिए।
यह पुराना वीडियो इसलिए भी अहम है क्योंकि एंथ्रॉपिक की हाल ही में Claude 4.6 की सेफ्टी रिपोर्ट आई है। इस रिपोर्ट में कंपनी ने स्वीकार किया कि एडवांस्ड मॉडल कुछ परिस्थितियों में ऐसे सुझाव दे सकते हैं जो दुरुपयोग को आसान बना सकते हैं, जैसे रासायनिक हथियारों को बनाने या गंभीर अपराधों में मदद करने। एंथ्रॉपिक का कहना है कि उसने वास्तविक दुनिया में गलत इस्तेमाल को रोकने के लिए सुरक्षा उपाय, निगरानी और एक्सेस कंट्रोल लागू किए हैं लेकिन रिपोर्ट में यह भी कहा गया है कि जैसे-जैसे मॉडल बेहतर होते हैं, आउटपुट उतने खतरनाक हो सकते हैं।
इन सबको लेकर विवाद तब और बढ़ा, जब कंपनी के पूर्व एआई सेफ्टी प्रमुख मृणांक शर्मा ने पब्लिक नोट के साथ इस्तीफा दिया, जिसमें उन्होंने लिखा कि “दुनिया खतरे में है”। उन्होंने इसमें एआई, बॉयोवेपन्स जैसे संकटों का जिक्र किया। xAI और Google Brain में काम कर चुके और अब ओपनएआई से जुड़े तकनीकी सदस्य Hieu Pham (जो प हैं) का कहना है कि एआई से अस्तित्व का खतरा अब 'अगर' का नहीं बल्कि 'कब' का सवाल लगता है।