यह मूल अंग्रेजी दस्तावेज़ का मशीन अनुवाद है। इस अनुवाद और मूल अंग्रेजी संस्करण के बीच किसी भी विवाद की स्थिति में, अंग्रेजी संस्करण ही मान्य होगा। मूल अंग्रेजी संस्करण पढ़ें

ChatGPT आपके बारे में कितना डेटा स्टोर करता है? एक तकनीकी ऑडिट

2026-04-02 · Caiioo Team

यदि आप काम पर ChatGPT का उपयोग करते हैं, तो आपके नियोक्ता के पास संभवतः कुछ प्रश्न होंगे। यदि आप स्वयं नियोक्ता हैं, तो आपके पास निश्चित रूप से होने चाहिए।

यह इस बात का तकनीकी ऑडिट है कि OpenAI क्या एकत्र करता है, वे इसे कितने समय तक रखते हैं, और विनियमित उद्योगों में टीमों के लिए इसका क्या अर्थ है। हम यह भी देखेंगे कि Bring Your Own Key (BYOK) आर्किटेक्चर इस समीकरण को पूरी तरह से कैसे बदल देता है।

ChatGPT क्या स्टोर करता है: पूरी तस्वीर

OpenAI के स्वयं के सहायता केंद्र दस्तावेज़ में कहा गया है कि चैट "आपके खाते में तब तक सहेजी जाती हैं जब तक आप उन्हें मैन्युअल रूप से हटा नहीं देते।" जब आप किसी चैट को हटाते हैं, तो उसे "आपके खाते से तुरंत हटा दिया जाता है और 30 दिनों के भीतर OpenAI सिस्टम से स्थायी रूप से हटाने के लिए निर्धारित किया जाता है" -- जब तक कि इसे पहले ही डी-आइडेंटिफाई न कर दिया गया हो, या सुरक्षा या कानूनी दायित्वों के लिए OpenAI को इसे रखना आवश्यक न हो।

लेकिन बातचीत कहानी का केवल एक हिस्सा है। OpenAI की गोपनीयता नीति व्यापक स्वचालित डेटा संग्रह का वर्णन करती है:

लॉग डेटा -- IP पता, ब्राउज़र प्रकार और सेटिंग्स, अनुरोधों की तारीख और समय, और आप सेवाओं के साथ कैसे इंटरैक्ट करते हैं
उपयोग डेटा -- आपके द्वारा देखी जाने वाली या संलग्न सामग्री के प्रकार, आपके द्वारा उपयोग की जाने वाली सुविधाएँ, आपके द्वारा की जाने वाली कार्रवाइयाँ और आपके द्वारा सबमिट की गई प्रतिक्रिया
डिवाइस जानकारी -- डिवाइस का नाम, ऑपरेटिंग सिस्टम, डिवाइस पहचानकर्ता और ब्राउज़र प्रकार
खाता जानकारी -- नाम, संपर्क विवरण, भुगतान जानकारी और लेनदेन इतिहास

यह मेटाडेटा प्रत्येक उपयोगकर्ता के लिए एक विस्तृत व्यवहार प्रोफ़ाइल बनाता है। भले ही आप कभी भी प्रॉम्प्ट में संवेदनशील जानकारी साझा न करें, आपके उपयोग के पैटर्न ही आपके काम के बारे में महत्वपूर्ण जानकारी प्रकट कर देते हैं।

वह अदालती आदेश जिसने सब कुछ बदल दिया

मई 2025 में, New York Times v. OpenAI कॉपीराइट मुकदमे में मजिस्ट्रेट जज ओना टी. वांग के एक संघीय अदालत के आदेश (केस नंबर 1:23-cv-11195, S.D.N.Y.) ने OpenAI को "उन सभी आउटपुट लॉग डेटा को बनाए रखने और अलग करने की आवश्यकता दी जो अन्यथा हटा दिए जाते" -- अनिश्चित काल के लिए। पुनर्विचार के लिए OpenAI के प्रस्ताव को 16 मई, 2025 को खारिज कर दिया गया था।

व्यवहार में इसका क्या अर्थ है: भले ही आपने अपनी चैट हटा दी हों, OpenAI कानूनी रूप से उन्हें संरक्षित करने के लिए बाध्य हो सकता है। उनकी गोपनीयता नीति में वर्णित 30-दिन की विलोपन अवधि को अदालती आदेश द्वारा ओवरराइड कर दिया गया है। जनवरी 2026 में, डिस्ट्रिक्ट जज सिडनी स्टीन ने आदेश को बरकरार रखा, जिसमें OpenAI को खोज साक्ष्य के रूप में 20 मिलियन डी-आइडेंटिफाई उपयोगकर्ता लॉग -- प्रॉम्प्ट और आउटपुट -- का नमूना पेश करने की आवश्यकता थी।

आपकी बातचीत भविष्य के मॉडल को प्रशिक्षित कर सकती है

डिफ़ॉल्ट रूप से, उपभोक्ता योजनाओं पर बातचीत का उपयोग मॉडल प्रशिक्षण के लिए किया जाता है। OpenAI के स्वयं के सहायता केंद्र दस्तावेज़ में कहा गया है: "जब आप व्यक्तियों के लिए हमारी सेवाओं जैसे ChatGPT, Codex और Sora का उपयोग करते हैं, तो हम आपके कंटेंट का उपयोग अपने मॉडल को प्रशिक्षित करने के लिए कर सकते हैं।" आप गोपनीयता पोर्टल के माध्यम से या Settings > Data Controls के माध्यम से ऑप्ट-आउट कर सकते हैं -- लेकिन जैसा कि OpenAI नोट करता है, "एक बार जब आप ऑप्ट-आउट कर लेते हैं, तो नई बातचीत का उपयोग हमारे मॉडल को प्रशिक्षित करने के लिए नहीं किया जाएगा।" पहले से सबमिट किया गया कोई भी डेटा प्रशिक्षण पाइपलाइन में बना रहता है।

ऑप्ट-आउट करने से यह भी नहीं बदलता कि आपका डेटा कितने समय तक संग्रहीत किया जाता है। यह केवल यह बदलता है कि क्या इसका उपयोग मॉडल को बेहतर बनाने के लिए किया जाता है।

Enterprise बनाम व्यक्तिगत: एक द्वि-स्तरीय प्रणाली

OpenAI एक स्पष्ट द्वि-स्तरीय गोपनीयता मॉडल संचालित करता है:

	व्यक्तिगत (Free/Plus/Pro)	Enterprise/Edu
डेटा प्रतिधारण	अनिश्चितकालीन (अदालती आदेश)	एडमिन-नियंत्रित
प्रशिक्षण उपयोग	डिफ़ॉल्ट हाँ (ऑप्ट-आउट उपलब्ध)	कोई डिफ़ॉल्ट प्रशिक्षण नहीं
अदालती आदेश से मुक्त?	नहीं	हाँ
एडमिन नियंत्रण	कोई नहीं	पूर्ण प्रतिधारण नीतियां
विलोपन समयरेखा	30 दिन (जब अनुमति हो)	30 दिन, एडमिन-कॉन्फ़िगर करने योग्य

व्यक्तिगत उपयोगकर्ताओं के लिए, यह गारंटी देने का कोई तरीका नहीं है कि आपका डेटा वास्तव में हटा दिया गया है। Enterprise ग्राहकों के लिए, वर्कस्पेस एडमिनिस्ट्रेटर प्रतिधारण को नियंत्रित करते हैं, और डेटा का उपयोग डिफ़ॉल्ट रूप से प्रशिक्षण के लिए नहीं किया जाता है।

छोटी और मध्यम आकार की टीमों के लिए समस्या: Enterprise प्लान महत्वपूर्ण न्यूनतम सीमाओं से शुरू होते हैं। 10-व्यक्ति वाली कंसल्टिंग फर्म Enterprise-स्तर के गोपनीयता नियंत्रणों तक नहीं पहुंच सकती है।

GDPR अनुपालन: एक खुला प्रश्न

ChatGPT की अनिश्चितकालीन डेटा रखने की प्रथाएं GDPR अनुपालन पर गंभीर सवाल उठाती हैं, विशेष रूप से डेटा न्यूनीकरण और भंडारण सीमा सिद्धांतों के आसपास। मार्च 2023 में, इटली के डेटा सुरक्षा प्राधिकरण (Garante per la Protezione dei Dati Personali) ने GDPR के अनुच्छेद 5, 6, 8, 13 और 25 के उल्लंघन का हवाला देते हुए ChatGPT पर अस्थायी रूप से प्रतिबंध लगाने का एक आपातकालीन आदेश जारी किया -- जिसमें डेटा संग्रह के लिए कानूनी आधार की अनुपस्थिति, उपयोगकर्ताओं को कोई गोपनीयता नोटिस नहीं, और कोई आयु सत्यापन नहीं शामिल था। OpenAI द्वारा बदलाव लागू करने के बाद अप्रैल 2023 में प्रतिबंध हटा लिया गया था, लेकिन व्यापक नियामक स्थिति अभी भी अस्थिर है।

विनियमित उद्योगों -- कानूनी, स्वास्थ्य सेवा, वित्तीय सेवाओं -- में क्लाइंट डेटा संभालने वाली टीमों के लिए, ChatGPT का उपयोग करने का अर्थ OpenAI को डेटा प्रोसेसर के रूप में स्वीकार करना है। यह GDPR अनुच्छेद 28 के दायित्वों को सक्रिय करता है: आपको एक डेटा प्रोसेसिंग एग्रीमेंट (DPA) की आवश्यकता है, आपको प्रोसेसिंग गतिविधियों का दस्तावेजीकरण करने की आवश्यकता है, और आपको यह सुनिश्चित करने की आवश्यकता है कि प्रोसेसर आपकी सुरक्षा आवश्यकताओं को पूरा करता है।

छिपी हुई लागत: अनुपालन ओवरहेड

जब आपकी टीम ChatGPT का उपयोग करती है, तो OpenAI आपकी अनुपालन श्रृंखला में एक डेटा प्रोसेसर बन जाता है। इसका अर्थ है:

एक डेटा प्रोसेसिंग एग्रीमेंट (DPA) आवश्यक है -- यह परिभाषित करना कि OpenAI आपकी ओर से व्यक्तिगत डेटा को कैसे संभालता है, सुरक्षा उपायों, उप-प्रसंस्करण सीमाओं और उल्लंघन अधिसूचना कर्तव्यों को निर्दिष्ट करना।
GDPR अनुच्छेद 28 दायित्व सक्रिय होते हैं -- प्रोसेसर को केवल आपके निर्देशों के अनुसार डेटा संसाधित करना चाहिए, गोपनीयता सुनिश्चित करनी चाहिए, सुरक्षा उपाय लागू करने चाहिए, उल्लंघनों को सूचित करना चाहिए और ऑडिट की अनुमति देनी चाहिए।
आपकी सुरक्षा समीक्षा में OpenAI शामिल होना चाहिए -- प्रत्येक विक्रेता जोखिम मूल्यांकन, प्रत्येक SOC 2 ऑडिट प्रश्न, प्रत्येक क्लाइंट सुरक्षा प्रश्नावली में अब एक अतिरिक्त निर्भरता है।

20-व्यक्ति वाली कानूनी फर्म या स्वास्थ्य सेवा अभ्यास के लिए, यह अनुपालन ओवरहेड स्वयं सब्सक्रिप्शन से अधिक महंगा हो सकता है।

BYOK आर्किटेक्चर क्या बदलता है

Bring Your Own Key (BYOK) एक आर्किटेक्चरल पैटर्न है जहाँ AI टूल आपके डेटा को कभी नहीं छूता है। इसके बजाय:

आप AI प्रदाता (OpenAI, Anthropic, Google, आदि) से अपनी स्वयं की API कुंजी प्रदान करते हैं
क्वेरी सीधे आपके डिवाइस से प्रदाता तक जाती हैं -- टूल कभी भी मध्यस्थ नहीं होता है
टूल कुछ भी स्टोर नहीं करता है -- कोई बातचीत नहीं, कोई मेटाडेटा नहीं, कोई व्यवहार संबंधी प्रोफ़ाइल नहीं
टूल विक्रेता के साथ किसी DPA की आवश्यकता नहीं है -- क्योंकि यह डेटा प्रोसेसर नहीं है

डेटा प्रवाह का अंतर मौलिक है:

	ChatGPT (क्लाउड-होस्टेड)	BYOK आर्किटेक्चर
डेटा पथ	आप > OpenAI सर्वर > मॉडल > OpenAI > आप	आप > सीधे प्रदाता API > आप
मध्यस्थ	OpenAI सभी क्वेरी संभालता है	कोई नहीं -- सीधी API कॉल
डेटा दृश्यता	प्लेटफॉर्म लॉग करता है और सभी क्वेरी देखता है	प्रदाता केवल API कॉल देखता है
भंडारण	OpenAI के सर्वर पर, अनिश्चित काल के लिए	केवल स्थानीय डिवाइस पर
प्रोसेसर के रूप में टूल विक्रेता?	हाँ	नहीं

BYOK के साथ, आपका अनुपालन संबंध केवल आपके द्वारा चुने गए AI प्रदाता के साथ होता है, उन शर्तों पर जिन्हें आप सीधे बातचीत करके तय करते हैं। टूल स्वयं आपकी अनुपालन श्रृंखला के लिए अदृश्य है।

आपकी टीम के लिए इसका क्या अर्थ है

2,600 गोपनीयता और सुरक्षा पेशेवरों के 2026 के सर्वेक्षण में पाया गया कि 64% लोग जनरेटिव AI टूल के माध्यम से अनजाने में संवेदनशील डेटा साझा करने के बारे में चिंतित हैं -- फिर भी लगभग आधे लोग व्यक्तिगत या गैर-सार्वजनिक डेटा इनपुट करने की बात स्वीकार करते हैं। चिंता और व्यवहार के बीच का यह अंतर ही जोखिम का स्थान है।

यदि आप अपने संगठन में AI गवर्नेंस के लिए जिम्मेदार हैं, तो पूछने के लिए यहां कुछ प्रश्न दिए गए हैं:

क्या आपका AI टूल एक डेटा प्रोसेसर है? यदि हाँ, तो आपको एक DPA, अनुपालन दस्तावेज़ीकरण और निरंतर विक्रेता जोखिम मूल्यांकन की आवश्यकता है।
बातचीत का डेटा कहाँ रहता है? क्लाउड-होस्टेड का अर्थ है विक्रेता के सर्वर। स्थानीय-प्रथम भंडारण के साथ BYOK का अर्थ है आपके डिवाइस।
क्या आप विलोपन की गारंटी दे सकते हैं? ChatGPT के अदालती आदेश वाले प्रतिधारण के साथ, उपभोक्ता प्लान के लिए उत्तर वर्तमान में नहीं है।
क्या आपकी टीम के पास सुसंगत टूलिंग है? 20 लोगों के अलग-अलग सब्सक्रिप्शन का अर्थ है 20 अलग-अलग अनुपालन संबंध।
कुल लागत क्या है? इसमें न केवल सब्सक्रिप्शन शुल्क, बल्कि अनुपालन ओवरहेड, DPA बातचीत और विक्रेता जोखिम मूल्यांकन का समय भी शामिल करें।

निष्कर्ष

ChatGPT एक शक्तिशाली उपकरण है। यह एक डेटा प्रोसेसर भी है जो आपकी बातचीत को अनिश्चित काल तक सुरक्षित रखता है, डिफ़ॉल्ट रूप से प्रशिक्षण के लिए उनका उपयोग करता है, और एक अदालती आदेश के तहत काम करता है जो इसकी अपनी विलोपन नीतियों (deletion policies) पर भारी पड़ता है।

व्यक्तियों के लिए, ये समझौते स्वीकार्य हो सकते हैं। क्लाइंट की गोपनीय जानकारी, रोगी डेटा, वित्तीय रिकॉर्ड या प्रतिस्पर्धी इंटेलिजेंस को संभालने वाली टीमों के लिए, ये वास्तविक जोखिम का प्रतिनिधित्व करते हैं।

BYOK आर्किटेक्चर टूल वेंडर को अनुपालन (compliance) समीकरण से पूरी तरह हटा देता है। आपका डेटा कभी भी किसी मध्यस्थ को नहीं छूता है। किसी DPA की आवश्यकता नहीं है। टूल वेंडर के साथ कोई GDPR अनुच्छेद 28 दायित्व नहीं है। तीसरे पक्ष के सर्वर पर आपकी टीम की बातचीत का कोई अनिश्चितकालीन प्रतिधारण (retention) नहीं है।

विकल्प AI और बिना AI के बीच नहीं है। यह गवर्नेंस के साथ AI और उसके बिना AI के बीच है।

Caiioo लोकल-फर्स्ट स्टोरेज के साथ BYOK आर्किटेक्चर का उपयोग करता है। आपकी बातचीत कभी भी हमारे सर्वर को नहीं छूती है। हमारी गोपनीयता आर्किटेक्चर के बारे में और जानें या मुफ्त में शुरू करें।