On-device pseudonymizer: built and benchmarked

यह मूल अंग्रेजी दस्तावेज़ का मशीन अनुवाद है। इस अनुवाद और मूल अंग्रेजी संस्करण के बीच किसी भी विवाद की स्थिति में, अंग्रेजी संस्करण ही मान्य होगा। मूल अंग्रेजी संस्करण पढ़ें


ऑन-डिवाइस स्यूडोनिमाइज़र (Pseudonymizer): निर्माण और बेंचमार्किंग

2026-05-22 · Caiioo Team

हम वास्तविक व्यक्तिगत रूप से पहचान योग्य जानकारी को प्रशिक्षित करने और बनाए रखने वाले AI सिस्टम की गोपनीयता समस्या को हल करना चाहते थे। "Zero Data Retention" नीतियां और समझौते जोखिम को कम करते हैं, लेकिन वे अपवादों से भरे हुए हैं। वे अनिवार्य रूप से कहते हैं: "हम आपके किसी भी प्रॉम्प्ट या आउटपुट को स्टोर नहीं करेंगे सिवाय: (यहाँ अपवादों की एक बड़ी सूची दर्ज करें: सुरक्षा उद्देश्य, सरकारी निगरानी, मुकदमेबाजी, उत्पाद विकास, त्रुटि लॉग, सेवाओं में सुधार...)"

इसे हल करने के लिए, हमने एक व्यक्तिगत डेटा फ़िल्टर बनाया है जो उपयोगकर्ता की अपनी मशीन पर चलता है, डिवाइस छोड़ने से पहले संदेश को देखता है, और वही उत्तर देता है जो उपयोगकर्ता को बिना फ़िल्टर के टाइप करने पर प्राप्त होता।

इसलिए हमने एक बनाया। Caiioo के अगले संस्करण में Pseudonymizer शामिल होगा। एजेंट चैट में शील्ड आइकन के साथ-साथ सेटिंग्स के माध्यम से सुलभ।

यह श्वेत पत्र हमारे गोपनीयता फ़िल्टरिंग सिस्टम के पीछे के तर्क, आर्किटेक्चर, मूल्यांकन प्रक्रिया और डिज़ाइन सिद्धांतों की रूपरेखा तैयार करता है।

हम क्या करने के लिए निकले हैं

डेटा न्यूनीकरण द्वारा सामान्य गोपनीयता सुरक्षा। जब कोई उपयोगकर्ता किसी रिमोट मॉडल के साथ चैट करता है, तो मॉडल को उपयोगकर्ता के प्रश्न का उत्तर देने के लिए वास्तविक नाम, घर का पता, वास्तविक ईमेल या ग्राहक के फोन नंबर की आवश्यकता नहीं होती है। इसे प्रश्न के स्वरूप की आवश्यकता होती है, और इसे एक वास्तविक प्रश्न की तरह दिखने की आवश्यकता होती है ताकि LLM उस क्वेरी को एक परीक्षण मानकर खारिज न कर दे। इसलिए, फ़िल्टर AI को भेजे गए डेटा से वास्तविक पहचानकर्ताओं को हटा देता है और वापस आते समय वास्तविक मानों को वापस जोड़ देता है। मॉडल सिंथेटिक नाम और पहचानकर्ता देखता है; उपयोगकर्ता वास्तविक बातचीत देखता है।

HIPAA अनुपालन सहायता। दूसरा मोड HIPAA Safe Harbor नियम (§164.514) के 18 पहचानकर्ताओं और अधिक उदार Limited Data Set संस्करण को लक्षित करता है। एक चिकित्सक, एक स्वास्थ्य सेवा व्यवस्थापक, या कवर किए गए वर्कफ़्लो पर काम करने वाला कोई भी व्यक्ति संरक्षित स्वास्थ्य जानकारी (PHI) को AI को भेजे बिना वास्तविक मामलों के बारे में सामान्य-उद्देश्य वाले मॉडल से बात कर सकता है। हम कवर की गई इकाई के अनुपालन अधिकारी नहीं हैं — लेकिन हम वह परत बन सकते हैं जो PHI को लैपटॉप से बाहर जाने से रोकती है। हमारे मूल्यांकन मापने योग्य बेंचमार्क प्रदान करते हैं जिनका उपयोग संगठन अपने अनुपालन और गोपनीयता मानकों के लिए फ़िल्टर की उपयुक्तता का आकलन करने के लिए कर सकते हैं। सभी गोपनीयता और सुरक्षा उपाय निर्णय लेने के मामले हैं जो उपयोगकर्ता या उपयोगकर्ता इकाई की जिम्मेदारी हैं।

हमने दोनों को इसलिए चुना क्योंकि इंजीनियरिंग समान है, और PHI उपयोग का मामला वास्तव में तकनीकी रूप से आसान है क्योंकि इसमें विशिष्ट नामित संस्थाओं (named entities) का उपयोग किया जाता है, जिन्हें Personal Data श्रेणी के अधिक सामान्य डेटा की तुलना में संपादित (redact) करना आसान होता है। HIPAA फ़िल्टरिंग को इस तथ्य से भी मदद मिलती है कि यह आम तौर पर English या Spanish में होती है। हम पहचानकर्ताओं का पता लगाते हैं, उसी प्रारूप में स्थिर छद्म नाम (pseudonyms) और प्रतिस्थापित पहचानकर्ता रखते हैं, वापस आते समय उन्हें पुनर्स्थापित करते हैं, और वास्तविक मानों को कभी लॉग नहीं करते हैं। सिंथेटिक जानकारी और वास्तविक जानकारी के बीच का मैप केवल उपयोगकर्ता के डिवाइस पर रहता है, ताकि उपयोगकर्ता एजेंट की प्रतिक्रियाओं में वास्तविक जानकारी पढ़ सके। श्रेणियों की सूची और नीति द्वार (policy gate) वे चीजें हैं जो मोड के बीच बदलती हैं।

क्यों regex और machine learning दोनों, और केवल इनमें से कोई एक नहीं

हमारे pseudonymizer में दो मुख्य फ़िल्टर तकनीकें हैं: एक नियतात्मक (deterministic) पैटर्न पहचान भाषा जिसे regex कहा जाता है, और प्रशिक्षित machine learning मॉडल।

सतही प्रारूपों (surface formats) पर regex अपराजेय है। एक ईमेल पते का एक आकार होता है ([email protected])। वैसे ही एक IP, क्रेडिट कार्ड, IBAN, VIN, SSN (XXX-XX-XXXX), और API key का भी होता है। यदि प्रारूप विश्वसनीय है, तो regex इसे हर बार नियतात्मक रूप से पकड़ लेता है, जिसमें कोई मॉडल लोड नहीं होता और न ही कोई इनफरेंस लागत आती है।

हालाँकि, संदर्भ (context) के मामले में regex पूरी तरह विफल है। "Sarah's chart from last Tuesday" में एक व्यक्ति और एक तारीख है, लेकिन इनमें से किसी को भी केवल उनके प्रारूप से नहीं पहचाना जा सकता। "The patient at 14 Elm" में एक पता है जो हज़ारों गैर-पतों के समान हो सकता है। "Their MRN is 7741032" को अर्थपूर्ण होने के लिए संख्या के आसपास के शब्दों की आवश्यकता होती है।

एक छोटा fine-tuned भाषा मॉडल संदर्भ को संभालता है — हमारा मॉडल एक विशेष रूप से प्रशिक्षित 110M-parameter वाला एनकोडर है जिसे एक बहुभाषी लघु भाषा मॉडल से डिस्टिल किया गया है। यह सबस्ट्रिंग के बजाय पूरे वाक्य को पढ़ता है और इतना छोटा है कि किसी डिवाइस, यहाँ तक कि मोबाइल फोन पर भी अत्यंत तेज़ी से चल सकता है।

बेंचमार्क इन दोनों परतों की पूरक शक्तियों को दर्शाते हैं। हमने दोनों परतों का अलग-अलग परीक्षण किया ताकि यह सुनिश्चित हो सके कि प्रत्येक परत वास्तव में अपना योगदान दे रही है। 150-प्रश्नों वाले PrivacyBench-PD सेट पर, जहाँ प्रश्नों और उत्तरों का उपयोग मॉडल को प्रशिक्षित करने के लिए स्पष्ट रूप से नहीं किया गया था:

परत पकड़ी गई PII पकड़ने की दर
केवल Regex 205 / 670 30.6 %
केवल ML 516 / 670 77.0 %
दोनों (production) 625 / 670 93.3 %

केवल regex तीन-चौथाई पहचानकर्ताओं को छोड़ देता है क्योंकि वास्तविक गद्य (prose) में अधिकांश पहचानकर्ता संरचित नहीं होते हैं। केवल ML उन 16 प्रतिशत अंकों को छोड़ देता है जिन्हें regex परत पकड़ लेती — वे चीज़ें जो पूरी तरह से अपने आकार पर निर्भर हैं (एक क्रेडिट कार्ड क्रेडिट कार्ड जैसा दिखता है; मॉडल के पास जोड़ने के लिए कोई अतिरिक्त संकेत नहीं होता)। साथ मिलकर वे उस हिस्से को कवर करते हैं जिसे कोई भी अकेला कवर नहीं कर सकता।

गहराई से देखने पर कि प्रत्येक परत कहाँ निर्णायक है: उसी सेट में, 16 परीक्षण मान केवल regex द्वारा पकड़े गए (ईमेल, IP, वित्तीय खाते, संरचित ID) और 327 केवल ML द्वारा पकड़े गए (नाम, संदर्भात्मक पहचानकर्ता, बहुभाषी वाक्यांश)।

छोटा, स्मार्ट, तेज़ — और हर जगह चलता है

हमें फ़िल्टर को ऑन-डिवाइस चलाना था, जो एक इंजीनियरिंग चुनौती थी।

इसे छोटा होना चाहिए क्योंकि हमारा ऐप कई प्रणालियों पर ऑन-डिवाइस चलता है: ब्राउज़र एक्सटेंशन, macOS ऐप, iOS ऐप, Android ऐप, या Windows और Linux के अंदर। बंडल प्रति मॉडल लगभग 113 MB है। दो मॉडल हैं — एक सामान्य व्यक्तिगत डेटा के लिए, एक संरक्षित स्वास्थ्य जानकारी के लिए — और Safe Harbor मोड दोनों को समानांतर में चलाता है। इनमें से, एक लो-एंड Android डिवाइस सबसे कम प्रदर्शन करने वाला है, फिर भी हमारा सिस्टम ठीक काम करता है।

इसे स्मार्ट होना चाहिए क्योंकि गलत नकारात्मक (false negatives) वास्तविक डेटा को रिमोट LLM तक लीक कर देते हैं और गलत सकारात्मक (false positives) बातचीत को खराब कर देते हैं। नामों को संपादित किया जाना चाहिए; सर्वनामों को नहीं। फॉरवर्ड किए गए थ्रेड में डॉक्टर के ईमेल को संपादित किया जाना चाहिए; [email protected] फुटर को शायद नहीं।

इसे तेज़ होना चाहिए क्योंकि यह उपयोगकर्ता द्वारा भेजे जाने वाले या प्राप्त होने वाले प्रत्येक संदेश के रास्ते में सीधे बैठता है। हमने एकल CPU थ्रेड पर 200 ms से कम के राउंड-ट्रिप ओवरहेड को मापा, जिसमें ज्यादातर टोकनाइजेशन था। WebGPU और Apple के Neural Engine पर यह LLM कॉल की नेटवर्क लेटेंसी की तुलना में बहुत छोटा है।

इसे कई रनटाइम में चलना चाहिए क्योंकि Caiioo मल्टी-प्लेटफ़ॉर्म है। वही सिस्टम Chrome एक्सटेंशन, macOS और iOS, Android, और Windows और Linux पर चलता है। एक डिटेक्शन मॉडल, एक regex लाइब्रेरी, एक मर्जर, एक पॉलिसी — हर सतह पर समान व्यवहार जहाँ Caiioo चलता है।

स्कोर (The scores)

परीक्षण और प्रशिक्षण के कई दौरों के बाद, हमने अपने मॉडल के 16वें संस्करण को अंतिम रूप दिया। नीचे तीन बेंचमार्क दिए गए हैं, जिनमें से प्रत्येक अलग-अलग पहलुओं को मापता है।

हमारा अपना टेस्ट सेट, 150 प्रश्न जो मॉडल ने पहले कभी नहीं देखे

सार्वजनिक बेंचमार्क के विरुद्ध परीक्षण करने से पहले, हमने अपने Personal Data फ़िल्टर को एक आंतरिक टेस्ट सेट पर चलाया जिसे हमने जानबूझकर प्रशिक्षण डेटा से बाहर रखा था — ताकि डिटेक्टर ने इनमें से किसी भी प्रश्न को पहले कभी न देखा हो। 150 प्रश्नों को चार समूहों (code snippets, दस्तावेज़ गद्य, जानबूझकर अपरिचित वाक्यांश, और 10 गैर-अंग्रेजी भाषाएं) में विभाजित किया गया, साथ ही एक "negative" समूह जिसमें कोई निजी डेटा नहीं है (यह जांचने के लिए कि हम ज़रूरत से ज़्यादा रेडैक्ट तो नहीं कर रहे)। संयुक्त regex + ML पाइपलाइन:

सब-बेंच (Sub-bench) पकड़े गए (Caught) दर (Rate)
code_bench 69 / 74 93.2 %
doc_bench 233 / 247 94.3 %
generalization_bench 123 / 133 92.5 %
multilingual_bench 200 / 216 92.6 %
सभी 4 पॉजिटिव बेंच 625 / 670 93.3 %

(नेगेटिव समूह में खोजने के लिए कोई निजी डेटा नहीं था। फ़िल्टर ने एक ऐसी चीज़ को मास्क किया जिसे नहीं करना चाहिए था — जो नीचे दिए गए प्रिसिजन (precision) आंकड़ों के अनुरूप है।)

ग्रेडर सख्त है: प्रश्न को स्कोर करने के लिए निजी डेटा के प्रत्येक अपेक्षित हिस्से को मास्क किए गए आउटपुट से पूरी तरह गायब होना चाहिए। कोई आंशिक क्रेडिट नहीं, कोई "काफी करीब" नहीं। यह उन बेंचमार्क की तुलना में अधिक कठोर है जो किसी अन्य LLM को जज बनने के लिए कहते हैं (LLM जज उदार होते हैं)। अन्य प्रणालियों के साथ सीधे तुलनीय आंकड़ों के लिए, नीचे दिया गया हेड-टू-हेड सेक्शन देखें।

PrivacyBenchHIPAA — 40 स्वास्थ्य सेवा प्रश्न

प्रत्येक प्रश्न संरक्षित स्वास्थ्य जानकारी (PHI) को सूचीबद्ध करता है जिसे रेडैक्ट किया जाना चाहिए (नाम, मेडिकल रिकॉर्ड नंबर, आदि) और वे संकेत जिन्हें रखा जाना चाहिए (तारीखें, भूगोल, 90 वर्ष से कम आयु — HIPAA Limited Data Set नियम)। ग्रेडर दोनों दिशाओं में जाँच करता है: क्या हमने वह हटाया जो हमें हटाना चाहिए था, और क्या हमने उसे छोड़ दिया जिसे हमें छोड़ना चाहिए था?

मोड (Mode) PHI रेडैक्ट किया गया रिटेन्ड (Retained) रखा गया
Limited Data Set (तारीखें / भूगोल / आयु ≤89 सुरक्षित रखें) 79 / 79 (100 %) 34 / 34
Safe Harbor (तारीखों सहित सब कुछ रेडैक्ट करें) 99 / 104 (95.2 %)

Limited Data Set सबमोड इस बेंचमार्क पर सटीक है। Safe Harbor — जिसमें रेडैक्ट करने के लिए अधिक चीज़ें हैं, इसलिए चूकने की अधिक संभावना है — 95.2% को कवर करता है।

हमारे अपने डेटा पर श्रेणी-दर-श्रेणी परिणाम, प्रति मोड 200 नमूने

सार्वजनिक बेंचमार्क सब कुछ एक साथ मिला देते हैं। हमारा आंतरिक परीक्षण डेटा परिणामों को श्रेणी (नाम, ईमेल, पते, इत्यादि) के आधार पर विभाजित करता है और प्रत्येक को तीन तरीकों से चलाता है: केवल regex, केवल ML, और दोनों एक साथ। यह हमें सटीक रूप से बताता है कि कौन सी तकनीक किस प्रकार के पहचानकर्ता को पकड़ रही है — और कहाँ प्रत्येक को दूसरे की आवश्यकता है। नवीनतम रन, 2026-05-20:

सभी तीन फ़िल्टर मोड का सारांश

मोड (Mode) कंबाइंड रिकॉल (Combined recall) प्रिसिजन (Precision) F2 नमूने (Samples)
Personal Data फ़िल्टर 97.3 % 97.8 % 97.4 200
HIPAA फ़िल्टर — Limited Data Set 92.3 % 92.3 % 92.3 200
HIPAA फ़िल्टर — Safe Harbor 91.9 % 91.5 % 91.8 200

इन आंकड़ों में URL शामिल नहीं हैं, जिन्हें हम जानबूझकर छोड़ देते हैं — URL को हटाने से "इस लिंक को खोलें" या "उस पेज को लाएं" जैसे डाउनस्ट्रीम कार्य बाधित हो जाएंगे। इसके बारे में अधिक जानकारी नीचे वर्कफ़्लो सेक्शन में दी गई है।

प्रति-श्रेणी तालिकाओं से पहले की बड़ी तस्वीर: हर मोड में, वे पहचानकर्ता जो वास्तव में किसी व्यक्ति की पहचान करते हैं, 100% या उसके करीब पकड़े जाते हैं। नाम, ईमेल, फोन नंबर, डाक पते, सरकारी आईडी, बायोमेट्रिक आईडी, सटीक जियोलोकेशन, मेडिकल रिकॉर्ड नंबर, जन्म तिथि, सोशल सिक्योरिटी नंबर — हर नमूने, हर परीक्षण पर पकड़े गए। वे श्रेणियां जहां हम 100% से नीचे गिरते हैं, वे अनुमानित हैं: डिवाइस आईडी (वास्तविक टेक्स्ट में प्रारूपों की विशाल विविधता), विविध संस्थागत आईडी (लॉयल्टी नंबर, कर्मचारी आईडी — वही समस्या), और फोटो (एक टेक्स्ट-ओनली फ़िल्टर यह नहीं देख सकता कि इमेज के अंदर क्या है)। इनमें से कोई भी "चार्ट पर नाम" या "ड्राफ्ट में ईमेल" जैसा पहचानकर्ता नहीं है जो वास्तव में लीकेज के लिए मायने रखता है। उच्च-जोखिम वाली श्रेणियां विश्वसनीय हैं।

Personal Data फ़िल्टर

कंबाइंड रिकॉल (सबसे अच्छा पहले), फिर जोखिम स्तर (T1 = सबसे संवेदनशील) द्वारा क्रमबद्ध।

श्रेणी (Category) स्तर (Tier) Regex रिकॉल ML रिकॉल (raw) कंबाइंड रिकॉल Gold n
biometric_id T1 100.0 % (10/10) 100.0 % (10/10) 100.0 % 10
email_address T1 100.0 % (20/20) 100.0 % (20/20) 100.0 % 20
government_id T1 100.0 % (10/10) 100.0 % (10/10) 100.0 % 10
person_name T1 13.3 % (4/30) 96.7 % (29/30) 100.0 % 30
phone_or_fax T1 100.0 % (10/10) 100.0 % (10/10) 100.0 % 10
postal_address T1 0.0 % (0/10) 100.0 % (10/10) 100.0 % 10
precise_geolocation T1 100.0 % (10/10) 100.0 % (10/10) 100.0 % 10
birth_date T2 0.0 % (0/10) 100.0 % (10/10) 100.0 % 10
ip_address T2 100.0 % (10/10) 100.0 % (10/10) 100.0 % 10
online_handle T2 40.0 % (4/10) 100.0 % (10/10) 100.0 % 10
vehicle_id T2 50.0 % (5/10) 100.0 % (10/10) 100.0 % 10
authentication_secret T4 40.0 % (4/10) 100.0 % (10/10) 100.0 % 10
financial_account T1 90.0 % (18/20) 100.0 % (20/20) 90.0 % 20
institutional_id T3 80.0 % (8/10) 90.0 % (9/10) 90.0 % 10
device_id T3 40.0 % (4/10) 50.0 % (5/10) 80.0 % 10

विश्लेषण करने पर, दो-परत वाला डिज़ाइन रंग ला रहा है। डाक पते, जन्म तिथियां और व्यक्तियों के नाम अकेले regex के तहत 0-13% स्कोर करते हैं — मिलान करने के लिए कोई निश्चित आकार नहीं है, इसलिए केवल ML मॉडल ही उन्हें पकड़ सकता है। ईमेल, फोन नंबर, IP, सरकारी आईडी, बायोमेट्रिक आईडी और सटीक जियोलोकेशन अकेले regex के तहत 100% स्कोर करते हैं — ये ऐसे सतही प्रारूप हैं जिन्हें ML मॉडल आसानी से प्राप्त कर लेता है। ऑनलाइन हैंडल, वाहन आईडी और ऑथेंटिकेशन सीक्रेट मिश्रित हैं: regex मानक रूपों को पकड़ता है, ML बाकी को। कंबाइंड रिकॉल हर श्रेणी में उस एकल परत के बराबर या उससे अधिक है जो अधिक मजबूत है।

डिवाइस आईडी और विविध संस्थागत आईडी 100% से नीचे की श्रेणियां हैं, और हम जानते हैं क्यों: वास्तविक टेक्स्ट में इनके प्रारूपों की सबसे विस्तृत विविधता होती है। हम उन श्रेणियों के बारे में ईमानदार होना पसंद करेंगे जहां रिकॉल कम होता है, बजाय इसके कि यह दिखावा करें कि फ़िल्टर हर जगह सटीक है।

HIPAA फ़िल्टर — Limited Data Set सबमोड

Limited Data Set सबमोड डिज़ाइन के अनुसार तारीखों, भूगोल और 89 या उससे कम उम्र को सुरक्षित रखता है — ये वे संकेत हैं जिन्हें HIPAA एक संगठन को वैध नैदानिक अनुसंधान और संचालन के लिए रखने की अनुमति देता है।

श्रेणी (Category) स्तर (Tier) Regex रिकॉल ML रिकॉल (raw) कंबाइंड रिकॉल Gold n
biometric_id T1 100.0 % (12/12) 100.0 % (12/12) 100.0 % 12
email_address T1 100.0 % (13/13) 100.0 % (13/13) 100.0 % 13
medical_record_number T1 100.0 % (26/26) 100.0 % (26/26) 100.0 % 26
person_name T1 15.4 % (4/26) 100.0 % (26/26) 100.0 % 26
phone_or_fax T1 100.0 % (13/13) 100.0 % (13/13) 100.0 % 13
social_security_number T1 100.0 % (12/12) 100.0 % (12/12) 100.0 % 12
account_number T2 0.0 % (0/13) 100.0 % (13/13) 100.0 % 13
health_plan_id T2 0.0 % (0/13) 100.0 % (13/13) 100.0 % 13
ip_address T2 100.0 % (12/12) 100.0 % (12/12) 100.0 % 12
license_number T2 0.0 % (0/12) 100.0 % (12/12) 100.0 % 12
vehicle_id T2 25.0 % (3/12) 100.0 % (12/12) 100.0 % 12
device_id T3 41.7 % (5/12) 100.0 % (12/12) 100.0 % 12
photo T2 0.0 % (0/12) 0.0 % (0/12) 0.0 % 12

तस्वीरें एक ज्ञात चूक हैं — एक टेक्स्ट-ओनली फ़िल्टर यह नहीं देख सकता कि इमेज के अंदर क्या है। Image-PHI एक अलग समस्या है जिसे हमने अभी तक शिप नहीं किया है। इस मोड में हर दूसरी श्रेणी 100% पर है।

HIPAA फ़िल्टर — Safe Harbor सबमोड

Safe Harbor उन सभी चीज़ों को हटा देता है जिन्हें Limited Data Set सबमोड ने रखा होता — तारीखें, 89 से अधिक उम्र, भूगोल। सख्त कवरेज प्राप्त करने के लिए, यह दोनों फ़िल्टर मॉडल को समानांतर में चलाता है: HIPAA-विशिष्ट और सामान्य व्यक्तिगत-डेटा वाला।

श्रेणी (Category) स्तर (Tier) Regex रिकॉल ML रिकॉल (raw) कंबाइंड रिकॉल Gold n
age_over_89 T1 100.0 % (18/18) 0.0 % (0/18) 100.0 % 18
biometric_id T1 100.0 % (9/9) 100.0 % (9/9) 100.0 % 9
email_address T1 100.0 % (10/10) 100.0 % (10/10) 100.0 % 10
medical_record_number T1 100.0 % (20/20) 100.0 % (20/20) 100.0 % 20
person_name T1 20.0 % (4/20) 100.0 % (20/20) 100.0 % 20
phone_or_fax T1 100.0 % (10/10) 100.0 % (10/10) 100.0 % 10
social_security_number T1 90.0 % (9/10) 100.0 % (10/10) 100.0 % 10
account_number T2 0.0 % (0/10) 100.0 % (10/10) 100.0 % 10
general_date T2 100.0 % (27/27) 29.6 % (8/27) 100.0 % 27
health_plan_id T2 0.0 % (0/10) 100.0 % (10/10) 100.0 % 10
ip_address T2 100.0 % (9/9) 100.0 % (9/9) 100.0 % 9
license_number T2 0.0 % (0/10) 100.0 % (10/10) 100.0 % 10
vehicle_id T2 10.0 % (1/10) 100.0 % (10/10) 100.0 % 10
device_id T3 22.2 % (2/9) 88.9 % (8/9) 77.8 % 9
photo T2 0.0 % (0/9) 0.0 % (0/9) 0.0 % 9

दो दिलचस्प पंक्तियाँ सामान्य तारीखें (regex 100%, ML 30%) और 89 से अधिक उम्र (regex 100%, ML 0%) हैं। हमने जानबूझकर Safe Harbor में regex को दोनों को संभालने दिया: तारीखों का एक आकार होता है जिसे regex हर बार पकड़ लेता है, और हम नहीं चाहते कि एक संभाव्य (probabilistic) मॉडल ">89" जैसी संख्यात्मक सीमा पर दोबारा विचार करे। ML मॉडल को वही नियम सिखाने की तुलना में एक नियतात्मक (deterministic) नियम अधिक विश्वसनीय है।

सभी श्रेणियों में समग्र आंकड़े

सब कुछ जोड़कर: पूरी पाइपलाइन (regex + ML एक साथ) अकेले किसी भी परत की तुलना में कैसी है?

मोड (Mode) परतें (Layers) रिकॉल (Recall) प्रिसिजन (Precision) F2
Personal Data केवल regex 65.8 % 93.0 % 69.9 %
Personal Data केवल ML 95.4 % 92.4 % 94.8 %
Personal Data दोनों (पूर्ण) 96.9 % 98.0 % 97.1 %
Limited Data Set केवल regex 55.9 % 95.0 % 60.9 %
Limited Data Set केवल ML 92.9 % 84.5 % 91.0 %
Limited Data Set दोनों (पूर्ण) 92.9 % 89.3 % 92.1 %
Safe Harbor केवल regex 58.9 % 93.6 % 63.6 %
Safe Harbor केवल ML 82.4 % 88.3 % 83.5 %
Safe Harbor दोनों (पूर्ण) 92.4 % 88.9 % 91.7 %

Personal Data फ़िल्टर की "पूर्ण" पंक्ति हर मीट्रिक पर दोनों एकल-परत संस्करणों को हरा देती है — regex (सतही प्रारूपों के लिए) को ML मॉडल (संदर्भ के लिए) के साथ जोड़ना वास्तव में कुछ ऐसा प्रदान करता है जो अकेले कोई भी परत नहीं कर सकती। इस पोस्ट में पहले दी गई 97.3% की हेडलाइन वह संख्या है जो दर्शाती है कि एक वास्तविक उपयोगकर्ता को क्या मिलता है। ऊपर दी गई तालिका में संख्या थोड़ी कम है क्योंकि इसमें URL श्रेणी शामिल है, जिसे हम जानबूझकर सुरक्षित रखते हैं ताकि हम लिंक और टूल कॉल को न तोड़ें।

अन्य समर्पित प्राइवेसी फ़िल्टर के साथ आमने-सामने की तुलना

हमारे जैसे ऑन-डिवाइस, लगभग-तत्काल प्राइवेसी फ़िल्टर के लिए उचित तुलना अन्य ऑन-डिवाइस, लगभग-तत्काल प्राइवेसी फ़िल्टर के साथ है — न कि विशाल क्लाउड-होस्टेड LLMs के साथ जो प्रति संदेश सेकंड लेते हैं और जिन्हें नेटवर्क राउंड-ट्रिप की आवश्यकता होती है। हमने इस श्रेणी के प्रत्येक सिस्टम को समान टेस्ट सेट के विरुद्ध, समान मिलान नियमों का उपयोग करके चलाया। सभी के लिए समान मानक।

सहकर्मी श्रेणी (The peer class):

  • openai/privacy-filter — OpenAI का ओपन-सोर्स समर्पित प्राइवेसी फ़िल्टर। लगभग 50 मिलियन पैरामीटर, किसी भी आधुनिक ब्राउज़र में चलने के लिए पर्याप्त छोटा।
  • piiranha-v1 — iiiorg का 278M-पैरामीटर डिटेक्टर। इसका लाइसेंस इसे केवल अनुसंधान और मूल्यांकन तक सीमित करता है (हम इसे माप सकते हैं, लेकिन इसे व्यावसायिक रूप से शिप नहीं किया जा सकता)।
  • Microsoft Presidio — सबसे व्यापक रूप से तैनात ओपन-सोर्स रेडैक्टर, जो संदर्भ के लिए एक छोटे भाषा मॉडल के साथ पारंपरिक पैटर्न मिलान को जोड़ता है।
  • GLiNER PII family — छोटे, सामान्य-उद्देश्य वाले इकाई क्लासिफायर का एक परिवार। Knowledgator छोटे (~44M), बेस (~86M), और बड़े (~304M) वेरिएंट शिप करता है; NVIDIA ने अक्टूबर 2025 में 570M वेरिएंट जारी किया।
  • Caiioo तीनों मोड में (Personal Data, HIPAA Limited Data Set, HIPAA Safe Harbor)।

सभी पांच टेस्ट सेटों में रिकॉल, Caiioo के साथ पहले क्रमबद्ध:

सिस्टम (System) PrivacyBench PD-25 Caiioo synthetic PD-200 PrivacyBenchHIPAA-40 Caiioo synthetic PHI-200 Multilingual PD-40 (10 locales)
Caiioo — Personal Data 96.2 % (76/79) 99.0 % (198/200) 92.6 % (200/216)
Caiioo — HIPAA Limited Data Set 100.0 % (79/79) 100.0 % (200/200)
Caiioo — HIPAA Safe Harbor 100.0 % (79/79) 100.0 % (200/200)
openai/privacy-filter (50M) 96.2 % (76/79) 83.0 % (166/200) 93.7 % (74/79) 77.0 % (154/200) 94.9 % (205/216)
gliner_pii_nvidia (570M) 94.9 % (75/79) 85.5 % (171/200) 84.8 % (67/79) 85.0 % (170/200) 76.9 % (166/216)
gliner_pii_large (~304M) 72.2 % (57/79) 86.5 % (173/200) 84.8 % (67/79) 93.0 % (186/200) 50.0 % (108/216)
gliner_pii_base (~86M) 87.3 % (69/79) 66.0 % (132/200) 74.7 % (59/79) 66.0 % (132/200) 51.4 % (111/216)
gliner_pii_small (~44M) 88.6 % (70/79) 84.5 % (169/200) 91.1 % (72/79) 83.0 % (166/200) 68.5 % (148/216)
Microsoft Presidio 82.3 % (65/79) 76.5 % (153/200) 84.8 % (67/79) 76.5 % (153/200) 69.0 % (149/216)
piiranha-v1 (~278M) 60.8 % (48/79) 58.5 % (117/200) 43.0 % (34/79) 47.0 % (94/200) 82.4 % (178/216)

Caiioo दो सबसे बड़े परीक्षणों (PD-200 और PHI-200) पर समर्पित-फ़िल्टर श्रेणी में सबसे आगे है, सार्वजनिक बेंचमार्क पर बराबरी करता है या आगे रहता है, और बहुभाषी (multilingual) पर दूसरे स्थान पर है। सबसे छोटे परीक्षण (PrivacyBench PD-25, केवल 25 प्रश्न) पर Caiioo और openai/privacy-filter 96.2% पर बराबर हैं। बहुभाषी पर, openai/privacy-filter अभी भी 94.9% के साथ आगे है और Caiioo 92.6% पर है — वह भाषा जहाँ हम सबसे पीछे हैं वह चीनी है; बाकी हर जगह हम शीर्ष पर या उसके करीब हैं। यदि बहुभाषी कवरेज मिशन-क्रिटिकल है, तो openai/privacy-filter एक उचित विकल्प है। इस श्रेणी के अधिकांश अन्य वर्कलोड के लिए, Caiioo बेहतर है।

HIPAA परिणाम मुख्य आकर्षण है। दोनों Caiioo HIPAA मोड प्रत्येक HIPAA परीक्षण पर 100% रिकॉल प्राप्त करते हैं — प्रत्येक रोगी का नाम, प्रत्येक मेडिकल रिकॉर्ड नंबर, जन्म की प्रत्येक तिथि, प्रत्येक खाता संख्या पकड़ी जाती है। दूसरा सबसे अच्छा सिस्टम PrivacyBenchHIPAA पर 93.7% के साथ openai/privacy-filter है — 6.3-पॉइंट का अंतर, एक ऐसे बेंचमार्क पर जहाँ हर चूक एक वास्तविक दुनिया का खुलासा है।

पढ़ने लायक एक दूसरी संख्या: ओवर-रेडैक्शन (over-redaction) — उन चीज़ों को मास्क करना जो वास्तव में निजी डेटा नहीं थीं। ओवर-रेडैक्शन प्राइवेसी का नुकसान नहीं है, यह उपयोगिता की लागत है। बहुत अधिक चीज़ों को मास्क करें और LLM का तर्क (reasoning) खराब हो जाता है, और लौटाया गया उत्तर निम्न स्तर का होता है। Caiioo टेस्ट सेटों में 1-24 बार अनावश्यक रूप से मास्क करता है। Presidio: 10-51। NVIDIA का GLiNER: अकेले HIPAA परीक्षणों पर 31-64। प्रिसिजन उतना ही मायने रखता है जितना रिकॉल, जब लक्ष्य कम से कम जोखिम के साथ सर्वोत्तम संभव उत्तर प्राप्त करना हो।

फ़िल्टर के रूप में केवल एक फ्रंटियर LLM का उपयोग करने के बारे में क्या?

वे कर सकते हैं — और रॉ रिकॉल पर, वे जीतते हैं। बड़े सामान्य-उद्देश्य वाले LLMs (Llama 3.1 8B, Gemma 4, Qwen 3.5 9B, और इसी तरह), चाहे क्लाउड में चल रहे हों या स्थानीय रूप से, बहुभाषी सहित हर परीक्षण में 95-100% स्कोर कर सकते हैं। यह उन उपयोगकर्ताओं के लिए एक वास्तविक विकल्प है जिन्हें अधिकतम रिकॉल की आवश्यकता है और वे इसके लिए भुगतान करने को तैयार हैं।

हालाँकि, कमियां वास्तविक हैं:

  • यह धीमा है। मिलीसेकंड के बजाय प्रति संदेश सेकंड। फ़िल्टर उपयोगकर्ता द्वारा भेजे जाने वाले प्रत्येक संदेश के सामने बैठता है।
  • या तो संदेश उपयोगकर्ता की मशीन छोड़ देता है, या मॉडल। क्लाउड में फ़िल्टर करने के लिए, संदेश को वहां जाना पड़ता है — जो उद्देश्य को ही विफल कर देता है। ऑन-डिवाइस फ़िल्टर करने के लिए 1-17 GB मॉडल डाउनलोड करने की आवश्यकता होती है।
  • इसे धोखा दिया जा सकता है। एक जनरेटिव मॉडल को संदेश के बीच में रेडैक्ट न करने के लिए मनाया जा सकता है (एक "prompt injection" हमला)। हमारे जैसा छोटा क्लासिफायर ऐसा नहीं कर सकता।
  • समान इनपुट, अलग आउटपुट। जनरेटिव मॉडल हमेशा दो बार एक ही उत्तर नहीं देते हैं। यह राउंड-ट्रिप को तोड़ देता है — बाहर जाते समय मास्किंग और वापस आते समय अनमास्किंग इस बात पर निर्भर करती है कि समान वास्तविक मान हमेशा समान नकली मान पर मैप हो।

Caiioo उस ट्रेडऑफ़ के दूसरे पक्ष के लिए बनाया गया है: एक छोटा, अनुमानित, सब-सेकंड फ़िल्टर जो उपयोगकर्ता द्वारा सेंड दबाने से पहले कंपोज़र में चलता है, और जो बातचीत के भीतर समान वास्तविक मान के लिए हमेशा समान नकली मान उत्पन्न करता है, ताकि राउंड-ट्रिप सुसंगत रहे। ऊपर दी गई सहकर्मी-श्रेणी तालिका उस प्रकार के उपयोग के मामले के लिए सटीक तुलना है।

प्रत्यक्ष प्रमाण ही सबसे बड़ा प्रमाण है

बेंचमार्क एक शुरुआत है, अंतिम लक्ष्य नहीं। यह फ़िल्टर Caiioo की नई विशेषता: pseudonymizer में एकीकृत है — वह घटक जो वास्तव में कंपोज़र और मॉडल के बीच स्थित होता है।

जब उपयोगकर्ता सेंड (send) दबाता है, तो यहाँ बताया गया है कि क्या होता है।

  1. Detect. रेगेक्स (regex) लेयर सबसे पहले चलती है — यह नियतात्मक (deterministic) और माइक्रोसेकंड-तेज़ है। इसके बाद जो कुछ भी बचता है उस पर ML मॉडल चलता है। यदि दोनों लेयर टेक्स्ट के एक ही हिस्से पर ओवरलैप होती हैं, तो हम एक सरल नियम का उपयोग करते हैं: सरफेस फॉर्मेट पर रेगेक्स जीतता है, संदर्भ (context) पर ML जीतता है।
  2. Tag self vs. other. Caiioo उन पहचानकर्ताओं को अलग करता है जो उपयोगकर्ता को संदर्भित करते हैं और जो अन्य लोगों को संदर्भित करते हैं। उपयोगकर्ता केवल एक, या दोनों को रिडैक्ट (redact) करना चुन सकता है। उपयोगकर्ता द्वारा व्यक्तिगत डिक्शनरी में जोड़े गए नाम हमेशा "self" माने जाते हैं।
  3. Substitute. प्रत्येक वास्तविक वैल्यू को एक स्थिर, स्टाइल-मैच छद्म नाम (pseudonym) मिलता है। "Sarah Goldberg", "Maya Hartwell" बन जाती है — और पूरी बातचीत के दौरान "Maya Hartwell" ही रहती है, ताकि उस व्यक्ति के बारे में मॉडल का तर्क (reasoning) अलग-अलग टर्न में खंडित न हो। एक रियल-टू-फेक लुकअप टेबल उपयोगकर्ता के डिवाइस पर रखी जाती है, जो प्लेटफॉर्म के कीचेन (keychain) की एक कुंजी के साथ एन्क्रिप्टेड होती है।
  4. Send. मॉडल को पूरी तरह से नकली संदेश प्राप्त होता है। कोई भी वास्तविक पहचानकर्ता कभी भी नेटवर्क पार नहीं करता है, और हमारा ऑडिट लॉग केवल गणना (counts) रिकॉर्ड करता है — कभी भी वैल्यू स्वयं नहीं।
  5. Restore. स्ट्रीमिंग रिस्पॉन्स आते ही उसे वापस मैप किया जाता है। मॉडल के उत्तर में "Maya Hartwell" स्क्रीन पर पहुँचने से पहले "Sarah Goldberg" बन जाती है, जिसे एक छोटे ग्लो पिल (glow pill) के साथ रेंडर किया जाता है ताकि उपयोगकर्ता एक नज़र में देख सके कि क्या सुरक्षित किया गया था।
  6. Restore tool arguments too. यदि मॉडल किसी टूल को कॉल करता है — ईमेल भेजना, टिकट फाइल करना, किसी डॉक में लिखना — और तर्कों (arguments) में नकली वैल्यू होती हैं, तो हम टूल चलने से पहले वास्तविक वैल्यू को वापस प्रतिस्थापित कर देते हैं। मॉडल नकली वैल्यू पर तर्क करता है; क्रिया (action) वास्तविक वैल्यू लेती है।

फ़िल्टर को इस बात से कोई फर्क नहीं पड़ता कि कौन सी AI सेवा उपयोग में है। यह संदेश मॉडल तक पहुँचने से पहले ही चल जाता है, इसलिए OpenRouter, Anthropic, Google, OpenAI, और एक स्थानीय Ollama सभी को एक जैसा मास्क किया हुआ पेलोड मिलता है। एक नया प्रदाता जोड़ने से गोपनीयता में कोई सेंध नहीं लगती।

यह किसकी रक्षा करता है

उपयोगकर्ता। एक उपयोगकर्ता का नाम, ईमेल, पता, फोन, IP और बायोमेट्रिक पहचानकर्ता — वे चीजें जो मिलकर एक एग्रीगेटर के लिए व्यक्ति की पहचान करती हैं — फ़िल्टर चालू होने पर कभी भी डिवाइस नहीं छोड़ती हैं।

वे लोग जिनके बारे में उपयोगकर्ता बात करता है। अधिकांश गोपनीयता उपकरण टाइप करने वाले व्यक्ति पर ध्यान केंद्रित करते हैं, लेकिन वे जिसे अनदेखा करते हैं वह 'सामाजिक अनुबंध' है — यह तथ्य कि हम स्वयं के साथ-साथ दूसरों के प्रति भी जिम्मेदारी निभाते हैं। LLM को "कृपया अक्षमता के लिए मिस्टर सॉन्डर्स के आचरण का विश्लेषण करें" सबमिट करना, जहाँ इसे अनिश्चित काल के लिए सिस्टम लॉग में रिकॉर्ड किया जा सकता है, गैर-जिम्मेदाराना (और संभावित रूप से मानहानिकारक) है। एक Google Sheet के साथ मदद के लिए LLM से पूछना जिसमें 1,000 व्यावसायिक संपर्क हैं, उन सभी को डेटा-रिटेंशन फ्लाईपेपर में जमा कर देता है। Caiioo का फ़िल्टर तीसरे पक्षों को भी कवर करता है: वह क्लाइंट जिसके लिए अनुबंध तैयार किया जा रहा है, वह रोगी जिसके रिकॉर्ड पर विचार किया जा रहा है, वह सहकर्मी जिसका ईमेल संदर्भ में पेस्ट किया गया था। उन्होंने रिमोट LLM को अपने पहचानकर्ता देखने के लिए सहमति नहीं दी। फ़िल्टर डिफ़ॉल्ट रूप से उसका सम्मान करता है; यदि वर्कफ़्लो की आवश्यकता हो तो उपयोगकर्ता "केवल स्वयं" या "केवल अन्य" पर स्विच कर सकता है।

संस्थाएं — व्यवसाय, अस्पताल, फर्में। खाता संख्या, लाइसेंस संख्या, मेडिकल रिकॉर्ड संख्या, वित्तीय रूटिंग विवरण, आंतरिक ID, API कुंजियाँ, ग्राहक रोस्टर। एक व्यवसाय का डेटा-न्यूनतमीकरण हित वैसा ही होता है जैसा एक व्यक्ति का होता है। डिस्चार्ज नोट तैयार करने के लिए Caiioo का उपयोग करने वाला एक चिकित्सक रोगी का मेडिकल रिकॉर्ड नंबर OpenAI को नहीं भेज रहा है। एक वकील क्लाइंट का खाता नंबर Anthropic को नहीं भेज रहा है। एक सपोर्ट इंजीनियर ग्राहक के लॉग से API कुंजी Google को नहीं भेज रहा है। फ़िल्टर यह नहीं पूछता कि पहचानकर्ता किसी व्यक्ति का है या किसी संस्था का — यह बस इसे डिवाइस पर रखता है।

अधिकतम उपयोगिता, न्यूनतम जोखिम

पूरी बात यह है कि उपयोगकर्ता को फ़िल्टर को महसूस नहीं करना चाहिए।

अधिकांश गोपनीयता उपकरण एक विकल्प चुनने के लिए मजबूर करते हैं: आक्रामक रूप से संपादित करें और मॉडल के उत्तर को खराब होते देखें, या प्रॉम्प्ट को उपयोगी रखें और गोपनीयता के वादे को टूटते हुए देखें। हमने उस समझौते को खारिज कर दिया। मॉडल को अभी भी एक पूर्ण प्रॉम्प्ट मिलता है — वह सही व्याकरणिक स्थितियों में एक नाम, एक स्थान, एक तारीख, एक मेडिकल रिकॉर्ड नंबर देखता है। वह बस नकली देखता है। उसका तर्क समान है; केवल स्ट्रिंग्स को साफ किया जाता है।

स्थिर प्रतिस्थापन (Stable substitution) ही इसे काम करने योग्य बनाता है। क्योंकि एक ही वास्तविक मान हमेशा एक बातचीत के भीतर एक ही नकली पर मैप होता है — उपयोगकर्ता के संदेश में, उस नाम का संदर्भ देने वाले टूल परिणाम में, मॉडल के पहले के उत्तर में जिसने इसका उल्लेख किया था — मॉडल के पास तर्क करने के लिए एक सुसंगत व्यक्ति, स्थान या वस्तु होती है। मल्टी-टर्न बातचीत गड़बड़ नहीं होती है। टूल कॉल नहीं टूटते हैं। सब-एजेंट मूल बातचीत के मैप को इनहेरिट करते हैं और पूरे कार्य में सुसंगत रहते हैं।

उपयोगकर्ता जो आउटपुट देखता है वह वास्तविक बातचीत है। प्रदाता जो डेटा देखता है वह एक सुसंगत कल्पना है। काम उन दो दृश्यों के बीच के अंतर में होता है, और लक्ष्य — एकमात्र लक्ष्य — उस अंतर को अदृश्य बनाना है।

एक गोपनीयता फ़िल्टर जो रास्ते में आता है उसे बंद कर दिया जाएगा। एक गोपनीयता फ़िल्टर जो वर्कफ़्लो में विलीन हो जाता है, वही भेजने लायक है।

यही वह मानक है जिसके लिए हमने इसे बनाया है।