पदानुक्रमित बनाम आंशिक क्लस्टरिंग

क्लस्टरिंग डेटा के विश्लेषण और समान डेटा के समूहों में विभाजित करने के लिए एक मशीन सीखने की तकनीक है। समान डेटा के इन समूहों या सेट को क्लस्टर के रूप में जाना जाता है। क्लस्टर विश्लेषण क्लस्टरिंग एल्गोरिदम को देखता है जो स्वचालित रूप से क्लस्टर की पहचान कर सकता है। पदानुक्रमित और आंशिक रूप से क्लस्टरिंग एल्गोरिदम के दो ऐसे वर्ग हैं। पदानुक्रमित क्लस्टरिंग एल्गोरिदम डेटा को क्लस्टर के पदानुक्रम तक तोड़ते हैं। सशर्त एल्गोरिदम डेटा को पारस्परिक रूप से विभाजन विभाजन में विभाजित करते हैं।

पदानुक्रमिक क्लस्टरिंग क्या है?

श्रेणीबद्ध क्लस्टरिंग एल्गोरिदम छोटे समूहों को या तो बड़े में विलय करने या बड़े समूहों को छोटे लोगों में विभाजित करने के चक्र को दोहराते हैं। किसी भी तरह से, यह क्लस्टर का एक पदानुक्रम पैदा करता है जिसे डेंडोग्राम कहा जाता है। एग्लोमेरेटिव क्लस्टरिंग रणनीति बड़े लोगों में विलय वाले समूहों के निचले-अप दृष्टिकोण का उपयोग करती है, जबकि विभाजनकारी क्लस्टरिंग रणनीति छोटे लोगों में विभाजित करने के शीर्ष-डाउन दृष्टिकोण का उपयोग करती है। आमतौर पर, लालची दृष्टिकोण का उपयोग यह तय करने में किया जाता है कि बड़े / छोटे समूहों का उपयोग विलय / विभाजन के लिए किया जाता है। यूक्लिडियन दूरी, मैनहट्टन दूरी और कोसाइन समानता, संख्यात्मक डेटा के लिए समानता के सबसे अधिक इस्तेमाल किए जाने वाले मीट्रिक हैं। गैर-संख्यात्मक डेटा के लिए, मीट्रिक जैसे हैमिंग दूरी का उपयोग किया जाता है। यह ध्यान रखना महत्वपूर्ण है कि पदानुक्रमित क्लस्टरिंग के लिए वास्तविक टिप्पणियों (उदाहरणों) की आवश्यकता नहीं है, क्योंकि केवल दूरी का मैट्रिक्स पर्याप्त है। डेंडोग्राम गुच्छों का एक दृश्य प्रतिनिधित्व है, जो पदानुक्रम को बहुत स्पष्ट रूप से प्रदर्शित करता है। उपयोगकर्ता उस स्तर के आधार पर अलग-अलग क्लस्टरिंग प्राप्त कर सकता है जिस पर डेंडोग्राम काटा जाता है।

आंशिक क्लस्टरिंग क्या है?

आंशिक क्लस्टरिंग एल्गोरिदम विभिन्न विभाजन उत्पन्न करते हैं और फिर कुछ मानदंड द्वारा उनका मूल्यांकन करते हैं। उन्हें गैर-विशिष्ट के रूप में भी संदर्भित किया जाता है क्योंकि प्रत्येक उदाहरण को k के परस्पर अनन्य समूहों में से एक में रखा गया है। क्योंकि क्लस्टर का केवल एक सेट एक विशिष्ट आंशिक क्लस्टरिंग एल्गोरिथ्म का आउटपुट है, उपयोगकर्ता को वांछित संख्या में क्लस्टर (आमतौर पर के) कहा जाता है। सबसे अधिक इस्तेमाल किए जाने वाले आंशिक क्लस्टरिंग एल्गोरिदम में से एक k- साधन क्लस्टरिंग एल्गोरिदम है। प्रारंभ करने से पहले उपयोगकर्ता को क्लस्टर (k) की संख्या प्रदान करने के लिए आवश्यक है और एल्गोरिथ्म पहले k विभाजन के केंद्रों (या केन्द्रक) को आरंभ करता है। संक्षेप में, k- साधन क्लस्टरिंग एल्गोरिथ्म तब सदस्यों को वर्तमान केंद्रों के आधार पर और वर्तमान सदस्यों के आधार पर पुन: अनुमान केंद्रों को असाइन करता है। ये दो चरण तब तक दोहराए जाते हैं जब तक कि एक निश्चित इंट्रा-क्लस्टर समानता उद्देश्य फ़ंक्शन और अंतर-क्लस्टर असमानता उद्देश्य फ़ंक्शन अनुकूलित न हो जाएं। इसलिए, आंशिक क्लस्टरिंग एल्गोरिदम से गुणवत्ता परिणाम प्राप्त करने के लिए केंद्रों की समझदार शुरुआत एक बहुत महत्वपूर्ण कारक है।

पदानुक्रमित और आंशिक क्लस्टरिंग के बीच अंतर क्या है?

पदानुक्रमित और आंशिक क्लस्टरिंग में समय, मान्यताओं, इनपुट मापदंडों और परिणामी समूहों में महत्वपूर्ण अंतर हैं। आमतौर पर, आंशिक क्लस्टरिंग पदानुक्रमिक क्लस्टरिंग की तुलना में तेज़ होती है। पदानुक्रमित क्लस्टरिंग के लिए केवल एक समानता माप की आवश्यकता होती है, जबकि आंशिक क्लस्टरिंग के लिए क्लस्टर की संख्या और प्रारंभिक केंद्रों जैसी मजबूत मान्यताओं की आवश्यकता होती है। पदानुक्रमित क्लस्टरिंग को किसी इनपुट पैरामीटर की आवश्यकता नहीं होती है, जबकि आंशिक क्लस्टरिंग एल्गोरिदम को क्लस्टर की संख्या को चलाने की आवश्यकता होती है। पदानुक्रमित क्लस्टरिंग समूहों के बहुत अधिक अर्थपूर्ण और व्यक्तिपरक विभाजन को लौटाती है, लेकिन आंशिक रूप से क्लस्टरिंग के परिणामस्वरूप कश्मीर समूहों में परिणत होती है। श्रेणीबद्ध डेटा के लिए पदानुक्रमित क्लस्टरिंग एल्गोरिदम अधिक उपयुक्त हैं जब तक कि एक समानता माप तदनुसार परिभाषित किया जा सकता है।