పాండాల సమూహము

Pandala Samuhamu



గ్రూప్‌బై టెక్నిక్ అవసరం ఎందుకంటే ఇది పనితీరు మరియు కోడ్ పరిమాణం రెండింటి పరంగా డేటాను ఎంత బాగా కలుపుతుంది. 'గ్రూప్బీ' అనే పదం సాధారణంగా కింది దశలతో సహా ఒక విధానాన్ని వివరిస్తుంది:

  • విభజన : డేటాసెట్‌లకు కొన్ని షరతులను వర్తింపజేయడం ద్వారా, మేము డేటాను సమూహాలుగా విభజించవచ్చు.
  • అమలు చేయడం : మేము ప్రతి సమూహానికి వ్యక్తిగతంగా ఒక పద్ధతిని వర్తింపజేసే ప్రక్రియ.
  • కలపడం గ్రూప్‌బై() పద్ధతిని ఉపయోగించిన తర్వాత డేటా స్ట్రక్చర్‌ను రూపొందించడానికి వివిధ డేటాసెట్‌లను కలపడానికి ఒక విధానం.

అగ్రిగేషన్ ప్రక్రియలో, ప్రతి సమూహానికి సంబంధించిన సారాంశ గణాంకాలు గణించబడతాయి. ప్రతి సమూహానికి, సమగ్ర పద్ధతి సమగ్ర విలువను (ఒకే విలువ) అందిస్తుంది. గ్రూప్‌బై ఫంక్షన్‌ని ఉపయోగించి డేటాను గ్రూపులుగా విభజించిన తర్వాత మేము సమూహ డేటాపై అనేక సమగ్ర కార్యకలాపాలను నిర్వహించగలము.







పాండాలు వివిధ రకాల డేటా అగ్రిగేషన్ పద్ధతులను ఎందుకు అందిస్తాయి?

పాండాలు డేటా యొక్క విశ్లేషణ మరియు సంకలనంలో సహాయం చేయడానికి విస్తృత శ్రేణి ఫీచర్‌లు మరియు ఫంక్షన్‌లను అందిస్తాయి. పివట్(), గ్రూప్‌బై(), మరియు పివోట్_టేబుల్() పద్ధతుల ఉపయోగం, ఉదాహరణకు, ప్రతి ఒక్కటి డేటా ఎలా సమగ్రపరచబడుతుందనే దానిపై విభిన్న దృక్కోణాన్ని అందిస్తుంది. వారు కేవలం రీప్యాకేజ్ కాకుండా వివిధ పనులను నిర్వహించడానికి ఆచరణాత్మక విధానాలను అందిస్తారు.



పాండాస్‌లో .agg() ఫంక్షన్‌ని ఎలా ఉపయోగించాలి

సాధారణ సగటు లేదా విలువల మొత్తం అనేది చాలా తరచుగా ఉపయోగించబడే అగ్రిగేషన్ ఫంక్షన్. మొత్తం ఫంక్షన్‌కి కాల్ చేయడానికి మీరు డేటాఫ్రేమ్ యొక్క నిలువు వరుసను లేదా బహుళ నిలువు వరుసలను ఉపయోగించవచ్చు. పాండాస్ గ్రూప్‌బై పద్ధతిని ఉపయోగించి డేటాను సమగ్రపరచడానికి మీరు అనేక మార్గాలను చూస్తారు. ప్రక్రియ ఎంత సులభమో ప్రదర్శించడానికి, క్రింద ఇవ్వబడిన కొన్ని ఉదాహరణలను చూద్దాం. మొత్తం, కనిష్ట, గరిష్ట, సగటు సంపూర్ణ విచలనం, ప్రామాణిక విచలనం, సగటు, మధ్యస్థం, వ్యత్యాసం మరియు ఉత్పత్తి వంటి ప్రాథమిక గణిత కార్యకలాపాలు అత్యంత తరచుగా ఉపయోగించే అంతర్నిర్మిత అగ్రిగేషన్ ఫంక్షన్‌లలో ఒకటి. డేటాను సంగ్రహించడానికి, మేము గ్రూప్‌బై మరియు agg() ఫంక్షన్‌ని కలపవచ్చు.



ఉదాహరణ # 01: groupby.agg() ఫంక్షన్‌ని ఉపయోగించి డేటాను గ్రూపింగ్ చేయడం ద్వారా నిలువు వరుసల మొత్తాన్ని నిర్ణయించండి

మేము ముందుగా pd.DataFrame() ఫంక్షన్‌ని ఉపయోగించి డేటాఫ్రేమ్‌ని సృష్టిస్తాము, తద్వారా మేము డేటాఫ్రేమ్ యొక్క కాలమ్ లేదా నిలువు వరుసల నుండి డేటాను సమూహపరచవచ్చు మరియు తర్వాత వాటి సగటు విలువను నిర్ణయించవచ్చు. మేము డేటాఫ్రేమ్‌ను సృష్టించే ముందు పాండాల మాడ్యూల్స్ మరియు నంపీ లైబ్రరీని తప్పనిసరిగా దిగుమతి చేసుకోవాలి.





మీరు చూడగలిగినట్లుగా, మేము మా డేటాఫ్రేమ్‌ను రూపొందించడానికి పాండాస్ నిఘంటువుని ఉపయోగించాము. మా df డేటాఫ్రేమ్‌లో నాలుగు నిలువు వరుసలు ఉన్నాయి: “రోగి” “సమూహం”, “వయస్సు” మరియు “రక్త సీసాలు”. డేటా విలువలు ('అలీ', 'జాన్', 'మైక్', 'మైక్', 'జాన్', 'అలీ', 'అలీ', 'మైక్') 'రోగి' అనే కాలమ్‌లో ఉంటాయి, అయితే డేటా విలువలు ('A ', 'A', 'B', 'C', 'A', 'C', 'C', 'B'), (21, 22, 24, 21, 20, 24, 22, 22) మరియు ( 2, 3, 1, 1, 2, 3, 2, 1) వరుసగా “సమూహం”, “వయస్సు” మరియు “రక్త_సీసాలు” నిలువు వరుసలలో ఉంటాయి. 'గుంపు' కాలమ్‌లోని విలువలను సమూహపరచడం ద్వారా మనం 'బ్లడ్_బాటిల్స్' కాలమ్‌లోని విలువల మొత్తాన్ని నిర్ణయించాలని అనుకుందాం.



గ్రూప్ డేటా 'A' కోసం, 'బ్లడ్_బాటిల్స్' విలువల మొత్తం 7. గ్రూప్ విలువలు 'B' మరియు 'C' కోసం, 'బ్లడ్_బాటిల్స్' విలువల మొత్తం వరుసగా 2 మరియు 6. ప్రతి సమూహానికి మొత్తాన్ని నిర్ణయించడానికి మేము బహుళ నిలువు వరుసలను కూడా సమూహపరచవచ్చు.

గమనించినట్లుగా, మేము ప్రతి పేర్కొన్న నిలువు వరుసలో వర్గాల సమూహాలను సృష్టించడానికి గ్రూప్‌బై() ఫంక్షన్‌లో కాలమ్ లేబుల్‌ల జాబితాను ఆమోదించాము, అనగా [‘రోగి’, ‘గ్రూప్’]. పేర్కొన్న నిలువు వరుసల ప్రతి సమూహానికి, మేము 'బ్లడ్_బాటిల్స్'లో విలువల మొత్తాన్ని నిర్ణయించాము. ఉదాహరణకు, ‘అలీ’ అనేది ‘గ్రూప్’ కాలమ్ విలువలు A మరియు Cలో ఉంది. గ్రూప్ Aలో, అలీకి సంబంధించిన ‘బ్లడ్_బాటిల్స్’ విలువల మొత్తం 2, మరియు గ్రూప్ ‘C’లో 5.

ఉదాహరణ # 02: groupby.agg() ఫంక్షన్‌ని ఉపయోగించి డేటాఫ్రేమ్ యొక్క ఒకే కాలమ్‌పై బహుళ ఫంక్షన్‌లను వర్తింపజేయడం

పాండాస్ ఫంక్షన్ agg()ని ఉపయోగించి “groupby()” పద్ధతితో బహుళ అగ్రిగేషన్‌లను అన్వయించవచ్చు. కాల్ చేయదగిన జాబితాను పద్ధతికి పంపవచ్చు. నంపీ లైబ్రరీ అంతర్నిర్మిత పద్ధతులను ఉపయోగించి మన డేటాను ఎలా సమగ్రపరచవచ్చో చూద్దాం. మునుపటి ఉదాహరణ వలె కాకుండా, మేము డేటాఫ్రేమ్ యొక్క ఒకే కాలమ్‌కు బహుళ ఫంక్షన్‌లను వర్తింపజేస్తాము. pd.DataFrame() ఫంక్షన్ సంఖ్యా విలువలను కలిగి ఉన్న కనీసం ఒక నిలువు వరుసతో దీని కోసం డేటాఫ్రేమ్‌ని సృష్టించడానికి ఉపయోగించబడుతుంది.


అవసరమైన డేటాఫ్రేమ్ ఒక సంఖ్యా కాలమ్‌తో సృష్టించబడింది అంటే 41, 40, 35, 39, 49, 31, 34 మరియు 42 విలువలతో 'మార్కులు'. మరో 3 నిలువు వరుసలు 'విద్యార్థి', 'సబ్జెక్ట్‌లు' మరియు 'డిగ్రీ' ఉన్నాయి. మా డేటాఫ్రేమ్‌లో గ్రూప్‌బై() ఫంక్షన్‌ని ఉపయోగించి సమూహాలుగా విభజించవచ్చు. కాలమ్ 'విద్యార్థులు' మరియు 'విషయాలు'లోని విలువలు ('హ్యారీ', 'రాన్', 'హ్యారీ', 'లానా', 'సామ్', 'రాన్', 'లానా', 'మాక్స్') మరియు ('సి++' , 'JAVA', 'పైథాన్', 'పైథాన్', 'AI', 'JAVA', 'C++', 'AI'). అయితే కాలమ్ డిగ్రీ డేటా విలువలను స్ట్రింగ్‌లుగా కలిగి ఉంటుంది, అంటే, ('Ms', 'Bs', 'Bs', 'Ms', 'Ms', 'Ms', 'Bs', 'Bs'). మనం కాలమ్ ‘సబ్జెక్ట్‌ల’ డేటాను సమూహపరచాలి మరియు ప్రతి సమూహ డేటా కోసం సగటు మరియు నిలువు వరుస ‘మార్కుల’ మొత్తాన్ని నిర్ణయించాలి.

డేటాను వర్గాల సమూహాలుగా మార్చడానికి గ్రూప్‌బై() ఫంక్షన్‌లోని స్ట్రింగ్‌గా ‘సబ్జెక్ట్స్’ నిలువు వరుస పేరును మేము పేర్కొన్నాము. మార్కుల కాలమ్ కోసం, మేము agg() పద్ధతిని ఉపయోగించాము మరియు కాలమ్ సబ్జెక్ట్‌లలోని ప్రతి సమూహ డేటా మార్కుల మొత్తం మరియు సగటును కనుగొనడానికి agg() ఫంక్షన్‌లో np.sum మరియు np.mean అనే numpy ఫంక్షన్‌లను పేర్కొన్నాము. సమూహ విలువ 'AI' కోసం మొత్తం మరియు సగటు విలువ వరుసగా 91 మరియు 45.5. ‘C++’ విలువకు సంబంధించిన మార్కుల మొత్తం 75, సగటు విలువ 37.5. సమూహం JAVA కోసం, మార్కుల మొత్తం 71 మరియు సగటు విలువ 35.5, అయితే పైథాన్ మొత్తం మరియు సగటు విలువ వరుసగా 74 మరియు 37.

ఉదాహరణ # 03: groupby.agg() ఫంక్షన్‌ని ఉపయోగించి డేటాఫ్రేమ్ యొక్క బహుళ నిలువు వరుసలపై బహుళ ఫంక్షన్‌లను వర్తింపజేయడం

ఒకే డేటాఫ్రేమ్ కాలమ్‌కు వేర్వేరు ఫంక్షన్‌లను వర్తింపజేయడానికి బదులుగా, మేము వివిధ సంఖ్యా నిలువు వరుసలకు బహుళ ఫంక్షన్‌లను వర్తింపజేయవచ్చు. వివిధ డేటాఫ్రేమ్ యొక్క నిలువు వరుసలకు నిర్దిష్ట అగ్రిగేషన్ పద్ధతిని వర్తింపజేయడానికి మేము agg() ఫంక్షన్‌లోని నిఘంటువుని ఇన్‌పుట్‌గా ఉపయోగించవచ్చు. బహుళ సంఖ్యా నిలువు వరుసలతో డేటాఫ్రేమ్‌ను సృష్టించే ముందు పాండాలు మరియు నంపీ లైబ్రరీలను దిగుమతి చేద్దాం.

కొత్తగా సృష్టించబడిన డేటాఫ్రేమ్‌లో 'ప్లేయర్', 'లీస్ట్_స్కోర్,' 'అత్యధిక_స్కోర్' మరియు 'లొకేషన్' పేర్లతో నాలుగు నిలువు వరుసలు ఉన్నాయి. 'ప్లేయర్' కాలమ్‌లో, మేము కొంతమంది ఆటగాళ్ల పేర్లను స్ట్రింగ్ డేటా విలువలుగా నిల్వ చేసాము ('లియో', 'అలెక్స్', 'లియో', 'ఫిన్', 'లియో', 'అలెక్స్', 'ఫిన్', ' ఫిన్'), 'least_score' కాలమ్‌లో కొన్ని మ్యాచ్‌లకు (12, 34, 2, 21, 9, 1, 0, 34) అత్యల్ప స్కోర్‌లు ఉన్న ఆటగాళ్లు ఉన్నారు, అయితే 'highest_score' కాలమ్‌లో మేము ఆటగాళ్ల అత్యధిక స్కోర్‌లను కలిగి ఉన్నాము (12, 34, 2, 21, 9, 1, 0, 34) మరియు కాలమ్ 'స్థానం'లో ఆటగాళ్లు తమ మ్యాచ్‌లు ఆడిన వేదికల పేర్లు ఉన్నాయి ('ఫ్రాన్స్', 'ఇంగ్లండ్', 'దుబాయ్', ' దుబాయ్', 'ఇంగ్లండ్', 'ఫ్రాన్స్', 'దుబాయ్', 'ఫ్రాన్స్').

డేటాను 'ప్లేయర్స్' కాలమ్‌లో సమూహపరచిన తర్వాత, మనం 'కనీసం_స్కోర్' నిలువు వరుస విలువల కోసం సగటును మరియు ప్రతి సమూహం కోసం 'హైటెస్ట్_స్కోర్' డేటా విలువల మొత్తాన్ని కనుగొనాలి.

agg() ఫంక్షన్‌లో, మేము ప్రతి సమూహానికి వ్యతిరేకంగా పేర్కొన్న నిలువు వరుస కోసం మొత్తం మరియు సగటు విలువను కనుగొనడానికి పైథాన్ నిఘంటువు {‘highest_score’ : ‘sum’, ‘least_score’ : ‘mean’}ని పాస్ చేసాము. సమూహ విలువ అలెక్స్‌లో 'అత్యధిక_స్కోరు' విలువ 132 మరియు 'కనీసం_స్కోరు' విలువ 17.5 సగటు మొత్తం ఉందని చూడవచ్చు. 'ఫిన్' కోసం విలువల మొత్తం 199 మరియు 'అత్యధిక_స్కోర్' మరియు 'కనీసం_స్కోర్' నిలువు వరుసలలో సగటు 18.3333333. సమూహ విలువ లియో 'అత్యధిక_స్కోర్'లో మొత్తం విలువ 180 మరియు 'కనీసం_స్కోర్'లో సగటు విలువ 7.666667.

ముగింపు

ఈ ట్యుటోరియల్‌లో, మేము పాండాల్లోని గ్రూప్‌బై() మరియు అగ్రిగేషన్ ఫంక్షన్‌ల గురించి చర్చించాము. groupby.agg() ఫంక్షన్‌ని ఎలా ఉపయోగించాలో కూడా మేము చర్చించాము. సింగిల్ మరియు బహుళ నిలువు వరుసల డేటాను సమూహపరచడం ద్వారా డేటాఫ్రేమ్ కాలమ్‌లో ఒకే అగ్రిగేషన్ ఫంక్షన్‌ను ఎలా ఉపయోగించాలో, డేటాఫ్రేమ్‌లోని ఒకే కాలమ్‌పై బహుళ అగ్రిగేషన్ ఫంక్షన్‌లను ఎలా వర్తింపజేయాలి మరియు బహుళాన్ని ఎలా వర్తింపజేయాలి అని మీకు నేర్పడానికి మేము ఈ కథనంలో మూడు ఉదాహరణలను అమలు చేసాము. groupby.agg() ఫంక్షన్‌ని ఉపయోగించి డేటాఫ్రేమ్ యొక్క బహుళ నిలువు వరుసలపై అగ్రిగేషన్ ఫంక్షన్‌లు.