పాండాస్ గ్రూప్‌బై యావరేజ్

Pandas Grup Bai Yavarej



మనం రెండు లేదా అంతకంటే ఎక్కువ విలువలను కలిపి, వాటి మొత్తాన్ని కలిపి జోడించిన మొత్తం విలువల సంఖ్యతో భాగించినప్పుడు, ఫలితం సగటు. పాండాస్ మీన్ డేటా లేదా విలువ యొక్క సగటును అందించిన అక్షం వెంట అందిస్తుంది. సగటు() పద్ధతిని డేటాఫ్రేమ్‌కి వర్తింపజేస్తే, అక్షం అంతటా సగటుతో సిరీస్‌ని పాండాలు అందించబడతాయి. సిరీస్‌లో “సగటు()” ఉపయోగించబడితే పాండాలు సంఖ్యా విలువను (ఒకే సంఖ్య) తిరిగి ఇస్తారు. వర్గాల సమూహాలను సృష్టించిన తర్వాత విధులు వర్గాలకు వర్తించవచ్చు. ఇది ఒక సాధారణ ఆలోచన కానీ డేటా సైన్స్‌లో తరచుగా వర్తించే అత్యంత ప్రభావవంతమైన సాంకేతికత. ఇది ప్రతి సమూహానికి సంబంధించిన డేటా యొక్క సారాంశాన్ని రూపొందించడానికి, సమూహ-నిర్దిష్ట సవరణలను వర్తింపజేయడానికి మరియు డేటా ఫిల్ట్రేషన్‌ని నిర్వహించడానికి మమ్మల్ని అనుమతిస్తుంది. గ్రూప్‌బై() ఫంక్షన్‌తో, ఆబ్జెక్ట్‌ను విభజించవచ్చు, ఒక ఫంక్షన్‌ను అన్వయించవచ్చు మరియు ఉత్పత్తులను కలపవచ్చు. పెద్ద డేటాసెట్‌లను దీనితో సమూహపరచవచ్చు మరియు సమూహాలపై కార్యకలాపాలు నిర్వహించవచ్చు.

పాండాస్‌లో groupby.mean() పద్ధతిని ఎలా ఉపయోగించాలి?

డేటాఫ్రేమ్ యొక్క సగటు లేదా డేటాఫ్రేమ్ యొక్క నిర్దిష్ట నిలువు వరుసల సగటును లెక్కించడానికి, మేము groupby.mean() ఫంక్షన్‌ని ఉపయోగించవచ్చు. కింది ఉదాహరణలలో దీన్ని ఎలా ఉపయోగించాలో మేము ప్రదర్శిస్తాము.







ఉదాహరణ # 01: ఒకే కాలమ్ యొక్క డేటాను సమూహపరచడం ద్వారా ఒకే పూర్ణాంక కాలమ్ యొక్క సగటును నిర్ణయించండి

pd.DataFrame() ఫంక్షన్‌ని ఉపయోగించి, మేము మొదట డేటాఫ్రేమ్‌ను సృష్టిస్తాము, తద్వారా మేము డేటాఫ్రేమ్ యొక్క నిలువు వరుస లేదా నిలువు వరుసల డేటాను సమూహాలుగా విభజించి, ఆపై వాటి సగటు విలువను కనుగొనవచ్చు. డేటా ఫ్రేమ్‌ను సృష్టించే ముందు, మనం తప్పనిసరిగా నంపీ లైబ్రరీతో పాటు పాండాస్ మాడ్యూల్‌ను దిగుమతి చేసుకోవాలి.





చూడగలిగినట్లుగా, మేము పాండాస్ డిక్షనరీని ఉపయోగించి మా డేటాఫ్రేమ్‌ని సృష్టించాము. మా df డేటాఫ్రేమ్‌లో 3 నిలువు వరుసలు ఉన్నాయి, అంటే, 'అంశాలు', 'తయారీదారు' మరియు 'పరిమాణం'. 'అంశాలు' కాలమ్‌లో, మేము విలువలను నిల్వ చేసాము ('షర్ట్', 'టై', 'ప్యాంట్', 'షర్ట్', 'టై', 'ప్యాంట్', 'షర్ట్', 'ప్యాంట్', 'ప్యాంట్', ' టై'), అయితే  నిలువు వరుసలు 'తయారీదారు' మరియు  'పరిమాణం' విలువలను కలిగి ఉంటాయి ('ఇటలీ', 'ఫ్రాన్స్', 'చైనా', 'ఫ్రాన్స్',  'చైనా', 'ఇటలీ', 'చైనా', 'ఇటలీ', 'ఫ్రాన్స్', 'చైనా') మరియు (13, 16, 21, 32, 26, 41, 24, 42, 12, 15) వరుసగా. తయారీదారు కాలమ్‌లోని విలువలను సమూహపరచుదాం మరియు ప్రతి విభిన్న తయారీదారు కోసం సగటు పరిమాణం విలువను నిర్ణయిస్తాము.





తయారీదారు విలువ 'చైనా' సగటు పరిమాణ విలువ 21.5, 'ఫ్రాన్స్' యొక్క సగటు పరిమాణం విలువ 20.0 మరియు 'ఇటలీ' యొక్క సగటు పరిమాణం విలువ 32.0. మేము groupby.mean() ఫంక్షన్‌తో reset_index ఫంక్షన్‌ని ఉపయోగించడం ద్వారా అవుట్‌పుట్‌కు సూచికను కూడా పేర్కొనవచ్చు.



ఉదాహరణ # 02: ఒకే కాలమ్ యొక్క డేటాను సమూహపరచడం ద్వారా ఒకే ఫ్లోట్ కాలమ్ యొక్క మీన్‌ను కనుగొనండి

డేటాను సమూహపరచిన తర్వాత పూర్ణాంకాల కాలమ్ యొక్క సగటును ఎలా కనుగొనవచ్చో మేము చూశాము. ఇప్పుడు ఫ్లోట్ వంటి మరొక డేటాటైప్ కాలమ్‌ని ప్రయత్నిద్దాం. ఫ్లోట్ విలువలతో కనీసం ఒక కాలమ్‌తో డేటాఫ్రేమ్ pd.DataFrame() ఫంక్షన్‌ని ఉపయోగించి సృష్టించబడుతుంది.

pd.DataFrame() లోపల నిఘంటువును ఉంచడం ద్వారా, మేము మూడు నిలువు వరుసలతో డేటాఫ్రేమ్‌ను సృష్టించాము. కాలమ్ 'పేరు' కొంతమంది యాదృచ్ఛిక ఆటగాళ్ల పేర్లను నిల్వ చేస్తోంది ('సామ్', 'జే', 'లియో', 'మైక్', 'విల్', 'బిల్లీ', 'జానీ', 'లారా', 'హన్నా', 'టోనీ'), ప్రతి క్రీడాకారుడు చెందిన జట్టును సూచించే 'జట్టు' కాలమ్ ('A', 'A', 'B',  'A', 'B', 'A', 'C', 'B' ', 'C', 'C'), మరియు 'ఎత్తు' నిలువు వరుస ప్రతి ప్లేయర్ యొక్క ఎత్తులను ఫ్లోట్ విలువగా నిల్వ చేస్తుంది (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). 'జట్టు' కాలమ్‌లోని డేటాను సమూహపరుద్దాము మరియు ప్రతి విభిన్నమైన 'జట్టు' విలువకు సగటు ఎత్తు విలువను నిర్ణయిస్తాము.

జట్టు A ఆటగాళ్ల సగటు ఎత్తు విలువ 5.65 అని మీరు చూడవచ్చు, అయితే B మరియు C జట్లలోని ఆటగాళ్ల సగటు ఎత్తులు వరుసగా 5.866 మరియు 5.6.

ఉదాహరణ # 03: groupby.mean() ఫంక్షన్‌ని ఉపయోగించి బహుళ నిలువు వరుసల సగటును నిర్ణయించండి

మునుపటి ఉదాహరణలలో, మేము ఒకే నిలువు వరుస యొక్క సగటును నిర్ణయించాము. అయితే, ప్రతి సమూహానికి అనేక నిలువు వరుసల సగటు కూడా నిర్ణయించబడుతుంది. పాండాలు మరియు నంపీ మాడ్యూల్‌లను దిగుమతి చేసుకున్న తర్వాత, ఒకటి కంటే ఎక్కువ సంఖ్యా కాలమ్‌లను కలిగి ఉన్న డేటాఫ్రేమ్‌ను క్రియేట్ చేద్దాం.

కొత్తగా సృష్టించబడిన డేటాఫ్రేమ్‌లో, 'పేరు', 'స్కోర్' మరియు 'మ్యాచ్‌లు' లేబుల్‌లతో మూడు నిలువు వరుసలు ఉన్నాయి. డేటా విలువలను స్ట్రింగ్‌గా కలిగి ఉన్న నిలువు వరుస పేర్లు  ('రాన్', 'జిమ్', 'డానీ', 'జిమ్', 'జిమ్', 'డానీ', 'రాన్', 'రాన్', 'డానీ', 'జిమ్' ), అయితే 'స్కోరు' మరియు 'మ్యాచ్‌లు' (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) మరియు (2, 3, 1, 2, 1, 3 వంటి సంఖ్యాపరమైన డేటాను కలిగి ఉంటాయి. , 4, 1, 2, 1). ఇప్పుడు కాలమ్ ‘పేరు’ డేటాను సమూహపరచిన తర్వాత కాలమ్ ‘స్కోర్’ మరియు ‘మ్యాచ్‌లు’ యొక్క సగటును కనుగొనండి. దీని కోసం groupby.mean() ఫంక్షన్ ఉపయోగించబడుతుంది.

2.00 మ్యాచ్‌లలో 'డానీ' గ్రూప్ సగటు స్కోరు 2.66గా ఉండటం గమనించవచ్చు. గ్రూప్ జిమ్ సగటు స్కోరు 2.75 మరియు ఆడిన మ్యాచ్‌ల సగటు విలువ 1.75. గ్రూప్ ‘రాన్’ సగటు స్కోరు విలువ 2.66 మరియు ఆడిన మ్యాచ్‌ల సగటు విలువ 2.33.

ఆబ్జెక్ట్ ద్వారా వర్గాల సమూహం యొక్క సగటును కూడా agg() పద్ధతిని ఉపయోగించి లెక్కించవచ్చు. మేము సగటును agg() ఫంక్షన్‌కు ఆర్గ్యుమెంట్‌గా సరఫరా చేస్తాము. ఇచ్చిన అక్షం అంతటా ఒకే లేదా బహుళ కార్యకలాపాలను ఉపయోగించి సమగ్రపరచడానికి, మేము agg() ఫంక్షన్‌ని ఉపయోగించవచ్చు.

అవుట్‌పుట్ మునుపటిలాగే ఉంటుంది.

ఉదాహరణ # 04: బహుళ నిలువు వరుసలను సమూహపరచడం ద్వారా నిర్దిష్ట నిలువు వరుసల సగటును నిర్ణయించండి

1, 2 మరియు 3 ఉదాహరణలలో, మేము ఒకే నిలువు వరుస యొక్క విలువలు లేదా డేటాను సమూహం చేసాము. ఇప్పుడు మేము groupby() ఫంక్షన్‌లోని కాలమ్ లేబుల్‌ల జాబితాను ఉపయోగించి బహుళ నిలువు వరుసలను సమూహపరుస్తాము, ఆపై మేము ప్రతి సమూహానికి సగటు విలువను కనుగొంటాము. డేటాఫ్రేమ్‌ను రూపొందించడానికి ఇన్‌పుట్‌గా pd.Dataframe() ఫంక్షన్‌లో ఒక నిఘంటువు ‘d’ పాస్ చేయబడుతుంది.

మేము అవసరమైన డేటాఫ్రేమ్‌ను సృష్టించాము. కాలమ్ 'స్పోర్ట్స్' కొన్ని క్రీడల పేరును నిల్వ చేస్తోంది ('బ్యాడ్మింటన్', 'ఫుట్‌బాల్', 'టెన్నిస్', 'బాస్కెట్‌బాల్', 'ఫుట్‌బాల్', 'టెన్నిస్', 'బాస్కెట్‌బాల్', 'ఫుట్‌బాల్', 'బ్యాడ్మింటన్', ' బాస్కెట్‌బాల్, 'బాస్కెట్‌బాల్', 'టెన్నిస్'), దేశాల పేర్లు ('చైనా', 'రష్యా', 'ఇటలీ', 'స్పెయిన్', 'రష్యా', 'ఇటలీ', 'చైనా', 'ఇటలీ', ' స్పెయిన్, 'చైనా', 'రష్యా', 'ఇటలీ') 'దేశం' కాలమ్‌లో నిల్వ చేయబడతాయి. అయితే ‘విన్‌’ అనే కాలమ్‌లో ఒక్కో క్రీడలో ఒక్కో దేశం గెలిచిన మ్యాచ్‌ల సంఖ్యను (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6) భద్రపరిచాము. 'స్పోర్ట్స్' మరియు 'కంట్రీ' అనే నిలువు వరుసలను సమూహపరచడం ద్వారా 'విన్' కాలమ్ విలువల సగటును కనుగొనడానికి groupby.mean() ఫంక్షన్‌ని ఉపయోగిస్తాము.

దేశంలోని ప్రతి క్రీడకు 'విన్' కాలమ్ విలువల సగటులను ఫంక్షన్ విజయవంతంగా నిర్ణయించింది. సమూహీకరించిన డేటాఫ్రేమ్‌ను రీసెట్_ఇండెక్స్() ఫంక్షన్‌ని ఉపయోగించి రీసెట్ చేయవచ్చు, ఇది కొత్త ఇండెక్స్‌ను కూడా ఉత్పత్తి చేస్తుంది, దానికి తగిన డేటాఫ్రేమ్ నిర్మాణాన్ని ఇస్తుంది.

ప్రతి డేటాఫ్రేమ్ వరుసకు సూచిక జోడించబడుతుంది. ఫలితాలను ఆకర్షణీయమైన పట్టికలో అమర్చడానికి, మేము పివోట్() ఫంక్షన్‌ను కూడా ఉపయోగించవచ్చు.

ముగింపు

ఈ ట్యుటోరియల్‌లో, సంఖ్యల సగటు లేదా సగటు ఏమిటి మరియు డేటాఫ్రేమ్‌లోని కాలమ్ లేదా నిలువు వరుసలను సమూహపరచిన తర్వాత నిర్దిష్ట నిలువు వరుస (ఒకటి లేదా అంతకంటే ఎక్కువ) యొక్క సగటును ఎలా కనుగొనాలో మేము చర్చించాము. ఒకే కాలమ్ యొక్క డేటాను సమూహపరచడం ద్వారా ఒకే పూర్ణాంకం లేదా ఫ్లోట్ కాలమ్ యొక్క సగటును ఎలా నిర్ణయించాలో మీకు నేర్పడానికి మేము ఈ కథనంలో కొన్ని ఉదాహరణలను అమలు చేసాము; groupby.mean() ఫంక్షన్‌ని ఉపయోగించి బహుళ నిలువు వరుసల సగటును ఎలా నిర్ణయించాలి; మరియు బహుళ నిలువు వరుసలను సమూహపరచడం ద్వారా నిర్దిష్ట నిలువు వరుసల సగటును ఎలా నిర్ణయించాలి.