మనం రెండు లేదా అంతకంటే ఎక్కువ విలువలను కలిపి, వాటి మొత్తాన్ని కలిపి జోడించిన మొత్తం విలువల సంఖ్యతో భాగించినప్పుడు, ఫలితం సగటు. పాండాస్ మీన్ డేటా లేదా విలువ యొక్క సగటును అందించిన అక్షం వెంట అందిస్తుంది. సగటు() పద్ధతిని డేటాఫ్రేమ్కి వర్తింపజేస్తే, అక్షం అంతటా సగటుతో సిరీస్ని పాండాలు అందించబడతాయి. సిరీస్లో “సగటు()” ఉపయోగించబడితే పాండాలు సంఖ్యా విలువను (ఒకే సంఖ్య) తిరిగి ఇస్తారు. వర్గాల సమూహాలను సృష్టించిన తర్వాత విధులు వర్గాలకు వర్తించవచ్చు. ఇది ఒక సాధారణ ఆలోచన కానీ డేటా సైన్స్లో తరచుగా వర్తించే అత్యంత ప్రభావవంతమైన సాంకేతికత. ఇది ప్రతి సమూహానికి సంబంధించిన డేటా యొక్క సారాంశాన్ని రూపొందించడానికి, సమూహ-నిర్దిష్ట సవరణలను వర్తింపజేయడానికి మరియు డేటా ఫిల్ట్రేషన్ని నిర్వహించడానికి మమ్మల్ని అనుమతిస్తుంది. గ్రూప్బై() ఫంక్షన్తో, ఆబ్జెక్ట్ను విభజించవచ్చు, ఒక ఫంక్షన్ను అన్వయించవచ్చు మరియు ఉత్పత్తులను కలపవచ్చు. పెద్ద డేటాసెట్లను దీనితో సమూహపరచవచ్చు మరియు సమూహాలపై కార్యకలాపాలు నిర్వహించవచ్చు.
పాండాస్లో groupby.mean() పద్ధతిని ఎలా ఉపయోగించాలి?
డేటాఫ్రేమ్ యొక్క సగటు లేదా డేటాఫ్రేమ్ యొక్క నిర్దిష్ట నిలువు వరుసల సగటును లెక్కించడానికి, మేము groupby.mean() ఫంక్షన్ని ఉపయోగించవచ్చు. కింది ఉదాహరణలలో దీన్ని ఎలా ఉపయోగించాలో మేము ప్రదర్శిస్తాము.
ఉదాహరణ # 01: ఒకే కాలమ్ యొక్క డేటాను సమూహపరచడం ద్వారా ఒకే పూర్ణాంక కాలమ్ యొక్క సగటును నిర్ణయించండి
pd.DataFrame() ఫంక్షన్ని ఉపయోగించి, మేము మొదట డేటాఫ్రేమ్ను సృష్టిస్తాము, తద్వారా మేము డేటాఫ్రేమ్ యొక్క నిలువు వరుస లేదా నిలువు వరుసల డేటాను సమూహాలుగా విభజించి, ఆపై వాటి సగటు విలువను కనుగొనవచ్చు. డేటా ఫ్రేమ్ను సృష్టించే ముందు, మనం తప్పనిసరిగా నంపీ లైబ్రరీతో పాటు పాండాస్ మాడ్యూల్ను దిగుమతి చేసుకోవాలి.
చూడగలిగినట్లుగా, మేము పాండాస్ డిక్షనరీని ఉపయోగించి మా డేటాఫ్రేమ్ని సృష్టించాము. మా df డేటాఫ్రేమ్లో 3 నిలువు వరుసలు ఉన్నాయి, అంటే, 'అంశాలు', 'తయారీదారు' మరియు 'పరిమాణం'. 'అంశాలు' కాలమ్లో, మేము విలువలను నిల్వ చేసాము ('షర్ట్', 'టై', 'ప్యాంట్', 'షర్ట్', 'టై', 'ప్యాంట్', 'షర్ట్', 'ప్యాంట్', 'ప్యాంట్', ' టై'), అయితే నిలువు వరుసలు 'తయారీదారు' మరియు 'పరిమాణం' విలువలను కలిగి ఉంటాయి ('ఇటలీ', 'ఫ్రాన్స్', 'చైనా', 'ఫ్రాన్స్', 'చైనా', 'ఇటలీ', 'చైనా', 'ఇటలీ', 'ఫ్రాన్స్', 'చైనా') మరియు (13, 16, 21, 32, 26, 41, 24, 42, 12, 15) వరుసగా. తయారీదారు కాలమ్లోని విలువలను సమూహపరచుదాం మరియు ప్రతి విభిన్న తయారీదారు కోసం సగటు పరిమాణం విలువను నిర్ణయిస్తాము.
తయారీదారు విలువ 'చైనా' సగటు పరిమాణ విలువ 21.5, 'ఫ్రాన్స్' యొక్క సగటు పరిమాణం విలువ 20.0 మరియు 'ఇటలీ' యొక్క సగటు పరిమాణం విలువ 32.0. మేము groupby.mean() ఫంక్షన్తో reset_index ఫంక్షన్ని ఉపయోగించడం ద్వారా అవుట్పుట్కు సూచికను కూడా పేర్కొనవచ్చు.
ఉదాహరణ # 02: ఒకే కాలమ్ యొక్క డేటాను సమూహపరచడం ద్వారా ఒకే ఫ్లోట్ కాలమ్ యొక్క మీన్ను కనుగొనండి
డేటాను సమూహపరచిన తర్వాత పూర్ణాంకాల కాలమ్ యొక్క సగటును ఎలా కనుగొనవచ్చో మేము చూశాము. ఇప్పుడు ఫ్లోట్ వంటి మరొక డేటాటైప్ కాలమ్ని ప్రయత్నిద్దాం. ఫ్లోట్ విలువలతో కనీసం ఒక కాలమ్తో డేటాఫ్రేమ్ pd.DataFrame() ఫంక్షన్ని ఉపయోగించి సృష్టించబడుతుంది.
pd.DataFrame() లోపల నిఘంటువును ఉంచడం ద్వారా, మేము మూడు నిలువు వరుసలతో డేటాఫ్రేమ్ను సృష్టించాము. కాలమ్ 'పేరు' కొంతమంది యాదృచ్ఛిక ఆటగాళ్ల పేర్లను నిల్వ చేస్తోంది ('సామ్', 'జే', 'లియో', 'మైక్', 'విల్', 'బిల్లీ', 'జానీ', 'లారా', 'హన్నా', 'టోనీ'), ప్రతి క్రీడాకారుడు చెందిన జట్టును సూచించే 'జట్టు' కాలమ్ ('A', 'A', 'B', 'A', 'B', 'A', 'C', 'B' ', 'C', 'C'), మరియు 'ఎత్తు' నిలువు వరుస ప్రతి ప్లేయర్ యొక్క ఎత్తులను ఫ్లోట్ విలువగా నిల్వ చేస్తుంది (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). 'జట్టు' కాలమ్లోని డేటాను సమూహపరుద్దాము మరియు ప్రతి విభిన్నమైన 'జట్టు' విలువకు సగటు ఎత్తు విలువను నిర్ణయిస్తాము.
జట్టు A ఆటగాళ్ల సగటు ఎత్తు విలువ 5.65 అని మీరు చూడవచ్చు, అయితే B మరియు C జట్లలోని ఆటగాళ్ల సగటు ఎత్తులు వరుసగా 5.866 మరియు 5.6.
ఉదాహరణ # 03: groupby.mean() ఫంక్షన్ని ఉపయోగించి బహుళ నిలువు వరుసల సగటును నిర్ణయించండి
మునుపటి ఉదాహరణలలో, మేము ఒకే నిలువు వరుస యొక్క సగటును నిర్ణయించాము. అయితే, ప్రతి సమూహానికి అనేక నిలువు వరుసల సగటు కూడా నిర్ణయించబడుతుంది. పాండాలు మరియు నంపీ మాడ్యూల్లను దిగుమతి చేసుకున్న తర్వాత, ఒకటి కంటే ఎక్కువ సంఖ్యా కాలమ్లను కలిగి ఉన్న డేటాఫ్రేమ్ను క్రియేట్ చేద్దాం.
కొత్తగా సృష్టించబడిన డేటాఫ్రేమ్లో, 'పేరు', 'స్కోర్' మరియు 'మ్యాచ్లు' లేబుల్లతో మూడు నిలువు వరుసలు ఉన్నాయి. డేటా విలువలను స్ట్రింగ్గా కలిగి ఉన్న నిలువు వరుస పేర్లు ('రాన్', 'జిమ్', 'డానీ', 'జిమ్', 'జిమ్', 'డానీ', 'రాన్', 'రాన్', 'డానీ', 'జిమ్' ), అయితే 'స్కోరు' మరియు 'మ్యాచ్లు' (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) మరియు (2, 3, 1, 2, 1, 3 వంటి సంఖ్యాపరమైన డేటాను కలిగి ఉంటాయి. , 4, 1, 2, 1). ఇప్పుడు కాలమ్ ‘పేరు’ డేటాను సమూహపరచిన తర్వాత కాలమ్ ‘స్కోర్’ మరియు ‘మ్యాచ్లు’ యొక్క సగటును కనుగొనండి. దీని కోసం groupby.mean() ఫంక్షన్ ఉపయోగించబడుతుంది.
2.00 మ్యాచ్లలో 'డానీ' గ్రూప్ సగటు స్కోరు 2.66గా ఉండటం గమనించవచ్చు. గ్రూప్ జిమ్ సగటు స్కోరు 2.75 మరియు ఆడిన మ్యాచ్ల సగటు విలువ 1.75. గ్రూప్ ‘రాన్’ సగటు స్కోరు విలువ 2.66 మరియు ఆడిన మ్యాచ్ల సగటు విలువ 2.33.
ఆబ్జెక్ట్ ద్వారా వర్గాల సమూహం యొక్క సగటును కూడా agg() పద్ధతిని ఉపయోగించి లెక్కించవచ్చు. మేము సగటును agg() ఫంక్షన్కు ఆర్గ్యుమెంట్గా సరఫరా చేస్తాము. ఇచ్చిన అక్షం అంతటా ఒకే లేదా బహుళ కార్యకలాపాలను ఉపయోగించి సమగ్రపరచడానికి, మేము agg() ఫంక్షన్ని ఉపయోగించవచ్చు.
అవుట్పుట్ మునుపటిలాగే ఉంటుంది.
ఉదాహరణ # 04: బహుళ నిలువు వరుసలను సమూహపరచడం ద్వారా నిర్దిష్ట నిలువు వరుసల సగటును నిర్ణయించండి
1, 2 మరియు 3 ఉదాహరణలలో, మేము ఒకే నిలువు వరుస యొక్క విలువలు లేదా డేటాను సమూహం చేసాము. ఇప్పుడు మేము groupby() ఫంక్షన్లోని కాలమ్ లేబుల్ల జాబితాను ఉపయోగించి బహుళ నిలువు వరుసలను సమూహపరుస్తాము, ఆపై మేము ప్రతి సమూహానికి సగటు విలువను కనుగొంటాము. డేటాఫ్రేమ్ను రూపొందించడానికి ఇన్పుట్గా pd.Dataframe() ఫంక్షన్లో ఒక నిఘంటువు ‘d’ పాస్ చేయబడుతుంది.
మేము అవసరమైన డేటాఫ్రేమ్ను సృష్టించాము. కాలమ్ 'స్పోర్ట్స్' కొన్ని క్రీడల పేరును నిల్వ చేస్తోంది ('బ్యాడ్మింటన్', 'ఫుట్బాల్', 'టెన్నిస్', 'బాస్కెట్బాల్', 'ఫుట్బాల్', 'టెన్నిస్', 'బాస్కెట్బాల్', 'ఫుట్బాల్', 'బ్యాడ్మింటన్', ' బాస్కెట్బాల్, 'బాస్కెట్బాల్', 'టెన్నిస్'), దేశాల పేర్లు ('చైనా', 'రష్యా', 'ఇటలీ', 'స్పెయిన్', 'రష్యా', 'ఇటలీ', 'చైనా', 'ఇటలీ', ' స్పెయిన్, 'చైనా', 'రష్యా', 'ఇటలీ') 'దేశం' కాలమ్లో నిల్వ చేయబడతాయి. అయితే ‘విన్’ అనే కాలమ్లో ఒక్కో క్రీడలో ఒక్కో దేశం గెలిచిన మ్యాచ్ల సంఖ్యను (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6) భద్రపరిచాము. 'స్పోర్ట్స్' మరియు 'కంట్రీ' అనే నిలువు వరుసలను సమూహపరచడం ద్వారా 'విన్' కాలమ్ విలువల సగటును కనుగొనడానికి groupby.mean() ఫంక్షన్ని ఉపయోగిస్తాము.
దేశంలోని ప్రతి క్రీడకు 'విన్' కాలమ్ విలువల సగటులను ఫంక్షన్ విజయవంతంగా నిర్ణయించింది. సమూహీకరించిన డేటాఫ్రేమ్ను రీసెట్_ఇండెక్స్() ఫంక్షన్ని ఉపయోగించి రీసెట్ చేయవచ్చు, ఇది కొత్త ఇండెక్స్ను కూడా ఉత్పత్తి చేస్తుంది, దానికి తగిన డేటాఫ్రేమ్ నిర్మాణాన్ని ఇస్తుంది.
ప్రతి డేటాఫ్రేమ్ వరుసకు సూచిక జోడించబడుతుంది. ఫలితాలను ఆకర్షణీయమైన పట్టికలో అమర్చడానికి, మేము పివోట్() ఫంక్షన్ను కూడా ఉపయోగించవచ్చు.
ముగింపు
ఈ ట్యుటోరియల్లో, సంఖ్యల సగటు లేదా సగటు ఏమిటి మరియు డేటాఫ్రేమ్లోని కాలమ్ లేదా నిలువు వరుసలను సమూహపరచిన తర్వాత నిర్దిష్ట నిలువు వరుస (ఒకటి లేదా అంతకంటే ఎక్కువ) యొక్క సగటును ఎలా కనుగొనాలో మేము చర్చించాము. ఒకే కాలమ్ యొక్క డేటాను సమూహపరచడం ద్వారా ఒకే పూర్ణాంకం లేదా ఫ్లోట్ కాలమ్ యొక్క సగటును ఎలా నిర్ణయించాలో మీకు నేర్పడానికి మేము ఈ కథనంలో కొన్ని ఉదాహరణలను అమలు చేసాము; groupby.mean() ఫంక్షన్ని ఉపయోగించి బహుళ నిలువు వరుసల సగటును ఎలా నిర్ణయించాలి; మరియు బహుళ నిలువు వరుసలను సమూహపరచడం ద్వారా నిర్దిష్ట నిలువు వరుసల సగటును ఎలా నిర్ణయించాలి.