పైథాన్ మరియు పాండాలతో డేటాను శుభ్రపరచడం
డేటా అనేది ఈరోజు నిర్ణయం తీసుకోవడానికి బిల్డింగ్ బ్లాక్స్ లాంటిది. కానీ ఈ సేకరణ నుండి వివిధ ఆకారాలు మరియు పరిమాణాల బ్లాక్ల సమూహాన్ని కలిగి ఉన్నట్లు ఊహించుకోండి; ఏదైనా అర్థవంతంగా నిర్మించడం కష్టం. ఇక్కడే డేటా క్లీనింగ్ సహాయంగా వస్తుంది.
ఈ గైడ్ మెరుగైన నిర్ణయం తీసుకోవడానికి పాండాస్ అయిన పైథాన్ ఫ్రేమ్వర్క్ని ఉపయోగించి డేటాను ఎలా క్లీన్ చేయాలో అన్వేషిస్తుంది. డేటా క్లీనింగ్ కూడా అవసరం, మేము స్టోర్ కోసం విక్రయాల రికార్డుల జాబితాతో పని చేస్తున్నాము. జాబితాలో ఎటువంటి కారణం లేకుండా కొన్ని తప్పిపోయిన సంఖ్యలు, విచిత్రమైన తేదీలు మరియు పునరావృతమయ్యే అంశాలను మనం గమనించవచ్చు. మేము ఈ సమాచారం ఆధారంగా లెక్కలు లేదా రికార్డులను చేస్తే, ఈ సమస్యలు మన లెక్కలు మరియు అంచనాలను గందరగోళానికి గురి చేస్తాయి. డేటా క్లీనింగ్ ఈ సమస్యలను పరిష్కరించడంలో సహాయపడుతుంది, మా డేటా ఖచ్చితమైనదని మరియు ఉపయోగించడానికి సిద్ధంగా ఉందని నిర్ధారిస్తుంది.
డేటా క్లీనింగ్లో తప్పిపోయిన డేటాను నిర్వహించడం మరియు కొంత డేటా మిస్ అయినప్పుడు ఏమి చేయాలి, డూప్లికేట్లను తీసివేయడం, కాపీ చేసిన అంశాలను వదిలించుకోవడం, డేటా రకాలను పరిష్కరించడం, ప్రతిదీ సరైన ఫార్మాట్లో ఉండేలా చూసుకోవడం మరియు అవుట్లయర్లతో వ్యవహరించడం లేదా నంబర్లను నిర్వహించడం వంటివి ఉంటాయి. సరిపోదు. ఈ తప్పులు డేటాను ఒకే విధంగా కనిపించేలా చేస్తాయి మరియు డేటా ఎలా కనిపిస్తుందో ప్రామాణికం చేస్తుంది.
ప్రారంభించడానికి, ముందుగా మనం పైథాన్ మరియు పాండాలను ఇన్స్టాల్ చేసామని నిర్ధారించుకోండి. మన కంప్యూటర్ టెర్మినల్ లేదా కమాండ్ ప్రాంప్ట్లో ఆదేశాలను టైప్ చేయడం ద్వారా మనం దీన్ని చేయవచ్చు. ఈ గైడ్లో పేర్కొన్న కోడ్లను అమలు చేయడానికి, మేము మా సిస్టమ్లో ఇన్స్టాల్ చేయబడిన పైథాన్ పైచార్మ్ IDE లేదా “Google Colab” ఆన్లైన్ పైథాన్ ప్లాట్ఫారమ్ని ఉపయోగించవచ్చు మరియు ముఖ్యమైన లైబ్రరీలను ఇన్స్టాల్ చేయడానికి “pip” ఆదేశాలను ఇన్స్టాల్ చేయవచ్చు.
ఇప్పుడు, పాండాలను దిగుమతి చేసి, మా నమూనా డేటాను లోడ్ చేద్దాం. ఈ ఉదాహరణ కోసం, మేము కోడ్లను అమలు చేయడానికి Google Colabని ఉపయోగిస్తాము. కాబట్టి, కింది ఆదేశాన్ని నమోదు చేయడం ద్వారా మేము మొదట పాండాలను దిగుమతి చేస్తాము:
! pip ఇన్స్టాల్ పాండాలు
దిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా
అప్పుడు, ఫైల్ పాత్ను ఇన్పుట్ పారామీటర్గా తీసుకునే pd.read() పద్ధతిని ఉపయోగించి మనం ప్రదర్శించదలిచిన డేటాసెట్ను లోడ్ చేస్తాము.
# డేటాసెట్ను లోడ్ చేయండిసమాచారం = pd. చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )
# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
తదుపరి ఉదాహరణలో, మేము చిన్న దుకాణంలో అమ్మకాల గురించి డేటాను ఉపయోగిస్తాము. తప్పిపోయిన డేటాను నిర్వహించడానికి, మా డేటాలో కొన్నిసార్లు సమాచారం లేదు. మేము ఈ తప్పిపోయిన భాగాలను 'NaN' అని పిలుస్తాము (దీని అర్థం 'సంఖ్య కాదు'). పైథాన్ స్క్రిప్ట్లో ఈ తప్పిపోయిన విలువలను కనుగొనడానికి, ముందుగా మేము మునుపటి ఉదాహరణలో చేసినట్లుగా డేటా సెట్ను లోడ్ చేస్తాము. అప్పుడు, “missing_values = data.isnull().sum()” ఫంక్షన్ని ఉపయోగించి డేటా సెట్లో ఏవైనా తప్పిపోయిన విలువలను మేము కనుగొంటాము. ఈ ఫంక్షన్ డేటాసెట్లో తప్పిపోయిన అన్ని విలువలను కనుగొంటుంది. అప్పుడు, మేము వాటిని ప్రింట్ () ఫంక్షన్ ఉపయోగించి ప్రదర్శిస్తాము.
! pip ఇన్స్టాల్ పాండాలుదిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా
# డేటాసెట్ను లోడ్ చేయండి
సమాచారం = pd. చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )
# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
# తప్పిపోయిన విలువల కోసం తనిఖీ చేయండి
తప్పిపోయిన_విలువలు = సమాచారం. శూన్యం ( ) . మొత్తం ( )
# తప్పిపోయిన విలువలను నిలువు వరుసల వారీగా ప్రదర్శించండి
ముద్రణ ( తప్పిపోయిన_విలువలు )
మునుపు పేర్కొన్న కోడ్ని అమలు చేసే ఏదైనా అడ్డు వరుసలో తప్పిపోయిన డేటాను మేము కనుగొన్న తర్వాత, ఆ అడ్డు వరుసలలో ఎక్కువ ఉపయోగకరమైన డేటా లేనందున మేము ఆ అడ్డు వరుసలను తీసివేయవచ్చు. మేము ఆ తప్పిపోయిన విలువలను కూడా ఊహించవచ్చు మరియు సమీపంలోని పాయింట్ల ఆధారంగా సమయ-ఆధారిత డేటాను అంచనా వేయడం ద్వారా విద్యావంతులైన అంచనాలతో ఖాళీలను పూరించవచ్చు.
ఇప్పుడు, అదే విషయం యొక్క కాపీలుగా ఉన్న నకిలీలను మేము తీసివేస్తాము ఎందుకంటే అవి మా విశ్లేషణను గందరగోళానికి గురిచేస్తాయి. డేటా సెట్లో నకిలీ విలువలను కనుగొనడానికి, మేము “duplicate_rows = data[data.duplicated()]” ఫంక్షన్ని ఉపయోగిస్తాము. ఈ నకిలీ విలువలను వదలడానికి, మేము data.drop_duplicates() ఫంక్షన్ అని పిలుస్తాము. కింది కోడ్ని ఉపయోగించి మనం వాటిని కనుగొని తీసివేయవచ్చు:
! pip ఇన్స్టాల్ పాండాలుదిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా
# డేటాసెట్ను లోడ్ చేయండి
సమాచారం = pd. చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )
# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
# నకిలీ అడ్డు వరుసల కోసం తనిఖీ చేయండి
నకిలీ_వరుసలు = సమాచారం [ సమాచారం. నకిలీ ( ) ]
# నకిలీలను తొలగించండి
సమాచారం = సమాచారం. డ్రాప్_డూప్లికేట్స్ ( )
# నకిలీలను తీసివేసిన తర్వాత మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
డేటా రకాలను పరిష్కరించడానికి ఏ డేటాను నిల్వ చేయవచ్చో డేటా రకాలు నిర్ణయిస్తాయి. ప్రతి రకమైన డేటాకు సరైన రకాన్ని కలిగి ఉండటం చాలా అవసరం. ఉదాహరణకు, తేదీలు తేదీ సమయం యొక్క డేటా రకాన్ని కలిగి ఉండాలి మరియు సంఖ్యలు int, float మొదలైన డేటా రకంలో ఉండాలి. మా డేటా యొక్క డేటా రకాలను తనిఖీ చేయడానికి, మేము “data.dtypes” ఫంక్షన్ని ఉపయోగిస్తాము. ఈ ఫంక్షన్ క్రింది విధంగా ఉపయోగించవచ్చు:
! pip ఇన్స్టాల్ పాండాలుదిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా
# డేటాసెట్ను లోడ్ చేయండి
సమాచారం = pd చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )
# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
# ప్రతి నిలువు వరుస యొక్క డేటా రకాలను తనిఖీ చేయండి
డేటా_రకాలు = సమాచారం. dtypes
# డేటా రకాలను ప్రదర్శించండి
ముద్రణ ( డేటా_రకాలు )
మేము ఏవైనా సమస్యలను కనుగొంటే, మేము పాండాలను ఉపయోగించి డేటా రకాన్ని మార్చవచ్చు. ఉదాహరణకు, మేము తేదీలను తేదీ ఆకృతిలో చేయవచ్చు. DataFrame యొక్క “dtypes” లక్షణం ప్రతి నిలువు వరుస యొక్క డేటా రకాల గురించి సమాచారాన్ని అందిస్తుంది. డేటా రకం సరిపోలని మేము కనుగొంటే, నిలువు వరుసలను కావలసిన రకాలుగా మార్చడానికి పాండాస్ అస్టైప్() ఫంక్షన్ని ఉపయోగించవచ్చు.
డేటా రకాల తర్వాత, మేము కొన్నిసార్లు అవుట్లైయర్లను ఎదుర్కొంటాము, ఇవి ఇతరుల నుండి చాలా భిన్నంగా ఉంటాయి. అవి మన లెక్కలను తారుమారు చేయగలవు. అవుట్లయర్లతో వ్యవహరించడానికి, మేము 'np.abs(stats.zscore(data))' z-స్కోర్ ఫంక్షన్ని ఉపయోగించే ఒక ఫంక్షన్ని నిర్వచించాము, ఇది మా డేటాలో ఉన్న విలువలను థ్రెషోల్డ్ విలువతో పోల్చుతుంది. ఈ థ్రెషోల్డ్ పరిధి కాకుండా ఏదైనా విలువ అవుట్లియర్గా పరిగణించబడుతుంది . అవుట్లయర్లను ఎలా కనుగొనాలో మరియు ఎలా నిర్వహించాలో చూద్దాం:
! pip ఇన్స్టాల్ పాండాలుదిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా
# డేటాసెట్ను లోడ్ చేయండి
సమాచారం = pd చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )
# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
నుండి scipy దిగుమతి గణాంకాలు
డెఫ్ బయటివాళ్ళను గుర్తించడం ( సమాచారం ) :
z_స్కోర్లు = ఉదా abs ( గణాంకాలు. zస్కోర్ ( సమాచారం ) )
తిరిగి ఉదా ఎక్కడ ( z_స్కోర్లు > 3 )
# 'సేల్స్' కాలమ్లో అవుట్లయర్లను గుర్తించి, నిర్వహించండి
బయటివారు = బయటివాళ్ళను గుర్తించడం ( సమాచారం [ 'రేఖాంశం' ] )
సమాచారం [ 'రేఖాంశం' ] . స్థలం [ బయటివారు ] = సమాచారం [ 'రేఖాంశం' ] . మధ్యస్థ ( )
# 'యూనిట్స్ సోల్డ్' కాలమ్లో అవుట్లయర్లను గుర్తించి, నిర్వహించండి
బయటివారు = బయటివాళ్ళను గుర్తించడం ( సమాచారం [ 'అక్షాంశం' ] )
సమాచారం [ 'అక్షాంశం' ] . స్థలం [ బయటివారు ] = సమాచారం [ 'అక్షాంశం' ] . మధ్యస్థ ( )
# అవుట్లియర్లను హ్యాండిల్ చేసిన తర్వాత మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
మునుపటి కోడ్లోని అవుట్లయర్లను కనుగొని పరిష్కరించడానికి మేము సరళమైన పద్ధతిని ఉపయోగిస్తాము. ఇది డేటా మధ్య విలువతో విపరీతమైన విలువలను భర్తీ చేస్తుంది. ఈ కోడ్ మా డేటా సెట్ యొక్క 'రేఖాంశం' మరియు 'అక్షాంశం' నిలువు వరుసలలోని అవుట్లయర్లను గుర్తించడానికి Z-స్కోర్ పద్ధతిని ఉపయోగిస్తుంది. అవుట్లియర్లు వాటి సంబంధిత నిలువు వరుసల మధ్యస్థ విలువలతో భర్తీ చేయబడతాయి.
డేటా ఒకేలా కనిపించేలా చేయడానికి, డేటా ఒక్కోసారి భిన్నంగా కనిపించవచ్చు. ఉదాహరణకు, తేదీలను వివిధ ఫార్మాట్లలో వ్రాయవచ్చు. స్టాండర్డైజేషన్ అనేది స్థిరమైన డేటా ఫార్మాట్ మరియు ప్రాతినిధ్యాన్ని నిర్ధారించడం. ఇందులో తేదీలను ఫార్మాట్ చేయడం, వచనాన్ని చిన్న అక్షరానికి మార్చడం లేదా సంఖ్యా విలువలను సాధారణీకరించడం వంటివి ఉంటాయి. మన డేటాసెట్లోని “తేదీ” కాలమ్ను ప్రామాణికం చేద్దాం మరియు మా డేటా అదే విధంగా ఉందని నిర్ధారించుకోండి:
దిగుమతి పాండాలు వంటి pdదిగుమతి మొద్దుబారిన వంటి ఉదా # నంపీని దిగుమతి చేయండి
# డేటాను లోడ్ చేయండి
సమాచారం = pd చదవండి_csv ( 'sales_data.csv' )
# 'తేదీ' నిలువు వరుస స్థిరంగా కనిపించేలా చేయండి
సమాచారం [ 'తేదీ' ] = pd టు_డేట్ టైమ్ ( సమాచారం [ 'తేదీ' ] )
# ఇప్పుడు ఎలా ఉందో చూడండి
ముద్రణ ( సమాచారం. తల ( ) )
ఈ ఉదాహరణలో, మేము 'pd.to_datetime(data['Date'])' ఫంక్షన్ని ఉపయోగించి మా డేటాసెట్లోని తేదీ ఆకృతిని పైథాన్ యొక్క డేట్టైమ్ ఫార్మాట్కి ప్రామాణికం చేస్తాము. 'తేదీ' నిలువు వరుసను అదే ఫార్మాట్లోకి మార్చడం ద్వారా, మేము ఈ డేటాతో పని చేయడాన్ని సులభతరం చేస్తాము. అవుట్పుట్ డేటాసెట్ యొక్క మొదటి కొన్ని అడ్డు వరుసలను ప్రామాణిక 'తేదీ' కాలమ్తో ప్రదర్శిస్తుంది.
ముగింపు
పైథాన్ మరియు పాండాలను ఉపయోగించి డేటా క్లీనింగ్ ద్వారా మా ప్రయాణంలో, విశ్లేషణ కోసం మా డేటాను ఎలా మెరుగుపరచాలో మేము నేర్చుకున్నాము. డేటాను క్లీన్ చేయడం ఎందుకు చాలా ముఖ్యమైనదో అర్థం చేసుకోవడం ద్వారా మేము ప్రారంభించాము. ఇది మంచి నిర్ణయాలు తీసుకోవడానికి మాకు సహాయపడుతుంది. తప్పిపోయిన డేటాతో వ్యవహరించడం, నకిలీలను తీసివేయడం, డేటా రకాలను పరిష్కరించడం, అవుట్లయర్లను నిర్వహించడం మరియు మా డేటాను ఒకే విధంగా కనిపించేలా చేయడం ఎలాగో మేము అన్వేషించాము. ఈ నైపుణ్యాలతో, గజిబిజిగా ఉన్న డేటాను మనం విశ్వసించగలిగే మరియు ముఖ్యమైన సమాచారాన్ని కనుగొనడానికి ఉపయోగించేలా మార్చడానికి మేము బాగా సిద్ధంగా ఉన్నాము. డేటా క్లీనింగ్ అనేది మన గదిని చక్కగా ఉంచుకోవడం వంటి నిరంతర ప్రక్రియ మరియు ఇది మా డేటా విశ్లేషణ ప్రయాణాన్ని మరింత విజయవంతం చేస్తుంది.