పైథాన్ మరియు పాండాలతో డేటా క్లీనింగ్ ఎలా చేయాలి

Paithan Mariyu Pandalato Deta Klining Ela Ceyali



డేటాతో పనిచేసే ఎవరికైనా పైథాన్ మరియు పాండాలను ఉపయోగించి డేటాను క్లీన్ చేయడం నేర్చుకోవడం చాలా ముఖ్యం. లోపాలు మరియు అసమానతలను తొలగించడం ద్వారా ఖచ్చితమైన విశ్లేషణ మరియు మోడలింగ్ కోసం డేటా క్లీనింగ్ ఎక్కువగా ఉపయోగించబడుతుంది. ఈ గైడ్ తప్పిపోయిన డేటాను ఎలా నిర్వహించాలో మరియు అవుట్‌లయర్‌లను గుర్తించడం లేదా గుర్తించడం ఎలాగో మాకు చూపే దశల వారీ ప్రక్రియ ద్వారా నడుస్తుంది. పైథాన్ మరియు పాండాలు మా సాధనాలుగా, మేము గజిబిజి డేటాను శుభ్రమైన, ఉపయోగించగల సమాచారంగా మార్చగలము. ఈ గైడ్ మా డేటా నాణ్యతను మెరుగుపరచడంలో మరియు విశ్లేషణ మరియు నిర్ణయం తీసుకోవడానికి దానిని సిద్ధం చేయడంలో కూడా మాకు సహాయపడుతుంది.

పైథాన్ మరియు పాండాలతో డేటాను శుభ్రపరచడం

డేటా అనేది ఈరోజు నిర్ణయం తీసుకోవడానికి బిల్డింగ్ బ్లాక్స్ లాంటిది. కానీ ఈ సేకరణ నుండి వివిధ ఆకారాలు మరియు పరిమాణాల బ్లాక్‌ల సమూహాన్ని కలిగి ఉన్నట్లు ఊహించుకోండి; ఏదైనా అర్థవంతంగా నిర్మించడం కష్టం. ఇక్కడే డేటా క్లీనింగ్ సహాయంగా వస్తుంది.

ఈ గైడ్ మెరుగైన నిర్ణయం తీసుకోవడానికి పాండాస్ అయిన పైథాన్ ఫ్రేమ్‌వర్క్‌ని ఉపయోగించి డేటాను ఎలా క్లీన్ చేయాలో అన్వేషిస్తుంది. డేటా క్లీనింగ్ కూడా అవసరం, మేము స్టోర్ కోసం విక్రయాల రికార్డుల జాబితాతో పని చేస్తున్నాము. జాబితాలో ఎటువంటి కారణం లేకుండా కొన్ని తప్పిపోయిన సంఖ్యలు, విచిత్రమైన తేదీలు మరియు పునరావృతమయ్యే అంశాలను మనం గమనించవచ్చు. మేము ఈ సమాచారం ఆధారంగా లెక్కలు లేదా రికార్డులను చేస్తే, ఈ సమస్యలు మన లెక్కలు మరియు అంచనాలను గందరగోళానికి గురి చేస్తాయి. డేటా క్లీనింగ్ ఈ సమస్యలను పరిష్కరించడంలో సహాయపడుతుంది, మా డేటా ఖచ్చితమైనదని మరియు ఉపయోగించడానికి సిద్ధంగా ఉందని నిర్ధారిస్తుంది.







డేటా క్లీనింగ్‌లో తప్పిపోయిన డేటాను నిర్వహించడం మరియు కొంత డేటా మిస్ అయినప్పుడు ఏమి చేయాలి, డూప్లికేట్‌లను తీసివేయడం, కాపీ చేసిన అంశాలను వదిలించుకోవడం, డేటా రకాలను పరిష్కరించడం, ప్రతిదీ సరైన ఫార్మాట్‌లో ఉండేలా చూసుకోవడం మరియు అవుట్‌లయర్‌లతో వ్యవహరించడం లేదా నంబర్‌లను నిర్వహించడం వంటివి ఉంటాయి. సరిపోదు. ఈ తప్పులు డేటాను ఒకే విధంగా కనిపించేలా చేస్తాయి మరియు డేటా ఎలా కనిపిస్తుందో ప్రామాణికం చేస్తుంది.



ప్రారంభించడానికి, ముందుగా మనం పైథాన్ మరియు పాండాలను ఇన్‌స్టాల్ చేసామని నిర్ధారించుకోండి. మన కంప్యూటర్ టెర్మినల్ లేదా కమాండ్ ప్రాంప్ట్‌లో ఆదేశాలను టైప్ చేయడం ద్వారా మనం దీన్ని చేయవచ్చు. ఈ గైడ్‌లో పేర్కొన్న కోడ్‌లను అమలు చేయడానికి, మేము మా సిస్టమ్‌లో ఇన్‌స్టాల్ చేయబడిన పైథాన్ పైచార్మ్ IDE లేదా “Google Colab” ఆన్‌లైన్ పైథాన్ ప్లాట్‌ఫారమ్‌ని ఉపయోగించవచ్చు మరియు ముఖ్యమైన లైబ్రరీలను ఇన్‌స్టాల్ చేయడానికి “pip” ఆదేశాలను ఇన్‌స్టాల్ చేయవచ్చు.



ఇప్పుడు, పాండాలను దిగుమతి చేసి, మా నమూనా డేటాను లోడ్ చేద్దాం. ఈ ఉదాహరణ కోసం, మేము కోడ్‌లను అమలు చేయడానికి Google Colabని ఉపయోగిస్తాము. కాబట్టి, కింది ఆదేశాన్ని నమోదు చేయడం ద్వారా మేము మొదట పాండాలను దిగుమతి చేస్తాము:





! pip ఇన్స్టాల్ పాండాలు

దిగుమతి పాండాలు వంటి pd

దిగుమతి మొద్దుబారిన వంటి ఉదా

అప్పుడు, ఫైల్ పాత్‌ను ఇన్‌పుట్ పారామీటర్‌గా తీసుకునే pd.read() పద్ధతిని ఉపయోగించి మనం ప్రదర్శించదలిచిన డేటాసెట్‌ను లోడ్ చేస్తాము.

# డేటాసెట్‌ను లోడ్ చేయండి

సమాచారం = pd. చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )

# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి

ముద్రణ ( సమాచారం. తల ( ) )



తదుపరి ఉదాహరణలో, మేము చిన్న దుకాణంలో అమ్మకాల గురించి డేటాను ఉపయోగిస్తాము. తప్పిపోయిన డేటాను నిర్వహించడానికి, మా డేటాలో కొన్నిసార్లు సమాచారం లేదు. మేము ఈ తప్పిపోయిన భాగాలను 'NaN' అని పిలుస్తాము (దీని అర్థం 'సంఖ్య కాదు'). పైథాన్ స్క్రిప్ట్‌లో ఈ తప్పిపోయిన విలువలను కనుగొనడానికి, ముందుగా మేము మునుపటి ఉదాహరణలో చేసినట్లుగా డేటా సెట్‌ను లోడ్ చేస్తాము. అప్పుడు, “missing_values ​​= data.isnull().sum()” ఫంక్షన్‌ని ఉపయోగించి డేటా సెట్‌లో ఏవైనా తప్పిపోయిన విలువలను మేము కనుగొంటాము. ఈ ఫంక్షన్ డేటాసెట్‌లో తప్పిపోయిన అన్ని విలువలను కనుగొంటుంది. అప్పుడు, మేము వాటిని ప్రింట్ () ఫంక్షన్ ఉపయోగించి ప్రదర్శిస్తాము.

! pip ఇన్స్టాల్ పాండాలు
దిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా

# డేటాసెట్‌ను లోడ్ చేయండి
సమాచారం = pd. చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )

# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )

# తప్పిపోయిన విలువల కోసం తనిఖీ చేయండి
తప్పిపోయిన_విలువలు = సమాచారం. శూన్యం ( ) . మొత్తం ( )

# తప్పిపోయిన విలువలను నిలువు వరుసల వారీగా ప్రదర్శించండి
ముద్రణ ( తప్పిపోయిన_విలువలు )

మునుపు పేర్కొన్న కోడ్‌ని అమలు చేసే ఏదైనా అడ్డు వరుసలో తప్పిపోయిన డేటాను మేము కనుగొన్న తర్వాత, ఆ అడ్డు వరుసలలో ఎక్కువ ఉపయోగకరమైన డేటా లేనందున మేము ఆ అడ్డు వరుసలను తీసివేయవచ్చు. మేము ఆ తప్పిపోయిన విలువలను కూడా ఊహించవచ్చు మరియు సమీపంలోని పాయింట్ల ఆధారంగా సమయ-ఆధారిత డేటాను అంచనా వేయడం ద్వారా విద్యావంతులైన అంచనాలతో ఖాళీలను పూరించవచ్చు.

ఇప్పుడు, అదే విషయం యొక్క కాపీలుగా ఉన్న నకిలీలను మేము తీసివేస్తాము ఎందుకంటే అవి మా విశ్లేషణను గందరగోళానికి గురిచేస్తాయి. డేటా సెట్‌లో నకిలీ విలువలను కనుగొనడానికి, మేము “duplicate_rows = data[data.duplicated()]” ఫంక్షన్‌ని ఉపయోగిస్తాము. ఈ నకిలీ విలువలను వదలడానికి, మేము data.drop_duplicates() ఫంక్షన్ అని పిలుస్తాము. కింది కోడ్‌ని ఉపయోగించి మనం వాటిని కనుగొని తీసివేయవచ్చు:

! pip ఇన్స్టాల్ పాండాలు
దిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా
# డేటాసెట్‌ను లోడ్ చేయండి
సమాచారం = pd. చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )
# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )

# నకిలీ అడ్డు వరుసల కోసం తనిఖీ చేయండి
నకిలీ_వరుసలు = సమాచారం [ సమాచారం. నకిలీ ( ) ]

# నకిలీలను తొలగించండి
సమాచారం = సమాచారం. డ్రాప్_డూప్లికేట్స్ ( )

# నకిలీలను తీసివేసిన తర్వాత మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )

డేటా రకాలను పరిష్కరించడానికి ఏ డేటాను నిల్వ చేయవచ్చో డేటా రకాలు నిర్ణయిస్తాయి. ప్రతి రకమైన డేటాకు సరైన రకాన్ని కలిగి ఉండటం చాలా అవసరం. ఉదాహరణకు, తేదీలు తేదీ సమయం యొక్క డేటా రకాన్ని కలిగి ఉండాలి మరియు సంఖ్యలు int, float మొదలైన డేటా రకంలో ఉండాలి. మా డేటా యొక్క డేటా రకాలను తనిఖీ చేయడానికి, మేము “data.dtypes” ఫంక్షన్‌ని ఉపయోగిస్తాము. ఈ ఫంక్షన్ క్రింది విధంగా ఉపయోగించవచ్చు:

! pip ఇన్స్టాల్ పాండాలు
దిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా
# డేటాసెట్‌ను లోడ్ చేయండి
సమాచారం = pd చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )
# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
# ప్రతి నిలువు వరుస యొక్క డేటా రకాలను తనిఖీ చేయండి
డేటా_రకాలు = సమాచారం. dtypes

# డేటా రకాలను ప్రదర్శించండి
ముద్రణ ( డేటా_రకాలు )

మేము ఏవైనా సమస్యలను కనుగొంటే, మేము పాండాలను ఉపయోగించి డేటా రకాన్ని మార్చవచ్చు. ఉదాహరణకు, మేము తేదీలను తేదీ ఆకృతిలో చేయవచ్చు. DataFrame యొక్క “dtypes” లక్షణం ప్రతి నిలువు వరుస యొక్క డేటా రకాల గురించి సమాచారాన్ని అందిస్తుంది. డేటా రకం సరిపోలని మేము కనుగొంటే, నిలువు వరుసలను కావలసిన రకాలుగా మార్చడానికి పాండాస్ అస్టైప్() ఫంక్షన్‌ని ఉపయోగించవచ్చు.

డేటా రకాల తర్వాత, మేము కొన్నిసార్లు అవుట్‌లైయర్‌లను ఎదుర్కొంటాము, ఇవి ఇతరుల నుండి చాలా భిన్నంగా ఉంటాయి. అవి మన లెక్కలను తారుమారు చేయగలవు. అవుట్‌లయర్‌లతో వ్యవహరించడానికి, మేము 'np.abs(stats.zscore(data))' z-స్కోర్ ఫంక్షన్‌ని ఉపయోగించే ఒక ఫంక్షన్‌ని నిర్వచించాము, ఇది మా డేటాలో ఉన్న విలువలను థ్రెషోల్డ్ విలువతో పోల్చుతుంది. ఈ థ్రెషోల్డ్ పరిధి కాకుండా ఏదైనా విలువ అవుట్‌లియర్‌గా పరిగణించబడుతుంది . అవుట్‌లయర్‌లను ఎలా కనుగొనాలో మరియు ఎలా నిర్వహించాలో చూద్దాం:

! pip ఇన్స్టాల్ పాండాలు
దిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా

# డేటాసెట్‌ను లోడ్ చేయండి
సమాచారం = pd చదవండి_csv ( '/content/sample_data/california_housing_test.csv' )

# మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )
నుండి scipy దిగుమతి గణాంకాలు

డెఫ్ బయటివాళ్ళను గుర్తించడం ( సమాచారం ) :
z_స్కోర్లు = ఉదా abs ( గణాంకాలు. zస్కోర్ ( సమాచారం ) )
తిరిగి ఉదా ఎక్కడ ( z_స్కోర్లు > 3 )

# 'సేల్స్' కాలమ్‌లో అవుట్‌లయర్‌లను గుర్తించి, నిర్వహించండి
బయటివారు = బయటివాళ్ళను గుర్తించడం ( సమాచారం [ 'రేఖాంశం' ] )
సమాచారం [ 'రేఖాంశం' ] . స్థలం [ బయటివారు ] = సమాచారం [ 'రేఖాంశం' ] . మధ్యస్థ ( )

# 'యూనిట్స్ సోల్డ్' కాలమ్‌లో అవుట్‌లయర్‌లను గుర్తించి, నిర్వహించండి
బయటివారు = బయటివాళ్ళను గుర్తించడం ( సమాచారం [ 'అక్షాంశం' ] )
సమాచారం [ 'అక్షాంశం' ] . స్థలం [ బయటివారు ] = సమాచారం [ 'అక్షాంశం' ] . మధ్యస్థ ( )

# అవుట్‌లియర్‌లను హ్యాండిల్ చేసిన తర్వాత మొదటి కొన్ని అడ్డు వరుసలను ప్రదర్శించండి
ముద్రణ ( సమాచారం. తల ( ) )

మునుపటి కోడ్‌లోని అవుట్‌లయర్‌లను కనుగొని పరిష్కరించడానికి మేము సరళమైన పద్ధతిని ఉపయోగిస్తాము. ఇది డేటా మధ్య విలువతో విపరీతమైన విలువలను భర్తీ చేస్తుంది. ఈ కోడ్ మా డేటా సెట్ యొక్క 'రేఖాంశం' మరియు 'అక్షాంశం' నిలువు వరుసలలోని అవుట్‌లయర్‌లను గుర్తించడానికి Z-స్కోర్ పద్ధతిని ఉపయోగిస్తుంది. అవుట్‌లియర్‌లు వాటి సంబంధిత నిలువు వరుసల మధ్యస్థ విలువలతో భర్తీ చేయబడతాయి.

డేటా ఒకేలా కనిపించేలా చేయడానికి, డేటా ఒక్కోసారి భిన్నంగా కనిపించవచ్చు. ఉదాహరణకు, తేదీలను వివిధ ఫార్మాట్లలో వ్రాయవచ్చు. స్టాండర్డైజేషన్ అనేది స్థిరమైన డేటా ఫార్మాట్ మరియు ప్రాతినిధ్యాన్ని నిర్ధారించడం. ఇందులో తేదీలను ఫార్మాట్ చేయడం, వచనాన్ని చిన్న అక్షరానికి మార్చడం లేదా సంఖ్యా విలువలను సాధారణీకరించడం వంటివి ఉంటాయి. మన డేటాసెట్‌లోని “తేదీ” కాలమ్‌ను ప్రామాణికం చేద్దాం మరియు మా డేటా అదే విధంగా ఉందని నిర్ధారించుకోండి:

దిగుమతి పాండాలు వంటి pd
దిగుమతి మొద్దుబారిన వంటి ఉదా # నంపీని దిగుమతి చేయండి

# డేటాను లోడ్ చేయండి
సమాచారం = pd చదవండి_csv ( 'sales_data.csv' )

# 'తేదీ' నిలువు వరుస స్థిరంగా కనిపించేలా చేయండి
సమాచారం [ 'తేదీ' ] = pd టు_డేట్ టైమ్ ( సమాచారం [ 'తేదీ' ] )

# ఇప్పుడు ఎలా ఉందో చూడండి
ముద్రణ ( సమాచారం. తల ( ) )

ఈ ఉదాహరణలో, మేము 'pd.to_datetime(data['Date'])' ఫంక్షన్‌ని ఉపయోగించి మా డేటాసెట్‌లోని తేదీ ఆకృతిని పైథాన్ యొక్క డేట్‌టైమ్ ఫార్మాట్‌కి ప్రామాణికం చేస్తాము. 'తేదీ' నిలువు వరుసను అదే ఫార్మాట్‌లోకి మార్చడం ద్వారా, మేము ఈ డేటాతో పని చేయడాన్ని సులభతరం చేస్తాము. అవుట్‌పుట్ డేటాసెట్ యొక్క మొదటి కొన్ని అడ్డు వరుసలను ప్రామాణిక 'తేదీ' కాలమ్‌తో ప్రదర్శిస్తుంది.

ముగింపు

పైథాన్ మరియు పాండాలను ఉపయోగించి డేటా క్లీనింగ్ ద్వారా మా ప్రయాణంలో, విశ్లేషణ కోసం మా డేటాను ఎలా మెరుగుపరచాలో మేము నేర్చుకున్నాము. డేటాను క్లీన్ చేయడం ఎందుకు చాలా ముఖ్యమైనదో అర్థం చేసుకోవడం ద్వారా మేము ప్రారంభించాము. ఇది మంచి నిర్ణయాలు తీసుకోవడానికి మాకు సహాయపడుతుంది. తప్పిపోయిన డేటాతో వ్యవహరించడం, నకిలీలను తీసివేయడం, డేటా రకాలను పరిష్కరించడం, అవుట్‌లయర్‌లను నిర్వహించడం మరియు మా డేటాను ఒకే విధంగా కనిపించేలా చేయడం ఎలాగో మేము అన్వేషించాము. ఈ నైపుణ్యాలతో, గజిబిజిగా ఉన్న డేటాను మనం విశ్వసించగలిగే మరియు ముఖ్యమైన సమాచారాన్ని కనుగొనడానికి ఉపయోగించేలా మార్చడానికి మేము బాగా సిద్ధంగా ఉన్నాము. డేటా క్లీనింగ్ అనేది మన గదిని చక్కగా ఉంచుకోవడం వంటి నిరంతర ప్రక్రియ మరియు ఇది మా డేటా విశ్లేషణ ప్రయాణాన్ని మరింత విజయవంతం చేస్తుంది.