డేటా సాధారణీకరణ అనేది మెషీన్ తక్కువ శ్రేణి డేటాను ప్రాసెస్ చేయాల్సి ఉన్నందున వేగంగా ఫలితాన్ని పొందడానికి సహాయపడే ఒక టెక్నిక్. సాధారణీకరణ అనేది అంత సులభమైన పని కాదు ఎందుకంటే మీ ఫలితాలన్నీ మీ సాధారణీకరణ పద్ధతి ఎంపికపై ఆధారపడి ఉంటాయి. కాబట్టి, మీ డేటాను సాధారణీకరించడానికి మీరు తప్పు పద్ధతిని ఎంచుకున్నట్లయితే, మీరు మీ అంచనాలకు భిన్నంగా ఏదైనా పొందవచ్చు.
సాధారణీకరణ అనేది ఇమేజ్లు, టెక్స్ట్, న్యూమరిక్ వంటి డేటా రకంపై కూడా ఆధారపడి ఉంటుంది. కాబట్టి, ప్రతి డేటా రకం సాధారణీకరించడానికి వేరే పద్ధతిని కలిగి ఉంటుంది. కాబట్టి, ఈ వ్యాసంలో, మేము సంఖ్యా డేటాపై దృష్టి పెడుతున్నాము.
విధానం 1: స్క్లేర్న్ ఉపయోగించడం
డేటాను సాధారణీకరించడానికి స్క్లెర్న్ పద్ధతి చాలా ప్రసిద్ధ పద్ధతి.
సెల్ నంబర్లో [83] : మేము అవసరమైన అన్ని లైబ్రరీలు, NumPy మరియు sklearn లను దిగుమతి చేస్తాము. మేము ప్రీ ప్రాసెసింగ్ను స్క్లేర్న్ నుండే దిగుమతి చేస్తామని మీరు చూడవచ్చు. అందుకే ఇది స్క్లేర్న్ నార్మలైజేషన్ పద్ధతి.
సెల్ నంబర్లో [84] : మేము ఒకేలా లేని కొంత పూర్ణాంక విలువతో NumPy శ్రేణిని సృష్టించాము.
సెల్ నంబర్లో [85] .
సెల్ నంబర్లో [86] : ఫలితాల నుండి మనం చూడవచ్చు, మా మొత్తం పూర్ణాంక డేటా ఇప్పుడు 0 మరియు 1 మధ్య సాధారణీకరించబడింది.
విధానం 2: స్క్లేర్న్ ఉపయోగించి డేటాసెట్లో నిర్దిష్ట కాలమ్ని సాధారణీకరించండి
మేము నిర్దిష్ట డేటాసెట్ కాలమ్ని కూడా సాధారణీకరించవచ్చు. దీనిలో, మేము దాని గురించి చర్చించబోతున్నాము.
సెల్ నంబర్లో [87] : మేము లైబ్రరీ పాండాలు మరియు స్క్లేర్న్ దిగుమతి చేస్తాము.
సెల్ నంబర్లో [88] : మేము డమ్మీ CSV ఫైల్ను సృష్టించాము, మరియు మేము ఇప్పుడు పాండాలు (read_csv) ప్యాకేజీ సహాయంతో ఆ CSV ఫైల్ను లోడ్ చేస్తున్నాము.
సెల్ నంబర్లో [89] : మేము ఇటీవల లోడ్ చేసిన CSV ఫైల్ను మేము ప్రింట్ చేస్తాము.
సెల్ నంబర్లో [90] : మేము np ఉపయోగించి CSV ఫైల్ యొక్క నిర్దిష్ట కాలమ్ను చదువుతాము. శ్రేణి మరియు ఫలితాన్ని value_array కి నిల్వ చేయండి.
సెల్ నంబర్లో [92] , మేము ప్రీ ప్రాసెసింగ్ నుండి సాధారణీకరణ పద్ధతిని పిలిచాము మరియు value_array పరామితిని పాస్ చేసాము.
విధానం 3: శ్రేణికి నిలువు వరుసలను ఉపయోగించకుండా సాధారణీకరించడానికి మార్చండి (స్క్లేర్న్ ఉపయోగించి)
మునుపటి పద్ధతి 2 లో, మేము ఒక నిర్దిష్ట CSV ఫైల్ కాలమ్ని ఎలా సాధారణీకరించవచ్చో చర్చించాము. కానీ కొన్నిసార్లు మనం మొత్తం డేటాసెట్ని సాధారణీకరించాల్సి ఉంటుంది, అప్పుడు మేము మొత్తం డేటాసెట్ని సాధారణీకరించే దిగువ పద్ధతిని ఉపయోగించవచ్చు కానీ కాలమ్ వారీగా (యాక్సిస్ = 0). మేము అక్షం = 1 అని పేర్కొన్నట్లయితే, అది వరుస వారీగా సాధారణీకరిస్తుంది. అక్షం = 1 డిఫాల్ట్ విలువ ద్వారా ఉంటుంది.
సెల్ నంబర్లో [93] : మేము లైబ్రరీ పాండాలు మరియు స్క్లేర్న్ దిగుమతి చేస్తాము.
సెల్ నంబర్లో [94] : మేము డమ్మీ CSV ఫైల్ (demo_numeric.csv) ను సృష్టించాము మరియు మేము ఇప్పుడు CSV ఫైల్ను పాండాలు (read_csv) ప్యాకేజీ సహాయంతో లోడ్ చేస్తున్నాము.
సెల్ నంబర్లో [95] : మేము ఇటీవల లోడ్ చేసిన CSV ఫైల్ను మేము ప్రింట్ చేస్తాము.
సెల్ నంబర్లో [96] : ఇప్పుడు, మేము మొత్తం CSV ఫైల్ను మరో అదనపు పారామీటర్ అక్షం = 0 తో పాటు పాస్ చేస్తాము, ఇది వినియోగదారు మొత్తం డేటాసెట్ను కాలమ్ వారీగా సాధారణీకరించాలనుకుంటున్నట్లు లైబ్రరీకి చెప్పింది.
సెల్ నంబర్లో [97] , మేము ఫలితాన్ని ముద్రించి, 0 మరియు 1 మధ్య విలువతో డేటాను సాధారణీకరిస్తాము.
విధానం 4: MinMaxScaler () ఉపయోగించి
Sklearn సాధారణీకరణ యొక్క మరొక పద్ధతిని కూడా అందిస్తుంది, దీనిని మేము MinMaxScalar అని పిలుస్తాము. ఇది కూడా చాలా ప్రజాదరణ పొందిన పద్ధతి ఎందుకంటే ఇది ఉపయోగించడానికి సులభమైనది.
సెల్ నంబర్లో [98] : మేము అవసరమైన అన్ని ప్యాకేజీలను దిగుమతి చేస్తాము.
సెల్ నంబర్లో [99] : మేము డమ్మీ CSV ఫైల్ (demo_numeric.csv) ను సృష్టించాము మరియు మేము ఇప్పుడు CSV ఫైల్ను పాండాలు (read_csv) ప్యాకేజీ సహాయంతో లోడ్ చేస్తున్నాము.
సెల్ నంబర్లో [100] : మేము ఇటీవల లోడ్ చేసిన CSV ఫైల్ను మేము ప్రింట్ చేస్తాము.
సెల్ నంబర్లో [101] : మేము ప్రీ ప్రాసెసింగ్ పద్ధతి నుండి MinMaxScalar కి కాల్ చేసాము మరియు దాని కోసం ఒక వస్తువును (min_max_Scalar) సృష్టించాము. మేము 0 మరియు 1 మధ్య డేటాను సాధారణీకరించాల్సిన అవసరం ఉన్నందున మేము ఎటువంటి పారామితులను పాస్ చేయలేదు. అయితే మీకు కావాలంటే, మీరు తదుపరి పద్ధతిలో కనిపించే మీ విలువలను జోడించవచ్చు.
సెల్ నంబర్లో [102] : ఫలితాలను ప్రదర్శించడానికి మరింత ఉపయోగం కోసం మేము మొదట అన్ని నిలువు పేర్లను చదివాము. అప్పుడు మనం సృష్టించిన ఆబ్జెక్ట్ min_max_Scalar నుండి fit_tranform అని పిలుస్తాము మరియు CSV ఫైల్ని అందులోకి పాస్ చేస్తాము.
సెల్ నంబర్లో [103] : మేము 0 మరియు 1 మధ్య ఉండే సాధారణ ఫలితాలను పొందుతాము.
విధానం 5: MinMaxScaler ని ఉపయోగించడం (ఫీచర్_రేంజ్ = (x, y))
మీకు కావలసిన దాని యొక్క సాధారణీకరించిన విలువను మార్చుకునే అవకాశాన్ని కూడా స్క్లీర్న్ అందిస్తుంది. డిఫాల్ట్గా, వారు 0 మరియు 1 మధ్య విలువను సాధారణీకరిస్తారు, కానీ మేము ఫీచర్_రేంజ్ అని పిలిచే ఒక పరామితి ఉంది, ఇది మా అవసరాలకు అనుగుణంగా సాధారణీకరించిన విలువను సెట్ చేయవచ్చు.
సెల్ నంబర్లో [104] : మేము అవసరమైన అన్ని ప్యాకేజీలను దిగుమతి చేస్తాము.
సెల్ నంబర్లో [105] : మేము డమ్మీ CSV ఫైల్ (demo_numeric.csv) ను సృష్టించాము మరియు మేము ఇప్పుడు CSV ఫైల్ను పాండాలు (read_csv) ప్యాకేజీ సహాయంతో లోడ్ చేస్తున్నాము.
సెల్ నంబర్లో [106] : మేము ఇటీవల లోడ్ చేసిన CSV ఫైల్ను మేము ప్రింట్ చేస్తాము.
సెల్ నంబర్లో [107] : మేము ప్రీ ప్రాసెసింగ్ పద్ధతి నుండి MinMaxScalar కి కాల్ చేసాము మరియు దాని కోసం ఒక వస్తువును (min_max_Scalar) సృష్టించాము. కానీ మేము MinMaxScaler (ఫీచర్_రేంజ్) లోపల మరొక పరామితిని కూడా పాస్ చేస్తాము. ఆ పరామితి విలువ మేము 0 నుండి 2 కి సెట్ చేసాము, కాబట్టి ఇప్పుడు, MinMaxScaler 0 నుండి 2 మధ్య డేటా విలువలను సాధారణీకరిస్తుంది.
సెల్ నంబర్లో [108] : ఫలితాలను ప్రదర్శించడానికి మరింత ఉపయోగం కోసం మేము మొదట అన్ని నిలువు పేర్లను చదివాము. అప్పుడు మనం సృష్టించిన ఆబ్జెక్ట్ min_max_Scalar నుండి fit_tranform అని పిలుస్తాము మరియు CSV ఫైల్ని అందులోకి పాస్ చేస్తాము.
సెల్ నంబర్లో [109] : మేము 0 మరియు 2 మధ్య ఉండే సాధారణ ఫలితాలను పొందుతాము.
విధానం 6: గరిష్ట సంపూర్ణ స్కేలింగ్ని ఉపయోగించడం
మేము పాండాలను ఉపయోగించి డేటాను సాధారణీకరించవచ్చు. డేటాను సాధారణీకరించడంలో కూడా ఈ ఫీచర్లు బాగా ప్రాచుర్యం పొందాయి. గరిష్ట సంపూర్ణ స్కేలింగ్ 0 మరియు 1 మధ్య విలువలను సాధారణీకరిస్తుంది. దిగువ చూపిన విధంగా మేము ఇక్కడ .max () మరియు .abs () దరఖాస్తు చేస్తున్నాము:
సెల్ నంబర్లో [110] : మేము పాండాల లైబ్రరీని దిగుమతి చేసుకుంటాము.
సెల్ నంబర్లో [111] : మేము డమ్మీ డేటాఫ్రేమ్ను సృష్టించాము మరియు ఆ డేటాఫ్రేమ్ను ముద్రించాము.
సెల్ నంబర్లో [113] : మేము ప్రతి కాలమ్కు కాల్ చేసి, ఆపై కాలమ్ విలువలను .max () మరియు .abs () తో విభజిస్తాము.
సెల్ నంబర్లో [114] : మేము ఫలితాన్ని ప్రింట్ చేస్తాము మరియు ఫలితం నుండి, మా డేటా 0 మరియు 1 మధ్య సాధారణీకరించబడిందని మేము నిర్ధారించాము.
విధానం 7: z- స్కోర్ పద్ధతిని ఉపయోగించడం
మేము చర్చించబోయే తదుపరి పద్ధతి z- స్కోర్ పద్ధతి. ఈ పద్ధతి సమాచారాన్ని పంపిణీకి మారుస్తుంది. ఈ పద్ధతి ప్రతి కాలమ్ యొక్క సగటును లెక్కిస్తుంది మరియు తరువాత ప్రతి కాలమ్ నుండి తీసివేస్తుంది మరియు చివరకు, దానిని ప్రామాణిక విచలనం ద్వారా విభజిస్తుంది. ఇది -1 మరియు 1 మధ్య డేటాను సాధారణీకరిస్తుంది.
సెల్ నంబర్లో [115] : మేము డమ్మీ డేటాఫ్రేమ్ను సృష్టించాము మరియు ఆ డేటాఫ్రేమ్ను ముద్రించాము.
సెల్ నంబర్లో [117] : మేము కాలమ్ యొక్క సగటును లెక్కిస్తాము మరియు దానిని కాలమ్ నుండి తీసివేస్తాము. అప్పుడు మేము కాలమ్ విలువను ప్రామాణిక విచలనంతో విభజిస్తాము.
సెల్ నంబర్లో [118] : మేము -1 మరియు 1 మధ్య సాధారణీకరించిన డేటాను ప్రింట్ చేస్తాము.
తీర్మానం: మేము వివిధ రకాల సాధారణ పద్ధతులను చూశాము. వాటిలో, యంత్ర అభ్యాసానికి మద్దతు ఇవ్వడం వల్ల స్క్లెర్న్ చాలా ప్రసిద్ధి చెందింది. కానీ అది వినియోగదారు అవసరాలపై ఆధారపడి ఉంటుంది. కొన్నిసార్లు డేటాను సాధారణీకరించడానికి పాండాల ఫీచర్ సరిపోతుంది. పైన సాధారణీకరణ పద్ధతులు మాత్రమే ఉన్నాయని మేము చెప్పలేము. డేటా సాధారణీకరణ చేయడానికి అనేక పద్ధతులు ఉన్నాయి, ఇవి మీ డేటా రకం చిత్రాలు, సంఖ్యా, వచనం మొదలైన వాటిపై ఆధారపడి ఉంటాయి. మేము ఈ సంఖ్యా డేటా మరియు పైథాన్పై దృష్టి పెడతాము.