పైథాన్‌లో డేటా సాధారణీకరణ

Normalization Data Python



డేటా సాధారణీకరణ అనేది మెషీన్ తక్కువ శ్రేణి డేటాను ప్రాసెస్ చేయాల్సి ఉన్నందున వేగంగా ఫలితాన్ని పొందడానికి సహాయపడే ఒక టెక్నిక్. సాధారణీకరణ అనేది అంత సులభమైన పని కాదు ఎందుకంటే మీ ఫలితాలన్నీ మీ సాధారణీకరణ పద్ధతి ఎంపికపై ఆధారపడి ఉంటాయి. కాబట్టి, మీ డేటాను సాధారణీకరించడానికి మీరు తప్పు పద్ధతిని ఎంచుకున్నట్లయితే, మీరు మీ అంచనాలకు భిన్నంగా ఏదైనా పొందవచ్చు.

సాధారణీకరణ అనేది ఇమేజ్‌లు, టెక్స్ట్, న్యూమరిక్ వంటి డేటా రకంపై కూడా ఆధారపడి ఉంటుంది. కాబట్టి, ప్రతి డేటా రకం సాధారణీకరించడానికి వేరే పద్ధతిని కలిగి ఉంటుంది. కాబట్టి, ఈ వ్యాసంలో, మేము సంఖ్యా డేటాపై దృష్టి పెడుతున్నాము.







విధానం 1: స్క్లేర్న్ ఉపయోగించడం

డేటాను సాధారణీకరించడానికి స్క్లెర్న్ పద్ధతి చాలా ప్రసిద్ధ పద్ధతి.





సెల్ నంబర్‌లో [83] : మేము అవసరమైన అన్ని లైబ్రరీలు, NumPy మరియు sklearn లను దిగుమతి చేస్తాము. మేము ప్రీ ప్రాసెసింగ్‌ను స్క్లేర్న్ నుండే దిగుమతి చేస్తామని మీరు చూడవచ్చు. అందుకే ఇది స్క్లేర్న్ నార్మలైజేషన్ పద్ధతి.





సెల్ నంబర్‌లో [84] : మేము ఒకేలా లేని కొంత పూర్ణాంక విలువతో NumPy శ్రేణిని సృష్టించాము.

సెల్ నంబర్‌లో [85] .



సెల్ నంబర్‌లో [86] : ఫలితాల నుండి మనం చూడవచ్చు, మా మొత్తం పూర్ణాంక డేటా ఇప్పుడు 0 మరియు 1 మధ్య సాధారణీకరించబడింది.

విధానం 2: స్క్లేర్న్ ఉపయోగించి డేటాసెట్‌లో నిర్దిష్ట కాలమ్‌ని సాధారణీకరించండి

మేము నిర్దిష్ట డేటాసెట్ కాలమ్‌ని కూడా సాధారణీకరించవచ్చు. దీనిలో, మేము దాని గురించి చర్చించబోతున్నాము.


సెల్ నంబర్‌లో [87] : మేము లైబ్రరీ పాండాలు మరియు స్క్లేర్న్ దిగుమతి చేస్తాము.

సెల్ నంబర్‌లో [88] : మేము డమ్మీ CSV ఫైల్‌ను సృష్టించాము, మరియు మేము ఇప్పుడు పాండాలు (read_csv) ప్యాకేజీ సహాయంతో ఆ CSV ఫైల్‌ను లోడ్ చేస్తున్నాము.

సెల్ నంబర్‌లో [89] : మేము ఇటీవల లోడ్ చేసిన CSV ఫైల్‌ను మేము ప్రింట్ చేస్తాము.

సెల్ నంబర్‌లో [90] : మేము np ఉపయోగించి CSV ఫైల్ యొక్క నిర్దిష్ట కాలమ్‌ను చదువుతాము. శ్రేణి మరియు ఫలితాన్ని value_array కి నిల్వ చేయండి.

సెల్ నంబర్‌లో [92] , మేము ప్రీ ప్రాసెసింగ్ నుండి సాధారణీకరణ పద్ధతిని పిలిచాము మరియు value_array పరామితిని పాస్ చేసాము.

విధానం 3: శ్రేణికి నిలువు వరుసలను ఉపయోగించకుండా సాధారణీకరించడానికి మార్చండి (స్క్లేర్న్ ఉపయోగించి)

మునుపటి పద్ధతి 2 లో, మేము ఒక నిర్దిష్ట CSV ఫైల్ కాలమ్‌ని ఎలా సాధారణీకరించవచ్చో చర్చించాము. కానీ కొన్నిసార్లు మనం మొత్తం డేటాసెట్‌ని సాధారణీకరించాల్సి ఉంటుంది, అప్పుడు మేము మొత్తం డేటాసెట్‌ని సాధారణీకరించే దిగువ పద్ధతిని ఉపయోగించవచ్చు కానీ కాలమ్ వారీగా (యాక్సిస్ = 0). మేము అక్షం = 1 అని పేర్కొన్నట్లయితే, అది వరుస వారీగా సాధారణీకరిస్తుంది. అక్షం = 1 డిఫాల్ట్ విలువ ద్వారా ఉంటుంది.


సెల్ నంబర్‌లో [93] : మేము లైబ్రరీ పాండాలు మరియు స్క్లేర్న్ దిగుమతి చేస్తాము.

సెల్ నంబర్‌లో [94] : మేము డమ్మీ CSV ఫైల్ (demo_numeric.csv) ను సృష్టించాము మరియు మేము ఇప్పుడు CSV ఫైల్‌ను పాండాలు (read_csv) ప్యాకేజీ సహాయంతో లోడ్ చేస్తున్నాము.

సెల్ నంబర్‌లో [95] : మేము ఇటీవల లోడ్ చేసిన CSV ఫైల్‌ను మేము ప్రింట్ చేస్తాము.

సెల్ నంబర్‌లో [96] : ఇప్పుడు, మేము మొత్తం CSV ఫైల్‌ను మరో అదనపు పారామీటర్ అక్షం = 0 తో పాటు పాస్ చేస్తాము, ఇది వినియోగదారు మొత్తం డేటాసెట్‌ను కాలమ్ వారీగా సాధారణీకరించాలనుకుంటున్నట్లు లైబ్రరీకి చెప్పింది.

సెల్ నంబర్‌లో [97] , మేము ఫలితాన్ని ముద్రించి, 0 మరియు 1 మధ్య విలువతో డేటాను సాధారణీకరిస్తాము.

విధానం 4: MinMaxScaler () ఉపయోగించి

Sklearn సాధారణీకరణ యొక్క మరొక పద్ధతిని కూడా అందిస్తుంది, దీనిని మేము MinMaxScalar అని పిలుస్తాము. ఇది కూడా చాలా ప్రజాదరణ పొందిన పద్ధతి ఎందుకంటే ఇది ఉపయోగించడానికి సులభమైనది.


సెల్ నంబర్‌లో [98] : మేము అవసరమైన అన్ని ప్యాకేజీలను దిగుమతి చేస్తాము.

సెల్ నంబర్‌లో [99] : మేము డమ్మీ CSV ఫైల్ (demo_numeric.csv) ను సృష్టించాము మరియు మేము ఇప్పుడు CSV ఫైల్‌ను పాండాలు (read_csv) ప్యాకేజీ సహాయంతో లోడ్ చేస్తున్నాము.

సెల్ నంబర్‌లో [100] : మేము ఇటీవల లోడ్ చేసిన CSV ఫైల్‌ను మేము ప్రింట్ చేస్తాము.

సెల్ నంబర్‌లో [101] : మేము ప్రీ ప్రాసెసింగ్ పద్ధతి నుండి MinMaxScalar కి కాల్ చేసాము మరియు దాని కోసం ఒక వస్తువును (min_max_Scalar) సృష్టించాము. మేము 0 మరియు 1 మధ్య డేటాను సాధారణీకరించాల్సిన అవసరం ఉన్నందున మేము ఎటువంటి పారామితులను పాస్ చేయలేదు. అయితే మీకు కావాలంటే, మీరు తదుపరి పద్ధతిలో కనిపించే మీ విలువలను జోడించవచ్చు.

సెల్ నంబర్‌లో [102] : ఫలితాలను ప్రదర్శించడానికి మరింత ఉపయోగం కోసం మేము మొదట అన్ని నిలువు పేర్లను చదివాము. అప్పుడు మనం సృష్టించిన ఆబ్జెక్ట్ min_max_Scalar నుండి fit_tranform అని పిలుస్తాము మరియు CSV ఫైల్‌ని అందులోకి పాస్ చేస్తాము.

సెల్ నంబర్‌లో [103] : మేము 0 మరియు 1 మధ్య ఉండే సాధారణ ఫలితాలను పొందుతాము.

విధానం 5: MinMaxScaler ని ఉపయోగించడం (ఫీచర్_రేంజ్ = (x, y))

మీకు కావలసిన దాని యొక్క సాధారణీకరించిన విలువను మార్చుకునే అవకాశాన్ని కూడా స్క్లీర్న్ అందిస్తుంది. డిఫాల్ట్‌గా, వారు 0 మరియు 1 మధ్య విలువను సాధారణీకరిస్తారు, కానీ మేము ఫీచర్_రేంజ్ అని పిలిచే ఒక పరామితి ఉంది, ఇది మా అవసరాలకు అనుగుణంగా సాధారణీకరించిన విలువను సెట్ చేయవచ్చు.

సెల్ నంబర్‌లో [104] : మేము అవసరమైన అన్ని ప్యాకేజీలను దిగుమతి చేస్తాము.

సెల్ నంబర్‌లో [105] : మేము డమ్మీ CSV ఫైల్ (demo_numeric.csv) ను సృష్టించాము మరియు మేము ఇప్పుడు CSV ఫైల్‌ను పాండాలు (read_csv) ప్యాకేజీ సహాయంతో లోడ్ చేస్తున్నాము.

సెల్ నంబర్‌లో [106] : మేము ఇటీవల లోడ్ చేసిన CSV ఫైల్‌ను మేము ప్రింట్ చేస్తాము.

సెల్ నంబర్‌లో [107] : మేము ప్రీ ప్రాసెసింగ్ పద్ధతి నుండి MinMaxScalar కి కాల్ చేసాము మరియు దాని కోసం ఒక వస్తువును (min_max_Scalar) సృష్టించాము. కానీ మేము MinMaxScaler (ఫీచర్_రేంజ్) లోపల మరొక పరామితిని కూడా పాస్ చేస్తాము. ఆ పరామితి విలువ మేము 0 నుండి 2 కి సెట్ చేసాము, కాబట్టి ఇప్పుడు, MinMaxScaler 0 నుండి 2 మధ్య డేటా విలువలను సాధారణీకరిస్తుంది.

సెల్ నంబర్‌లో [108] : ఫలితాలను ప్రదర్శించడానికి మరింత ఉపయోగం కోసం మేము మొదట అన్ని నిలువు పేర్లను చదివాము. అప్పుడు మనం సృష్టించిన ఆబ్జెక్ట్ min_max_Scalar నుండి fit_tranform అని పిలుస్తాము మరియు CSV ఫైల్‌ని అందులోకి పాస్ చేస్తాము.

సెల్ నంబర్‌లో [109] : మేము 0 మరియు 2 మధ్య ఉండే సాధారణ ఫలితాలను పొందుతాము.

విధానం 6: గరిష్ట సంపూర్ణ స్కేలింగ్‌ని ఉపయోగించడం

మేము పాండాలను ఉపయోగించి డేటాను సాధారణీకరించవచ్చు. డేటాను సాధారణీకరించడంలో కూడా ఈ ఫీచర్లు బాగా ప్రాచుర్యం పొందాయి. గరిష్ట సంపూర్ణ స్కేలింగ్ 0 మరియు 1 మధ్య విలువలను సాధారణీకరిస్తుంది. దిగువ చూపిన విధంగా మేము ఇక్కడ .max () మరియు .abs () దరఖాస్తు చేస్తున్నాము:

సెల్ నంబర్‌లో [110] : మేము పాండాల లైబ్రరీని దిగుమతి చేసుకుంటాము.

సెల్ నంబర్‌లో [111] : మేము డమ్మీ డేటాఫ్రేమ్‌ను సృష్టించాము మరియు ఆ డేటాఫ్రేమ్‌ను ముద్రించాము.

సెల్ నంబర్‌లో [113] : మేము ప్రతి కాలమ్‌కు కాల్ చేసి, ఆపై కాలమ్ విలువలను .max () మరియు .abs () తో విభజిస్తాము.

సెల్ నంబర్‌లో [114] : మేము ఫలితాన్ని ప్రింట్ చేస్తాము మరియు ఫలితం నుండి, మా డేటా 0 మరియు 1 మధ్య సాధారణీకరించబడిందని మేము నిర్ధారించాము.

విధానం 7: z- స్కోర్ పద్ధతిని ఉపయోగించడం

మేము చర్చించబోయే తదుపరి పద్ధతి z- స్కోర్ పద్ధతి. ఈ పద్ధతి సమాచారాన్ని పంపిణీకి మారుస్తుంది. ఈ పద్ధతి ప్రతి కాలమ్ యొక్క సగటును లెక్కిస్తుంది మరియు తరువాత ప్రతి కాలమ్ నుండి తీసివేస్తుంది మరియు చివరకు, దానిని ప్రామాణిక విచలనం ద్వారా విభజిస్తుంది. ఇది -1 మరియు 1 మధ్య డేటాను సాధారణీకరిస్తుంది.

సెల్ నంబర్‌లో [115] : మేము డమ్మీ డేటాఫ్రేమ్‌ను సృష్టించాము మరియు ఆ డేటాఫ్రేమ్‌ను ముద్రించాము.

సెల్ నంబర్‌లో [117] : మేము కాలమ్ యొక్క సగటును లెక్కిస్తాము మరియు దానిని కాలమ్ నుండి తీసివేస్తాము. అప్పుడు మేము కాలమ్ విలువను ప్రామాణిక విచలనంతో విభజిస్తాము.

సెల్ నంబర్‌లో [118] : మేము -1 మరియు 1 మధ్య సాధారణీకరించిన డేటాను ప్రింట్ చేస్తాము.

తీర్మానం: మేము వివిధ రకాల సాధారణ పద్ధతులను చూశాము. వాటిలో, యంత్ర అభ్యాసానికి మద్దతు ఇవ్వడం వల్ల స్క్లెర్న్ చాలా ప్రసిద్ధి చెందింది. కానీ అది వినియోగదారు అవసరాలపై ఆధారపడి ఉంటుంది. కొన్నిసార్లు డేటాను సాధారణీకరించడానికి పాండాల ఫీచర్ సరిపోతుంది. పైన సాధారణీకరణ పద్ధతులు మాత్రమే ఉన్నాయని మేము చెప్పలేము. డేటా సాధారణీకరణ చేయడానికి అనేక పద్ధతులు ఉన్నాయి, ఇవి మీ డేటా రకం చిత్రాలు, సంఖ్యా, వచనం మొదలైన వాటిపై ఆధారపడి ఉంటాయి. మేము ఈ సంఖ్యా డేటా మరియు పైథాన్‌పై దృష్టి పెడతాము.