హగ్గింగ్ ఫేస్ ఫిల్టర్() పద్ధతి

Hagging Phes Philtar Pad Dhati



హగ్గింగ్ ఫేస్ అనేక సహజ భాషా ప్రాసెసింగ్ (NLP) మోడల్‌లు మరియు డేటాసెట్‌లను కలిగి ఉంది. ఈ అపారమైన డేటాసెట్‌లు మోడల్‌కు ఖచ్చితంగా శిక్షణ ఇవ్వడంలో సహాయపడే చాలా సమాచారాన్ని కలిగి ఉంటాయి. అయినప్పటికీ, కొన్నిసార్లు మనకు మొత్తం డేటాసెట్ అవసరం లేదు ఎందుకంటే మన ప్రస్తుత అవసరాలను తీర్చడానికి దానిలో కొంత భాగం మాత్రమే అవసరం. మేము మొత్తం సమాచారంతో ఎప్పటిలాగే అదే డేటాసెట్‌ను ఉపయోగించాలనుకుంటే, మోడల్ శిక్షణ మరియు ఆప్టిమైజేషన్ చాలా సమయం తీసుకుంటుంది, ఇది సమయం వృధా అవుతుంది.

కాబట్టి, డేటాసెట్‌ల నుండి సంబంధిత సమాచారాన్ని సంగ్రహించే పద్ధతి లేదా ప్యాకేజీ మాకు అవసరం. సాధారణ భాషలో, మన అవసరాలకు అనుగుణంగా డేటాసెట్‌లను ఫిల్టర్ చేయడానికి అదనపు ఫిల్టర్ ఎంపిక అవసరమని మనం చెప్పగలం.

హగ్గింగ్ ఫేస్ డేటాసెట్‌లను ఫిల్టర్ చేయడానికి విభిన్న ఎంపికలను అందిస్తుంది, ఇది నిర్దిష్ట పరిస్థితులకు అనుగుణంగా ఉన్న ఉదాహరణలు లేదా సమాచారాన్ని మాత్రమే కలిగి ఉండే అనుకూలీకరించిన డేటాసెట్‌లను సృష్టించడానికి వినియోగదారులకు సహాయపడుతుంది.







() పద్ధతిని ఎంచుకోండి

ఈ పద్ధతి సూచికల జాబితాలో పని చేస్తుంది అంటే మనం జాబితాను నిర్వచించవలసి ఉంటుంది. ఆ జాబితా లోపల, మనం సంగ్రహించాలనుకుంటున్న అన్ని అడ్డు వరుసల సూచిక విలువలను పేర్కొనాలి. కానీ ఈ పద్ధతి చిన్న డేటాసెట్‌ల కోసం మాత్రమే పని చేస్తుంది మరియు భారీ డేటాసెట్‌ల కోసం కాదు, ఎందుకంటే మొత్తం డేటాసెట్ GBలు (గిగా బైట్లు) లేదా TBలు (టెరా బైట్లు)లో ఉంటే మనం చూడలేము.



ఉదాహరణ :

కొత్త_డేటాసెట్ = డేటాసెట్. ఎంచుకోండి ( [ 0 , పదకొండు , ఇరవై ఒకటి , నాలుగు ఐదు , యాభై , 55 ] )

ముద్రణ ( మాత్రమే ( కొత్త_డేటాసెట్ ) )

ఈ ఉదాహరణలో, డేటాసెట్ నుండి అవసరమైన సమాచారాన్ని ఫిల్టర్ చేయడానికి మేము “ఎంచుకోండి” పద్ధతిని ఉపయోగించాము.



ఫిల్టర్ () పద్ధతి

నిర్దిష్ట షరతు లేనందున ఫిల్టర్() పద్ధతి ఎంపిక() ప్రక్రియ సమస్యలను అధిగమిస్తుంది. ఫిల్టర్() పద్ధతి నిర్దిష్ట పరిస్థితి లేదా షరతుతో సరిపోలే అన్ని అడ్డు వరుసలను అందిస్తుంది.





ఉదాహరణ: మేము ఈ పైథాన్ ప్రోగ్రామ్‌ను “test.py” పేరుతో సేవ్ చేస్తాము.

నుండి డేటాసెట్‌లు దిగుమతి load_dataset

# దశ 1: డేటాసెట్‌ను లోడ్ చేయండి
డేటాసెట్ = load_dataset ( 'imdb' )

# దశ 2: ఫిల్టరింగ్ ఫంక్షన్‌ను నిర్వచించండి
డెఫ్ కస్టమ్_ఫిల్టర్ ( ఉదాహరణ ) :
'''
పాజిటివ్‌తో ఉదాహరణలను ఉంచడానికి అనుకూల ఫిల్టరింగ్ ఫంక్షన్
సెంటిమెంట్ (లేబుల్ == 1).
'''

తిరిగి ఉదాహరణ [ 'లేబుల్' ] == 1

# దశ 3: కొత్త ఫిల్టర్ చేయబడిన డేటాసెట్‌ని సృష్టించడానికి ఫిల్టర్‌ని వర్తింపజేయండి
ఫిల్టర్_డేటాసెట్ = డేటాసెట్. వడపోత ( కస్టమ్_ఫిల్టర్ )

# దశ 4: ఫిల్టర్ చేయబడిన డేటాసెట్‌లో అందుబాటులో ఉన్న నిలువు వరుస పేర్లను తనిఖీ చేయండి
ముద్రణ ( 'ఫిల్టర్ చేయబడిన డేటాసెట్‌లో అందుబాటులో ఉన్న నిలువు వరుసలు:' ,
ఫిల్టర్_డేటాసెట్. నిలువు_పేర్లు )

# దశ 5: ఫిల్టర్ చేసిన డేటాసెట్ నుండి సమాచారాన్ని యాక్సెస్ చేయండి
వడపోత_ఉదాహరణలు = ఫిల్టర్_డేటాసెట్ [ 'రైలు' ]
ఫిల్టర్ చేసిన_ఉదాహరణల సంఖ్య = మాత్రమే ( వడపోత_ఉదాహరణలు )

# దశ 6: ఫిల్టర్ చేసిన ఉదాహరణల మొత్తం సంఖ్యను ముద్రించండి
ముద్రణ ( 'మొత్తం ఫిల్టర్ చేసిన ఉదాహరణలు:' , ఫిల్టర్ చేసిన_ఉదాహరణల సంఖ్య )

అవుట్‌పుట్:



వివరణ:

లైన్ 1: మేము డేటాసెట్ల నుండి అవసరమైన load_dataset ప్యాకేజీని దిగుమతి చేస్తాము.

లైన్ 4: మేము load_datasetని ఉపయోగించి “imdb” డేటాసెట్‌ను లోడ్ చేస్తాము.

7 నుండి 12 పంక్తులు: మేము అనుకూల ఫిల్టరింగ్ ఫంక్షన్‌ని నిర్వచించాము ' కస్టమ్_ఫిల్టర్ ' ఉదాహరణలను సానుకూల భావాలతో ఉంచడానికి (లేబుల్ == 1). ఈ ఫంక్షన్ లేబుల్ విలువ 1 ఉన్న అడ్డు వరుసలను మాత్రమే అందిస్తుంది.

లైన్ 15: ఈ లైన్ డేటాసెట్‌లో “imdb” మూవీ రివ్యూ డేటా ఉందని చూపిస్తుంది. 'filtered_dataset'లో మరింత నిల్వ చేయబడిన డేటాబేస్ నుండి సానుకూల సమీక్షలను వేరు చేయడానికి మేము ఇప్పుడు ఫిల్టర్ ఫంక్షన్‌ను ఈ డేటాబేస్కు వర్తింపజేస్తాము.

18 మరియు 19 పంక్తులు: ఇప్పుడు, filtered_datasetలో ఏ కాలమ్ పేర్లు అందుబాటులో ఉన్నాయో మేము తనిఖీ చేస్తాము. కాబట్టి, “filtered_dataset.column_names” కోడ్ మా అవసరాల వివరాలను అందిస్తుంది.

లైన్లు 22 మరియు 23: ఈ లైన్లలో, మేము filtered_dataset యొక్క “రైలు” కాలమ్‌ని ఫిల్టర్ చేస్తాము మరియు రైలు కాలమ్ యొక్క మొత్తం సంఖ్య (పొడవు)ని ప్రింట్ చేస్తాము.

పంక్తి 26: ఈ చివరి పంక్తిలో, మేము పంక్తి సంఖ్య 23 నుండి ఫలితాన్ని ప్రింట్ చేస్తాము.

సూచికలతో ఫిల్టర్().

ఎంపిక() మోడ్‌లో చూసినట్లుగా ఫిల్టర్() పద్ధతిని సూచికలతో కూడా ఉపయోగించవచ్చు. కానీ దాని కోసం, కింది ఉదాహరణలో చూపిన విధంగా ఫిల్టర్() పద్ధతికి వెలుపల “with_indices=true” కీవర్డ్ పేర్కొనబడాలని మేము పేర్కొనాలి:

బేసి_డేటాసెట్ = డేటాసెట్. వడపోత ( లాంబ్డా ఉదాహరణ , idx: idx % 2 != 0 , సూచికలతో = నిజమే )

ముద్రణ ( మాత్రమే ( బేసి_డేటాసెట్ ) )

ఈ ఉదాహరణలో, బేసి వరుసలతో సహా డేటాసెట్ నుండి అవసరమైన సమాచారాన్ని ఫిల్టర్ చేయడానికి మేము ఫిల్టర్() పద్ధతిని ఉపయోగించాము.

ఫిల్టర్() పద్ధతి యొక్క ప్రతి పరామితి యొక్క పూర్తి వివరాలను ఇందులో చూడవచ్చు లింక్ .

ముగింపు

హగ్గింగ్ ఫేస్ డేటాసెట్ లైబ్రరీ వివిధ డేటాసెట్‌లతో సమర్థవంతంగా పని చేయడానికి శక్తివంతమైన మరియు వినియోగదారు-స్నేహపూర్వక టూల్‌సెట్‌ను అందిస్తుంది, ప్రత్యేకించి నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్ (NLP) మరియు మెషిన్ లెర్నింగ్ టాస్క్‌ల సందర్భంలో. ప్రోగ్రామ్‌లో అందించబడిన ఫిల్టర్() ఫంక్షన్ వినియోగదారు నిర్వచించిన ఫిల్టరింగ్ ప్రమాణాలను నిర్వచించడం ద్వారా డేటా యొక్క సంబంధిత ఉపసమితులను సేకరించేందుకు పరిశోధకులు మరియు అభ్యాసకులను అనుమతిస్తుంది. ఈ ఫంక్షనాలిటీని ఉపయోగించి, వినియోగదారులు చలనచిత్ర సమీక్షలలో సానుకూల సెంటిమెంట్‌ను నిర్వహించడం లేదా నిర్దిష్ట టెక్స్ట్ డేటాను సంగ్రహించడం వంటి నిర్దిష్ట పరిస్థితులకు అనుగుణంగా కొత్త డేటాసెట్‌లను అప్రయత్నంగా సృష్టించవచ్చు.

ఈ దశల వారీ ప్రదర్శన డేటాసెట్‌ను లోడ్ చేయడం, అనుకూల ఫిల్టర్ ఫంక్షన్‌లను వర్తింపజేయడం మరియు ఫిల్టర్ చేసిన డేటాను యాక్సెస్ చేయడం ఎంత సులభమో వివరిస్తుంది. అదనంగా, ఫంక్షన్ పారామితుల యొక్క సౌలభ్యం పెద్ద డేటా సెట్‌ల కోసం బహుళ ప్రాసెసింగ్‌కు మద్దతుతో సహా అనుకూల ఫిల్టరింగ్ కార్యకలాపాలను అనుమతిస్తుంది. హగ్గింగ్ ఫేస్ డేటాసెట్ లైబ్రరీతో, వినియోగదారులు తమ డేటాను క్రమబద్ధీకరించవచ్చు.