హగ్గింగ్ ఫేస్ నుండి 'డేటాసెట్స్' లైబ్రరీ సహజ భాషా ప్రాసెసింగ్ పనుల కోసం డేటాసెట్లతో పని చేయడానికి మరియు వాటిని మార్చడానికి అనుకూలమైన మార్గాన్ని అందిస్తుంది. లైబ్రరీ అందించే ఒక ఉపయోగకరమైన ఫంక్షన్ concatenate_datasets() ఇది బహుళ డేటాసెట్లను ఒకే డేటాసెట్లో కలపడానికి మిమ్మల్ని అనుమతిస్తుంది. కిందివి concatenate_datasets() ఫంక్షన్ మరియు దానిని ఎలా ఉపయోగించాలో సంక్షిప్త అవలోకనం.
concatenate_datasets()
వివరణ:
హగ్గింగ్ ఫేస్ యొక్క “డేటాసెట్లు” లైబ్రరీ concatenate_datasets() ఫంక్షన్ని అందిస్తుంది. ఇది బహుళ డేటాసెట్లను సంగ్రహించడానికి ఉపయోగించబడుతుంది, వాటిని పేర్కొన్న అక్షం వెంట ఒకే డేటాసెట్లో కలపడం. మీరు ఒకే నిర్మాణాన్ని పంచుకునే బహుళ డేటాసెట్లను కలిగి ఉన్నప్పుడు మరియు తదుపరి ప్రాసెసింగ్ మరియు విశ్లేషణ కోసం మీరు వాటిని ఏకీకృత డేటాసెట్లో విలీనం చేయాలనుకున్నప్పుడు ఈ ఫంక్షన్ చాలా ఉపయోగకరంగా ఉంటుంది.
సింటాక్స్:
నుండి డేటాసెట్లు దిగుమతి concatenate_datasets
concatenated_dataset = concatenate_datasets ( డేటాసెట్లు , అక్షం = 0 , సమాచారం = ఏదీ లేదు )
పారామితులు:
డేటాసెట్లు (డేటాసెట్ జాబితా): మీరు సంగ్రహించాలనుకుంటున్న డేటాసెట్ల జాబితా. ఈ డేటాసెట్లు అనుకూల లక్షణాలను కలిగి ఉండాలి అంటే అవి ఒకే విధమైన స్కీమా, నిలువు వరుస పేర్లు మరియు డేటా రకాలను కలిగి ఉంటాయి.
అక్షం (పూర్ణాంక, ఐచ్ఛికం, డిఫాల్ట్=0): సంయోగం చేయవలసిన అక్షం. చాలా NLP డేటాసెట్ల కోసం, 0 యొక్క డిఫాల్ట్ విలువ ఉపయోగించబడుతుంది అంటే డేటాసెట్లు నిలువుగా కలిసి ఉంటాయి. మీరు axis=1ని సెట్ చేస్తే, డేటాసెట్లు విభిన్న నిలువు వరుసలను ఫీచర్లుగా కలిగి ఉన్నాయని భావించి, అడ్డంగా జతచేయబడతాయి.
సమాచారం (datasets.DatasetInfo, ఐచ్ఛికం): సంగ్రహించబడిన డేటాసెట్ గురించిన సమాచారం. అందించకపోతే, జాబితాలోని మొదటి డేటాసెట్ నుండి సమాచారం ఊహించబడుతుంది.
రిటర్న్స్:
concatenated_dataset (డేటాసెట్): అన్ని ఇన్పుట్ డేటాసెట్లను కలిపిన తర్వాత వచ్చే డేటాసెట్.
ఉదాహరణ:
# దశ 1: డేటాసెట్ల లైబ్రరీని ఇన్స్టాల్ చేయండి# మీరు దీన్ని పిప్ ఉపయోగించి ఇన్స్టాల్ చేయవచ్చు:
# !పిప్ ఇన్స్టాల్ డేటాసెట్లు
# దశ 2: అవసరమైన లైబ్రరీలను దిగుమతి చేయండి
నుండి డేటాసెట్లు దిగుమతి load_dataset , concatenate_datasets
# దశ 3: IMDb మూవీ రివ్యూ డేటాసెట్లను లోడ్ చేయండి
# మేము రెండు IMDb డేటాసెట్లను ఉపయోగిస్తాము, ఒకటి సానుకూల సమీక్షల కోసం
#మరియు ప్రతికూల సమీక్షల కోసం మరొకటి.
# 2500 సానుకూల సమీక్షలను లోడ్ చేయండి
డేటాసెట్_పోస్ = load_dataset ( 'imdb' , విడిపోయింది = 'రైలు[:2500]' )
# 2500 ప్రతికూల సమీక్షలను లోడ్ చేయండి
డేటాసెట్_నెగ్ = load_dataset ( 'imdb' , విడిపోయింది = 'రైలు[-2500:]' )
# దశ 4: డేటాసెట్లను సంగ్రహించండి
# మేము రెండు డేటాసెట్లను అక్షం=0తో పాటు అవి కలిగి ఉన్నట్లుగా కలుపుతాము
అదే స్కీమా ( అదే లక్షణాలు ) .
concatenated_dataset = concatenate_datasets ( [ డేటాసెట్_పోస్ , డేటాసెట్_నెగ్ ] )
# దశ 5: సంగ్రహించబడిన డేటాసెట్ను విశ్లేషించండి
# సరళత కోసం, సానుకూల మరియు ప్రతికూల సంఖ్యలను గణిద్దాం
సంగ్రహించబడిన డేటాసెట్లో # సమీక్షలు.
సంఖ్య_పాజిటివ్_రివ్యూలు = మొత్తం ( 1 కోసం లేబుల్ లో
concatenated_dataset [ 'లేబుల్' ] ఉంటే లేబుల్ == 1 )
నెగెటివ్_రివ్యూల సంఖ్య = మొత్తం ( 1 కోసం లేబుల్ లో
concatenated_dataset [ 'లేబుల్' ] ఉంటే లేబుల్ == 0 )
# దశ 6: ఫలితాలను ప్రదర్శించండి
ముద్రణ ( 'సానుకూల సమీక్షల సంఖ్య:' , సంఖ్య_పాజిటివ్_రివ్యూలు )
ముద్రణ ( 'ప్రతికూల సమీక్షల సంఖ్య:' , నెగెటివ్_రివ్యూల సంఖ్య )
# దశ 7: సంగ్రహించబడిన డేటాసెట్ నుండి కొన్ని ఉదాహరణ సమీక్షలను ముద్రించండి
ముద్రణ ( ' \n కొన్ని ఉదాహరణ సమీక్షలు:' )
కోసం i లో పరిధి ( 5 ) :
ముద్రణ ( f 'రివ్యూ {i + 1}: {concatenated_dataset['text'][i]}' )
అవుట్పుట్:
రెండు IMDb మూవీ రివ్యూ డేటాసెట్లను కలిపే హగ్గింగ్ ఫేస్ యొక్క “డేటాసెట్లు” లైబ్రరీ ప్రోగ్రామ్కు సంబంధించిన వివరణ క్రిందిది. ఇది ప్రోగ్రామ్ యొక్క ఉద్దేశ్యం, దాని వినియోగం మరియు కోడ్లో ఉన్న దశలను వివరిస్తుంది.
కోడ్లోని ప్రతి దశకు మరింత వివరణాత్మక వివరణను అందిద్దాం:
# దశ 1: అవసరమైన లైబ్రరీలను దిగుమతి చేయండినుండి డేటాసెట్లు దిగుమతి load_dataset , concatenate_datasets
ఈ దశలో, మేము ప్రోగ్రామ్ కోసం అవసరమైన లైబ్రరీలను దిగుమతి చేస్తాము. IMDb మూవీ రివ్యూ డేటాసెట్లను లోడ్ చేయడానికి మాకు “load_dataset” ఫంక్షన్ అవసరం మరియు వాటిని తర్వాత కలపడానికి “concatenate_datasets” అవసరం.
# దశ 2: IMDb మూవీ రివ్యూ డేటాసెట్లను లోడ్ చేయండి# 2500 సానుకూల సమీక్షలను లోడ్ చేయండి
డేటాసెట్_పోస్ = load_dataset ( 'imdb' , విడిపోయింది = 'రైలు[:2500]' )
# 2500 ప్రతికూల సమీక్షలను లోడ్ చేయండి
డేటాసెట్_నెగ్ = load_dataset ( 'imdb' , విడిపోయింది = 'రైలు[-2500:]' )
ఇక్కడ, IMDb డేటాసెట్ యొక్క రెండు ఉపసమితులను పొందేందుకు మేము “load_dataset” ఫంక్షన్ని ఉపయోగిస్తాము. “dataset_pos” 2500 సానుకూల సమీక్షలను కలిగి ఉంది మరియు “dataset_neg” 2500 ప్రతికూల సమీక్షలను కలిగి ఉంది. మేము మొత్తం డేటాసెట్ యొక్క ఉపసమితిని ఎంచుకోవడానికి అనుమతించే లోడ్ చేయడానికి ఉదాహరణల పరిధిని పేర్కొనడానికి స్ప్లిట్ పారామీటర్ని ఉపయోగిస్తాము.
# దశ 3: డేటాసెట్లను సంగ్రహించండిconcatenated_dataset = concatenate_datasets ( [ డేటాసెట్_పోస్ , డేటాసెట్_నెగ్ ] )
ఈ దశలో, మేము IMDb డేటాసెట్లోని రెండు ఉపసమితులను “concatenated_dataset” అని పిలిచే ఒకే డేటాసెట్గా కలుపుతాము. మేము “concatenate_datasets” ఫంక్షన్ని ఉపయోగిస్తాము మరియు దానిని సంగ్రహించడానికి రెండు డేటాసెట్లను కలిగి ఉన్న జాబితాతో పాస్ చేస్తాము. రెండు డేటాసెట్లు ఒకే లక్షణాలను కలిగి ఉన్నందున, మేము వాటిని axis=0తో కలుపుతాము అంటే అడ్డు వరుసలు ఒకదానిపై ఒకటి పేర్చబడి ఉంటాయి.
# దశ 4: సంగ్రహించబడిన డేటాసెట్ను విశ్లేషించండిసంఖ్య_పాజిటివ్_రివ్యూలు = మొత్తం ( 1 కోసం లేబుల్ లో
concatenated_dataset [ 'లేబుల్' ] ఉంటే లేబుల్ == 1 )
నెగెటివ్_రివ్యూల సంఖ్య = మొత్తం ( 1 కోసం లేబుల్ లో
concatenated_dataset [ 'లేబుల్' ] ఉంటే లేబుల్ == 0 )
ఇక్కడ, మేము సంగ్రహించబడిన డేటాసెట్ యొక్క సాధారణ విశ్లేషణను చేస్తాము. మేము సానుకూల మరియు ప్రతికూల సమీక్షల సంఖ్యను లెక్కించడానికి 'మొత్తం' ఫంక్షన్తో పాటు జాబితా గ్రహణాలను ఉపయోగిస్తాము. ద్వారా మేము పునరావృతం చేస్తాము ' 'concatenated_dataset' యొక్క లేబుల్' నిలువు వరుస మరియు మేము సానుకూల లేబుల్ (1) లేదా ప్రతికూల లేబుల్ (0)ని ఎదుర్కొన్నప్పుడల్లా గణనలను పెంచండి.
# దశ 5: ఫలితాలను ప్రదర్శించండిముద్రణ ( 'సానుకూల సమీక్షల సంఖ్య:' , సంఖ్య_పాజిటివ్_రివ్యూలు )
ముద్రణ ( 'ప్రతికూల సమీక్షల సంఖ్య:' , నెగెటివ్_రివ్యూల సంఖ్య )
ఈ దశలో, మేము మా విశ్లేషణ ఫలితాలను ముద్రిస్తాము - సంగ్రహించబడిన డేటాసెట్లోని సానుకూల మరియు ప్రతికూల సమీక్షల సంఖ్య.
# దశ 6: కొన్ని ఉదాహరణ సమీక్షలను ముద్రించండిముద్రణ ( ' \n కొన్ని ఉదాహరణ సమీక్షలు:' )
కోసం i లో పరిధి ( 5 ) :
ముద్రణ ( f 'రివ్యూ {i + 1}: {concatenated_dataset['text'][i]}' )
చివరగా, మేము సంగ్రహించబడిన డేటాసెట్ నుండి కొన్ని ఉదాహరణ సమీక్షలను ప్రదర్శిస్తాము. మేము డేటాసెట్లోని మొదటి ఐదు ఉదాహరణలను లూప్ చేస్తాము మరియు “టెక్స్ట్” కాలమ్ని ఉపయోగించి వాటి టెక్స్ట్ కంటెంట్ను ప్రింట్ చేస్తాము.
IMDb చలనచిత్ర సమీక్ష డేటాసెట్లను లోడ్ చేయడానికి, సంగ్రహించడానికి మరియు విశ్లేషించడానికి హగ్గింగ్ ఫేస్ యొక్క “డేటాసెట్లు” లైబ్రరీని ఉపయోగించడం యొక్క సూటి ఉదాహరణను ఈ కోడ్ ప్రదర్శిస్తుంది. ఇది NLP డేటాసెట్ హ్యాండ్లింగ్ను క్రమబద్ధీకరించడానికి లైబ్రరీ సామర్థ్యాన్ని హైలైట్ చేస్తుంది మరియు మరింత అధునాతన సహజ భాషా ప్రాసెసింగ్ మోడల్లు మరియు అప్లికేషన్లను రూపొందించడానికి దాని సామర్థ్యాన్ని ప్రదర్శిస్తుంది.
ముగింపు
హగ్గింగ్ ఫేస్ యొక్క “డేటాసెట్లు” లైబ్రరీని ఉపయోగించే పైథాన్ ప్రోగ్రామ్ రెండు IMDb మూవీ రివ్యూ డేటాసెట్ల కలయికను విజయవంతంగా ప్రదర్శిస్తుంది. అనుకూల మరియు ప్రతికూల సమీక్షల ఉపసమితులను లోడ్ చేయడం ద్వారా, ప్రోగ్రామ్ వాటిని concatenate_datasets() ఫంక్షన్ని ఉపయోగించి ఒకే డేటాసెట్గా మిళితం చేస్తుంది. ఇది మిశ్రమ డేటాసెట్లోని సానుకూల మరియు ప్రతికూల సమీక్షల సంఖ్యను లెక్కించడం ద్వారా సాధారణ విశ్లేషణ చేస్తుంది.
“డేటాసెట్లు” లైబ్రరీ NLP డేటాసెట్లను నిర్వహించడం మరియు మార్చే ప్రక్రియను సులభతరం చేస్తుంది, ఇది పరిశోధకులు, డెవలపర్లు మరియు NLP అభ్యాసకులకు శక్తివంతమైన సాధనంగా చేస్తుంది. దాని వినియోగదారు-స్నేహపూర్వక ఇంటర్ఫేస్ మరియు విస్తృతమైన కార్యాచరణలతో, లైబ్రరీ అప్రయత్నంగా డేటా ప్రిప్రాసెసింగ్, అన్వేషణ మరియు పరివర్తనను అనుమతిస్తుంది. ఈ డాక్యుమెంటేషన్లో ప్రదర్శించబడిన ప్రోగ్రామ్ డేటా సంగ్రహణ మరియు విశ్లేషణ పనులను క్రమబద్ధీకరించడానికి లైబ్రరీని ఎలా ఉపయోగించవచ్చనేదానికి ఆచరణాత్మక ఉదాహరణగా పనిచేస్తుంది.
నిజ జీవిత దృశ్యాలలో, ఈ ప్రోగ్రామ్ సెంటిమెంట్ విశ్లేషణ, వచన వర్గీకరణ మరియు భాషా నమూనా వంటి మరింత సంక్లిష్టమైన సహజ భాషా ప్రాసెసింగ్ పనులకు పునాదిగా ఉపయోగపడుతుంది. “డేటాసెట్లు” లైబ్రరీని ఉపయోగించి, పరిశోధకులు మరియు డెవలపర్లు పెద్ద-స్థాయి డేటాసెట్లను సమర్ధవంతంగా నిర్వహించగలరు, ప్రయోగాలను సులభతరం చేయవచ్చు మరియు అత్యాధునిక NLP మోడల్ల అభివృద్ధిని వేగవంతం చేయవచ్చు. మొత్తంమీద, హగ్గింగ్ ఫేస్ 'డేటాసెట్స్' లైబ్రరీ సహజ భాషా ప్రాసెసింగ్ మరియు అవగాహనలో పురోగతిని సాధించడంలో ముఖ్యమైన ఆస్తిగా నిలుస్తుంది.