హగ్గింగ్ ఫేస్‌లో డేటాసెట్‌లను ఎలా కలపాలి

Hagging Phes Lo Detaset Lanu Ela Kalapali



హగ్గింగ్ ఫేస్ నుండి 'డేటాసెట్స్' లైబ్రరీ సహజ భాషా ప్రాసెసింగ్ పనుల కోసం డేటాసెట్‌లతో పని చేయడానికి మరియు వాటిని మార్చడానికి అనుకూలమైన మార్గాన్ని అందిస్తుంది. లైబ్రరీ అందించే ఒక ఉపయోగకరమైన ఫంక్షన్ concatenate_datasets() ఇది బహుళ డేటాసెట్‌లను ఒకే డేటాసెట్‌లో కలపడానికి మిమ్మల్ని అనుమతిస్తుంది. కిందివి concatenate_datasets() ఫంక్షన్ మరియు దానిని ఎలా ఉపయోగించాలో సంక్షిప్త అవలోకనం.

concatenate_datasets()

వివరణ:

హగ్గింగ్ ఫేస్ యొక్క “డేటాసెట్‌లు” లైబ్రరీ concatenate_datasets() ఫంక్షన్‌ని అందిస్తుంది. ఇది బహుళ డేటాసెట్‌లను సంగ్రహించడానికి ఉపయోగించబడుతుంది, వాటిని పేర్కొన్న అక్షం వెంట ఒకే డేటాసెట్‌లో కలపడం. మీరు ఒకే నిర్మాణాన్ని పంచుకునే బహుళ డేటాసెట్‌లను కలిగి ఉన్నప్పుడు మరియు తదుపరి ప్రాసెసింగ్ మరియు విశ్లేషణ కోసం మీరు వాటిని ఏకీకృత డేటాసెట్‌లో విలీనం చేయాలనుకున్నప్పుడు ఈ ఫంక్షన్ చాలా ఉపయోగకరంగా ఉంటుంది.







సింటాక్స్:



నుండి డేటాసెట్‌లు దిగుమతి concatenate_datasets

concatenated_dataset = concatenate_datasets ( డేటాసెట్‌లు , అక్షం = 0 , సమాచారం = ఏదీ లేదు )

పారామితులు:

డేటాసెట్‌లు (డేటాసెట్ జాబితా): మీరు సంగ్రహించాలనుకుంటున్న డేటాసెట్‌ల జాబితా. ఈ డేటాసెట్‌లు అనుకూల లక్షణాలను కలిగి ఉండాలి అంటే అవి ఒకే విధమైన స్కీమా, నిలువు వరుస పేర్లు మరియు డేటా రకాలను కలిగి ఉంటాయి.



అక్షం (పూర్ణాంక, ఐచ్ఛికం, డిఫాల్ట్=0): సంయోగం చేయవలసిన అక్షం. చాలా NLP డేటాసెట్‌ల కోసం, 0 యొక్క డిఫాల్ట్ విలువ ఉపయోగించబడుతుంది అంటే డేటాసెట్‌లు నిలువుగా కలిసి ఉంటాయి. మీరు axis=1ని సెట్ చేస్తే, డేటాసెట్‌లు విభిన్న నిలువు వరుసలను ఫీచర్‌లుగా కలిగి ఉన్నాయని భావించి, అడ్డంగా జతచేయబడతాయి.





సమాచారం (datasets.DatasetInfo, ఐచ్ఛికం): సంగ్రహించబడిన డేటాసెట్ గురించిన సమాచారం. అందించకపోతే, జాబితాలోని మొదటి డేటాసెట్ నుండి సమాచారం ఊహించబడుతుంది.

రిటర్న్స్:

concatenated_dataset (డేటాసెట్): అన్ని ఇన్‌పుట్ డేటాసెట్‌లను కలిపిన తర్వాత వచ్చే డేటాసెట్.



ఉదాహరణ:

# దశ 1: డేటాసెట్‌ల లైబ్రరీని ఇన్‌స్టాల్ చేయండి

# మీరు దీన్ని పిప్ ఉపయోగించి ఇన్‌స్టాల్ చేయవచ్చు:

# !పిప్ ఇన్‌స్టాల్ డేటాసెట్‌లు

# దశ 2: అవసరమైన లైబ్రరీలను దిగుమతి చేయండి

నుండి డేటాసెట్‌లు దిగుమతి load_dataset , concatenate_datasets

# దశ 3: IMDb మూవీ రివ్యూ డేటాసెట్‌లను లోడ్ చేయండి

# మేము రెండు IMDb డేటాసెట్‌లను ఉపయోగిస్తాము, ఒకటి సానుకూల సమీక్షల కోసం

#మరియు ప్రతికూల సమీక్షల కోసం మరొకటి.

# 2500 సానుకూల సమీక్షలను లోడ్ చేయండి

డేటాసెట్_పోస్ = load_dataset ( 'imdb' , విడిపోయింది = 'రైలు[:2500]' )

# 2500 ప్రతికూల సమీక్షలను లోడ్ చేయండి

డేటాసెట్_నెగ్ = load_dataset ( 'imdb' , విడిపోయింది = 'రైలు[-2500:]' )

# దశ 4: డేటాసెట్‌లను సంగ్రహించండి

# మేము రెండు డేటాసెట్‌లను అక్షం=0తో పాటు అవి కలిగి ఉన్నట్లుగా కలుపుతాము

అదే స్కీమా ( అదే లక్షణాలు ) .

concatenated_dataset = concatenate_datasets ( [ డేటాసెట్_పోస్ , డేటాసెట్_నెగ్ ] )

# దశ 5: సంగ్రహించబడిన డేటాసెట్‌ను విశ్లేషించండి

# సరళత కోసం, సానుకూల మరియు ప్రతికూల సంఖ్యలను గణిద్దాం

సంగ్రహించబడిన డేటాసెట్‌లో # సమీక్షలు.

సంఖ్య_పాజిటివ్_రివ్యూలు = మొత్తం ( 1 కోసం లేబుల్ లో

concatenated_dataset [ 'లేబుల్' ] ఉంటే లేబుల్ == 1 )

నెగెటివ్_రివ్యూల సంఖ్య = మొత్తం ( 1 కోసం లేబుల్ లో

concatenated_dataset [ 'లేబుల్' ] ఉంటే లేబుల్ == 0 )

# దశ 6: ఫలితాలను ప్రదర్శించండి

ముద్రణ ( 'సానుకూల సమీక్షల సంఖ్య:' , సంఖ్య_పాజిటివ్_రివ్యూలు )

ముద్రణ ( 'ప్రతికూల సమీక్షల సంఖ్య:' , నెగెటివ్_రివ్యూల సంఖ్య )

# దశ 7: సంగ్రహించబడిన డేటాసెట్ నుండి కొన్ని ఉదాహరణ సమీక్షలను ముద్రించండి

ముద్రణ ( ' \n కొన్ని ఉదాహరణ సమీక్షలు:' )

కోసం i లో పరిధి ( 5 ) :

ముద్రణ ( f 'రివ్యూ {i + 1}: {concatenated_dataset['text'][i]}' )

అవుట్‌పుట్:

రెండు IMDb మూవీ రివ్యూ డేటాసెట్‌లను కలిపే హగ్గింగ్ ఫేస్ యొక్క “డేటాసెట్‌లు” లైబ్రరీ ప్రోగ్రామ్‌కు సంబంధించిన వివరణ క్రిందిది. ఇది ప్రోగ్రామ్ యొక్క ఉద్దేశ్యం, దాని వినియోగం మరియు కోడ్‌లో ఉన్న దశలను వివరిస్తుంది.

కోడ్‌లోని ప్రతి దశకు మరింత వివరణాత్మక వివరణను అందిద్దాం:

# దశ 1: అవసరమైన లైబ్రరీలను దిగుమతి చేయండి

నుండి డేటాసెట్‌లు దిగుమతి load_dataset , concatenate_datasets

ఈ దశలో, మేము ప్రోగ్రామ్ కోసం అవసరమైన లైబ్రరీలను దిగుమతి చేస్తాము. IMDb మూవీ రివ్యూ డేటాసెట్‌లను లోడ్ చేయడానికి మాకు “load_dataset” ఫంక్షన్ అవసరం మరియు వాటిని తర్వాత కలపడానికి “concatenate_datasets” అవసరం.

# దశ 2: IMDb మూవీ రివ్యూ డేటాసెట్‌లను లోడ్ చేయండి

# 2500 సానుకూల సమీక్షలను లోడ్ చేయండి

డేటాసెట్_పోస్ = load_dataset ( 'imdb' , విడిపోయింది = 'రైలు[:2500]' )

# 2500 ప్రతికూల సమీక్షలను లోడ్ చేయండి

డేటాసెట్_నెగ్ = load_dataset ( 'imdb' , విడిపోయింది = 'రైలు[-2500:]' )

ఇక్కడ, IMDb డేటాసెట్ యొక్క రెండు ఉపసమితులను పొందేందుకు మేము “load_dataset” ఫంక్షన్‌ని ఉపయోగిస్తాము. “dataset_pos” 2500 సానుకూల సమీక్షలను కలిగి ఉంది మరియు “dataset_neg” 2500 ప్రతికూల సమీక్షలను కలిగి ఉంది. మేము మొత్తం డేటాసెట్ యొక్క ఉపసమితిని ఎంచుకోవడానికి అనుమతించే లోడ్ చేయడానికి ఉదాహరణల పరిధిని పేర్కొనడానికి స్ప్లిట్ పారామీటర్‌ని ఉపయోగిస్తాము.

# దశ 3: డేటాసెట్‌లను సంగ్రహించండి

concatenated_dataset = concatenate_datasets ( [ డేటాసెట్_పోస్ , డేటాసెట్_నెగ్ ] )

ఈ దశలో, మేము IMDb డేటాసెట్‌లోని రెండు ఉపసమితులను “concatenated_dataset” అని పిలిచే ఒకే డేటాసెట్‌గా కలుపుతాము. మేము “concatenate_datasets” ఫంక్షన్‌ని ఉపయోగిస్తాము మరియు దానిని సంగ్రహించడానికి రెండు డేటాసెట్‌లను కలిగి ఉన్న జాబితాతో పాస్ చేస్తాము. రెండు డేటాసెట్‌లు ఒకే లక్షణాలను కలిగి ఉన్నందున, మేము వాటిని axis=0తో కలుపుతాము అంటే అడ్డు వరుసలు ఒకదానిపై ఒకటి పేర్చబడి ఉంటాయి.

# దశ 4: సంగ్రహించబడిన డేటాసెట్‌ను విశ్లేషించండి

సంఖ్య_పాజిటివ్_రివ్యూలు = మొత్తం ( 1 కోసం లేబుల్ లో

concatenated_dataset [ 'లేబుల్' ] ఉంటే లేబుల్ == 1 )

నెగెటివ్_రివ్యూల సంఖ్య = మొత్తం ( 1 కోసం లేబుల్ లో

concatenated_dataset [ 'లేబుల్' ] ఉంటే లేబుల్ == 0 )

ఇక్కడ, మేము సంగ్రహించబడిన డేటాసెట్ యొక్క సాధారణ విశ్లేషణను చేస్తాము. మేము సానుకూల మరియు ప్రతికూల సమీక్షల సంఖ్యను లెక్కించడానికి 'మొత్తం' ఫంక్షన్‌తో పాటు జాబితా గ్రహణాలను ఉపయోగిస్తాము. ద్వారా మేము పునరావృతం చేస్తాము ' 'concatenated_dataset' యొక్క లేబుల్' నిలువు వరుస మరియు మేము సానుకూల లేబుల్ (1) లేదా ప్రతికూల లేబుల్ (0)ని ఎదుర్కొన్నప్పుడల్లా గణనలను పెంచండి.

# దశ 5: ఫలితాలను ప్రదర్శించండి

ముద్రణ ( 'సానుకూల సమీక్షల సంఖ్య:' , సంఖ్య_పాజిటివ్_రివ్యూలు )

ముద్రణ ( 'ప్రతికూల సమీక్షల సంఖ్య:' , నెగెటివ్_రివ్యూల సంఖ్య )

ఈ దశలో, మేము మా విశ్లేషణ ఫలితాలను ముద్రిస్తాము - సంగ్రహించబడిన డేటాసెట్‌లోని సానుకూల మరియు ప్రతికూల సమీక్షల సంఖ్య.

# దశ 6: కొన్ని ఉదాహరణ సమీక్షలను ముద్రించండి

ముద్రణ ( ' \n కొన్ని ఉదాహరణ సమీక్షలు:' )

కోసం i లో పరిధి ( 5 ) :

ముద్రణ ( f 'రివ్యూ {i + 1}: {concatenated_dataset['text'][i]}' )

చివరగా, మేము సంగ్రహించబడిన డేటాసెట్ నుండి కొన్ని ఉదాహరణ సమీక్షలను ప్రదర్శిస్తాము. మేము డేటాసెట్‌లోని మొదటి ఐదు ఉదాహరణలను లూప్ చేస్తాము మరియు “టెక్స్ట్” కాలమ్‌ని ఉపయోగించి వాటి టెక్స్ట్ కంటెంట్‌ను ప్రింట్ చేస్తాము.

IMDb చలనచిత్ర సమీక్ష డేటాసెట్‌లను లోడ్ చేయడానికి, సంగ్రహించడానికి మరియు విశ్లేషించడానికి హగ్గింగ్ ఫేస్ యొక్క “డేటాసెట్‌లు” లైబ్రరీని ఉపయోగించడం యొక్క సూటి ఉదాహరణను ఈ కోడ్ ప్రదర్శిస్తుంది. ఇది NLP డేటాసెట్ హ్యాండ్లింగ్‌ను క్రమబద్ధీకరించడానికి లైబ్రరీ సామర్థ్యాన్ని హైలైట్ చేస్తుంది మరియు మరింత అధునాతన సహజ భాషా ప్రాసెసింగ్ మోడల్‌లు మరియు అప్లికేషన్‌లను రూపొందించడానికి దాని సామర్థ్యాన్ని ప్రదర్శిస్తుంది.

ముగింపు

హగ్గింగ్ ఫేస్ యొక్క “డేటాసెట్‌లు” లైబ్రరీని ఉపయోగించే పైథాన్ ప్రోగ్రామ్ రెండు IMDb మూవీ రివ్యూ డేటాసెట్‌ల కలయికను విజయవంతంగా ప్రదర్శిస్తుంది. అనుకూల మరియు ప్రతికూల సమీక్షల ఉపసమితులను లోడ్ చేయడం ద్వారా, ప్రోగ్రామ్ వాటిని concatenate_datasets() ఫంక్షన్‌ని ఉపయోగించి ఒకే డేటాసెట్‌గా మిళితం చేస్తుంది. ఇది మిశ్రమ డేటాసెట్‌లోని సానుకూల మరియు ప్రతికూల సమీక్షల సంఖ్యను లెక్కించడం ద్వారా సాధారణ విశ్లేషణ చేస్తుంది.

“డేటాసెట్‌లు” లైబ్రరీ NLP డేటాసెట్‌లను నిర్వహించడం మరియు మార్చే ప్రక్రియను సులభతరం చేస్తుంది, ఇది పరిశోధకులు, డెవలపర్‌లు మరియు NLP అభ్యాసకులకు శక్తివంతమైన సాధనంగా చేస్తుంది. దాని వినియోగదారు-స్నేహపూర్వక ఇంటర్‌ఫేస్ మరియు విస్తృతమైన కార్యాచరణలతో, లైబ్రరీ అప్రయత్నంగా డేటా ప్రిప్రాసెసింగ్, అన్వేషణ మరియు పరివర్తనను అనుమతిస్తుంది. ఈ డాక్యుమెంటేషన్‌లో ప్రదర్శించబడిన ప్రోగ్రామ్ డేటా సంగ్రహణ మరియు విశ్లేషణ పనులను క్రమబద్ధీకరించడానికి లైబ్రరీని ఎలా ఉపయోగించవచ్చనేదానికి ఆచరణాత్మక ఉదాహరణగా పనిచేస్తుంది.

నిజ జీవిత దృశ్యాలలో, ఈ ప్రోగ్రామ్ సెంటిమెంట్ విశ్లేషణ, వచన వర్గీకరణ మరియు భాషా నమూనా వంటి మరింత సంక్లిష్టమైన సహజ భాషా ప్రాసెసింగ్ పనులకు పునాదిగా ఉపయోగపడుతుంది. “డేటాసెట్‌లు” లైబ్రరీని ఉపయోగించి, పరిశోధకులు మరియు డెవలపర్‌లు పెద్ద-స్థాయి డేటాసెట్‌లను సమర్ధవంతంగా నిర్వహించగలరు, ప్రయోగాలను సులభతరం చేయవచ్చు మరియు అత్యాధునిక NLP మోడల్‌ల అభివృద్ధిని వేగవంతం చేయవచ్చు. మొత్తంమీద, హగ్గింగ్ ఫేస్ 'డేటాసెట్స్' లైబ్రరీ సహజ భాషా ప్రాసెసింగ్ మరియు అవగాహనలో పురోగతిని సాధించడంలో ముఖ్యమైన ఆస్తిగా నిలుస్తుంది.