ట్రాన్స్‌ఫార్మర్‌లలోని డేటాసెట్‌లో పైప్‌లైన్‌లను ఎలా అప్లై చేయాలి?

Trans Pharmar Laloni Detaset Lo Paip Lain Lanu Ela Aplai Ceyali



పైప్‌లైన్() ఫంక్షన్ ట్రాన్స్‌ఫార్మర్ లైబ్రరీలో అంతర్భాగం. ఇది అనేక ఇన్‌పుట్‌లను తీసుకుంటుంది, దీనిలో మనం అనుమితి విధి, నమూనాలు, టోకనైజేషన్ మెకానిజం మొదలైనవాటిని నిర్వచించవచ్చు. పైప్‌లైన్() ఫంక్షన్ ఒకటి లేదా అనేక టెక్స్ట్‌లపై NLP టాస్క్‌లను నిర్వహించడానికి ప్రధానంగా ఉపయోగించబడుతుంది. ఇది మానవులు చదవగలిగే అవుట్‌పుట్‌ను మరియు గరిష్ట ఖచ్చితత్వంతో ఖచ్చితమైన అంచనాను రూపొందించడానికి మోడల్ ఆధారంగా ఇన్‌పుట్‌పై ప్రీ-ప్రాసెసింగ్ మరియు పోస్ట్-ప్రాసెసింగ్‌ను నిర్వహిస్తుంది.

ఈ వ్యాసం కింది అంశాలను కవర్ చేస్తుంది:







హగ్గింగ్ ఫేస్ డేటాసెట్ లైబ్రరీ అంటే ఏమిటి?

హగ్గింగ్ ఫేస్ డేటాసెట్ లైబ్రరీ అనేది అనేక పబ్లిక్ డేటాసెట్‌లను కలిగి ఉన్న API మరియు వాటిని డౌన్‌లోడ్ చేయడానికి సులభమైన మార్గాన్ని అందిస్తుంది. ఈ లైబ్రరీని 'ని ఉపయోగించడం ద్వారా అప్లికేషన్‌లోకి దిగుమతి చేసుకోవచ్చు మరియు ఇన్‌స్టాల్ చేయవచ్చు. పిప్ ” ఆదేశం. హగ్గింగ్ ఫేస్ లైబ్రరీ యొక్క డేటాసెట్‌లను డౌన్‌లోడ్ చేసి, ఇన్‌స్టాల్ చేయడానికి ఆచరణాత్మక ప్రదర్శన కోసం, దీన్ని సందర్శించండి Google Colab లింక్. మీరు దీని నుండి బహుళ డేటాసెట్‌లను డౌన్‌లోడ్ చేసుకోవచ్చు హగ్గింగ్ ఫేస్ డేటాసెట్ హబ్.



ఈ కథనాన్ని సూచించడం ద్వారా పైప్‌లైన్() ఫంక్షన్ పనితీరు గురించి మరింత తెలుసుకోండి “ ట్రాన్స్‌ఫార్మర్‌లలో పైప్‌లైన్ () ఫంక్షన్‌ను ఎలా ఉపయోగించాలి? ”.



హగ్గింగ్ ఫేస్‌లో డేటాసెట్‌లో పైప్‌లైన్‌లను ఎలా అప్లై చేయాలి?

హగ్గింగ్ ఫేస్ అనేక విభిన్న పబ్లిక్ డేటాసెట్‌లను అందిస్తుంది, వీటిని వన్-లైన్ కోడ్‌ని ఉపయోగించడం ద్వారా సులభంగా ఇన్‌స్టాల్ చేయవచ్చు. ఈ వ్యాసంలో, ఈ డేటాసెట్‌లకు పైప్‌లైన్‌లను వర్తింపజేయడం యొక్క ఆచరణాత్మక ప్రదర్శనను మేము చూస్తాము. డేటాసెట్‌లో పైప్‌లైన్‌లను అమలు చేయడానికి రెండు మార్గాలు ఉన్నాయి.





విధానం 1: పునరావృత పద్ధతిని ఉపయోగించడం

పైప్‌లైన్() ఫంక్షన్‌ను డేటాసెట్ మరియు మోడల్‌లో కూడా పునరావృతం చేయవచ్చు. ఈ ప్రయోజనం కోసం, దిగువ పేర్కొన్న దశలను అనుసరించండి:

దశ 1: ట్రాన్స్‌ఫార్మర్ లైబ్రరీని ఇన్‌స్టాల్ చేయండి

ట్రాన్స్‌ఫార్మర్ లైబ్రరీని ఇన్‌స్టాల్ చేయడానికి, కింది ఆదేశాన్ని అందించండి:



!పిప్ ట్రాన్స్‌ఫార్మర్‌లను ఇన్‌స్టాల్ చేయండి

దశ 2: పైప్‌లైన్‌లను దిగుమతి చేయండి

మేము ట్రాన్స్‌ఫార్మర్ లైబ్రరీ నుండి పైప్‌లైన్‌ను దిగుమతి చేసుకోవచ్చు. ఈ ప్రయోజనం కోసం, కింది ఆదేశాన్ని అందించండి:

ట్రాన్స్‌ఫార్మర్ల నుండి పైప్‌లైన్‌ను దిగుమతి చేసుకుంటుంది

దశ 3: పైప్‌లైన్‌ని అమలు చేయండి

ఇక్కడ, పైప్‌లైన్ () ఫంక్షన్ మోడల్‌లో అమలు చేయబడుతుంది ' gpt2 ”. మీరు నుండి మోడల్‌లను డౌన్‌లోడ్ చేసుకోవచ్చు హగ్గింగ్ ఫేస్ మోడల్ హబ్:

def imp_pipeline():
x కోసం పరిధిలో (1000):
దిగుబడి f'ఇంప్లిమెంటేషన్ డేటాసెట్{x}'


generate_pipeline= పైప్‌లైన్(model='gpt2', device=0)
gen_char= 0
Generate_pipeline(imp_pipeline())లో అవుట్‌పుట్ కోసం:
gen_char += len(అవుట్‌పుట్[0]['generated_text'])

ఈ కోడ్‌లో, ' జనరేట్_పైప్‌లైన్ ” అనేది మోడల్‌తో పైప్‌లైన్() ఫంక్షన్‌ను కలిగి ఉండే వేరియబుల్ gpt2 ”. దీనిని 'తో పిలిచినప్పుడు imp_pipeline() ” ఫంక్షన్, ఇది 1000కి పేర్కొన్న పరిధితో పెరిగిన డేటాను స్వయంచాలకంగా గుర్తిస్తుంది:

ఇది శిక్షణ ఇవ్వడానికి కొంత సమయం పడుతుంది. కు లింక్ Google Co కూడా ఇస్తారు.

విధానం 2: డేటాసెట్స్ లైబ్రరీని ఉపయోగించడం

ఈ పద్ధతిలో, 'డేటాసెట్స్' లైబ్రరీని ఉపయోగించి పైప్‌లైన్‌ను అమలు చేయడాన్ని మేము ప్రదర్శిస్తాము:

దశ 1: ట్రాన్స్‌ఫార్మర్‌ను ఇన్‌స్టాల్ చేయండి

ట్రాన్స్‌ఫార్మర్ లైబ్రరీని ఇన్‌స్టాల్ చేయడానికి, కింది ఆదేశాన్ని అందించండి:

!పిప్ ట్రాన్స్‌ఫార్మర్‌లను ఇన్‌స్టాల్ చేయండి

దశ 2: డేటాసెట్ లైబ్రరీని ఇన్‌స్టాల్ చేయండి

గా ' డేటాసెట్‌లు ” లైబ్రరీలో అన్ని పబ్లిక్ డేటాసెట్‌లు ఉన్నాయి, కింది ఆదేశాన్ని ఉపయోగించి మనం దీన్ని ఇన్‌స్టాల్ చేయవచ్చు. ఇన్‌స్టాల్ చేయడం ద్వారా ' డేటాసెట్‌లు ” లైబ్రరీ, ఏదైనా డేటాసెట్ పేరును అందించడం ద్వారా మనం నేరుగా దిగుమతి చేసుకోవచ్చు:

!పిప్ ఇన్‌స్టాల్ డేటాసెట్‌లు

దశ 3: డేటాసెట్ పైప్‌లైన్

డేటాసెట్‌లో పైప్‌లైన్‌ను రూపొందించడానికి, కింది కోడ్‌ని ఉపయోగించండి. KeyDataset అనేది వినియోగదారుకు ఆసక్తి కలిగించే విలువలను మాత్రమే అవుట్‌పుట్ చేసే లక్షణం:

Transformers.pipelines.pt_utils నుండి KeyDatasetని దిగుమతి చేయండి
ట్రాన్స్‌ఫార్మర్ల నుండి పైప్‌లైన్‌ను దిగుమతి చేసుకుంటుంది
డేటాసెట్ల నుండి load_dataset దిగుమతి
gen_pipeline = పైప్‌లైన్(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') gen_pipeline(KeyDataset(loaddataset, 'audio'))లో అవుట్‌పుట్ కోసం:
ప్రింట్ ('ఇప్పుడు అవుట్‌పుట్‌ను ముద్రిస్తోంది')
ముద్రణ ('----------------')
ప్రింట్ (అవుట్‌పుట్)

పై కోడ్ యొక్క అవుట్‌పుట్ క్రింద ఇవ్వబడింది:

ఈ గైడ్ నుండి ఇదంతా. కు లింక్ Google Co అనేది కూడా ఈ వ్యాసంలో ప్రస్తావించబడింది

ముగింపు

డేటాసెట్‌పై పైప్‌లైన్‌లను వర్తింపజేయడానికి, పైప్‌లైన్() ఫంక్షన్‌ని ఉపయోగించడం ద్వారా మేము డేటాసెట్‌ను మళ్లీ మళ్లీ చేయవచ్చు లేదా “ డేటాసెట్‌లు ' గ్రంధాలయం. Hugging Face దాని వినియోగదారులకు డేటాసెట్‌లు మరియు మోడల్‌లు రెండింటి కోసం GitHub రిపోజిటరీ లింక్‌ను అందిస్తుంది, వీటిని అవసరాల ఆధారంగా ఉపయోగించవచ్చు. ఈ కథనం ట్రాన్స్‌ఫార్మర్‌లలోని డేటాసెట్‌పై పైప్‌లైన్‌లను వర్తింపజేయడానికి సమగ్ర మార్గదర్శిని అందించింది.