హగ్గింగ్ ఫేస్ డేటాసెట్‌లను ఎలా ఉపయోగించాలి

Hagging Phes Detaset Lanu Ela Upayogincali



మెషిన్ లెర్నింగ్ మోడల్స్ యొక్క వర్తింపు మరియు వినియోగం డేటాపై పరీక్షించబడుతుంది. పరీక్షల విశ్వసనీయత ఈ నమూనాలు వర్తించే డేటా పరిమాణం మరియు నాణ్యతపై ఎక్కువగా ఆధారపడి ఉంటుంది. మీ 'ని పరీక్షించడానికి తగిన పెద్ద డేటాసెట్‌ను సృష్టించడం, పొందడం మరియు శుభ్రపరచడం అనేది దానికదే పూర్తి పని. సహజ భాషా ప్రాసెసింగ్ (NLP) ”మెషిన్ లెర్నింగ్ మోడల్.

హగ్గింగ్ ఫేస్ దాని అసాధారణమైన పెద్ద లైబ్రరీ డేటాసెట్‌లను ఎంచుకోవడానికి మరియు మీ అవసరాలకు సరిగ్గా సరిపోయేదాన్ని కనుగొనడానికి దీనికి చక్కని పరిష్కారాన్ని అందిస్తుంది. ఇక్కడ, ఆదర్శ డేటాసెట్‌ను ఎలా కనుగొనాలో మరియు మీ మోడల్‌ను తగినంతగా పరీక్షించడానికి దాన్ని ఎలా సిద్ధం చేయాలో మేము మీకు చూపుతాము.







హగ్గింగ్ ఫేస్ డేటాసెట్‌లను ఎలా ఉపయోగించాలి?

'' యొక్క ఉదాహరణను ఉపయోగించి హగ్గింగ్ ఫేస్ డేటాసెట్‌లను ఎలా ఉపయోగించాలో మేము మీకు చూపుతాము చిన్న కథలు ” హగ్గింగ్ ఫేస్ నుండి డేటాసెట్.



ఉదాహరణ

TinyStories డేటాసెట్ రైలు విభజనలో 2 మిలియన్ల కంటే ఎక్కువ వరుసల డేటాను కలిగి ఉంది మరియు ఇది హగ్గింగ్ ఫేస్ ప్లాట్‌ఫారమ్‌లో 2 వేల కంటే ఎక్కువ డౌన్‌లోడ్‌లను కలిగి ఉంది. మేము దిగువ ఇచ్చిన Google Colabలోని కోడ్‌లో దీన్ని ఉపయోగిస్తాము:



! పిప్ ఇన్స్టాల్ ట్రాన్స్ఫార్మర్లు
! పిప్ ఇన్స్టాల్ డేటాసెట్‌లు

డేటాసెట్ల నుండి load_datasetని దిగుమతి చేయండి

డేటాసెట్ = లోడ్_డేటాసెట్ ( 'రోనెల్డాన్/టైనీస్టోరీస్' )

TinyStories_Story = 3
example_string = డేటాసెట్ [ 'రైలు' ] [ చిన్నకథలు_కథ ] [ 'వచనం' ]

ముద్రణ ( ఉదాహరణ_స్ట్రింగ్ )


ఈ కోడ్‌లో, దిగువ పేర్కొన్న దశలను పరిగణించండి:





దశ 01 : మొదటి అడుగు ' సంస్థాపన ట్రాన్స్ఫార్మర్స్ డేటాసెట్ల '.

దశ 02 : తర్వాత, అవసరమైన డేటాసెట్‌ను దిగుమతి చేయండి, “ చిన్న కథలు ”మీ ప్రాజెక్ట్‌లోకి.



దశ 03 : తర్వాత, ఎంచుకున్న డేటాసెట్‌ని “ని ఉపయోగించి లోడ్ చేయండి load_dataset() ” ఫంక్షన్.

దశ 04 : ఇప్పుడు, మేము TinyStories డేటాసెట్ నుండి మనకు కావలసిన కథనం సంఖ్యను పేర్కొంటాము. మేము మా కోడ్ ఉదాహరణలో 03 సంఖ్యను పేర్కొన్నాము.

దశ 05 : చివరగా, మేము అవుట్‌పుట్‌ను చూపించడానికి “ప్రింట్()” పద్ధతిని ఉపయోగిస్తాము.

అవుట్‌పుట్



గమనిక: కోడ్ మరియు అవుట్‌పుట్‌ని నేరుగా మా Google Colabలో కూడా చూడవచ్చు .

ముగింపు

' హగ్గింగ్ ఫేస్ డేటాసెట్‌లు ” వినియోగదారులు తమ ఆన్‌లైన్ లైబ్రరీ నుండి పెద్ద డేటాసెట్‌లను నేరుగా దిగుమతి చేసుకుంటూ వారి మెషిన్ లెర్నింగ్ మోడల్‌లను పరీక్షించడాన్ని చాలా సమర్థవంతంగా చేస్తుంది. ఫలితంగా, ప్రోగ్రామర్లు తమ ప్రాజెక్ట్‌లను నాణ్యత మరియు పరిమాణం రెండింటినీ కలిగి ఉన్న డేటాసెట్‌కు వ్యతిరేకంగా పరీక్షించగలిగేలా NLP అల్గారిథమ్‌ల అప్లికేషన్ సులభంగా మరియు వేగంగా మారింది.