మెషిన్ లెర్నింగ్ మోడల్స్ యొక్క వర్తింపు మరియు వినియోగం డేటాపై పరీక్షించబడుతుంది. పరీక్షల విశ్వసనీయత ఈ నమూనాలు వర్తించే డేటా పరిమాణం మరియు నాణ్యతపై ఎక్కువగా ఆధారపడి ఉంటుంది. మీ 'ని పరీక్షించడానికి తగిన పెద్ద డేటాసెట్ను సృష్టించడం, పొందడం మరియు శుభ్రపరచడం అనేది దానికదే పూర్తి పని. సహజ భాషా ప్రాసెసింగ్ (NLP) ”మెషిన్ లెర్నింగ్ మోడల్.
హగ్గింగ్ ఫేస్ దాని అసాధారణమైన పెద్ద లైబ్రరీ డేటాసెట్లను ఎంచుకోవడానికి మరియు మీ అవసరాలకు సరిగ్గా సరిపోయేదాన్ని కనుగొనడానికి దీనికి చక్కని పరిష్కారాన్ని అందిస్తుంది. ఇక్కడ, ఆదర్శ డేటాసెట్ను ఎలా కనుగొనాలో మరియు మీ మోడల్ను తగినంతగా పరీక్షించడానికి దాన్ని ఎలా సిద్ధం చేయాలో మేము మీకు చూపుతాము.
హగ్గింగ్ ఫేస్ డేటాసెట్లను ఎలా ఉపయోగించాలి?
'' యొక్క ఉదాహరణను ఉపయోగించి హగ్గింగ్ ఫేస్ డేటాసెట్లను ఎలా ఉపయోగించాలో మేము మీకు చూపుతాము చిన్న కథలు ” హగ్గింగ్ ఫేస్ నుండి డేటాసెట్.
ఉదాహరణ
TinyStories డేటాసెట్ రైలు విభజనలో 2 మిలియన్ల కంటే ఎక్కువ వరుసల డేటాను కలిగి ఉంది మరియు ఇది హగ్గింగ్ ఫేస్ ప్లాట్ఫారమ్లో 2 వేల కంటే ఎక్కువ డౌన్లోడ్లను కలిగి ఉంది. మేము దిగువ ఇచ్చిన Google Colabలోని కోడ్లో దీన్ని ఉపయోగిస్తాము:
! పిప్ ఇన్స్టాల్ ట్రాన్స్ఫార్మర్లు
! పిప్ ఇన్స్టాల్ డేటాసెట్లు
డేటాసెట్ల నుండి load_datasetని దిగుమతి చేయండి
డేటాసెట్ = లోడ్_డేటాసెట్ ( 'రోనెల్డాన్/టైనీస్టోరీస్' )
TinyStories_Story = 3
example_string = డేటాసెట్ [ 'రైలు' ] [ చిన్నకథలు_కథ ] [ 'వచనం' ]
ముద్రణ ( ఉదాహరణ_స్ట్రింగ్ )
ఈ కోడ్లో, దిగువ పేర్కొన్న దశలను పరిగణించండి:
దశ 01 : మొదటి అడుగు ' సంస్థాపన ట్రాన్స్ఫార్మర్స్ డేటాసెట్ల '.
దశ 02 : తర్వాత, అవసరమైన డేటాసెట్ను దిగుమతి చేయండి, “ చిన్న కథలు ”మీ ప్రాజెక్ట్లోకి.
దశ 03 : తర్వాత, ఎంచుకున్న డేటాసెట్ని “ని ఉపయోగించి లోడ్ చేయండి load_dataset() ” ఫంక్షన్.
దశ 04 : ఇప్పుడు, మేము TinyStories డేటాసెట్ నుండి మనకు కావలసిన కథనం సంఖ్యను పేర్కొంటాము. మేము మా కోడ్ ఉదాహరణలో 03 సంఖ్యను పేర్కొన్నాము.
దశ 05 : చివరగా, మేము అవుట్పుట్ను చూపించడానికి “ప్రింట్()” పద్ధతిని ఉపయోగిస్తాము.
అవుట్పుట్
గమనిక: కోడ్ మరియు అవుట్పుట్ని నేరుగా మా Google Colabలో కూడా చూడవచ్చు .
ముగింపు
' హగ్గింగ్ ఫేస్ డేటాసెట్లు ” వినియోగదారులు తమ ఆన్లైన్ లైబ్రరీ నుండి పెద్ద డేటాసెట్లను నేరుగా దిగుమతి చేసుకుంటూ వారి మెషిన్ లెర్నింగ్ మోడల్లను పరీక్షించడాన్ని చాలా సమర్థవంతంగా చేస్తుంది. ఫలితంగా, ప్రోగ్రామర్లు తమ ప్రాజెక్ట్లను నాణ్యత మరియు పరిమాణం రెండింటినీ కలిగి ఉన్న డేటాసెట్కు వ్యతిరేకంగా పరీక్షించగలిగేలా NLP అల్గారిథమ్ల అప్లికేషన్ సులభంగా మరియు వేగంగా మారింది.