హగ్గింగ్ ఫేస్ ట్రాన్స్‌ఫార్మర్‌లలో టోకెనైజర్‌లను ఎలా ఉపయోగించాలి?

Hagging Phes Trans Pharmar Lalo Tokenaijar Lanu Ela Upayogincali



నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్ (NLP) డేటా యొక్క ముడి రూపంలో పనిచేస్తుంది. యంత్ర అభ్యాస నమూనాలు సంక్లిష్ట డేటాపై శిక్షణ పొందుతాయి, కానీ అవి ముడి డేటాను అర్థం చేసుకోలేవు. డేటా యొక్క ఈ ముడి రూపం తప్పనిసరిగా దానితో అనుబంధించబడిన కొంత సంఖ్యా విలువను కలిగి ఉండాలి. ఈ విలువ డేటాలోని పదం యొక్క విలువ మరియు ప్రాముఖ్యతను నిర్ణయిస్తుంది మరియు దీని ఆధారంగా, లెక్కలు నిర్వహించబడతాయి.

ఈ కథనం హగ్గింగ్ ఫేస్ ట్రాన్స్‌ఫార్మర్‌లలో టోకెనైజర్‌లను ఉపయోగించడం గురించి దశల వారీ మార్గదర్శిని అందిస్తుంది.

టోకనైజర్ అంటే ఏమిటి?

టోకనైజర్ అనేది NLP యొక్క ముఖ్యమైన భావన, మరియు దాని ప్రధాన లక్ష్యం ముడి వచనాన్ని సంఖ్యలుగా అనువదించడం. ఈ ప్రయోజనం కోసం వివిధ పద్ధతులు మరియు పద్ధతులు ఉన్నాయి. అయితే, ప్రతి టెక్నిక్ ఒక నిర్దిష్ట ప్రయోజనానికి ఉపయోగపడుతుందని గమనించాలి.
హగ్గింగ్ ఫేస్ ట్రాన్స్‌ఫార్మర్‌లలో టోకెనైజర్‌లను ఎలా ఉపయోగించాలి?







హగ్గింగ్ ఫేస్ ట్రాన్స్‌ఫార్మర్‌లలో టోకెనైజర్‌లను ఎలా ఉపయోగించాలి?

టోకెనైజర్ లైబ్రరీని ఉపయోగించే ముందు మరియు దాని నుండి ఫంక్షన్‌లను దిగుమతి చేసుకునే ముందు దాన్ని తప్పనిసరిగా ఇన్‌స్టాల్ చేయాలి. ఆ తర్వాత, AutoTokenizer ఉపయోగించి మోడల్‌కు శిక్షణ ఇవ్వండి, ఆపై టోకనైజేషన్ చేయడానికి ఇన్‌పుట్‌ను అందించండి.



హగ్గింగ్ ఫేస్ టోకనైజేషన్ యొక్క మూడు ప్రధాన వర్గాలను పరిచయం చేస్తుంది, అవి క్రింద ఇవ్వబడ్డాయి:



  • పద ఆధారిత టోకనైజర్
  • అక్షర ఆధారిత టోకనైజర్
  • సబ్‌వర్డ్ ఆధారిత టోకనైజర్

ట్రాన్స్‌ఫార్మర్‌లలో టోకెనైజర్‌లను ఉపయోగించడానికి ఇక్కడ దశల వారీ గైడ్ ఉంది:





దశ 1: ట్రాన్స్‌ఫార్మర్‌లను ఇన్‌స్టాల్ చేయండి
ట్రాన్స్‌ఫార్మర్‌లను ఇన్‌స్టాల్ చేయడానికి, కింది ఆదేశంలో పిప్ ఆదేశాన్ని ఉపయోగించండి:

! పిప్ ఇన్స్టాల్ ట్రాన్స్ఫార్మర్లు



దశ 2: తరగతులను దిగుమతి చేయండి
ట్రాన్స్ఫార్మర్ల నుండి, దిగుమతి పైప్లైన్ , మరియు ఆటోమోడల్ ఫర్ సీక్వెన్స్ క్లాసిఫికేషన్ వర్గీకరణ చేయడానికి లైబ్రరీ:

ట్రాన్స్‌ఫార్మర్‌ల నుండి పైప్‌లైన్‌ను దిగుమతి చేసుకుంటుంది, AutoModelForSequenceClassification

దశ 3: మోడల్‌ను దిగుమతి చేయండి
ది ' ఆటోమోడల్ ఫర్ సీక్వెన్స్ క్లాసిఫికేషన్ ” అనేది టోకనైజేషన్ కోసం ఆటో-క్లాస్‌కు చెందిన పద్ధతి. ది from_pretrained() మోడల్ రకం ఆధారంగా సరైన మోడల్ తరగతిని తిరిగి ఇవ్వడానికి పద్ధతి ఉపయోగించబడుతుంది.

ఇక్కడ మేము మోడల్ పేరును అందించాము ' మోడల్ పేరు ”వేరియబుల్:

మోడల్ పేరు = 'distilbert-base-uncased-finetuned-sst-2-english'
ప్రీ_ట్రైనింగ్ మోడల్ =AutoModelForSequenceClassification.from_pretrained ( మోడల్ పేరు )

దశ 4: ఆటోటోకనైజర్‌ని దిగుమతి చేయండి
“ని దాటడం ద్వారా టోకెన్‌లను రూపొందించడానికి కింది ఆదేశాన్ని అందించండి మోడల్ పేరు ” వాదనగా:

ట్రాన్స్‌ఫార్మర్‌ల నుండి ఆటోటోకనైజర్‌ని దిగుమతి చేసుకుంటుంది

ఉత్పత్తి చేయబడిన టోకెన్ =AutoTokenizer.from_pretrained ( మోడల్ పేరు )

దశ 5: టోకెన్‌ని రూపొందించండి
ఇప్పుడు, మేము ఒక వాక్యంపై టోకెన్లను రూపొందిస్తాము 'నాకు మంచి ఆహారం అంటే ఇష్టం' 'ని ఉపయోగించడం ద్వారా ఉత్పత్తి చేయబడిన టోకెన్ ”వేరియబుల్:

పదాలు = జనరేట్ టోకెన్ ( 'నాకు మంచి ఆహారం ఇష్టం' )
ముద్రణ ( పదాలు )

అవుట్పుట్ క్రింది విధంగా ఇవ్వబడింది:

పైన పేర్కొన్న వాటికి కోడ్ Google Co ఇక్కడ ఇవ్వబడింది.

ముగింపు

హగ్గింగ్ ఫేస్‌లో టోకెనైజర్‌లను ఉపయోగించడానికి, పిప్ కమాండ్‌ని ఉపయోగించి లైబ్రరీని ఇన్‌స్టాల్ చేయండి, ఆటోటోకనైజర్‌ని ఉపయోగించి మోడల్‌కు శిక్షణ ఇవ్వండి, ఆపై టోకనైజేషన్ చేయడానికి ఇన్‌పుట్‌ను అందించండి. టోకనైజేషన్‌ని ఉపయోగించడం ద్వారా, వాక్యం యొక్క అర్థాన్ని నిలుపుకోవడానికి అవి క్రమం చేయబడిన పదాల ఆధారంగా బరువులను కేటాయించండి. ఈ స్కోర్ విశ్లేషణ కోసం వారి విలువను కూడా నిర్ణయిస్తుంది. హగ్గింగ్ ఫేస్ ట్రాన్స్‌ఫార్మర్‌లలో టోకెనైజర్‌లను ఎలా ఉపయోగించాలో ఈ కథనం వివరణాత్మక గైడ్.