ఈ గైడ్లో, పైథాన్ ద్వారా మెషిన్ లెర్నింగ్ ఉపయోగించి US గృహాల ధరను ఎలా అంచనా వేయాలో చూద్దాం. ముందుగా, మేము ఉపయోగించే డేటాసెట్ను చర్చించి, ఆపై డేటాను ప్రీప్రాసెస్ చేస్తాము. ఆ తర్వాత, మేము డేటాసెట్లో ఉన్న లక్షణాలను విజువలైజ్ చేస్తాము మరియు శిక్షణ డేటాసెట్లో (సీటెల్, వాషింగ్టన్ ఆగస్టు 2022 - డిసెంబర్ 2022) వివిధ మెషిన్ లెర్నింగ్ అల్గారిథమ్లను వర్తింపజేస్తాము. చివరగా, టెస్ట్ డేటాసెట్లో ఉన్న కొన్ని ఇళ్ల ధరను అంచనా వేయడం ద్వారా మేము ఈ గైడ్ని ముగించాము. ఈ ప్రాజెక్ట్ను అమలు చేయడానికి ముందు, ఈ ప్రాజెక్ట్లో ఉపయోగించే మెషిన్ లెర్నింగ్ టెర్మినాలజీలను మనం అర్థం చేసుకోవాలి.
తిరోగమనం
మెషిన్ లెర్నింగ్లో, మీరు న్యూమరిక్ డేటాతో పని చేస్తుంటే, మీరు రిగ్రెషన్ను అర్థం చేసుకోవాలి. రిగ్రెషన్ అనేది మెషిన్ లెర్నింగ్లో పర్యవేక్షించబడిన లెర్నింగ్ టెక్నిక్, ఇది స్వతంత్ర లక్షణాలు మరియు డిపెండెంట్ అట్రిబ్యూట్ల (క్లాస్ లేబుల్/టార్గెట్) మధ్య సంబంధాన్ని అర్థం చేసుకోవడానికి ఉపయోగించబడుతుంది. యంత్రం డేటాసెట్లో ఉన్న ప్రతి రికార్డును నేర్చుకోవడం ద్వారా ఇంటి ధరను అంచనా వేస్తుంది. కాబట్టి, ఇది పర్యవేక్షించబడే అభ్యాసం.
ఉదాహరణకు, మన దృష్టాంతంలో, స్వతంత్ర గుణాలు పడకల సంఖ్య, స్నానాల సంఖ్య, భూమి పరిమాణం, జిప్ కోడ్ మొదలైనవి. వీటి ఆధారంగా మనం మన ఇంటి ధరను అంచనా వేయగలుగుతాము. కాబట్టి, ఇవి దేనిపైనా ఆధారపడని స్వతంత్ర లక్షణాలు. ధర అనేది ఈ లక్షణాలపై ఆధారపడి ఉండే లక్ష్య లక్షణం లేదా తరగతి లేబుల్.
1. లీనియర్ రిగ్రెషన్
లీనియర్ రిగ్రెషన్ అల్గోరిథం డిపెండెంట్ అట్రిబ్యూట్ (Y) మరియు ఇండిపెండెంట్ అట్రిబ్యూట్ (X) వేరియబుల్స్ మధ్య సరళ సంబంధాన్ని చూపుతుంది. గణితశాస్త్రపరంగా, మేము దానిని ఈ క్రింది విధంగా అంచనా వేయవచ్చు:
మరియు = aX+b
ఇక్కడ, 'a' మరియు 'b' అనేది లీనియర్ కోఎఫీషియంట్స్.
పైథాన్లో, “sklearn.linear_model” మాడ్యూల్లో LinearRegression() అందుబాటులో ఉంది. ప్రాజెక్ట్ను అమలు చేస్తున్నప్పుడు దీన్ని ఎలా పేర్కొనాలో చూద్దాం. కింది పారామితులతో మోడల్:
2. డెసిషన్ ట్రీ
ప్రాథమికంగా, డెసిషన్ ట్రీ అనేది నోడ్లను ఉపయోగించి అందించిన పరిస్థితుల ఆధారంగా సమస్యకు సాధ్యమయ్యే అన్ని పరిష్కారాలను పొందడానికి గ్రాఫికల్ ప్రాతినిధ్యం. నిర్ణయం తీసుకోవడానికి డెసిషన్ నోడ్ ఉపయోగించబడుతుంది మరియు లీఫ్ నోడ్ నిర్దిష్ట నిర్ణయం యొక్క అవుట్పుట్ను సూచిస్తుంది. డెసిషన్ ట్రీ రిగ్రెసర్తో మన ఇంటి ధరను అంచనా వేయవచ్చు.
పైథాన్లో, DecisionTreeRegressor “sklearn.tree” మాడ్యూల్లో అందుబాటులో ఉంది. ప్రాజెక్ట్ను అమలు చేస్తున్నప్పుడు దీన్ని ఎలా పేర్కొనాలో చూద్దాం. కింది పారామితులతో మోడల్:
3. రాండమ్ ఫారెస్ట్
రాండమ్ ఫారెస్ట్ డెసిషన్ ట్రీ మాదిరిగానే అదే కార్యాచరణను నిర్వహిస్తుంది. కానీ అది ఒక ఫారెస్ట్ (నిర్ణయ చెట్ల సేకరణ) పడుతుంది మరియు డెసిషన్ ట్రీస్ యొక్క అన్ని అవుట్పుట్లను కలపడం (సగటు విలువ). ఉదాహరణకు, రాండమ్ ఫారెస్ట్ పరిమాణం 3. కాబట్టి, అంతర్గతంగా, మూడు డెసిషన్ ట్రీలు సృష్టించబడతాయి మరియు మొదటి డెసిషన్ ట్రీ యొక్క ఇంటి ధర ఫలితం 20000. రెండవ డెసిషన్ ట్రీ యొక్క ఇంటి ధర ఫలితం 20000. మరియు ఇంటి ధర ఫలితం చివరి డెసిషన్ ట్రీ 10000. 16,666.666 తుది ఫలితం ((20000+20000+10000)/3).
పైథాన్లో, RandomForestRegressor “sklearn.ensemble” మాడ్యూల్లో అందుబాటులో ఉంది. కిందిది పారామితులతో కూడిన మోడల్. మేము 'n_estimators' పరామితిలో చెట్ల సంఖ్యను పేర్కొనవచ్చు. ఇది డిఫాల్ట్గా 100.
అమలు
US హౌస్ ధరను అంచనా వేయడంలో ఉన్న దశలను త్వరగా చూడండి. మేము 2016 రికార్డ్లతో (మెషిన్ లెర్నింగ్ మోడల్కు శిక్షణ ఇవ్వడానికి ఉపయోగించబడుతుంది) హౌసెస్_ట్రైన్ (CSV ఫైల్) డేటాసెట్ను పరిశీలిస్తాము. అప్పుడు, మేము house_test ఫైల్లో ఉన్న ఇంటి ధర (505) రికార్డులను అంచనా వేస్తాము.
1. రైలు మరియు టెస్ట్ డేటాసెట్లను లోడ్ చేస్తోంది
Pandas అనేది డేటా విశ్లేషణ కోసం ఉపయోగించే పైథాన్లో అందుబాటులో ఉన్న మాడ్యూల్. డేటాసెట్లను పైథాన్ ఎన్విరాన్మెంట్లోకి లోడ్ చేయడానికి మేము ఈ మాడ్యూల్ని ఉపయోగిస్తాము. ఇక్కడ, మేము ఉపయోగిస్తాము Google Co కోడ్ ఎన్విరాన్మెంట్గా. ఇది ఉచితంగా లభిస్తుంది. కేవలం Google ఖాతా మాత్రమే అవసరం.
ముందుగా, మన స్థానిక PC నుండి Colab Envకి ఫైల్లను లోడ్ చేయాలి. నుండి డేటాసెట్లను డౌన్లోడ్ చేయండి ఇక్కడ .
# మీ Google Colabలోకి House_train.csv మరియు house_test.csv ఫైల్లను అప్లోడ్ చేయండి# ఒకదాని తర్వాత ఒకటి.
నుండి గూగుల్. ఎప్పటికి దిగుమతి ఫైళ్లు
ఫైళ్లు. అప్లోడ్ ( )
read_csv() అనేది CSV డేటాను వేరియబుల్లోకి లోడ్ చేయడానికి ఉపయోగించే ఫంక్షన్. ఇది ఫైల్ పేరును పారామీటర్గా తీసుకుంటుంది.
దిగుమతి పాండాలు# House_train.csvని రైలు_డేటా వేరియబుల్లోకి లోడ్ చేయండి
రైలు_డేటా = పాండాలు. చదవండి_csv ( 'houses_train.csv' )
# test_data వేరియబుల్లోకి house_test.csvని లోడ్ చేయండి
పరీక్ష_డేటా = పాండాలు. చదవండి_csv ( 'house_test.csv' )
# టెస్ట్_డేటాను test_data1 వేరియబుల్లో నిల్వ చేయండి
పరీక్ష_డేటా1 = పరీక్ష_డేటా
ప్రతి నిలువు వరుసలో నిలువు వరుసలు మరియు నాన్-నల్ రికార్డుల గణనను చూద్దాం. ఈ సమాచారాన్ని పొందడానికి Pandas.DataFrame.info() ఉపయోగించబడుతుంది.
ముద్రణ ( రైలు_డేటా. సమాచారం ( ) )ముద్రణ ( పరీక్ష_డేటా1. సమాచారం ( ) )
అవుట్పుట్:
2. డేటా ప్రిప్రాసెసింగ్
రెండు డేటాసెట్లలో, “lot_size” నిలువు వరుస sqft మరియు ఎకరాలతో విలువలను కలిగి ఉంటుంది (మీరు “lot_size_unit’s” నిలువు వరుసలో అడ్డు వరుసలను చూడటం ద్వారా వ్యత్యాసాన్ని కనుగొంటారు). కానీ ఫార్మాట్ sqft లో ఉండాలి. కాబట్టి, మనం “lot_size” కాలమ్లోని విలువలను ఎకరం నుండి sqftకి మార్చాలి. అదేవిధంగా, ఇది “test_data1” కోసం చేయాలి.
DataFrame.loc[] 'ఎకరం'తో 'lot_size_units'ని కనుగొనడానికి మరియు 'lot_size'లో ఉన్న విలువను 43560తో గుణించడానికి ఇక్కడ ఉపయోగించబడుతుంది.
# రైలు_డేటాలో లాట్_సైజ్ ఎకరం విలువలను స్క్వేర్ ఫీట్లుగా మార్చండిరైలు_డేటా. స్థలం [ ( రైలు_డేటా [ 'చాలా_పరిమాణం_యూనిట్లు' ] == 'ఎకరం' ) , 'చాలా_పరిమాణం' ] = రైలు_డేటా [ 'చాలా_పరిమాణం' ] * 43560
# టెస్ట్_డేటా1లో లాట్_సైజ్ ఎకరం విలువలను స్క్వేర్ ఫీట్లుగా మార్చండి
పరీక్ష_డేటా1. స్థలం [ ( పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం_యూనిట్లు' ] == 'ఎకరం' ) , 'చాలా_పరిమాణం' ] = పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] * 43560
ముద్రణ ( రైలు_డేటా. తల ( ) )
ముద్రణ ( పరీక్ష_డేటా1. తల ( ) )
అవుట్పుట్:
ఇప్పుడు, 'lot_size' నిలువు వరుసలోని అన్ని విలువలు sqft విలువలు అని మీరు చూస్తారు.
మీరు ఈ నిలువు వరుసలో కొన్ని తప్పిపోయిన విలువలను చూస్తారు. నిలువు వరుసలలో ఉన్న NaN విలువలను రెండు డేటాసెట్లలోని ఒకే కాలమ్ యొక్క సగటుతో భర్తీ చేద్దాం.
DataFrame[‘column_name’].fillna() తప్పిపోయిన విలువలను సగటు() ఫంక్షన్ని ఉపయోగించి సగటుతో పూరించడానికి ఉపయోగించబడుతుంది. DataFrame[‘column_name’].mean() అనేది finna() ఫంక్షన్కు పారామీటర్గా పాస్ చేయబడింది. ఇప్పుడు సగటును ప్రదర్శిస్తాము మరియు ఇప్పుడు గణనను చూద్దాం:
# లాట్_సైజ్ కాలమ్లో తప్పిపోయిన విలువలను ఇప్పటికే ఉన్న విలువల సగటుతో పూరించండిరైలు_డేటా [ 'చాలా_పరిమాణం' ] = రైలు_డేటా [ 'చాలా_పరిమాణం' ] . అనుభూతి ( రైలు_డేటా [ 'చాలా_పరిమాణం' ] . అర్థం ( ) )
# డిస్ప్లే మీన్
ముద్రణ ( 'రైలు డేటా సగటు విలువ:' , రైలు_డేటా [ 'చాలా_పరిమాణం' ] . అర్థం ( ) )
ముద్రణ ( మాత్రమే ( రైలు_డేటా [ 'చాలా_పరిమాణం' ] ) )
# లాట్_సైజ్ కాలమ్లో తప్పిపోయిన విలువలను ఇప్పటికే ఉన్న విలువల సగటుతో పూరించండి
పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] = పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] . అనుభూతి ( పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] . అర్థం ( ) )
# డిస్ప్లే మీన్
ముద్రణ ( 'డేటా సగటు విలువను పరీక్షించండి:' , పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] . అర్థం ( ) )
ముద్రణ ( మాత్రమే ( పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] ) )
అవుట్పుట్:
'Lot_size' కాలమ్లో ఉన్న తప్పిపోయిన విలువలు రైలు డేటాసెట్ యొక్క సగటు విలువ 18789.95194తో భర్తీ చేయబడ్డాయి మరియు 'lot_size' కాలమ్లో ఉన్న తప్పిపోయిన విలువలు టెస్ట్ డేటాసెట్ యొక్క సగటు విలువ 8961.0తో భర్తీ చేయబడతాయి.
3. డేటా క్లీనింగ్
మోడల్కు శిక్షణ ఇస్తున్నప్పుడు, ఫలితాన్ని అంచనా వేయడానికి అవసరం లేని కొన్ని అనవసరమైన లక్షణాలు ఉన్నాయి. మా విషయంలో, రెండు డేటాసెట్ల నుండి తీసివేయడానికి “lot_size_units”, “zip_code” మరియు “size_units” అనే మూడు లక్షణాలు ఉన్నాయి. రెండు డేటాసెట్ల నుండి ఈ మూడు నిలువు వరుసలను తీసివేయడానికి pandas.DataFrame.drop() ఉపయోగించబడుతుంది.
రైలు_డేటా = రైలు_డేటా. డ్రాప్ ( [ 'చాలా_పరిమాణం_యూనిట్లు' , 'జిప్_కోడ్' , 'పరిమాణం_యూనిట్లు' ] , అక్షం = 1 )పరీక్ష_డేటా1 = పరీక్ష_డేటా1. డ్రాప్ ( [ 'చాలా_పరిమాణం_యూనిట్లు' , 'జిప్_కోడ్' , 'పరిమాణం_యూనిట్లు' ] , అక్షం = 1 )
ముద్రణ ( రైలు_డేటా. సమాచారం ( ) )
ముద్రణ ( పరీక్ష_డేటా1. సమాచారం ( ) )
అవుట్పుట్:
ఇప్పుడు, డేటాసెట్లు మంచి ఆకృతిలో ఉన్నాయి. అనవసరమైన నిలువు వరుసలు తీసివేయబడ్డాయి మరియు తప్పిపోయిన విలువలు ఉనికిలో లేవు.
4. డేటా విజువలైజేషన్
రైలు డేటా కాలమ్ల కోసం హిస్టోగ్రామ్ని క్రియేట్ చేద్దాం. pandas.DataFrame.hist() ఫంక్షన్ అన్ని లక్షణాల కోసం హిస్టోగ్రామ్లను రూపొందించడానికి ఉపయోగించబడుతుంది.
రైలు_డేటా. చరిత్ర ( అంజీర్ = ( 4 , 9 ) )అవుట్పుట్:
రైలు డేటా కోసం బెడ్లు, స్నానాలు, పరిమాణం, లాట్_సైజ్ మరియు ధరల నిలువు వరుసల కోసం హిస్టోగ్రామ్ రూపొందించబడింది.
ఒకదానికొకటి సంబంధించి అన్ని రంగాలకు సహసంబంధాన్ని సృష్టిద్దాం. Plotly.express మాడ్యూల్ సహసంబంధ విలువలను ప్లాట్ చేయడానికి ఉపయోగించబడుతుంది.
దిగుమతి కుట్రపూరితంగా. ఎక్స్ప్రెస్కోర్ = రైలు_డేటా. కోర్ ( )
# పరస్పర సంబంధం ఉన్న డేటాను ప్లాట్ చేయండి
వీక్షణ_అంజీర్ = కుట్రపూరితంగా. ఎక్స్ప్రెస్ . చూపించు ( కోర్ , టెక్స్ట్_ఆటో = నిజమే )
# ప్రదర్శన
వీక్షణ_అంజీర్. చూపించు ( )
అవుట్పుట్:
- బెడ్లు ధరతో 0.2935, లాట్_సైజ్తో -0.059 సహసంబంధం, పరిమాణంతో 0.77 మరియు స్నానాలతో 0.65 పరస్పర సంబంధం కలిగి ఉన్నాయి.
- స్నానాలు ధరతో 0.3173, లాట్_సైజ్తో -0.054 సహసంబంధం, 0.667 స్నానాలతో మరియు 0.771 బెడ్లతో పరస్పర సంబంధం కలిగి ఉన్నాయి.
- పరిమాణం 0.444 ధరతో సహసంబంధం, -0.044 లాట్_సైజ్తో, 0.667 పరిమాణంతో సహసంబంధం మరియు 0.652 బెడ్లతో సహసంబంధం.
5. మోడల్ తయారీ
మేము రైలు_డేటా నుండి తీసివేయడం ద్వారా ధరను లక్ష్యంగా సెట్ చేయాలి. ఈ దశలో రైలు మరియు టెస్ట్ డేటాలో ఉండే లక్షణాలు ఒకే విధంగా ఉండేలా చూసుకోండి.
లక్ష్యం = రైలు_డేటా [ 'ధర' ]రైలు_డేటా = రైలు_డేటా. డ్రాప్ ( [ 'ధర' ] , అక్షం = 1 )
ముద్రణ ( రైలు_డేటా. సమాచారం ( ) )
ముద్రణ ( పరీక్ష_డేటా1. సమాచారం ( ) )
అవుట్పుట్:
ఇప్పుడు, నాలుగు స్వతంత్ర లక్షణాలు (మంచాలు, స్నానాలు, పరిమాణం మరియు లాట్_సైజ్) ఉన్నాయి మరియు ధర అనేది ఈ నాలుగు లక్షణాలపై ఆధారపడి ఉండే ఆధారిత లక్షణం.
6. మోడల్ శిక్షణ
ముందుగా, మేము RandomForestRegressor అల్గోరిథంను వర్తింపజేస్తాము. దీన్ని “sklearn.ensemble” ప్యాకేజీ నుండి దిగుమతి చేయండి. ఇది ఎన్సెంబ్లింగ్ టెక్నిక్.
- RandomForestRegressor() నుండి మోడల్ను సృష్టించండి. మేము ఈ మోడల్కు ఏ పారామీటర్ను పాస్ చేయడం లేదు. కాబట్టి, డిఫాల్ట్గా డెసిషన్ ట్రీల సంఖ్య 100.
- మోడల్కు సరిపోయేలా సరిపోయే () పద్ధతిని ఉపయోగించండి. ఇది రెండు పారామితులను తీసుకుంటుంది. మొదటి పరామితి డిపెండెంట్ అట్రిబ్యూట్లు మరియు రెండవ పరామితి క్లాస్ లేబుల్/టార్గెట్.
- మోడల్ ఖచ్చితత్వాన్ని చూడటానికి స్కోర్() పద్ధతిని ఉపయోగించండి. ఇది ఫిట్() పద్ధతికి సమానమైన అదే పారామితులను కూడా తీసుకుంటుంది.
# మోడల్ను నిర్వచించండి
మోడల్1 = రాండమ్ ఫారెస్ట్ రిగ్రెసర్ ( )
# మోడల్ను అమర్చండి
మోడల్1. సరిపోయింది ( రైలు_డేటా , లక్ష్యం )
# మోడల్ ఖచ్చితత్వం
ముద్రణ ( మోడల్1. స్కోర్ ( రైలు_డేటా , లక్ష్యం ) * 100 )
అవుట్పుట్:
86.084008894190337. మోడల్ని పరీక్షించండి మరియు ఫలితాలను నిల్వ చేయండి
ఇది ఫలితాన్ని అంచనా వేయడానికి మరియు వాటిని నిల్వ చేయడానికి అవసరమైన చివరి దశ.
- టెస్ట్ డేటాను అంచనా వేయడానికి ప్రిడిక్ట్() పద్ధతి ఉపయోగించబడుతుంది. ఇది మోడల్తో ఉపయోగించబడుతుంది మరియు విలువలు/డేటాఫ్రేమ్ యొక్క నెస్టెడ్ జాబితాను తీసుకుంటుంది.
- ఫలితాలను CSV ఫైల్లో నిల్వ చేయడానికి to_csv() పద్ధతిని ఉపయోగించండి.
- పైథాన్ పర్యావరణం (Google Colab) నుండి ఫైల్ను డౌన్లోడ్ చేయండి.
పరీక్ష_డేటా [ 'ధర' ] = మోడల్1. అంచనా వేయండి ( పరీక్ష_డేటా1 )
# టెస్ట్_డేటాను test_results.csvకి సేవ్ చేయండి
పరీక్ష_డేటా. to_csv ( 'test_results.csv' )
# Colab నుండి ఈ ఫైల్ని డౌన్లోడ్ చేయండి
ఫైళ్లు. డౌన్లోడ్ చేయండి ( 'test_results.csv' )
అవుట్పుట్:
505 రికార్డులలో 20 రికార్డులను చూపిద్దాం. ధర కాలమ్ ప్రతి ఇంటికి అంచనా వేసిన విలువలను కలిగి ఉందని మీరు చూడవచ్చు.
ఇతర నమూనాలు
DecisionTreeRegressorని ఉపయోగించి ఇళ్లను అంచనా వేద్దాం. మీరు దానిని 'sklearn.tree' మాడ్యూల్ నుండి దిగుమతి చేసుకోగలరు.
నుండి నేర్చుకున్న చెట్టు దిగుమతి DecisionTreeRegressor# మోడల్ను నిర్వచించండి
మోడల్2 = DecisionTreeRegressor ( )
# మోడల్ను అమర్చండి
మోడల్2. సరిపోయింది ( రైలు_డేటా , లక్ష్యం )
# మోడల్ ఖచ్చితత్వం
ముద్రణ ( మోడల్2. స్కోర్ ( రైలు_డేటా , లక్ష్యం ) * 100 )
# మోడల్1తో టెస్ట్_డేటా1ని అంచనా వేయండి.
పరీక్ష_డేటా [ 'ధర' ] = మోడల్2. అంచనా వేయండి ( పరీక్ష_డేటా1 )
# టెస్ట్_డేటాను test_results.csvకి సేవ్ చేయండి
పరీక్ష_డేటా. to_csv ( 'test_results.csv' )
# Colab నుండి ఈ ఫైల్ని డౌన్లోడ్ చేయండి
ఫైళ్లు. డౌన్లోడ్ చేయండి ( 'test_results.csv' )
అవుట్పుట్:
99.94183165335028మీరు ఊహించిన ఫలితాన్ని ఇక్కడ చూడవచ్చు:
లీనియర్ ఎగ్రెషన్ ఉపయోగించి ఇళ్లను అంచనా వేద్దాం. 'sklearn.linear_model' మాడ్యూల్ నుండి మోడల్ను దిగుమతి చేయండి.
నుండి నేర్చుకున్న సరళ_మోడల్ దిగుమతి లీనియర్ రిగ్రెషన్# మోడల్ను నిర్వచించండి
మోడల్ 3 = లీనియర్ రిగ్రెషన్ ( )
# మోడల్ను అమర్చండి
మోడల్ 3. సరిపోయింది ( రైలు_డేటా , లక్ష్యం )
# మోడల్1తో పరీక్ష_డేటా1ని అంచనా వేయండి.
పరీక్ష_డేటా [ 'ధర' ] = మోడల్ 3. అంచనా వేయండి ( పరీక్ష_డేటా1 )
# టెస్ట్_డేటాను test_results.csvకి సేవ్ చేయండి
పరీక్ష_డేటా. to_csv ( 'test_results.csv' )
# Colab నుండి ఈ ఫైల్ని డౌన్లోడ్ చేయండి
ఫైళ్లు. డౌన్లోడ్ చేయండి ( 'test_results.csv' )
మీరు ఊహించిన ఫలితాన్ని ఇక్కడ చూడవచ్చు:
ముగింపు
ఇప్పుడు, మీరు గదుల సంఖ్య, మీ భూమి విస్తీర్ణం మొదలైన లక్షణాల ఆధారంగా మీ ఇంటి ధరను అంచనా వేయగలుగుతారు. ఈ గైడ్లో, మేము వాషింగ్టన్లోని సియాటిల్ నుండి నిజమైన ఇంటి డేటాను పరిగణించాము. లీనియర్ రిగ్రెషన్, డెసిషన్ ట్రీ మరియు రాండమ్ ఫారెస్ట్ వంటి రిగ్రెషన్ టెక్నిక్లను ఉపయోగించి, మేము 505 ఇళ్ల ధరను అంచనా వేసాము. మోడల్కు శిక్షణ ఇచ్చే ముందు చేయవలసిన అన్ని దశలు (డేటా ప్రిప్రాసెసింగ్, డేటా క్లీనింగ్ మరియు డేటా విజువలైజేషన్) కోడ్ స్నిప్పెట్లు మరియు అవుట్పుట్లతో దశలవారీగా వివరించబడ్డాయి.