US హౌస్ ధర అంచనా

Us Haus Dhara Ancana



ఇంటిని నిర్మించడం అనేది మన జీవితంలో సవాలుగా ఉండే అంశాలలో ఒకటి. నిర్మాణానికి ముందు, మునుపటి ఇంటి ధర ఆధారంగా మీ ఇంటి ధరను అంచనా వేయడం సాధ్యమవుతుంది. ఇంటి ధరను ఎక్కువగా ప్రభావితం చేసే అంశాలు మొత్తం గదుల సంఖ్య (మంచం, స్నానం మొదలైనవి) మరియు భూమి విస్తీర్ణాన్ని కలిగి ఉంటాయి. దీని ద్వారా, ఇంటి నిర్మాణానికి అవసరమైన బడ్జెట్‌ను అంచనా వేయవచ్చు.

ఈ గైడ్‌లో, పైథాన్ ద్వారా మెషిన్ లెర్నింగ్ ఉపయోగించి US గృహాల ధరను ఎలా అంచనా వేయాలో చూద్దాం. ముందుగా, మేము ఉపయోగించే డేటాసెట్‌ను చర్చించి, ఆపై డేటాను ప్రీప్రాసెస్ చేస్తాము. ఆ తర్వాత, మేము డేటాసెట్‌లో ఉన్న లక్షణాలను విజువలైజ్ చేస్తాము మరియు శిక్షణ డేటాసెట్‌లో (సీటెల్, వాషింగ్టన్ ఆగస్టు 2022 - డిసెంబర్ 2022) వివిధ మెషిన్ లెర్నింగ్ అల్గారిథమ్‌లను వర్తింపజేస్తాము. చివరగా, టెస్ట్ డేటాసెట్‌లో ఉన్న కొన్ని ఇళ్ల ధరను అంచనా వేయడం ద్వారా మేము ఈ గైడ్‌ని ముగించాము. ఈ ప్రాజెక్ట్‌ను అమలు చేయడానికి ముందు, ఈ ప్రాజెక్ట్‌లో ఉపయోగించే మెషిన్ లెర్నింగ్ టెర్మినాలజీలను మనం అర్థం చేసుకోవాలి.







తిరోగమనం

మెషిన్ లెర్నింగ్‌లో, మీరు న్యూమరిక్ డేటాతో పని చేస్తుంటే, మీరు రిగ్రెషన్‌ను అర్థం చేసుకోవాలి. రిగ్రెషన్ అనేది మెషిన్ లెర్నింగ్‌లో పర్యవేక్షించబడిన లెర్నింగ్ టెక్నిక్, ఇది స్వతంత్ర లక్షణాలు మరియు డిపెండెంట్ అట్రిబ్యూట్‌ల (క్లాస్ లేబుల్/టార్గెట్) మధ్య సంబంధాన్ని అర్థం చేసుకోవడానికి ఉపయోగించబడుతుంది. యంత్రం డేటాసెట్‌లో ఉన్న ప్రతి రికార్డును నేర్చుకోవడం ద్వారా ఇంటి ధరను అంచనా వేస్తుంది. కాబట్టి, ఇది పర్యవేక్షించబడే అభ్యాసం.



ఉదాహరణకు, మన దృష్టాంతంలో, స్వతంత్ర గుణాలు పడకల సంఖ్య, స్నానాల సంఖ్య, భూమి పరిమాణం, జిప్ కోడ్ మొదలైనవి. వీటి ఆధారంగా మనం మన ఇంటి ధరను అంచనా వేయగలుగుతాము. కాబట్టి, ఇవి దేనిపైనా ఆధారపడని స్వతంత్ర లక్షణాలు. ధర అనేది ఈ లక్షణాలపై ఆధారపడి ఉండే లక్ష్య లక్షణం లేదా తరగతి లేబుల్.



1. లీనియర్ రిగ్రెషన్

లీనియర్ రిగ్రెషన్ అల్గోరిథం డిపెండెంట్ అట్రిబ్యూట్ (Y) మరియు ఇండిపెండెంట్ అట్రిబ్యూట్ (X) వేరియబుల్స్ మధ్య సరళ సంబంధాన్ని చూపుతుంది. గణితశాస్త్రపరంగా, మేము దానిని ఈ క్రింది విధంగా అంచనా వేయవచ్చు:





మరియు = aX+b

ఇక్కడ, 'a' మరియు 'b' అనేది లీనియర్ కోఎఫీషియంట్స్.

పైథాన్‌లో, “sklearn.linear_model” మాడ్యూల్‌లో LinearRegression() అందుబాటులో ఉంది. ప్రాజెక్ట్‌ను అమలు చేస్తున్నప్పుడు దీన్ని ఎలా పేర్కొనాలో చూద్దాం. కింది పారామితులతో మోడల్:



2. డెసిషన్ ట్రీ

ప్రాథమికంగా, డెసిషన్ ట్రీ అనేది నోడ్‌లను ఉపయోగించి అందించిన పరిస్థితుల ఆధారంగా సమస్యకు సాధ్యమయ్యే అన్ని పరిష్కారాలను పొందడానికి గ్రాఫికల్ ప్రాతినిధ్యం. నిర్ణయం తీసుకోవడానికి డెసిషన్ నోడ్ ఉపయోగించబడుతుంది మరియు లీఫ్ నోడ్ నిర్దిష్ట నిర్ణయం యొక్క అవుట్‌పుట్‌ను సూచిస్తుంది. డెసిషన్ ట్రీ రిగ్రెసర్‌తో మన ఇంటి ధరను అంచనా వేయవచ్చు.

పైథాన్‌లో, DecisionTreeRegressor “sklearn.tree” మాడ్యూల్‌లో అందుబాటులో ఉంది. ప్రాజెక్ట్‌ను అమలు చేస్తున్నప్పుడు దీన్ని ఎలా పేర్కొనాలో చూద్దాం. కింది పారామితులతో మోడల్:

3. రాండమ్ ఫారెస్ట్

రాండమ్ ఫారెస్ట్ డెసిషన్ ట్రీ మాదిరిగానే అదే కార్యాచరణను నిర్వహిస్తుంది. కానీ అది ఒక ఫారెస్ట్ (నిర్ణయ చెట్ల సేకరణ) పడుతుంది మరియు డెసిషన్ ట్రీస్ యొక్క అన్ని అవుట్‌పుట్‌లను కలపడం (సగటు విలువ). ఉదాహరణకు, రాండమ్ ఫారెస్ట్ పరిమాణం 3. కాబట్టి, అంతర్గతంగా, మూడు డెసిషన్ ట్రీలు సృష్టించబడతాయి మరియు మొదటి డెసిషన్ ట్రీ యొక్క ఇంటి ధర ఫలితం 20000. రెండవ డెసిషన్ ట్రీ యొక్క ఇంటి ధర ఫలితం 20000. మరియు ఇంటి ధర ఫలితం చివరి డెసిషన్ ట్రీ 10000. 16,666.666 తుది ఫలితం ((20000+20000+10000)/3).

పైథాన్‌లో, RandomForestRegressor “sklearn.ensemble” మాడ్యూల్‌లో అందుబాటులో ఉంది. కిందిది పారామితులతో కూడిన మోడల్. మేము 'n_estimators' పరామితిలో చెట్ల సంఖ్యను పేర్కొనవచ్చు. ఇది డిఫాల్ట్‌గా 100.

అమలు

US హౌస్ ధరను అంచనా వేయడంలో ఉన్న దశలను త్వరగా చూడండి. మేము 2016 రికార్డ్‌లతో (మెషిన్ లెర్నింగ్ మోడల్‌కు శిక్షణ ఇవ్వడానికి ఉపయోగించబడుతుంది) హౌసెస్_ట్రైన్ (CSV ఫైల్) డేటాసెట్‌ను పరిశీలిస్తాము. అప్పుడు, మేము house_test ఫైల్‌లో ఉన్న ఇంటి ధర (505) రికార్డులను అంచనా వేస్తాము.

1. రైలు మరియు టెస్ట్ డేటాసెట్‌లను లోడ్ చేస్తోంది

Pandas అనేది డేటా విశ్లేషణ కోసం ఉపయోగించే పైథాన్‌లో అందుబాటులో ఉన్న మాడ్యూల్. డేటాసెట్‌లను పైథాన్ ఎన్విరాన్‌మెంట్‌లోకి లోడ్ చేయడానికి మేము ఈ మాడ్యూల్‌ని ఉపయోగిస్తాము. ఇక్కడ, మేము ఉపయోగిస్తాము Google Co కోడ్ ఎన్విరాన్‌మెంట్‌గా. ఇది ఉచితంగా లభిస్తుంది. కేవలం Google ఖాతా మాత్రమే అవసరం.

ముందుగా, మన స్థానిక PC నుండి Colab Envకి ఫైల్‌లను లోడ్ చేయాలి. నుండి డేటాసెట్‌లను డౌన్‌లోడ్ చేయండి ఇక్కడ .

# మీ Google Colabలోకి House_train.csv మరియు house_test.csv ఫైల్‌లను అప్‌లోడ్ చేయండి

# ఒకదాని తర్వాత ఒకటి.

నుండి గూగుల్. ఎప్పటికి దిగుమతి ఫైళ్లు

ఫైళ్లు. అప్లోడ్ ( )

read_csv() అనేది CSV డేటాను వేరియబుల్‌లోకి లోడ్ చేయడానికి ఉపయోగించే ఫంక్షన్. ఇది ఫైల్ పేరును పారామీటర్‌గా తీసుకుంటుంది.

దిగుమతి పాండాలు

# House_train.csvని రైలు_డేటా వేరియబుల్‌లోకి లోడ్ చేయండి

రైలు_డేటా = పాండాలు. చదవండి_csv ( 'houses_train.csv' )

# test_data వేరియబుల్‌లోకి house_test.csvని లోడ్ చేయండి

పరీక్ష_డేటా = పాండాలు. చదవండి_csv ( 'house_test.csv' )

# టెస్ట్_డేటాను test_data1 వేరియబుల్‌లో నిల్వ చేయండి

పరీక్ష_డేటా1 = పరీక్ష_డేటా

ప్రతి నిలువు వరుసలో నిలువు వరుసలు మరియు నాన్-నల్ రికార్డుల గణనను చూద్దాం. ఈ సమాచారాన్ని పొందడానికి Pandas.DataFrame.info() ఉపయోగించబడుతుంది.

ముద్రణ ( రైలు_డేటా. సమాచారం ( ) )

ముద్రణ ( పరీక్ష_డేటా1. సమాచారం ( ) )

అవుట్‌పుట్:

2. డేటా ప్రిప్రాసెసింగ్

రెండు డేటాసెట్‌లలో, “lot_size” నిలువు వరుస sqft మరియు ఎకరాలతో విలువలను కలిగి ఉంటుంది (మీరు “lot_size_unit’s” నిలువు వరుసలో అడ్డు వరుసలను చూడటం ద్వారా వ్యత్యాసాన్ని కనుగొంటారు). కానీ ఫార్మాట్ sqft లో ఉండాలి. కాబట్టి, మనం “lot_size” కాలమ్‌లోని విలువలను ఎకరం నుండి sqftకి మార్చాలి. అదేవిధంగా, ఇది “test_data1” కోసం చేయాలి.

DataFrame.loc[] 'ఎకరం'తో 'lot_size_units'ని కనుగొనడానికి మరియు 'lot_size'లో ఉన్న విలువను 43560తో గుణించడానికి ఇక్కడ ఉపయోగించబడుతుంది.

# రైలు_డేటాలో లాట్_సైజ్ ఎకరం విలువలను స్క్వేర్ ఫీట్‌లుగా మార్చండి

రైలు_డేటా. స్థలం [ ( రైలు_డేటా [ 'చాలా_పరిమాణం_యూనిట్లు' ] == 'ఎకరం' ) , 'చాలా_పరిమాణం' ] = రైలు_డేటా [ 'చాలా_పరిమాణం' ] * 43560

# టెస్ట్_డేటా1లో లాట్_సైజ్ ఎకరం విలువలను స్క్వేర్ ఫీట్‌లుగా మార్చండి

పరీక్ష_డేటా1. స్థలం [ ( పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం_యూనిట్లు' ] == 'ఎకరం' ) , 'చాలా_పరిమాణం' ] = పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] * 43560

ముద్రణ ( రైలు_డేటా. తల ( ) )

ముద్రణ ( పరీక్ష_డేటా1. తల ( ) )

అవుట్‌పుట్:

ఇప్పుడు, 'lot_size' నిలువు వరుసలోని అన్ని విలువలు sqft విలువలు అని మీరు చూస్తారు.

మీరు ఈ నిలువు వరుసలో కొన్ని తప్పిపోయిన విలువలను చూస్తారు. నిలువు వరుసలలో ఉన్న NaN విలువలను రెండు డేటాసెట్‌లలోని ఒకే కాలమ్ యొక్క సగటుతో భర్తీ చేద్దాం.

DataFrame[‘column_name’].fillna() తప్పిపోయిన విలువలను సగటు() ఫంక్షన్‌ని ఉపయోగించి సగటుతో పూరించడానికి ఉపయోగించబడుతుంది. DataFrame[‘column_name’].mean() అనేది finna() ఫంక్షన్‌కు పారామీటర్‌గా పాస్ చేయబడింది. ఇప్పుడు సగటును ప్రదర్శిస్తాము మరియు ఇప్పుడు గణనను చూద్దాం:

# లాట్_సైజ్ కాలమ్‌లో తప్పిపోయిన విలువలను ఇప్పటికే ఉన్న విలువల సగటుతో పూరించండి

రైలు_డేటా [ 'చాలా_పరిమాణం' ] = రైలు_డేటా [ 'చాలా_పరిమాణం' ] . అనుభూతి ( రైలు_డేటా [ 'చాలా_పరిమాణం' ] . అర్థం ( ) )

# డిస్ప్లే మీన్

ముద్రణ ( 'రైలు డేటా సగటు విలువ:' , రైలు_డేటా [ 'చాలా_పరిమాణం' ] . అర్థం ( ) )

ముద్రణ ( మాత్రమే ( రైలు_డేటా [ 'చాలా_పరిమాణం' ] ) )

# లాట్_సైజ్ కాలమ్‌లో తప్పిపోయిన విలువలను ఇప్పటికే ఉన్న విలువల సగటుతో పూరించండి

పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] = పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] . అనుభూతి ( పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] . అర్థం ( ) )

# డిస్ప్లే మీన్

ముద్రణ ( 'డేటా సగటు విలువను పరీక్షించండి:' , పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] . అర్థం ( ) )

ముద్రణ ( మాత్రమే ( పరీక్ష_డేటా1 [ 'చాలా_పరిమాణం' ] ) )

అవుట్‌పుట్:

'Lot_size' కాలమ్‌లో ఉన్న తప్పిపోయిన విలువలు రైలు డేటాసెట్ యొక్క సగటు విలువ 18789.95194తో భర్తీ చేయబడ్డాయి మరియు 'lot_size' కాలమ్‌లో ఉన్న తప్పిపోయిన విలువలు టెస్ట్ డేటాసెట్ యొక్క సగటు విలువ 8961.0తో భర్తీ చేయబడతాయి.

3. డేటా క్లీనింగ్

మోడల్‌కు శిక్షణ ఇస్తున్నప్పుడు, ఫలితాన్ని అంచనా వేయడానికి అవసరం లేని కొన్ని అనవసరమైన లక్షణాలు ఉన్నాయి. మా విషయంలో, రెండు డేటాసెట్‌ల నుండి తీసివేయడానికి “lot_size_units”, “zip_code” మరియు “size_units” అనే మూడు లక్షణాలు ఉన్నాయి. రెండు డేటాసెట్‌ల నుండి ఈ మూడు నిలువు వరుసలను తీసివేయడానికి pandas.DataFrame.drop() ఉపయోగించబడుతుంది.

రైలు_డేటా = రైలు_డేటా. డ్రాప్ ( [ 'చాలా_పరిమాణం_యూనిట్లు' , 'జిప్_కోడ్' , 'పరిమాణం_యూనిట్లు' ] , అక్షం = 1 )

పరీక్ష_డేటా1 = పరీక్ష_డేటా1. డ్రాప్ ( [ 'చాలా_పరిమాణం_యూనిట్లు' , 'జిప్_కోడ్' , 'పరిమాణం_యూనిట్లు' ] , అక్షం = 1 )

ముద్రణ ( రైలు_డేటా. సమాచారం ( ) )

ముద్రణ ( పరీక్ష_డేటా1. సమాచారం ( ) )

అవుట్‌పుట్:

ఇప్పుడు, డేటాసెట్‌లు మంచి ఆకృతిలో ఉన్నాయి. అనవసరమైన నిలువు వరుసలు తీసివేయబడ్డాయి మరియు తప్పిపోయిన విలువలు ఉనికిలో లేవు.

4. డేటా విజువలైజేషన్

రైలు డేటా కాలమ్‌ల కోసం హిస్టోగ్రామ్‌ని క్రియేట్ చేద్దాం. pandas.DataFrame.hist() ఫంక్షన్ అన్ని లక్షణాల కోసం హిస్టోగ్రామ్‌లను రూపొందించడానికి ఉపయోగించబడుతుంది.

రైలు_డేటా. చరిత్ర ( అంజీర్ = ( 4 , 9 ) )

అవుట్‌పుట్:

రైలు డేటా కోసం బెడ్‌లు, స్నానాలు, పరిమాణం, లాట్_సైజ్ మరియు ధరల నిలువు వరుసల కోసం హిస్టోగ్రామ్ రూపొందించబడింది.

ఒకదానికొకటి సంబంధించి అన్ని రంగాలకు సహసంబంధాన్ని సృష్టిద్దాం. Plotly.express మాడ్యూల్ సహసంబంధ విలువలను ప్లాట్ చేయడానికి ఉపయోగించబడుతుంది.

దిగుమతి కుట్రపూరితంగా. ఎక్స్ప్రెస్

కోర్ = రైలు_డేటా. కోర్ ( )

# పరస్పర సంబంధం ఉన్న డేటాను ప్లాట్ చేయండి

వీక్షణ_అంజీర్ = కుట్రపూరితంగా. ఎక్స్ప్రెస్ . చూపించు ( కోర్ , టెక్స్ట్_ఆటో = నిజమే )

# ప్రదర్శన

వీక్షణ_అంజీర్. చూపించు ( )

అవుట్‌పుట్:

  1. బెడ్‌లు ధరతో 0.2935, లాట్_సైజ్‌తో -0.059 సహసంబంధం, పరిమాణంతో 0.77 మరియు స్నానాలతో 0.65 పరస్పర సంబంధం కలిగి ఉన్నాయి.
  2. స్నానాలు ధరతో 0.3173, లాట్_సైజ్‌తో -0.054 సహసంబంధం, 0.667 స్నానాలతో మరియు 0.771 బెడ్‌లతో పరస్పర సంబంధం కలిగి ఉన్నాయి.
  3. పరిమాణం 0.444 ధరతో సహసంబంధం, -0.044 లాట్_సైజ్‌తో, 0.667 పరిమాణంతో సహసంబంధం మరియు 0.652 బెడ్‌లతో సహసంబంధం.

5. మోడల్ తయారీ

మేము రైలు_డేటా నుండి తీసివేయడం ద్వారా ధరను లక్ష్యంగా సెట్ చేయాలి. ఈ దశలో రైలు మరియు టెస్ట్ డేటాలో ఉండే లక్షణాలు ఒకే విధంగా ఉండేలా చూసుకోండి.

లక్ష్యం = రైలు_డేటా [ 'ధర' ]

రైలు_డేటా = రైలు_డేటా. డ్రాప్ ( [ 'ధర' ] , అక్షం = 1 )

ముద్రణ ( రైలు_డేటా. సమాచారం ( ) )

ముద్రణ ( పరీక్ష_డేటా1. సమాచారం ( ) )

అవుట్‌పుట్:

ఇప్పుడు, నాలుగు స్వతంత్ర లక్షణాలు (మంచాలు, స్నానాలు, పరిమాణం మరియు లాట్_సైజ్) ఉన్నాయి మరియు ధర అనేది ఈ నాలుగు లక్షణాలపై ఆధారపడి ఉండే ఆధారిత లక్షణం.

6. మోడల్ శిక్షణ

ముందుగా, మేము RandomForestRegressor అల్గోరిథంను వర్తింపజేస్తాము. దీన్ని “sklearn.ensemble” ప్యాకేజీ నుండి దిగుమతి చేయండి. ఇది ఎన్సెంబ్లింగ్ టెక్నిక్.

  1. RandomForestRegressor() నుండి మోడల్‌ను సృష్టించండి. మేము ఈ మోడల్‌కు ఏ పారామీటర్‌ను పాస్ చేయడం లేదు. కాబట్టి, డిఫాల్ట్‌గా డెసిషన్ ట్రీల సంఖ్య 100.
  2. మోడల్‌కు సరిపోయేలా సరిపోయే () పద్ధతిని ఉపయోగించండి. ఇది రెండు పారామితులను తీసుకుంటుంది. మొదటి పరామితి డిపెండెంట్ అట్రిబ్యూట్‌లు మరియు రెండవ పరామితి క్లాస్ లేబుల్/టార్గెట్.
  3. మోడల్ ఖచ్చితత్వాన్ని చూడటానికి స్కోర్() పద్ధతిని ఉపయోగించండి. ఇది ఫిట్() పద్ధతికి సమానమైన అదే పారామితులను కూడా తీసుకుంటుంది.
నుండి నేర్చుకున్న సమిష్టి దిగుమతి రాండమ్ ఫారెస్ట్ రిగ్రెసర్

# మోడల్‌ను నిర్వచించండి

మోడల్1 = రాండమ్ ఫారెస్ట్ రిగ్రెసర్ ( )

# మోడల్‌ను అమర్చండి

మోడల్1. సరిపోయింది ( రైలు_డేటా , లక్ష్యం )

# మోడల్ ఖచ్చితత్వం

ముద్రణ ( మోడల్1. స్కోర్ ( రైలు_డేటా , లక్ష్యం ) * 100 )

అవుట్‌పుట్:

86.08400889419033

7. మోడల్‌ని పరీక్షించండి మరియు ఫలితాలను నిల్వ చేయండి

ఇది ఫలితాన్ని అంచనా వేయడానికి మరియు వాటిని నిల్వ చేయడానికి అవసరమైన చివరి దశ.

  1. టెస్ట్ డేటాను అంచనా వేయడానికి ప్రిడిక్ట్() పద్ధతి ఉపయోగించబడుతుంది. ఇది మోడల్‌తో ఉపయోగించబడుతుంది మరియు విలువలు/డేటాఫ్రేమ్ యొక్క నెస్టెడ్ జాబితాను తీసుకుంటుంది.
  2. ఫలితాలను CSV ఫైల్‌లో నిల్వ చేయడానికి to_csv() పద్ధతిని ఉపయోగించండి.
  3. పైథాన్ పర్యావరణం (Google Colab) నుండి ఫైల్‌ను డౌన్‌లోడ్ చేయండి.
# మోడల్1తో పరీక్ష_డేటా1ని అంచనా వేయండి.

పరీక్ష_డేటా [ 'ధర' ] = మోడల్1. అంచనా వేయండి ( పరీక్ష_డేటా1 )

# టెస్ట్_డేటాను test_results.csvకి సేవ్ చేయండి

పరీక్ష_డేటా. to_csv ( 'test_results.csv' )

# Colab నుండి ఈ ఫైల్‌ని డౌన్‌లోడ్ చేయండి

ఫైళ్లు. డౌన్‌లోడ్ చేయండి ( 'test_results.csv' )

అవుట్‌పుట్:

505 రికార్డులలో 20 రికార్డులను చూపిద్దాం. ధర కాలమ్ ప్రతి ఇంటికి అంచనా వేసిన విలువలను కలిగి ఉందని మీరు చూడవచ్చు.

ఇతర నమూనాలు

DecisionTreeRegressorని ఉపయోగించి ఇళ్లను అంచనా వేద్దాం. మీరు దానిని 'sklearn.tree' మాడ్యూల్ నుండి దిగుమతి చేసుకోగలరు.

నుండి నేర్చుకున్న చెట్టు దిగుమతి DecisionTreeRegressor

# మోడల్‌ను నిర్వచించండి

మోడల్2 = DecisionTreeRegressor ( )

# మోడల్‌ను అమర్చండి

మోడల్2. సరిపోయింది ( రైలు_డేటా , లక్ష్యం )

# మోడల్ ఖచ్చితత్వం

ముద్రణ ( మోడల్2. స్కోర్ ( రైలు_డేటా , లక్ష్యం ) * 100 )

# మోడల్1తో టెస్ట్_డేటా1ని అంచనా వేయండి.

పరీక్ష_డేటా [ 'ధర' ] = మోడల్2. అంచనా వేయండి ( పరీక్ష_డేటా1 )

# టెస్ట్_డేటాను test_results.csvకి సేవ్ చేయండి

పరీక్ష_డేటా. to_csv ( 'test_results.csv' )

# Colab నుండి ఈ ఫైల్‌ని డౌన్‌లోడ్ చేయండి

ఫైళ్లు. డౌన్‌లోడ్ చేయండి ( 'test_results.csv' )

అవుట్‌పుట్:

99.94183165335028

మీరు ఊహించిన ఫలితాన్ని ఇక్కడ చూడవచ్చు:

లీనియర్ ఎగ్రెషన్ ఉపయోగించి ఇళ్లను అంచనా వేద్దాం. 'sklearn.linear_model' మాడ్యూల్ నుండి మోడల్‌ను దిగుమతి చేయండి.

నుండి నేర్చుకున్న సరళ_మోడల్ దిగుమతి లీనియర్ రిగ్రెషన్

# మోడల్‌ను నిర్వచించండి

మోడల్ 3 = లీనియర్ రిగ్రెషన్ ( )

# మోడల్‌ను అమర్చండి

మోడల్ 3. సరిపోయింది ( రైలు_డేటా , లక్ష్యం )

# మోడల్1తో పరీక్ష_డేటా1ని అంచనా వేయండి.

పరీక్ష_డేటా [ 'ధర' ] = మోడల్ 3. అంచనా వేయండి ( పరీక్ష_డేటా1 )

# టెస్ట్_డేటాను test_results.csvకి సేవ్ చేయండి

పరీక్ష_డేటా. to_csv ( 'test_results.csv' )

# Colab నుండి ఈ ఫైల్‌ని డౌన్‌లోడ్ చేయండి

ఫైళ్లు. డౌన్‌లోడ్ చేయండి ( 'test_results.csv' )

మీరు ఊహించిన ఫలితాన్ని ఇక్కడ చూడవచ్చు:

ముగింపు

ఇప్పుడు, మీరు గదుల సంఖ్య, మీ భూమి విస్తీర్ణం మొదలైన లక్షణాల ఆధారంగా మీ ఇంటి ధరను అంచనా వేయగలుగుతారు. ఈ గైడ్‌లో, మేము వాషింగ్టన్‌లోని సియాటిల్ నుండి నిజమైన ఇంటి డేటాను పరిగణించాము. లీనియర్ రిగ్రెషన్, డెసిషన్ ట్రీ మరియు రాండమ్ ఫారెస్ట్ వంటి రిగ్రెషన్ టెక్నిక్‌లను ఉపయోగించి, మేము 505 ఇళ్ల ధరను అంచనా వేసాము. మోడల్‌కు శిక్షణ ఇచ్చే ముందు చేయవలసిన అన్ని దశలు (డేటా ప్రిప్రాసెసింగ్, డేటా క్లీనింగ్ మరియు డేటా విజువలైజేషన్) కోడ్ స్నిప్పెట్‌లు మరియు అవుట్‌పుట్‌లతో దశలవారీగా వివరించబడ్డాయి.