హిస్టోగ్రామ్‌లో పైస్పార్క్ డేటాను ఎలా ప్లాట్ చేయాలి

Histogram Lo Paispark Detanu Ela Plat Ceyali



PySparkలో, హిస్టోగ్రాం మరియు ఇతర ప్లాటింగ్ పద్ధతులను ఉపయోగించి డేటా విజువలైజేషన్ చేయబడుతుంది. ఇది గ్రాఫికల్ ప్రాతినిధ్యంలోని డేటాతో డేటా సైన్స్ ఇంజనీర్‌లను అర్థం చేసుకోవడంలో సహాయపడుతుంది. సమయం వారికి ముఖ్యమైన పరిమితి. ఈ విజువలైజేషన్‌ల ద్వారా, వారు టెక్స్ట్/csv మరియు ఇతర డేటా ఫార్మాట్‌లతో పోల్చినప్పుడు డేటాను మరింత వేగంగా విశ్లేషించగలరు.

ఈ గైడ్‌లో, హిస్టోగ్రామ్‌లో పైస్పార్క్ డేటాను ఎలా ప్లాట్ చేయాలో చూద్దాం. ఇక్కడ మనం రెండు దృశ్యాలను చూడవచ్చు. హిస్టోగ్రాం PySpark Pandas DataFrame మరియు RDD డేటాపై సృష్టించబడింది. ఈ రెండు దృశ్యాల కోసం, PySpark రెండు విధులను అందిస్తుంది: pyspark.pandas.DataFrame.plot.hist() & pyspark.RDD.histogram.

విషయాల అంశం:







Pyspark.pandas.DataFrame.plot.hist()

ఈ దృష్టాంతంలో, హిస్టోగ్రాం అనేది క్షితిజ సమాంతర x-యాక్సిస్‌తో పాటు కాలమ్‌లుగా (PySpark Pandas DataFrame నుండి) తరగతుల శ్రేణిని బకెట్ చేసే డేటా యొక్క గ్రాఫ్-వంటి ప్రాతినిధ్యంగా ప్రదర్శించబడుతుంది. y-axis ప్రతి నిలువు వరుసకు PySpark Pandas DataFrameలో సంభవించే సంఖ్యల సంఖ్యను సూచిస్తుంది.



సింటాక్స్:



pyspark_pandas_DataFrame.plot.hist(బిన్స్,...)

ఇది మొత్తం బిన్‌ల సంఖ్యను ఐచ్ఛిక పరామితిగా తీసుకుంటుంది, ఇది పూర్ణాంకం మరియు కొన్ని ఐచ్ఛిక కీవర్డ్ ఆర్గ్యుమెంట్‌లు. ప్రతి నిలువు వరుసకు డబ్బాలు పేర్కొనబడకపోతే, ఒక బార్ సృష్టించబడుతుంది.





PySpark Pandas DataFrameలో ప్లాట్ హిస్టోగ్రాం

4 రికార్డులతో 2 నిలువు వరుసలను కలిగి ఉన్న PySpark Pandas DataFrameని సృష్టించండి. plot.hist() ఫంక్షన్‌కు ఏ పరామితిని పాస్ చేయకుండా హిస్టోగ్రామ్‌ను ప్లాట్ చేయండి.

పిస్పార్క్ దిగుమతి పాండాల నుండి

pyspark_pandas_dataframe=pandas.DataFrame({ 'భవనం_ఎత్తు' :[ 120.56 , 234.67 , 12.0 , 200.45 ], 'బిల్డింగ్_ఏరియా' :[ 2 , 3 , 1 , 4 ]})

ప్రింట్(pyspark_pandas_dataframe)

# PySpark-Pandas హిస్టోగ్రాం

pyspark_pandas_dataframe.plot.hist()

అవుట్‌పుట్:



ఇక్కడ, నిలువు వరుస పేర్లు “Building_height” మరియు “Building_Area”.

హిస్టోగ్రాం చూద్దాం:

మునుపటి డేటాఫ్రేమ్‌లోని మొత్తం అడ్డు వరుసల సంఖ్య 4. కాబట్టి, 4 బిన్‌లు సృష్టించబడ్డాయి.

బిన్స్ పారామీటర్‌తో పైస్పార్క్ పాండాస్ డేటాఫ్రేమ్‌లో హిస్టోగ్రాంను ప్లాట్ చేయండి

4 రికార్డులతో 2 నిలువు వరుసలను కలిగి ఉన్న PySpark Pandas DataFrameని సృష్టించండి. plot.hist() ఫంక్షన్‌కు ఏ పరామితిని పాస్ చేయకుండా హిస్టోగ్రామ్‌ను ప్లాట్ చేయండి.

పిస్పార్క్ దిగుమతి పాండాల నుండి

pyspark_pandas_dataframe=pandas.DataFrame({ 'భవనం_ఎత్తు' :[ 120.56 , 234.67 , 12.0 , 200.45 ], 'బిల్డింగ్_ఏరియా' :[ 2 , 3 , 1 , 4 ]})

2 డబ్బాలతో # పైస్పార్క్-పాండాస్ హిస్టోగ్రాం

pyspark_pandas_dataframe.plot.hist(bins= 2 )

అవుట్‌పుట్:

ఇక్కడ, నిలువు వరుస పేర్లు “Building_height” మరియు “Building_Area”.

హిస్టోగ్రామ్‌ని చూద్దాం - ఎరుపు రంగు 'Building_Area'ని సూచిస్తుంది మరియు నీలం రంగు 'Building_height' నిలువు వరుసను సూచిస్తుంది:

మేము పేర్కొన్న విధంగా, 2 డబ్బాలు మరియు 2 బార్‌లు మాత్రమే సృష్టించబడ్డాయి. ఇక్కడ నాలుగు వరుసలు 2 బకెట్‌లుగా బిన్ చేయబడ్డాయి.

బకెట్ నంబర్‌ను పేర్కొనడం ద్వారా పైస్పార్క్ RDDలో ప్లాట్ హిస్టోగ్రాం

మీరు RDDతో పని చేస్తున్నప్పుడు, ప్రతి బకెట్‌లో ఉన్న బకెట్‌లు మరియు మొత్తం విలువలను కలిగి ఉన్న టుపుల్ రూపంలో హిస్టోగ్రాం తిరిగి ఇవ్వబడుతుంది.

సింటాక్స్:

pyspark_RDD.histogram(బకెట్లు)

ఈ దృష్టాంతంలో, మేము హిస్టోగ్రామ్‌లో చేర్చబడిన బకెట్ల (పూర్ణాంకం) సంఖ్యను పాస్ చేస్తాము. ఇది క్రింది ఫార్మాట్‌లో బకెట్ పరిధులు మరియు సంబంధిత విలువ సంఘటనలను కలిగి ఉన్న టుపుల్ జాబితాలను అందిస్తుంది: ([బకెట్ పరిధులు...], [విలువ సంఘటనలు...]).

ఉదాహరణ 1:

10 విలువలతో 'Building_height' పేరుతో RDDని క్రియేట్ చేద్దాం మరియు 3 బకెట్‌లతో హిస్టోగ్రామ్‌ని క్రియేట్ చేద్దాం.

పైస్పార్క్ దిగుమతి

pyspark.sql దిగుమతి SparkSession నుండి

pyspark.rdd నుండి RDDని దిగుమతి చేయండి

spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()

# 10 విలువలతో RDDని సృష్టించండి

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

ముద్రణ( 'అసలు:' ,Building_height.collect())

# 3 బకెట్లను పేర్కొంటోంది

Building_height.histogram( 3 )

అవుట్‌పుట్:

  1. బకెట్-1 12.0 నుండి 86.223 వరకు ఉంటుంది : ఈ పరిధిలో, బకెట్‌లో ఉన్న మొత్తం విలువల సంఖ్య 5.
  2. బకెట్-2 86.223 నుండి 160.446 వరకు ఉంటుంది : ఈ పరిధిలో, బకెట్‌లో ఉన్న మొత్తం విలువల సంఖ్య 3.
  3. బకెట్-3 160.446 నుండి 234.67 వరకు ఉంటుంది : ఈ పరిధిలో, బకెట్‌లో ఉన్న మొత్తం విలువల సంఖ్య 2.

ఉదాహరణ 2:

గతంలో సృష్టించిన RDDలో 2 బకెట్‌లతో హిస్టోగ్రామ్‌ను సృష్టించండి.

పైస్పార్క్ దిగుమతి

pyspark.sql దిగుమతి SparkSession నుండి

pyspark.rdd నుండి RDDని దిగుమతి చేయండి

spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()

# 10 విలువలతో RDDని సృష్టించండి

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

ముద్రణ( 'అసలు:' ,Building_height.collect())

# 2 బకెట్లను పేర్కొంటోంది

Building_height.histogram( 2 )

అవుట్‌పుట్:

  1. బకెట్ 1 12.0 నుండి 123.335 వరకు ఉంటుంది. ఈ పరిధిలో, బకెట్‌లో ఉన్న మొత్తం విలువల సంఖ్య 8.
  2. బకెట్ 2 123.335 నుండి 234.67 వరకు ఉంటుంది: ఈ పరిధిలో, బకెట్‌లో ఉన్న మొత్తం విలువల సంఖ్య 2.

ప్రతి బకెట్ పరిమాణాన్ని పేర్కొనడం ద్వారా PySpark RDD పై హిస్టోగ్రాంను ప్లాట్ చేయండి

మునుపటి దృష్టాంతంలో, మేము బకెట్‌లను RDD.histogram() ఫంక్షన్‌కి పంపాము. ఇప్పుడు, మేము జాబితా లోపల ఒకదాని తర్వాత ఒకటి బకెట్ పరిమాణాలను పాస్ చేస్తాము మరియు ఈ జాబితాను ఈ ఫంక్షన్‌కు పారామీటర్‌గా పాస్ చేస్తాము. పెరుగుతున్న/ఆరోహణ క్రమంలో మనం కనీసం రెండు బకెట్‌లను పేర్కొనాలని మరియు దానికి నకిలీ విలువలు ఉండవని నిర్ధారించుకోండి.

సింటాక్స్:

pyspark_RDD.histogram([బకెట్ పరిధులు...])

ఈ దృష్టాంతంలో, మేము హిస్టోగ్రామ్‌లో చేర్చబడిన బకెట్ల (పూర్ణాంకం) సంఖ్యను పాస్ చేస్తాము. ఇది క్రింది ఫార్మాట్‌లో బకెట్ పరిధులు మరియు సంబంధిత విలువ సంఘటనలను కలిగి ఉన్న టుపుల్ జాబితాలను అందిస్తుంది: ([బకెట్ పరిధులు...], [విలువ సంఘటనలు...]).

ఉదాహరణ 1:

10 విలువలతో 'Building_height' పేరుతో RDDని సృష్టిద్దాం మరియు బకర్ రేంజ్ విలువలతో హిస్టోగ్రామ్‌ను క్రియేట్ చేద్దాం [0, 50, 100, 150, 200, 250].

పైస్పార్క్ దిగుమతి

pyspark.sql దిగుమతి SparkSession నుండి

pyspark.rdd నుండి RDDని దిగుమతి చేయండి

spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()

# 10 విలువలతో RDDని సృష్టించండి

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

ముద్రణ( 'అసలు:' ,Building_height.collect())

# పరిమాణంతో బకెట్ పేర్కొనడం - [0,50,100,150,200,250]

Building_height.histogram([ 0 , యాభై , 100 , 150 , 200 , 250 ])

అవుట్‌పుట్:

  1. బకెట్ 1: (0 నుండి 50 వరకు) : ఈ బకెట్‌లోని మొత్తం విలువలు 3.
  2. బకెట్ 1: (50 నుండి 100 వరకు) : ఈ బకెట్‌లోని మొత్తం విలువలు 2.
  3. బకెట్ 1: (100 నుండి 150) : ఈ బకెట్‌లోని మొత్తం విలువలు 2.
  4. బకెట్ 1: (150 నుండి 200) : ఈ బకెట్‌లోని మొత్తం విలువలు 2.
  5. బకెట్ 1: (200 నుండి 250) : ఈ బకెట్‌లోని మొత్తం విలువలు 2.

ఉదాహరణ 2:

విలువల బకెట్ పరిధి [0, 100, 200, 300]తో హిస్టోగ్రామ్‌ను సృష్టించండి.

పైస్పార్క్ దిగుమతి

pyspark.sql దిగుమతి SparkSession నుండి

pyspark.rdd నుండి RDDని దిగుమతి చేయండి

spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()

# 10 విలువలతో RDDని సృష్టించండి

Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

ముద్రణ( 'అసలు:' ,Building_height.collect())

# పరిమాణంతో బకెట్ పేర్కొనడం - [0,100,200,300]

Building_height.histogram([ 0 , 100 , 200 , 300 ])

అవుట్‌పుట్:

  1. బకెట్ 1: (0 నుండి 100 వరకు). ఈ బకెట్‌లోని మొత్తం విలువ 5.
  2. బకెట్ 2: (100 నుండి 200). ఈ బకెట్‌లోని మొత్తం విలువ 3.
  3. బకెట్ 3: (200 నుండి 300). ఈ బకెట్‌లోని మొత్తం విలువ 2.

ముగింపు

PySpark Pandas DataFrame మరియు RDDలో పైస్పార్క్‌లో హిస్టోగ్రామ్‌లను ఎలా సృష్టించాలో మనం చూశాము. హిస్టోగ్రాం() అనేది RDD డేటాపై హిస్టోగ్రాం పొందడానికి ఉపయోగించే ఫంక్షన్. PySpark Pandas DataFrameలో హిస్టోగ్రాంను ప్రదర్శించడానికి plot.hist() ఉపయోగించబడుతుంది. మేము అన్ని పారామితులను కవర్ చేయడం ద్వారా ఉదాహరణలతో ఈ ఫంక్షన్లను చర్చించాము.