ఈ గైడ్లో, హిస్టోగ్రామ్లో పైస్పార్క్ డేటాను ఎలా ప్లాట్ చేయాలో చూద్దాం. ఇక్కడ మనం రెండు దృశ్యాలను చూడవచ్చు. హిస్టోగ్రాం PySpark Pandas DataFrame మరియు RDD డేటాపై సృష్టించబడింది. ఈ రెండు దృశ్యాల కోసం, PySpark రెండు విధులను అందిస్తుంది: pyspark.pandas.DataFrame.plot.hist() & pyspark.RDD.histogram.
విషయాల అంశం:
- PySpark Pandas DataFrameలో ప్లాట్ హిస్టోగ్రాం
- బిన్స్ పారామీటర్తో పైస్పార్క్ పాండాస్ డేటాఫ్రేమ్లో హిస్టోగ్రాంను ప్లాట్ చేయండి
- బకెట్ నంబర్ను పేర్కొనడం ద్వారా పైస్పార్క్ RDDలో హిస్టోగ్రాంను ప్లాట్ చేయండి
- ప్రతి బకెట్ పరిమాణాన్ని పేర్కొనడం ద్వారా PySpark RDD పై హిస్టోగ్రాంను ప్లాట్ చేయండి
Pyspark.pandas.DataFrame.plot.hist()
ఈ దృష్టాంతంలో, హిస్టోగ్రాం అనేది క్షితిజ సమాంతర x-యాక్సిస్తో పాటు కాలమ్లుగా (PySpark Pandas DataFrame నుండి) తరగతుల శ్రేణిని బకెట్ చేసే డేటా యొక్క గ్రాఫ్-వంటి ప్రాతినిధ్యంగా ప్రదర్శించబడుతుంది. y-axis ప్రతి నిలువు వరుసకు PySpark Pandas DataFrameలో సంభవించే సంఖ్యల సంఖ్యను సూచిస్తుంది.
సింటాక్స్:
pyspark_pandas_DataFrame.plot.hist(బిన్స్,...)
ఇది మొత్తం బిన్ల సంఖ్యను ఐచ్ఛిక పరామితిగా తీసుకుంటుంది, ఇది పూర్ణాంకం మరియు కొన్ని ఐచ్ఛిక కీవర్డ్ ఆర్గ్యుమెంట్లు. ప్రతి నిలువు వరుసకు డబ్బాలు పేర్కొనబడకపోతే, ఒక బార్ సృష్టించబడుతుంది.
PySpark Pandas DataFrameలో ప్లాట్ హిస్టోగ్రాం
4 రికార్డులతో 2 నిలువు వరుసలను కలిగి ఉన్న PySpark Pandas DataFrameని సృష్టించండి. plot.hist() ఫంక్షన్కు ఏ పరామితిని పాస్ చేయకుండా హిస్టోగ్రామ్ను ప్లాట్ చేయండి.
పిస్పార్క్ దిగుమతి పాండాల నుండిpyspark_pandas_dataframe=pandas.DataFrame({ 'భవనం_ఎత్తు' :[ 120.56 , 234.67 , 12.0 , 200.45 ], 'బిల్డింగ్_ఏరియా' :[ 2 , 3 , 1 , 4 ]})
ప్రింట్(pyspark_pandas_dataframe)
# PySpark-Pandas హిస్టోగ్రాం
pyspark_pandas_dataframe.plot.hist()
అవుట్పుట్:
ఇక్కడ, నిలువు వరుస పేర్లు “Building_height” మరియు “Building_Area”.
హిస్టోగ్రాం చూద్దాం:
మునుపటి డేటాఫ్రేమ్లోని మొత్తం అడ్డు వరుసల సంఖ్య 4. కాబట్టి, 4 బిన్లు సృష్టించబడ్డాయి.
బిన్స్ పారామీటర్తో పైస్పార్క్ పాండాస్ డేటాఫ్రేమ్లో హిస్టోగ్రాంను ప్లాట్ చేయండి
4 రికార్డులతో 2 నిలువు వరుసలను కలిగి ఉన్న PySpark Pandas DataFrameని సృష్టించండి. plot.hist() ఫంక్షన్కు ఏ పరామితిని పాస్ చేయకుండా హిస్టోగ్రామ్ను ప్లాట్ చేయండి.
పిస్పార్క్ దిగుమతి పాండాల నుండిpyspark_pandas_dataframe=pandas.DataFrame({ 'భవనం_ఎత్తు' :[ 120.56 , 234.67 , 12.0 , 200.45 ], 'బిల్డింగ్_ఏరియా' :[ 2 , 3 , 1 , 4 ]})
2 డబ్బాలతో # పైస్పార్క్-పాండాస్ హిస్టోగ్రాం
pyspark_pandas_dataframe.plot.hist(bins= 2 )
అవుట్పుట్:
ఇక్కడ, నిలువు వరుస పేర్లు “Building_height” మరియు “Building_Area”.
హిస్టోగ్రామ్ని చూద్దాం - ఎరుపు రంగు 'Building_Area'ని సూచిస్తుంది మరియు నీలం రంగు 'Building_height' నిలువు వరుసను సూచిస్తుంది:
మేము పేర్కొన్న విధంగా, 2 డబ్బాలు మరియు 2 బార్లు మాత్రమే సృష్టించబడ్డాయి. ఇక్కడ నాలుగు వరుసలు 2 బకెట్లుగా బిన్ చేయబడ్డాయి.
బకెట్ నంబర్ను పేర్కొనడం ద్వారా పైస్పార్క్ RDDలో ప్లాట్ హిస్టోగ్రాం
మీరు RDDతో పని చేస్తున్నప్పుడు, ప్రతి బకెట్లో ఉన్న బకెట్లు మరియు మొత్తం విలువలను కలిగి ఉన్న టుపుల్ రూపంలో హిస్టోగ్రాం తిరిగి ఇవ్వబడుతుంది.
సింటాక్స్:
pyspark_RDD.histogram(బకెట్లు)ఈ దృష్టాంతంలో, మేము హిస్టోగ్రామ్లో చేర్చబడిన బకెట్ల (పూర్ణాంకం) సంఖ్యను పాస్ చేస్తాము. ఇది క్రింది ఫార్మాట్లో బకెట్ పరిధులు మరియు సంబంధిత విలువ సంఘటనలను కలిగి ఉన్న టుపుల్ జాబితాలను అందిస్తుంది: ([బకెట్ పరిధులు...], [విలువ సంఘటనలు...]).
ఉదాహరణ 1:
10 విలువలతో 'Building_height' పేరుతో RDDని క్రియేట్ చేద్దాం మరియు 3 బకెట్లతో హిస్టోగ్రామ్ని క్రియేట్ చేద్దాం.
పైస్పార్క్ దిగుమతిpyspark.sql దిగుమతి SparkSession నుండి
pyspark.rdd నుండి RDDని దిగుమతి చేయండి
spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()
# 10 విలువలతో RDDని సృష్టించండి
Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])
ముద్రణ( 'అసలు:' ,Building_height.collect())
# 3 బకెట్లను పేర్కొంటోంది
Building_height.histogram( 3 )
అవుట్పుట్:
- బకెట్-1 12.0 నుండి 86.223 వరకు ఉంటుంది : ఈ పరిధిలో, బకెట్లో ఉన్న మొత్తం విలువల సంఖ్య 5.
- బకెట్-2 86.223 నుండి 160.446 వరకు ఉంటుంది : ఈ పరిధిలో, బకెట్లో ఉన్న మొత్తం విలువల సంఖ్య 3.
- బకెట్-3 160.446 నుండి 234.67 వరకు ఉంటుంది : ఈ పరిధిలో, బకెట్లో ఉన్న మొత్తం విలువల సంఖ్య 2.
ఉదాహరణ 2:
గతంలో సృష్టించిన RDDలో 2 బకెట్లతో హిస్టోగ్రామ్ను సృష్టించండి.
పైస్పార్క్ దిగుమతిpyspark.sql దిగుమతి SparkSession నుండి
pyspark.rdd నుండి RDDని దిగుమతి చేయండి
spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()
# 10 విలువలతో RDDని సృష్టించండి
Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])
ముద్రణ( 'అసలు:' ,Building_height.collect())
# 2 బకెట్లను పేర్కొంటోంది
Building_height.histogram( 2 )
అవుట్పుట్:
- బకెట్ 1 12.0 నుండి 123.335 వరకు ఉంటుంది. ఈ పరిధిలో, బకెట్లో ఉన్న మొత్తం విలువల సంఖ్య 8.
- బకెట్ 2 123.335 నుండి 234.67 వరకు ఉంటుంది: ఈ పరిధిలో, బకెట్లో ఉన్న మొత్తం విలువల సంఖ్య 2.
ప్రతి బకెట్ పరిమాణాన్ని పేర్కొనడం ద్వారా PySpark RDD పై హిస్టోగ్రాంను ప్లాట్ చేయండి
మునుపటి దృష్టాంతంలో, మేము బకెట్లను RDD.histogram() ఫంక్షన్కి పంపాము. ఇప్పుడు, మేము జాబితా లోపల ఒకదాని తర్వాత ఒకటి బకెట్ పరిమాణాలను పాస్ చేస్తాము మరియు ఈ జాబితాను ఈ ఫంక్షన్కు పారామీటర్గా పాస్ చేస్తాము. పెరుగుతున్న/ఆరోహణ క్రమంలో మనం కనీసం రెండు బకెట్లను పేర్కొనాలని మరియు దానికి నకిలీ విలువలు ఉండవని నిర్ధారించుకోండి.
సింటాక్స్:
pyspark_RDD.histogram([బకెట్ పరిధులు...])ఈ దృష్టాంతంలో, మేము హిస్టోగ్రామ్లో చేర్చబడిన బకెట్ల (పూర్ణాంకం) సంఖ్యను పాస్ చేస్తాము. ఇది క్రింది ఫార్మాట్లో బకెట్ పరిధులు మరియు సంబంధిత విలువ సంఘటనలను కలిగి ఉన్న టుపుల్ జాబితాలను అందిస్తుంది: ([బకెట్ పరిధులు...], [విలువ సంఘటనలు...]).
ఉదాహరణ 1:
10 విలువలతో 'Building_height' పేరుతో RDDని సృష్టిద్దాం మరియు బకర్ రేంజ్ విలువలతో హిస్టోగ్రామ్ను క్రియేట్ చేద్దాం [0, 50, 100, 150, 200, 250].
పైస్పార్క్ దిగుమతిpyspark.sql దిగుమతి SparkSession నుండి
pyspark.rdd నుండి RDDని దిగుమతి చేయండి
spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()
# 10 విలువలతో RDDని సృష్టించండి
Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])
ముద్రణ( 'అసలు:' ,Building_height.collect())
# పరిమాణంతో బకెట్ పేర్కొనడం - [0,50,100,150,200,250]
Building_height.histogram([ 0 , యాభై , 100 , 150 , 200 , 250 ])
అవుట్పుట్:
- బకెట్ 1: (0 నుండి 50 వరకు) : ఈ బకెట్లోని మొత్తం విలువలు 3.
- బకెట్ 1: (50 నుండి 100 వరకు) : ఈ బకెట్లోని మొత్తం విలువలు 2.
- బకెట్ 1: (100 నుండి 150) : ఈ బకెట్లోని మొత్తం విలువలు 2.
- బకెట్ 1: (150 నుండి 200) : ఈ బకెట్లోని మొత్తం విలువలు 2.
- బకెట్ 1: (200 నుండి 250) : ఈ బకెట్లోని మొత్తం విలువలు 2.
ఉదాహరణ 2:
విలువల బకెట్ పరిధి [0, 100, 200, 300]తో హిస్టోగ్రామ్ను సృష్టించండి.
పైస్పార్క్ దిగుమతిpyspark.sql దిగుమతి SparkSession నుండి
pyspark.rdd నుండి RDDని దిగుమతి చేయండి
spark_app = SparkSession.builder.appName( 'linux' ).getOrCreate()
# 10 విలువలతో RDDని సృష్టించండి
Building_height =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])
ముద్రణ( 'అసలు:' ,Building_height.collect())
# పరిమాణంతో బకెట్ పేర్కొనడం - [0,100,200,300]
Building_height.histogram([ 0 , 100 , 200 , 300 ])
అవుట్పుట్:
- బకెట్ 1: (0 నుండి 100 వరకు). ఈ బకెట్లోని మొత్తం విలువ 5.
- బకెట్ 2: (100 నుండి 200). ఈ బకెట్లోని మొత్తం విలువ 3.
- బకెట్ 3: (200 నుండి 300). ఈ బకెట్లోని మొత్తం విలువ 2.
ముగింపు
PySpark Pandas DataFrame మరియు RDDలో పైస్పార్క్లో హిస్టోగ్రామ్లను ఎలా సృష్టించాలో మనం చూశాము. హిస్టోగ్రాం() అనేది RDD డేటాపై హిస్టోగ్రాం పొందడానికి ఉపయోగించే ఫంక్షన్. PySpark Pandas DataFrameలో హిస్టోగ్రాంను ప్రదర్శించడానికి plot.hist() ఉపయోగించబడుతుంది. మేము అన్ని పారామితులను కవర్ చేయడం ద్వారా ఉదాహరణలతో ఈ ఫంక్షన్లను చర్చించాము.