ஸ்பார்க் ஸ்ட்ரீமிங் தரவு சுத்தம் செய்யும் பொறிமுறை
(I) டிஸ்ட்ரீம் மற்றும் RDD
ஸ்பார்க் ஸ்ட்ரீமிங் கணக்கீடு ஸ்பார்க் கோர் அடிப்படையிலானது, மேலும் ஸ்பார்க் கோரின் மையமானது RDD ஆகும், எனவே ஸ்பார்க் ஸ்ட்ரீமிங் RDD உடன் தொடர்புடையதாக இருக்க வேண்டும்.இருப்பினும், ஸ்பார்க் ஸ்ட்ரீமிங் பயனர்களை நேரடியாக RDD ஐப் பயன்படுத்த அனுமதிக்காது, ஆனால் DStream மற்றும் RDD ஆகியவை உள்ளடங்கிய உறவுகள், DStream மற்றும் RDD ஆகியவற்றின் சுருக்கங்கள், ஜாவாவில் உள்ள அலங்கார முறை என நீங்கள் புரிந்து கொள்ளலாம், அதாவது, DStream என்பது RDD இன் விரிவாக்கம், ஆனால் நடத்தை RDD போன்றது.
DStream மற்றும் RDD இரண்டுக்கும் பல நிபந்தனைகள் உள்ளன.
(1) வரைபடம், reduceByKey, போன்ற ஒத்த உருமாற்றச் செயல்களைக் கொண்டிருக்கின்றன, ஆனால் விண்டோ, mapWithStated போன்ற சில தனித்துவமானவை.
(2) அனைவருக்கும் foreachRDD, count, போன்ற செயல் நடவடிக்கைகள் உள்ளன.
நிரலாக்க மாதிரி சீரானது.
(B) ஸ்பார்க் ஸ்ட்ரீமிங்கில் டிஸ்ட்ரீமின் அறிமுகம்
டிஸ்ட்ரீம் பல வகுப்புகளைக் கொண்டுள்ளது.
(1) InputDStream போன்ற தரவு மூல வகுப்புகள், DirectKafkaInputStream போன்றவை.
(2) மாற்று வகுப்புகள், பொதுவாக MappedDStream, ShuffledDStream
(3) வெளியீடு வகுப்புகள், பொதுவாக ForEachDStream போன்றவை
மேலே இருந்து, தொடக்கம் (உள்ளீடு) முதல் இறுதி (வெளியீடு) வரையிலான தரவு DStream அமைப்பால் செய்யப்படுகிறது, அதாவது பயனர் பொதுவாக RDDகளை நேரடியாக உருவாக்க மற்றும் கையாள முடியாது, அதாவது DStream க்கு வாய்ப்பும் கடமையும் உள்ளது. RDD களின் வாழ்க்கைச் சுழற்சிக்கு பொறுப்பு.
வேறு வார்த்தைகளில் கூறுவதானால், ஸ்பார்க் ஸ்ட்ரீமிங் உள்ளதுதானியங்கி சுத்தம்செயல்பாடு.
(iii) ஸ்பார்க் ஸ்ட்ரீமிங்கில் RDD உருவாக்கும் செயல்முறை
ஸ்பார்க் ஸ்ட்ரீமிங்கில் RDDகளின் வாழ்க்கை ஓட்டம் பின்வருமாறு கடினமானது.
(1) InputDStream இல், பெறப்பட்ட தரவு RDD ஆக மாற்றப்படுகிறது, அதாவது DirectKafkaInputStream, இது KafkaRDD ஐ உருவாக்குகிறது.
(2) பின்னர் MappedDStream மற்றும் பிற தரவு மாற்றத்தின் மூலம், இந்த நேரம் நேரடியாக RDD என அழைக்கப்படுகிறது.
(3) அவுட்புட் கிளாஸ் செயல்பாட்டில், RDD வெளிப்படும் போது மட்டுமே, தொடர்புடைய சேமிப்பகம், பிற கணக்கீடுகள் மற்றும் பிற செயல்பாடுகளைச் செய்ய பயனரை அனுமதிக்க முடியும்.