Är datavetenskap och big data hadoop samma? Är det någon skillnad mellan dem eller båda betyder det samma?


Svar 1:

Nej, definitivt inte.

Låter oss diskutera detta problem i tre delar:

Data Science är en specialisering för att lösa olika problem med olika metoder från statistik, kombinatorik, matematik och datavetenskap etc.)

Big Data: Big data i en bred vy är ett begrepp att hantera enorma data (termen enorm är relativ) utanför traditionella metoder.

Hadoop: Hadoop är ett ramverk eller vi kan säga en miljö som kan användas för att hantera och analysera enorma datasätt med olika verktyg (PIG, HIVE, Scoop, Fume etc.)

Referenser:

Hadoop Tutorial

Datavetenskap

Big data


Svar 2:

Jag antar att du trodde att "Data science" och "Big Data Hadoop" var två olika saker men de är faktiskt tre. Data Science, Big Data och Hadoop har olika betydelser.

Låt oss anta att du är student i klass 10. Du har fått ett jobb att hitta genomsnittet av poäng i varje ämne som dina klasskamrater får. Du har 50 elever i din klass som studerar 5 ämnen vardera. Att hitta genomsnittet är ingen raketvetenskap, så du gör allt i ett excelark. Nu ber din lärare dig att göra samma beräkning för alla avsnitt A, B och C, på cirka 150 studenter. Excel-ark räcker igen. Nu vill du veta vad som skulle vara genomsnittliga betyg för vetenskap som poängs av elever i elfte klass över hela landet, vilket är cirka 14 31661 studenter 2016. Du kan eventuellt inte lagra så mycket data i ett excelblad så att du skulle lagra det i en databas som MySQL eller Oracle. Du kör en SQL-fråga för att hitta genomsnittet. Nu är du nyfiken på att veta hur genomsnittet har rört sig sedan de senaste 20 åren i Science för klass 10, som är cirka 3000000 poster. Om du skulle hitta genomsnittet för alla 5 ämnen och inte bara vetenskap, skulle du hantera 30000000 x 5 poster. Uppgifterna är stora nu som även kallas ”Big Data”.

Big Data - extremt stora datamängder som kan analyseras beräkningsmässigt för att avslöja mönster, trender och föreningar, särskilt relaterade till mänskligt beteende och interaktioner. - Från Wikipedia

Du borde förmodligen inte lagra så mycket data i din MySQL eller Oracle och köra din SQL-fråga på miljoner poster. Jag har aldrig behandlat så mycket data i en SQL-databas så kommer inte att kommentera dess prestanda men jag använde Hadoop för att hantera enorma mängder datamängder, mycket större än studentdatabasen vi pratar om. Hadoop är ett ramverk som distribuerar uppgifterna i flera system så att alla system kan göra beräkningar parallellt och därigenom öka den totala hastigheten för beräkningen, även kallad Distribuerad dator. Hadoop har sitt eget filsystem som är ett datalagringssystem för Big Data.

Datavetenskap i lekmän är en vetenskap att förstå vad man ska göra med data, stora eller små. Hittills försökte vi bara hitta genomsnittet av poäng men en datavetare skulle gå längre än och leta efter sätt att hitta vad som kan göras med genomsnittet. För en organisation kommer han att hjälpa dem att fatta affärsbeslut och hitta mönster som skulle hjälpa cheferna att fatta bättre beslut och fördela resurser för att öka vinsten. De flesta datavetare kanske inte ens använder Hadoop om de inte har att göra med Big Data, de använder vanligtvis R lang eller Python för beräkningar.

Big Data är ett koncept.Hadoop är ett verktyg. Data Science är ett område inom datavetenskap.


Svar 3:

Jag antar att du trodde att "Data science" och "Big Data Hadoop" var två olika saker men de är faktiskt tre. Data Science, Big Data och Hadoop har olika betydelser.

Låt oss anta att du är student i klass 10. Du har fått ett jobb att hitta genomsnittet av poäng i varje ämne som dina klasskamrater får. Du har 50 elever i din klass som studerar 5 ämnen vardera. Att hitta genomsnittet är ingen raketvetenskap, så du gör allt i ett excelark. Nu ber din lärare dig att göra samma beräkning för alla avsnitt A, B och C, på cirka 150 studenter. Excel-ark räcker igen. Nu vill du veta vad som skulle vara genomsnittliga betyg för vetenskap som poängs av elever i elfte klass över hela landet, vilket är cirka 14 31661 studenter 2016. Du kan eventuellt inte lagra så mycket data i ett excelblad så att du skulle lagra det i en databas som MySQL eller Oracle. Du kör en SQL-fråga för att hitta genomsnittet. Nu är du nyfiken på att veta hur genomsnittet har rört sig sedan de senaste 20 åren i Science för klass 10, som är cirka 3000000 poster. Om du skulle hitta genomsnittet för alla 5 ämnen och inte bara vetenskap, skulle du hantera 30000000 x 5 poster. Uppgifterna är stora nu som även kallas ”Big Data”.

Big Data - extremt stora datamängder som kan analyseras beräkningsmässigt för att avslöja mönster, trender och föreningar, särskilt relaterade till mänskligt beteende och interaktioner. - Från Wikipedia

Du borde förmodligen inte lagra så mycket data i din MySQL eller Oracle och köra din SQL-fråga på miljoner poster. Jag har aldrig behandlat så mycket data i en SQL-databas så kommer inte att kommentera dess prestanda men jag använde Hadoop för att hantera enorma mängder datamängder, mycket större än studentdatabasen vi pratar om. Hadoop är ett ramverk som distribuerar uppgifterna i flera system så att alla system kan göra beräkningar parallellt och därigenom öka den totala hastigheten för beräkningen, även kallad Distribuerad dator. Hadoop har sitt eget filsystem som är ett datalagringssystem för Big Data.

Datavetenskap i lekmän är en vetenskap att förstå vad man ska göra med data, stora eller små. Hittills försökte vi bara hitta genomsnittet av poäng men en datavetare skulle gå längre än och leta efter sätt att hitta vad som kan göras med genomsnittet. För en organisation kommer han att hjälpa dem att fatta affärsbeslut och hitta mönster som skulle hjälpa cheferna att fatta bättre beslut och fördela resurser för att öka vinsten. De flesta datavetare kanske inte ens använder Hadoop om de inte har att göra med Big Data, de använder vanligtvis R lang eller Python för beräkningar.

Big Data är ett koncept.Hadoop är ett verktyg. Data Science är ett område inom datavetenskap.