È una cosa nuova:
Non si può negare che grandi quantità di dati è un argomento caldo in tempi attuali. Ma ci sono aziende ancora lottando per passare dal concetto di esecuzione. Mettiamola in questo modo, che come proprietario di affari tuoi problemi sono sempre gli stessi. Che cosa è cambiato è la soluzione al tuo problema, solo perché questo tipo di dati dà risposte alle vostre domande di business in un modo migliore e più veloce con il potenziale di fornire visione inestimabile. Il fatto della questione è che non c'è una nuova scoperta. Le imprese e le imprese hanno lavorato con grande quantità di informazioni per decenni. La cosa nuova solo che ci permette di dare un senso di queste informazioni è Google analytics. L'obiettivo primario di Google analytics è l'esplorazione o l'applicazione di tecniche analitiche di grandi quantità di informazioni in vari tipi tra cui i dati non strutturati, che si compone di stringhe di testo, file audio e filmati, documenti, immagini, dati di geo-localizzazione e documenti.
Si tratta solo di informazioni massicce:
Analisi quantitativa svolge un ruolo importante per ogni organizzazione dove terabyte di informazioni proviene da transazioni cliente, social media, statistiche sulle imprese e carica foto. Tuttavia, la definizione di questo tipo di vasti insiemi di dati si estende oltre petabyte di volume. Volume, essendo il primo elemento, gli altri due elementi vitali possono essere diversi e la velocità delle informazioni. Serie di dati si riferisce al numero di tipi di dati e tipi di file che possono essere gestiti o analizzati più a fondo e velocità indica quanto velocemente i dati possono essere recuperati in tempo reale. Tecnologie tradizionali e i database relazionali non sono adatti per questo genere di informazioni e che è come le grandi quantità di dati viene in foto.
Significa solo Hadoop:
Hadoop è diventato sinonimo di grandi quantità di dati. Hadoop è un framework software open-source Apache scritto in Java programming language che permette di lavorare con grandi quantità di set di dati. È progettato per scalare da un singolo server di migliaia di macchine. Grandi quantità di dati non è uguale a Hadoop in un senso che la maggior parte delle informazioni per questo tipo di dati viene da fonti come eventi, feed, social media, ecc., in forma di sfide che sono soddisfatte da una tecnologia o prodotto come Hadoop.
Significa solo dati non strutturati:
Dati non strutturati non hanno alcuna forma distinta. Non è non strutturata perché noi non possiamo inserire i dati in un modello, ma anche dopo il montaggio il modello non sarà di aiuto. Dati non strutturati sono un'etichetta generica per descrivere tutte le informazioni che non sono nel database. Può essere testuale o un-textual tra cui file audio e video, file di immagine, messaggi di posta elettronica, dati del modulo, stringhe di testo, social media feed e così via.