Pagpapahirap sa Tubig - Isang Analogy ng Analytics na Napupunta sa Isang Tulay na Napakatagal

drip analytics

Ang data, tulad ng tubig, ay nagmula sa maraming anyo. Ang pag-iisip ng tao ay nagbago upang ma-filter ang karamihan ng mga data na dumarating sa amin dahil may simpleng bahagi nito.

Kapag binuksan mo ang iyong mga mata at tainga, ang data ay saanman. Ang kulay ng dingding, ang tunog ng aircon at ang amoy ng kape ng iyong kapit-bahay ay itinuturing na halumigmig. Ang tubig ay nasa hangin sa lahat ng oras ngunit hindi kapaki-pakinabang na bigyang pansin ito.

Kapag ang tubig ay umuusok sa ulap, pinipilit ka nitong makita ito at ginagawang mas mahirap ang pag-unawa sa mundo sa paligid mo. Ang mga hindi kumpletong dataset, nasirang data, masamang agham, maling konklusyon at nagbibigay-malas na bias ay lahat na nawala sa iyo ang paraan mo sa pag-ambon.

Ang data ay bumagsak tulad ng ulan. Kapag mayroon lamang kaunti, ito ay wildly hindi kasiya-siya - sapat lamang upang gawing marumi ang iyong sasakyan at lituhin ang pag-uusap. Natagpuan mo ang iyong sarili na pinupunasan ang lugar sa iyong mga baso habang ang isang tao ay nagpapalabas ng isang random na data point, na nakuha mula sa ilang hindi nakakubli na mapagkukunan.

  • Lipas na tubig sa isang mababaw na pond ay mapanganib. Ang data, na nakolekta mula sa isang hindi maaasahang panustos, hindi nalinis o na-normalize at naiwan na maging hindi dumadaloy, ay madaling humantong sa mga maling aksyon.
  • A matatag na patak ng tubig ay maaaring maging sapat lamang upang punan ang isang canteen o mapanatili ang isang ecosystem ng kakahuyan. Tatlong mga puntos ng data lamang (ang bilang ng mga email na ipinadala, kumpara sa binuksan, kumpara sa na-click) ay maaaring mapanatili ang isang programa sa marketing.
  • A mas malusog na daloy ng data sa anyo ng isang maliit na sapa ay maaaring magamit para sa pagligo. Ang isang tuluy-tuloy na daloy ng data ay nagbibigay-daan sa benchmarking at makasaysayang paghahambing. Ang pag-optimize sa landing page ay maaaring magawa ng matatag na data ng conversion.
    A mahinhin na ilog makakagamit ng isang galingan upang makakita ng kahoy o gumiling trigo. Kailangan lamang ng isang engine ng rekomendasyon ang maaasahang kontribusyon mula sa isang maliit na tributaries upang makapagbigay ng pagtaas sa halaga ng mga shopping cart.
  • A talon ng ay maaaring magtaguyod ng isang malaking waterwheel at isang sapat na pagdagsa ng impormasyon ay maaaring humimok ng isang real time, system ng pabago-bagong nilalaman.
  • A ilog ang malawak at sapat na malalim na iyon ay maaaring suportahan ang isang buong industriya ng transportasyon. Sapat na data ay maaaring lumutang barge at cargo ship sa hugis ng isang koleksyon ng mga cookies mula sa mga network ng advertising, mga pinagsama-samang data ng programa ng loyalty card, at mga data broker.

Kapag dumating ang data sa mga inaasahang halaga sa inaasahang oras, maaari itong makuha, ma-channel at magamit. Ang mga sistema ng irigasyon, mga dam at reservoir ay nagbibigay ng isang pakiramdam ng kontrol at pinapayagan para sa pagtatayo ng isang palaging lumalawak na imprastraktura na may mga kanal, kandado at dam. Ang mga warehouse ng data ay naitayo sa hindi gaanong mapagkakatiwalaang mga daloy.

Ang kalinisan ay Susunod sa Kabanalan

Ang malinis na tubig ay mahalaga sa tagumpay ng buhay, patubig, pagpapatakbo ng mga halaman ng kuryente, atbp. Ang kahulugan ng 'malinis' ay maaaring magbago para sa hangarin; OK kung mayroong algae sa tubig na pinapalamig ang isang planta ng kuryente at hindi ito katanggap-tanggap kung mayroong higit sa 10 bahagi bawat bilyong arsenic sa inuming tubig.

Ang data ay pareho. Sa isang direktang aplikasyon ng mail, kung mayroon kang pamagat ng isang tao (G., Ginang, Ms.) ay walang kabuluhan ... maliban kung nagpapadala ka sa mga doktor. Ngunit ang maruruming data ay bibisitahin ka tuwing oras.

Bilang US Chief Data Scientist, DJ Patil, ilagay ito sa isang First Round CTO Summit, "Kung hindi mo iniisip kung paano panatilihing malinis ang iyong data mula sa simula pa lang, f ^ ¢ & ed ka. Ginagarantiyahan ko ito Ang pagsubok na linisin ito pagkatapos ng katotohanan ay tatagal ng ilang buwan kahit papaano. "

Kung pinainit mo ang tubig hanggang sa kumukulo, maaari nitong mapalakas ang isang buong Industrial Revolution. Ang data ay tila gumagawa ng parehong bagay. Mula sa sandaling ang mga computer ay maaaring mag-imbak pati na rin kalkulahin, ang data ay nakolekta nang mabilis hangga't ang kagamitan sa pag-iimbak ay maaaring likhain upang magawa ito.

Ang Data Lake

Tulad ng data mula sa mga tributary na ito na tumatakbo sa pamamagitan ng mga makina ng galingan, ang lahat ay napupunta sa lawa, sa likod ng dam. Habang ang data ay pinakawalan sa isang kontroladong paraan, pinapagana nito ang mga turbina ng industriya ng data; ang mga higanteng makina ng pagproseso ng data na may mga pangalan tulad ng Google at Facebook. Walang pagkauhaw dito.

At, sa wakas, mayroong isang malalim na pool ng tubig, naghihintay para sa mananaliksik na sumisid. Scuba gear at spear gun sa kamay, sinisiyasat ng analyst ang malalim, na nagmapa ng bagong lupa at natuklasan ang mga bagong species. Napakaganyak na oras upang maging isang explorer ng data.

Iyon ang dahilan kung bakit marami sa kanila ay nagpapakita para sa eMetrics Summit mula noong 2002. Ang susunod na pagkakataon ay sa Boston, Setyembre 27 hanggang Oktubre 1, 2015.

eMetrics Summit Rehistro

Ang isang Bridge Masyadong Malayong

At ano ang lakas ng data upang mag-ukit sa susunod na Grand Canyon? Kumusta naman ang pagtunaw ng glacial ng nakabalangkas na data? Paano natin magagamot ang basurang tubig sa isang mundo na nagiging mas at mas may kamalayan sa privacy?

Ang mga iyon ay mga katanungan para sa isa pang oras at tubig sa ilalim ng tulay.

Ano sa tingin ninyo?

Ang site na ito ay gumagamit ng Akismet upang mabawasan ang spam. Alamin kung paano naproseso ang data ng iyong komento.