Məlumat alimi istəyir? Bu əsasları mənimsəyin.

Dmitri Popov Unsplash-də

Məlumat elmi, həyəcan verici, sürətlə inkişaf edən bir sahədir. İstedadlı, analitik düşüncəli şəxslərə tələbat çətinliyi yoxdur. Hər ölçüdə şirkətlər məlumat alimlərini işə götürür və bu rol geniş sahələrdə və tətbiqlərdə həqiqi dəyəri təmin edir.

Çox vaxt insanların sahə ilə ilk qarşılaşmaları böyük tədqiqat təşkilatları tərəfindən yaradılan elmi başlıqları oxumaqdan keçir. Son tərəqqi, bir nəsil içində bildiyimiz kimi dünyanı dəyişdirən maşın öyrənmə perspektivini artırdı.

Bununla birlikdə, elmi və tədqiqat xaricində məlumat elmi, dərin öyrənmə və NLP kimi başlıq mövzularından əlavə daha çox şeyə aiddir.

Məlumat aliminin kommersiya dəyərinin çoxu çox sayda məlumatın gətirə biləcəyi aydınlıq və anlayışdan irəli gəlir. Rol, məlumat mühəndisliyindən tutmuş məlumatların təhlili və hesabatına qədər hər şeyi əhatə edə bilər - bəlkə də bəzi maşın öyrənməsini yaxşı ölçüdə atmaqla.

Xüsusilə bir başlanğıc firmasında bu. Erkən və orta mərhələli şirkətlərin məlumat ehtiyacları adətən sinir şəbəkələri və kompüter görmə sahəsindən çox uzaqdır. (Əlbəttə ki, bunlar məhsul / xidmətinin əsas xüsusiyyətləridirsə).

Əksinə, onlar dəqiq təhlil, etibarlı proseslər və sürətli miqyaslanma qabiliyyətinə ehtiyac duyurlar.

Buna görə, bir çox reklam məlumatı rolu üçün tələb olunan bacarıqlar geniş və müxtəlifdir. Həyatda hər hansı bir təqib kimi, dəyərin çox hissəsi əsasları mənimsəməkdən gəlir. Etibarlı 80:20 qayda tətbiq olunur - dəyərin təxminən 80% -i bacarıq dəstinin 20% -dən gəlir.

Burada hər hansı bir məlumat verən elm adamının mənimsəməsi lazım olan bəzi əsas bacarıqların icmalı var.

Statistikadan başlayın

Məlumat aliminin şirkətinə gətirdiyi əsas xüsusiyyət, mürəkkəbliyi düşündürmək bacarığıdır. Buna nail olmağın açarı səs-küylü məlumatların mənasını necə açmağınızı anlamaqdır.

Buna görə statistik təhlil mənimsəmə üçün vacib bir bacarıqdır. Statistikalar sizə imkan verir:

  • Maraqlı tərəflərə ətraflı bir şəkil təqdim etmək üçün məlumatları təsvir edin
  • Məlumatları müqayisə edin və hipotezləri sınayın, iş qərarlarını məlumatlandırın
  • Həqiqi proqnoz dəyəri verən tendensiyaları və əlaqələri müəyyənləşdirin

Statistika, ticarət və əməliyyat məlumatlarının mənası üçün güclü bir vasitə dəsti təmin edir.

Ancaq ehtiyatlı olun! Məhdud anlayışlardan daha pis bir şey yanlış anlayışlardır. Buna görə statistik təhlilin əsaslarını başa düşmək çox vacibdir.

Xoşbəxtlikdən, izləyə biləcəyiniz bir neçə rəhbər prinsip var.

Fərziyyələrinizi qiymətləndirin

Verilənlər haqqında etdiyiniz fərziyyələrdən xəbərdar olmaq çox vacibdir.

Həmişə sübutlara tənqidi yanaşın və nəticələrə şübhə ilə baxın. Verilənlərinizdə müşahidə olunan tendensiyalar üçün "maraqsız" bir izahat ola bilərmi? Seçdiyiniz statistika testi və ya metodologiyanız nə dərəcədə doğrudur? Verilənlər bütün əsas fərziyyələrə cavab verirmi?

Hansı tapıntıların 'maraqlı' və hesabat verməyə dəyər olduğunu bilmək də fərzlərinizdən asılıdır. Elementar bir iş, məlumat toplusunun orta və ya ortancılığını bildirməyin daha məqsədəuyğun olub-olmadığını qiymətləndirir.

Çox vaxt hansı yanaşmanı tanımaqdan daha vacib olan, nəyi etməməyi bilməkdir. Verilən məlumat dəstini təhlil etmək üçün bir qayda olaraq bir neçə yol var, lakin ümumi təlaşlardan qaçındığınızdan əmin olun.

Məsələn, çoxsaylı müqayisələr həmişə düzəldilməlidir. Heç bir vəziyyətdə bir fərziyyəni yaratmaq üçün istifadə edilən eyni məlumatları təsdiqləməyə çalışmamalısınız! Bunun asanlıqla edildiyinə təəccüblənəcəksiniz.

Distribution> Yer

Giriş statistikası haqqında danışanda hər zaman müəyyən bir məqamı vurğulamağa əminəm: dəyişənin paylanması adətən ən azı yeri olduğu qədər maraqlı / məlumatlı olur. Əslində, daha çox belə olur.

Mərkəzi meyl bilmək faydalıdır, lakin paylama tez-tez başa düşmək üçün daha maraqlıdır!

Bunun səbəbi, bir dəyişənin paylanması adətən yaradılan (və ya seçmə) proseslər haqqında məlumatları ehtiva edir.

Məsələn, hesablama məlumatları tez-tez bir Poisson paylamasını izləyir, halbuki müsbət rəy ("möhkəmləndirmə") göstərən bir sistem güc qanunu paylamağa meyllidir. Heç vaxt diqqətlə yoxlanmadan məlumatların normal şəkildə yayılmasına etibar etməyin.

İkincisi, məlumatların paylanmasını başa düşmək onunla necə işləməyi bilmək üçün vacibdir! Bir çox statistik test və metod, məlumatlarınızın necə paylandığına dair fərziyyələrə əsaslanır.

Qarşıya qoyulmuş bir nümunə olaraq, həmişə unimodal və bimodal məlumatların fərqli olacağına əmin olun. Bunlar eyni mənada ola bilər, ancaq onların paylanmasına məhəl qoymursanız, bir ton vacib məlumatı itirəcəksiniz.

Xülasə statistikasını vermədən əvvəl məlumatlarınızı niyə həmişə yoxlamalı olduğunuzu göstərən daha maraqlı bir nümunə üçün Anscombe'nın dördlüyünə nəzər yetirin:

Fərqli məlumatlar; lakin təxminən eyni vasitələr, fərqlər və əlaqələr

Hər bir qrafik çox fərqli görünür, elə deyilmi? Bununla birlikdə hər birində eyni xülasə statistikası var - onların vasitələri, dəyişkənliyi və korrelyasiya əmsalları da daxil olmaqla. Bəzi paylanmaların hiyləsi onların daha fərqli olduğunu göstərir.

Nəhayət bir dəyişənin paylanması onun həqiqi dəyəri ilə bağlı olduğunuzu müəyyənləşdirir. 'Dar' paylama daha yüksək bir əminlik təmin edir, halbuki 'geniş' paylama daha az imkan verir.

Konteksti təmin etmək üçün bir vasitə haqqında fikir ayrılıqları vacibdir. Çox tez-tez, çox geniş bir inam intervalları olan vasitələr ilə yanaşı, çox dar bir inam fasiləsi ilə də bildirilir. Bu yanlış ola bilər.

Uyğun nümunə

Reallıq budur ki, nümunə götürmə, ticari yönümlü məlumat alimləri üçün, xüsusən də tədqiqat və ya mühəndislik təcrübəsi olanlar üçün ağrı nöqtəsi ola bilər.

Tədqiqat şəraitində bir çox fərqli amillər və səviyyələr və nəzarət prosedurları ilə dəqiq dizayn edilmiş təcrübələri düzəldə bilərsiniz. Bununla birlikdə, 'canlı' kommersiya şərtləri çox vaxt məlumat toplama nöqteyi-nəzərindən alt-üst olur. Hər qərarı "adi olduğu kimi" dayandırmaq riskinə qarşı diqqətlə ölçülməlidir.

Bu, məlumat alimlərindən ixtiraçı, həqiqi olmasını və problem həllinə yanaşmalarını tələb edir.

A / B testi, adi işlərdə böyük narahatlığa səbəb olmadan məhsulların və platformaların dənəvar bir səviyyədə optimallaşdırılacağını göstərən bir yanaşma nümunəsinin nümunəsidir.

A / B testi, məhsulların müxtəlif variantlarını optimallaşdırmaq üçün müqayisə etmək üçün bir sənaye standartıdır

Bayesian metodları, işləmək üçün əsaslı bir məlumat dəsti varsa, kiçik məlumat dəstləri ilə işləmək üçün faydalı ola bilər.

Topladığınız hər hansı bir məlumatla məhdudiyyətləri tanıdığınızdan əmin olun.

Anket məlumatları seçmə qərəzlərinə meyllidir (əksər hallarda sorğunu başa çatdırmaq üçün vaxt ayıran ən güclü rəyi olan respondentlərdir). Zaman seriyası və məkan məlumatları avtokorrelyasiya ilə təsirlənə bilər. Və sonuncusu, ən əsası, əlaqəli mənbələrdən məlumatları təhlil edərkən həmişə çoxölçülüyə diqqət yetirin.

Məlumat mühəndisliyi

Bu məlumat elmi klişenin bir şeyidir, amma reallıq budur ki, verilənlərin işlənməsinin çox hissəsi daha dərindən yuxarı təhlili üçün tələb olunan xam məlumatların mənbəyi, təmizlənməsi və saxlanmasına sərf olunur.

Nisbətən az vaxt həqiqətən alqoritmləri sıfırdan tətbiq etməyə sərf olunur. Həqiqətən, əksər statistik vasitələr səliqəli R paketləri və Python modullarına sarılmış daxili işləmələri ilə gəlir.

'Çıxarış-çevirmək' (ETL) prosesi hər hansı bir məlumat elm qrupunun uğuru üçün vacibdir. Daha böyük təşkilatlar, mürəkkəb məlumat infrastrukturu tələblərini ödəmək üçün xüsusi məlumat mühəndislərinə sahib olacaqlar, lakin daha gənc şirkətlər çox vaxt məlumat alimlərindən özlərinin güclü, hərtərəfli məlumat mühəndisliyi bacarıqlarına sahib olacaqlar.

Praktikada proqramlaşdırma

Məlumat elmi yüksək fənlərarası. Qabaqcıl analitik bacarıqlar və domenə məxsus biliklərlə yanaşı, rolun möhkəm proqramlaşdırma bacarığı da zəruridir.

İstəyən məlumat aliminin istifadə etməyi öyrənməli olduğu proqramlaşdırma dillərinə mükəmməl bir cavab yoxdur. Dedi ki, Python və / və ya R-dən ən azı biri sizə çox yaxşı xidmət edəcəkdir.

Verilənlərlə işləmək istəyirsinizsə, bu dillərin ya (ya da hər ikisi) əla başlanğıc nöqtəsidir

Hansı dili seçdiyinizdən asılı olmayaraq, onun bütün xüsusiyyətləri və ətraf ekosistemi ilə tanış olmağı hədəfləyin. Mövcud olan müxtəlif paketləri və modulları nəzərdən keçirin və mükəmməl IDE qurun. Şirkətinizin əsas platforma və xidmətlərinə daxil olmaq üçün istifadə etməlisiniz API-ləri öyrənin.

Verilənlər bazaları hər hansı bir məlumat iş axınının tərkib hissəsidir. Bəzi SQL ləhcələrini mənimsədiyinizə əmin olun. Dəqiq seçim çox vacib deyildir, çünki lazım olduqda onların arasında keçid idarə edilə bilən bir prosesdir.

NoSQL verilənlər bazası (MongoDB kimi), şirkətiniz bunlardan istifadə edərsə, öyrənməyə dəyər ola bilər.

Güvənli bir komanda xətti istifadəçisi olmaq günlük məhsuldarlığınızı artırmaq üçün uzun bir yol qət edəcəkdir. Sadə bash skriptləri ilə tanışlığı belə təkrarlayan tapşırıqları avtomatlaşdırmağa gəldikdə sizi güclü bir başlanğıca aparacaqsınız.

Effektiv kodlaşdırma

Məlumat alimlərini mənimsəmək üçün çox vacib bir bacarıq effektiv kodlaşdırmaqdır. Yenidən istifadə etmək əsasdır. Kodun bir dəfədən çox istifadə edilməsinə imkan verən abstraksiya səviyyəsində yazmaq üçün vaxt (dəyər olduqda) almağa dəyər.

Bununla birlikdə, qısa və uzunmüddətli prioritetlər arasında bir tarazlıq var.

Yenidən əlaqəli olma şansı olmadıqda təkrar istifadə edilə bilən bir ad hoc skriptini yazmaq üçün iki dəfə uzun çəkməyin mənası yoxdur. Yenə köhnə kodun yenidən düzəldilməsinə sərf olunan hər dəqiqə əvvəlcədən xilas ola bilən bir dəqiqədir.

Həqiqətən ifaçı istehsal kodunu yazmaq üçün proqram mühəndisliyinin ən yaxşı təcrübələrini inkişaf etdirməyə dəyər.

Git kimi versiya idarəetmə vasitələri, kodun istifadəsini və saxlanılmasını daha asanlaşdırır. Vəzifə planlaşdırıcıları gündəlik prosesləri avtomatlaşdırmağa imkan verir. Müntəzəm kodu nəzərdən keçirmək və razılaşdırılmış sənədləşdirmə standartları, komandanın gələcək həyatlarını asanlaşdıracaqdır.

Texnika ixtisaslaşmasının hər hansı bir xəttində ümumiyyətlə təkəri yenidən ixtira etməyə ehtiyac yoxdur. Məlumat mühəndisliyi də istisna deyil. Hava axını kimi çərçivələr ETL proseslərini planlaşdırma və izləmə işlərini daha asan və daha sağlam edir. Paylanmış məlumatların saxlanması və işlənməsi üçün Apache Spark və Hadoop var.

Bir başlanğıc üçün bunları çox dərindən öyrənməsi vacib deyil. Yenə də ətraf ekosistem və mövcud vasitələr barədə məlumatlı olmaq həmişə üstünlükdür.

Aydın ünsiyyət

Məlumat elmi, maraqlı tərəflərin üzləşdiyi ön sonu olan tam yığın intizamıdır: hesabat təbəqəsi.

Məsələnin həqiqəti sadədir - effektiv ünsiyyət onunla əhəmiyyətli kommersiya dəyəri gətirir. Məlumat elmi ilə təsirli hesabat verməyin dörd tərəfi var.

  • Dəqiqlik, məlum səbəblərə görə çox vacibdir. Buradakı bacarıq, tətbiq edilə biləcək hər hansı bir məhdudiyyət və ya xəbərdarlıqdan aydın olanda nəticələrinizi necə şərh edəcəyinizi bilir. Hər hansı bir nəticənin aktuallığını aşmamaq və ya verməmək vacibdir.
  • Dəqiqlik Bu vacibdir, çünki hesabatınızdakı hər hansı bir qeyri-müəyyənlik tapıntıların səhv şərh olunmasına səbəb ola bilər. Bunun mənfi nəticələrə səbəb ola bilər.
  • Qısaca Hesabatınızı mümkün qədər qısaldın, amma qısa deyil. Yaxşı bir format əsas sual üçün bir kontekst təmin edə bilər, mövcud məlumatların qısa təsvirini daxil edə bilər və 'başlıq' nəticələri və qrafiklərinə ümumi bir izahat verə bilər. Əlavə təfərrüat əlavə edilə bilər (və olmalıdır).
  • Əlçatan Bir hesabatın texniki dəqiqliyini oxucularının əksəriyyətinin öz elm sahələri üzrə mütəxəssislər olacağını reallığa uyğunlaşdırmaq üçün mütəmadi olaraq ehtiyac duyulur. Burada asan, bir ölçülü uyğunluq - hamısına cavab yoxdur. Tez-tez ünsiyyət və geribildirim uyğun bir tarazlıq yaratmağa kömək edəcəkdir.

Qrafika Oyunu

Güclü məlumat vizualizasiyası, mürəkkəb nəticələri maraqlı tərəflərə səmərəli şəkildə çatdırmağa kömək edəcəkdir. Yaxşı hazırlanmış bir qrafik və ya qrafik bir mətnin hansı paraqrafın izah edilməsi tələb olunacağını bir baxışda aça bilər.

Plotly, Tableau, Chartio, d3.js və başqaları daxil olmaqla pulsuz və pullu vizuallaşdırma və tablo paneli tikinti alətlərinin geniş çeşidi var.

Tez istehza üçün bəzən Excel və ya Google Vərəqləri kimi yaxşı elektron formalı elektron tablo proqramını sındıra bilməzsiniz. Məqsədli vizual proqram təminatının işləməməsinə baxmayaraq bunlar tələb olunan işi edəcəklər.

Qurğu panelləri və qrafiklər qurarkən nəzərə alınmalı bir sıra rəhbər prinsiplər var. Əsas problem, "oxunuşa" zərər vermədən, vizualizmin informasiya dəyərini artırmaqdır.

Məlumatları necə təqdim etməməlisiniz - ümumiyyətlə, sadə saxlayın (bu nümunədə daha çox məlumat üçün bu sərin blog yazısını oxuyun)

Effektiv bir vizual sürətli bir baxışda yüksək səviyyəli bir baxış ortaya qoyur. Daha mürəkkəb qrafik izləyicinin həzm etməsinə bir az daha çox vaxt tələb edə bilər və buna görə daha çox məlumat məzmunu təqdim etməlidir.

Məlumatların vizuallaşdırılması ilə bağlı yalnız bir kitab oxumusunuzsa, Edward Tufte'nin Klassik Məlumatın Klassik Görünüşü Görkəmli seçimdir.

Tufte tək əllə populyarlaşdı və məlumatların vizuallaşdırılması sahəsinin çoxunu icad etdi. 'Chartjunk' və 'məlumatların sıxlığı' kimi geniş istifadə olunan terminlər Tufte'nin işinə mənşəlidir. Onun 'məlumat mürəkkəb nisbəti' anlayışı otuz il ərzində təsirli olaraq qalır.

Rəng, düzülmə və interaktivliyin istifadəsi çox vaxt keyfiyyətli vizual və yüksək keyfiyyətli, peşəkar olanı fərqləndirəcəkdir.

Məlumat vizuallaşdırılması daha yaxşı edildi

Nəticədə, böyük bir məlumat vizualizasiyası yaratmaq, məlumat elmindən daha çox UX və qrafik dizaynla əlaqəli bacarıqlara toxunur. Boş vaxtlarınızda bu mövzular ətrafında oxumaq, nəyin işlədiyini və nəyin yaramadığını bilmək üçün əla bir yoldur.

Bl.ocks.org kimi saytları ilham üçün yoxladığınızdan əmin olun!

Məlumat elmi müxtəlif bacarıq tələb edir

Diqqəti cəlb edən bir məlumat alimi olaraq inkişafa yönəltdiyiniz dörd əsas bacarıq sahəsi var. Onlar:

  • Həm əsas nəzəriyyə, həm də real dünya tətbiqi də daxil olmaqla statistika.
  • Proqramlaşdırma, ən azı Python və ya R-də, SQL-də və əmr satırından istifadə etməklə
  • Məlumat mühəndisliyinin ən yaxşı təcrübələri
  • İşinizi səmərəli şəkildə əlaqələndirin

Bonus! Daim öyrən

Əgər siz bu barədə bu günə qədər oxumusunuzsa və ruhdan düşmüsünüzsə - arxayın olun. Belə sürətlə inkişaf edən bir sahədəki əsas bacarıq, necə öyrənməli və yenidən öyrənməyinizdir. Şübhəsiz ki, gələcək illərdə yeni çərçivələr, alətlər və metodlar ortaya çıxacaqdır.

İndi öyrəndiyiniz dəqiq bacarıqların beş-on il ərzində tamamilə yenilənməsi tələb oluna bilər. Bunu gözləyin. Bunu etməklə və hazırlıqlı olmaqla davamlı öyrənmə yolu ilə oyundan qabaqda qala bilərsiniz.

Heç vaxt hər şeyi bilə bilməzsən və həqiqət budur - heç kim heç vaxt etməz. Ancaq əsasları mənimsəsən, bilmək lazım olan bir şey əsasında başqa bir şey ala biləcək bir vəziyyətdə olursan.

Və bu, hər hansı bir sürətli inkişaf edən intizamda müvəffəqiyyətin açarıdır.