zaključke donosite sami (conclusions not included)
[ BuzzLightyear @ 04.10.2021. 20:14 ] @
Juče sam pomenu povećanu aktivnost na Juznetu i ES moderator mi je odmah izbrisao temu. Valjda zato što sam je uporedio sa aktivnošću EMZ foruma. Kao što je EMZ privatni sajt i vlasnik može da radi šta hoće, tako je i Facebook.
P.S.
Da li ovde ima zainteresovanih za pokretanje projekta koji bi kao osnovu koristio Diasporu*, Friendicu, Mastodon ili neki sličan decentralizovani sistem?
Live uvid u haos - doduse reddit nalog i postovi koji su opisivali situaciju iznutra su obrisani.
[ Nebojsa Milanovic @ 04.10.2021. 20:34 ] @
Ivane, može li detaljanije?
Imam solidan stake u FB i to baš od pre neki dan, definitivno sam baksuz..
[ Milan Kragujevic @ 04.10.2021. 20:39 ] @
@Nebojsa
Citat:
As many of you know, DNS for FB services has been affected and this is likely a symptom of the actual issue, and that's that BGP peering with Facebook peering routers has gone down, very likely due to a configuration change that went into effect shortly before the outages happened (started roughly 1540 UTC). There are people now trying to gain access to the peering routers to implement fixes, but the people with physical access is separate from the people with knowledge of how to actually authenticate to the systems and people who know what to actually do, so there is now a logistical challenge with getting all that knowledge unified. Part of this is also due to lower staffing in data centers due to pandemic measures.
TL;DR - Aplicirali su neku promenu na sopstvenoj mrezi. BGP update je momentalno ucinio Facebook i ostale FB servise nedostupnim, ali ocigledno niko nije racunao na to da procedure za oporavak zahtevaju funkcionalni DNS. To je izazvalo haos (plus navodno neki ljudi nisu mogli da udju na odredjene lokacije zato sto kljucevi-kartice nisu radili) i verovatno je najvise vremena otislo na uspostavljanje pouzdanog metoda komunikacije izmedju tehnickih lica sa pristupom core ruterima i mreznih inzenjera sa znanjem kako da rese problem.
[ Ivan Dimkovic @ 05.10.2021. 00:23 ] @
[ Nebojsa Milanovic @ 05.10.2021. 02:40 ] @
Pre neki dan sam čitao veliku analizu da su u poslednje vreme uložili 15 milijardi dolara samo u cybersecurity, teško je zamisliti koliko su investirali u sve drugo...i da im uprkos svemu se ovo desi...još se tačno ne znaju posledice, videće se narednih dana.
Sa moje strane predlog da sada razmotrite akcije FB, ako ništa imaćete puno bolji ulaz od mene.
[ Ivan Dimkovic @ 05.10.2021. 08:08 ] @
Mislim da ova dva dogadjaja nemaju veze jedan sa drugim.
Ovo sa konfiguracijom mreze deluje kao klasican corporate "oops". Fakat da im je SOS mreza, takodje, zavisila od istih resursa nije lep, ali nije nista sto vec nije vidjeno. Steta samo za WhatsApp koji inace ima odlicnu infrastrukturu ali su morali ocigledno da pocnu da koriste FB servise.
Curenje podataka je druga prica... mada opet, dosadasnje slicne epizode su se zavrsavale brzim zaboravom.
[ B3R1 @ 05.10.2021. 09:53 ] @
Ne znam tacno sta se desilo, ali na osnovu svega ovoga kockice se polako sklapaju.
Kao i sve ogromne mreze, konfiguracija uredjaja u FB mrezi se ne azurira rucno, vec se svaka izmena radi uz pomoc automatizovanih alata (u zargonu i dalje zvani "scripts" ... mada je softver koji se danas koristi za to mnooogo odmakao od skriptica). Drugacije i ne moze, jer azurirati 10,000++ rutera rucno je nemoguce. Znate vec - Ansible/Puppet/Chef, mada sam ubedjen da su u FB napravili takve alate sami. Medjutim, ti alati su isto tako mocno sredstvo da u jednom potezu napravis totalni karambol. I to se ovog puta i dogodilo.
U takvim kompanijama svaka izmena u mrezi prolazi strogi Change Management proces, gde svaki predlog izmene konfiguracije prodje kroz 2-3 peer review ciklusa. Znaci, ako jedan inzenjer/arhitekt predlozi da se npr. izmeni nesto u BGP konfiguraciji, on mora da napise detaljan MOP (Method of Procedure, prim.prev.) dokument za to, sve to pregleda njegov kolega, to aminuje neki senior koji takodje treba da pregleda sve to, procenjuje impakt te izmene na ostatak mreze, dobro proceslja svaku komandu u dokumentu itd. Pogotovo kada je rec o slozenim CDN-ovima kakav imaju FAANG. Ovo pisem jer radim bas na takvim poslovima vec skoro 30 godina, pri cemu su ti change management procesi usli u "modu" tek pre nekih 10-15 godina. Mi se cesto zalimo na te CM procese, kazemo kako oni ubijaju kreativnu energiju ljudi, kako su dosadni, naporni ... Tacno. Ali izgleda da ce tek sada CM postati strog!
Medjutim, u svim velikim IT firmama ljude angazuju da rade na vise projekata u isto vreme, koga god vide da ima znanja i vestine natovare mu gomilu gluposti na ledja, jer gazde zaposljavaju minimum radne snage za sve to. Bas kao i u Srbiji, samo na vecoj skali. Uz sve to, rokovi su ludacki tesni, sve mora da bude gotovo juce itd. Znate vec ... Plus, kao sto rekoh, niko ne voli CM, jer to jeste posao koji "neko mora da odradi". :->
I sve bi to jos bilo ok da inzenjere dodatno cesto ne maltretiraju da sede po besmislenim sastancima (trenutno su to "conference calls", ali opet sastanak je sastanak) ... plus nekakvi tupavi "treninzi" koji nemaju veze s tekucim poslom, a koje je propisao HR da moras da ih prolazis svakog kvartala. Bolje da vam ne kazem sta je sadrzaj svega toga, povracali biste. Mnogi zato ostaju prekovremeno i rade SVOJ POSAO na kraju radnog vremena, kada zavrse te druge budalastine ... I sve to vodi povrsnom radu, gde nemas ni vremena da se fokusiras samo na jedan problem i temeljno ga odradis. Vec sve radis u isto vreme, povrsno, ofrlje, napamet ... Dodajte tu jos i porodicne i licne probleme na sve to.
A konfiguracije rutera su zeznuta stvar. Jedna greska, makar samo pogresno napisana netmaska (npr. /23 umesto /22) - i eto belaja. U ovom slucaju izgleda da su iz spiska ruta koje se oglasavaju BGP-om izbacili anycast opseg koje koristi njihov autoritativni DNS - kljucna komponenta svakog CDN-a, koja "peca" korisnikovu IP adresu i u zavisnosti od nje optimalno ga prosledjuje ka edge cache serveru najblizem korisniku, odakle mu servira sadrzaj. Dovoljno je da su izostavili tu jednu IP mrezu, jedan /24 i ceo CDN je neupotrebljiv ... a koliko sam citao na NANOG listi, izgleda da su sa liste skinuli nekih stotinak ruta ... :-))) Izmedju ostalog i neke svoje interne rute, pa im je pukao i njihov OSS/NMS sa koga nadziru mrezu. Glasine su bile da im je pukao i sistem za fizicki nadzor objekata, pa radnici (koji trenutno zbog kovida rade od kuce) nisu mogli da udju u svoje kancelarije i u datacentre, jer skeneri propusnica nisu radili. Kazu da se cekalo nekih par sati da se taj sistem deaktivira, kao i da mobilisu dovoljan broj inzenjera i objasne im sta tacno treba da urade da na licu mesta u datacentrima odrade rollback svih konfiguracija. Verovatno rucno, jer Ansible (ili sta vec) nije mogao da radi ... :-)))
Sve u svemu, licno mislim da je ovo sto se desilo odlicna stvar, jer ce - nadam se - iz ovoga industrija izvuci neke pouke!
[Ovu poruku je menjao B3R1 dana 05.10.2021. u 11:04 GMT+1]
[ B3R1 @ 05.10.2021. 10:07 ] @
Inace, ta glasina da radnici nisu mogli da pristupe kancelarijama me neodoljivo podseca na ovu legendarnu scenu ... koja, nazalost, postaje i nasa realnost:
- Hal, open the door!
- I'm sorry Dave ...
Naravoučenije: mrzim "pametne" kuće! MRZIM! NEĆU TO! Mislim, neću kuću koja se pravi pametnija od mene ... ne treba mi Hal, neka hvala!
[ B3R1 @ 05.10.2021. 11:12 ] @
Najjaci efekat je bila jedna objava na NANOG listi, gde se neki provajder u Americi zalio da su im se DHCP serveri "usijali" jer su korisnici masovno resetovali rutere po kucama ... sto je samo dokaz da mnogi danas stavljaju znak jednakosti izmedju Interneta i drustvenih mreza ... :-)
[ eeestablishment @ 05.10.2021. 17:44 ] @
Citat:
HasoMuka:
E što volim što je puko makar i na jedno popodne.
Kažu da je vlasnik facebook-a ostao bez 6 milijardi zelembaća.
Sto ja ne mogu da " puknem " ko on . . .
[ nenadovic85 @ 05.10.2021. 17:53 ] @
Ko nekad kad nestane struja, prvo frka, a onda se navikneš na sveću pa pričate malo oko sebe i ono pih dođe struja, i svi razočarani :)