FRA ljuger om dokumentklassifikation? Lögnare in Action?
Gnällkärringen har ett litet hum om dokumentklassificering sedan studietiden och tänkte dela med sig av detta här.
För att man på ett effektivt sätt ska kunna söka igenom en stor dokumentsamling och hämta data ur den (i den nya lagen blir sms och e-post ´dokumenten´) måste man använda sig av klassificeringsalgoritmer och sannolikhetslära för att det ska fungera bra. Kortfattat, för att man ska kunna veta vad som är de "Elaka dokumenten" måste man ha ett lager av "Goda dokument" på lager att jämföra med.
Numera är principen mest använd när man samlar in och klassificerar ett dokument som spam (i de flesta moderna spam-filter) metoden som sannolikt används/kommer att användas kallas Bayesian [spam] filtering. I detta sammanhang är det bara byta ut ordet spam mot vad nu FRA väljer att söka efter (terror, samhällsförstörande verksamhet, miljöförstöring mm.)
Från wikipedia (faktakollat, jag känner igen det sedan plugget) fungerar Bayes Teorem kortfattat så här:
Bayes' theorem, in the context of spam, says that the probability that an email is spam, given that it has certain words in it, is equal to the probability of finding those certain words in spam email, times the probability that any email is spam, divided by the probability of finding those words in any email:
Löst översatt till svenska och med spam bytt mot t.ex. terror blir det så här:
Bayes teorem, i sammanhanget terror, säger att sannolikheten att ett sms/e-mail är skrivet av en terrorist, baserat på en viss uppsättning ord, är likställigt sannolikheten att finna dessa ord i andra terroristers sms/e-mail, gånger sannolikheten att varje sms/e-mail är skrivet av en terrorist, delat med sannolikheten att finna dessa ord i vilket vanligt sms/e-mail som helst.
Att moster Greta alltså skriver ordet "terror" i sitt mail som för övrigt handlar om gröt gör det alltså inte troligt att det klassas som skrivet av en terrorist, eftersom personer som moster Greta och hennes pensionärsbuddies sällan eller aldrig tidigare använt sig av ordet terror i sin kommunikation, utan mest tjattrat om gröt, fiskpudding, sjukdomar, ålderdom osv. Att hon nu gjorde det en enstaka gång ställs i relation till att nästan ingen av hennes tidigare buddies konversation använt detta ord historiskt, tillsammans med de andra orden i hennes buddies konversation, fiskpudding, ålderdom osv.
Det blir alltid bättre träffsäkerhet om man kan använda sig av en större mängd ord i en uppsättning av ord.
Om däremot ordet Terror hade förekommit tillsammans med: Allah akbar, israel, bomb, granat. osv. hade det varit större risk att det skrevs av en terrorist eftersom terrorister historiskt (nu generaliserar jag) sett använt sig av dessa ord i kombinationer.
Man måste alltså lära sig genom att klassificera dokument, både goda och onda.
Därför fungerar denna metod bättre ju fler e-mail/sms som läses och klassificeras som goda eller onda. Ju mer brev av Moster Greta som läses, desto större chans att hitta terroristens mail och vice versa. Det är alltså ett beroendeförhållande.
Förenklat kan man säga att man för att kunna avläsa vilka sms eller e-mail som skrivits av en terrorist, måste lära sig vilka dokument som är farliga genom att samla in och lagra de dokument som skrivs av de snälla. Dvs. ju större mängd vanliga dokument att jämföra med, desto större chans att man prickar rätt när man försöker att hitta ett dokument skrivet av en skummis.
Detta innebär så fall att FRA ljuger svenska folket RAKT UPP I ANSIKTET" era snälla mail kan inte slängas, de måste sparas av FRA för att de elaka mailen ska kunna sållas ut.
(Ähh jag svamlar lite, ALLA mail måste inte sparas, dock måste man ha en så kallad korpus och ju större korpus desto bättre resultat. Korpus är en samling av dokument som insamlingen kan lära sig utifrån. Antingen tar man mail från "verkliga livet" eller så skriver man "riktiga mail" på låtsas. Vilket tror ni är lättast?)
(Tillägg 2008-07-01):
Citat ur propositionen "En anpasad försvarunderättelse"
"Det kan således inte komma i fråga att Försvarets radioanstalt självt skall få bestämma sökbegreppen." LÖGN! Vem ska då göra det, ska folk som inte fattar hur det går till sitta och bestämma sökbegreppen?
Citat från FRA:s sida och klargörande:
"Spaningen kommer, liksom hittills, att gå till så att man i realtid filtrerar information med hjälp av sökbegrepp. Sökbegreppen är komplexa och kan bestå av nummer, namn, sammansättningar av ord och olika signaltekniska egenskaper. Man kan beskriva sökbegreppen som fiskekrokar som sänks ned i en flod. En del fiskar fastnar, men de allra flesta är otillåten fångst och fastnar inte utan försvinner för alltid med strömmen."
Deras metodreovisning är faktiskt rätt löjligt, rent av flåshurtig. Jag vill inte ha en fiskemetafor, jag vill veta exakta metoden, samt förstås även att någon granskar den exakta metodens utförande.
(Tillägg:2008-07-01)
Citat ur propositionen "En anpasad försvarunderättelse"
"För att undvika att irrelevant information inhämtas måste sökbegrepp med hög precision användas. Den höga precisionen i sökbegreppen medför i sin tur att flera enskilda sökparametrar måste användas än om ett färre antal bredare och mer diffusa sökbegrepp utnyttjades." Som jag misstänkte! Glad att det redovisas nu dock lite mer om hur det går till.
Det finns förstås många olika metoder att samla in och klassificera dokument, det som måste ut i detta sammanhang är att FRA detaljerad redogör för vilken metod de kommer att använda sig av. Gör de inte detta har vi i sverige hamnat precis dit George Orwell trodde att vi skulle hamna 1984...ett sverige som kommer bli rätt trängt att bo i.
Läs mer:
Korpus Lingvistik
Text klustering