Hallo, jemand hat einen Text verfasst, in dem Unternehmensgeheimnisse an eine Bude in China verraten werden. Anhand des Inhalts kann ich es auf ca. 5 Verdächtige einkreisen. Von allen liegen mir umfangreiche englische Texte vor, die sicher zuzuordnen sind. Kennt jemand eine Software, die über strukturelle Ähnlichkeiten eine Autorenidentifikation ermöglichen würde?
Paranoia 3.0 kann das glaub ich. ;) Ich denke im Nachhinein ist das etwas spät und sicher kriegt man's sowieso nicht raus. Angenommen ich will sowas machen, wäre ich so blöde den Kram so zu schreiben wie ich sonst auch immer schreibe? Nee, ganz sicher nicht! Eher schau ich mir an wie irgendein Kollege den ich nicht leiden kann so schreibt und versuche den Text auf ihn zu münzen. Baue seine Rechtschreib- und Grammatikfehler ein oder ich baue Wissentlich ürgentwälche fehler ein. Kannste knicken!
@Ben Das ist Quatsch. Gerade wenn Menschen versuchen sich zu verstellen, kann man das gut mit Statistik raus finden. Das funktioniert mit Zahlen ganz gut: http://de.wikipedia.org/wiki/Benfordsches_Gesetz und ich denke noch besser mit Wörtern. Jeder Mensch benutzt doch immer die gleichen Redewendungen in Schriftstücken, besonders wenn die Sprache nicht seine Muttersprache ist. @hehimself Eine Software kenne ich leider nicht. Aber ich bin mir ziemlich sicher, das du das mit Statistik raus finden kannst.
Hatte vor Jahren mal gelesen, dass man so was mit Packprogrammen machen kann. Je weniger (der gezippte) Text A anwächst, wenn man B anhängt, desto ähnlicher sind sich A und B.
Ne gute Detektei die nen Linguistiker an der Hand hat sollte das hinbekommen, allerdings bleibt immer eine gewisse Unsicherheit. Und Billig wird das sicher auch net. Im Zweifel alle mal damit konfrontieren "du warst das wir haben nen zeugen!" ich denke derjenige wird sich verraten. Das auf die weitergabe von Betriebsgeheimnissen die fristlose steht sollte klar sein...
Es würde ja auch nichts bringen mit irgendwelcher Software nun statistisch zu vermuten wer es war. Beweisbar wäre es nie. Auge zu ! und durch. danach die Sicherheit erhöhen. das ist alles was bleibt. Gruss k.
... schrieb: > und ich denke noch besser mit Wörtern. Jeder Mensch benutzt doch immer > > die gleichen Redewendungen in Schriftstücken Ja, allerdings gibt es da zwei Aspekte: Entweder, der Autor hat unbewusst auch in seinem disclosure so geschrieben, wie immer, dann reicht es, die Dinger selber zu lesen und hat en Burschen. Das ist immer noch sicherer, als jede Software. Nur Experten kommen da mit Grundlagenwissen noch drüber. Software wird nur genutzt, um überhaupt eine Handvoll Verdächtige zu finden. Oder, der Typ hat bewusst anders geschrieben. Dann versagt die Software total und man braucht einen Experten, der die absichtlich falsch formulierten TExte aus anderen Gründen vorliegen hat und sie mit Menschenverstand durchforstet. Man kann herausfinden, ob jemand absichtlich falsch geschrieben hat. Es gibt aber noch den dritten Fall: Jemand imitiert die Schreibe eines anderen. Das ist kein Problem, wenn man Texte kennt, die von Kollegen kommen. Ich z.B. hätte keine Schwierigkeiten, Wilhelm Ferkes zu imitieren.
> Gerade wenn Menschen versuchen sich zu verstellen, kann > man das gut mit Statistik raus finden. Du findest vielleicht raus, daß jemand versucht hat sich zu verstellen. Aber sicher nicht wer. Und ich würde so einen Text auch auf jeden Fall in der Muttersprache schreiben. Die Chinesen können das schon selbst übersetzen wenn ihnen wirklich was dran liegt. Im Grunde brauche ich noch nicht mal schreiben, betriebsinterne Dokumente auf denen das Objekt der Begierde dargestellt wird kopieren ist doch meistens viel einfacher... Ich frag mich nur wieso derjenige - wer immer es war - nicht schlau genug war, den Text zu verschlüsseln... Gibt doch sowas wie PGP.
Apropos Software. Ich kenne zwar keine, die das macht, aber ich erinnere mich an einen Artikel in der c't über unscharfe Suche von Wörtern in Texten. Es ging grob gesagt so, das man erst nach den Vorkommen der einzelnen Buchstaben sucht, dann nach den Vorkommen der Buchstabenpaare, dreier Gruppen, vierer Gruppen usw. Übertragen auf Wörter und Texte würde ich ein Programm schreiben, das nach einzelnen Wörtern sucht und dann nach Kombinationen aus zwei, drei, vier usw. Wörtern. Wenn man sich die Häufigkeiten der Übereinstimmungen in den Texten anschaut, wird man hoffentlich erkennen, welche Texte zusammen passen.
Genau nach dieser Methode scheint mir auch die automatische Übersetzung von Google zu arbeiten. Offensichtlich funzt das bei Japanisch besonders schlecht. Dieser Artikel war aber vor 2 Generationen in der c't ;-) Kann mich noch dunkel erinnern. Das als PHP-Modul würde mich auch interessieren.
Sowas schreibt man nicht in Interpretersprachen, derartige Suchen mit ihren Rekursionen sind einigermaßen rechenzeitaufwendig... vor allem bei längeren Texten. Edit: Frag doch mal beim GuttenPlag Wiki oder wie das hieß.
Kevin schrieb: > Stell hier einmal denn Text rein, dann könnte man mehr darüber sagen. Der ist gut . xD
Rolle schrieb: > Das auf die weitergabe von Betriebsgeheimnissen die fristlose steht > sollte klar sein... Was immer in der (ja wohl hoffentlich vorhandenen) Geheimhaltungsvereinbarung steht.
Es gibt zwar eine Reihe ML/NLP-Algorithmen, ob die Genauigkeit in diesem Fall dafür ausreicht ist allerdings eher unwahrscheinlich. Z.B. http://lotos.library.uu.nl/publish/articles/000139/bookpart.pdf http://www.universitypress.org.uk/journals/ami/ami-22.pdf http://www.socsci.uci.edu/~lpearl/papers/PearlSteyvers2012_AuthorshipDeception.pdf http://events.ccc.de/congress/2011/Fahrplan/events/4781.en.html
hehimself schrieb: > Kennt jemand eine Software, die > über strukturelle Ähnlichkeiten eine Autorenidentifikation ermöglichen > würde? Bei Jauch wird meist das simple Ausschlußprinip genutzt. Schau doch erst mal nach dem Dateidatum und der Anwesenheit.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.