www.mikrocontroller.net

Forum: PC Hard- und Software Autor identfiziern


Important announcement: there is an English version of this forum on EmbDev.net. Posts you create there will be displayed on Mikrocontroller.net and EmbDev.net.
Autor: hehimself (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Hallo,

jemand hat einen Text verfasst, in dem Unternehmensgeheimnisse an eine 
Bude in China verraten werden. Anhand des Inhalts kann ich es auf ca. 5 
Verdächtige einkreisen. Von allen liegen mir umfangreiche englische 
Texte vor, die sicher zuzuordnen sind. Kennt jemand eine Software, die 
über strukturelle Ähnlichkeiten eine Autorenidentifikation ermöglichen 
würde?

Autor: Ben ___ (burning_silicon)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Paranoia 3.0 kann das glaub ich. ;)

Ich denke im Nachhinein ist das etwas spät und sicher kriegt man's 
sowieso nicht raus. Angenommen ich will sowas machen, wäre ich so blöde 
den Kram so zu schreiben wie ich sonst auch immer schreibe? Nee, ganz 
sicher nicht! Eher schau ich mir an wie irgendein Kollege den ich nicht 
leiden kann so schreibt und versuche den Text auf ihn zu münzen. Baue 
seine Rechtschreib- und Grammatikfehler ein oder ich baue Wissentlich 
ürgentwälche fehler ein. Kannste knicken!

Autor: ... (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
@Ben
Das ist Quatsch. Gerade wenn Menschen versuchen sich zu verstellen, kann 
man das gut mit Statistik raus finden. Das funktioniert mit Zahlen ganz 
gut:

http://de.wikipedia.org/wiki/Benfordsches_Gesetz

und ich denke noch besser mit Wörtern. Jeder Mensch benutzt doch immer 
die gleichen Redewendungen in Schriftstücken, besonders wenn die Sprache 
nicht seine Muttersprache ist.

@hehimself
Eine Software kenne ich leider nicht. Aber ich bin mir ziemlich sicher, 
das du das mit Statistik raus finden kannst.

Autor: mdch (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Hatte vor Jahren mal gelesen, dass man so was mit Packprogrammen machen 
kann.

Je weniger (der gezippte) Text A anwächst, wenn man B anhängt, desto 
ähnlicher sind sich A und B.

Autor: Rolle (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Ne gute Detektei die nen Linguistiker an der Hand hat sollte das 
hinbekommen, allerdings bleibt immer eine gewisse Unsicherheit. Und 
Billig wird das sicher auch net.
Im Zweifel alle mal damit konfrontieren "du warst das wir haben nen 
zeugen!" ich denke derjenige wird sich verraten.
Das auf die weitergabe von Betriebsgeheimnissen die fristlose steht 
sollte klar sein...

Autor: Klaus De lisson (kolisson)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Es würde ja auch nichts bringen mit irgendwelcher Software nun
statistisch zu vermuten wer es war. Beweisbar wäre es nie.
Auge zu ! und durch.
danach die Sicherheit erhöhen.
das ist alles was bleibt.

Gruss k.

Autor: Thomas (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
... schrieb:
> und ich denke noch besser mit Wörtern. Jeder Mensch benutzt doch immer
>
> die gleichen Redewendungen in Schriftstücken

Ja, allerdings gibt es da zwei Aspekte:

Entweder, der Autor hat unbewusst auch in seinem disclosure so 
geschrieben, wie immer, dann reicht es, die Dinger selber zu lesen und 
hat en Burschen. Das ist immer noch sicherer, als jede Software. Nur 
Experten kommen da mit Grundlagenwissen noch drüber. Software wird nur 
genutzt, um überhaupt eine Handvoll Verdächtige zu finden.

Oder, der Typ hat bewusst anders geschrieben. Dann versagt die Software 
total und man braucht einen Experten, der die absichtlich falsch 
formulierten TExte aus anderen Gründen vorliegen hat und sie mit 
Menschenverstand durchforstet. Man kann herausfinden, ob jemand 
absichtlich falsch geschrieben hat.

Es gibt aber noch den dritten Fall: Jemand imitiert die Schreibe eines 
anderen. Das ist kein Problem, wenn man Texte kennt, die von Kollegen 
kommen. Ich z.B. hätte keine Schwierigkeiten, Wilhelm Ferkes zu 
imitieren.

Autor: Ben ___ (burning_silicon)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
> Gerade wenn Menschen versuchen sich zu verstellen, kann
> man das gut mit Statistik raus finden.
Du findest vielleicht raus, daß jemand versucht hat sich zu verstellen. 
Aber sicher nicht wer.

Und ich würde so einen Text auch auf jeden Fall in der Muttersprache 
schreiben. Die Chinesen können das schon selbst übersetzen wenn ihnen 
wirklich was dran liegt. Im Grunde brauche ich noch nicht mal schreiben, 
betriebsinterne Dokumente auf denen das Objekt der Begierde dargestellt 
wird kopieren ist doch meistens viel einfacher...

Ich frag mich nur wieso derjenige - wer immer es war - nicht schlau 
genug war, den Text zu verschlüsseln... Gibt doch sowas wie PGP.

Autor: ... (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Apropos Software. Ich kenne zwar keine, die das macht, aber ich erinnere 
mich an einen Artikel in der c't über unscharfe Suche von Wörtern in 
Texten. Es ging grob gesagt so, das man erst nach den Vorkommen der 
einzelnen Buchstaben sucht, dann nach den Vorkommen der Buchstabenpaare, 
dreier Gruppen, vierer Gruppen usw.
Übertragen auf Wörter und Texte würde ich ein Programm schreiben, das 
nach einzelnen Wörtern sucht und dann nach Kombinationen aus zwei, drei, 
vier usw. Wörtern. Wenn man sich die Häufigkeiten der Übereinstimmungen 
in den Texten anschaut, wird man hoffentlich erkennen, welche Texte 
zusammen passen.

Autor: Abdul K. (ehydra) Benutzerseite
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Genau nach dieser Methode scheint mir auch die automatische Übersetzung 
von Google zu arbeiten. Offensichtlich funzt das bei Japanisch besonders 
schlecht.
Dieser Artikel war aber vor 2 Generationen in der c't ;-) Kann mich noch 
dunkel erinnern. Das als PHP-Modul würde mich auch interessieren.

Autor: Ben ___ (burning_silicon)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Sowas schreibt man nicht in Interpretersprachen, derartige Suchen mit 
ihren Rekursionen sind einigermaßen rechenzeitaufwendig... vor allem bei 
längeren Texten.

Edit: Frag doch mal beim GuttenPlag Wiki oder wie das hieß.

Autor: pegel (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Es war der Gärtner - ähh - der 400€ Jobber.

Autor: Kevin (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Stell hier einmal denn Text rein, dann könnte man mehr darüber sagen.

Autor: Ansgar k. (malefiz)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Kevin schrieb:
> Stell hier einmal denn Text rein, dann könnte man mehr darüber sagen.

Der ist gut . xD

Autor: Mazze (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Wenn demnächst einer der 5 mit 'nem Porsche vorfährt, weißt du, wer es 
war.

Autor: asdf (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert

Autor: Rolf Magnus (rmagnus)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
Rolle schrieb:
> Das auf die weitergabe von Betriebsgeheimnissen die fristlose steht
> sollte klar sein...

Was immer in der  (ja wohl hoffentlich vorhandenen) 
Geheimhaltungsvereinbarung steht.

Autor: j. c. (jesuschristus)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert

Autor: Arc Net (arc)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert

Autor: WWM (Gast)
Datum:

Diesen Beitrag bewerten:
lesenswert
nicht lesenswert
hehimself schrieb:
> Kennt jemand eine Software, die
> über strukturelle Ähnlichkeiten eine Autorenidentifikation ermöglichen
> würde?

Bei Jauch wird meist das simple Ausschlußprinip genutzt. Schau doch erst 
mal nach dem Dateidatum und der Anwesenheit.

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel




Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder GIF-Format hochladen.
Siehe Bildformate
Hinweis: der ursprüngliche Beitrag ist mehr als 6 Monate alt.
Bitte hier nur auf die ursprüngliche Frage antworten,
für neue Fragen einen neuen Beitrag erstellen.

Mit dem Abschicken erkennst du die Nutzungsbedingungen an.

webmaster@mikrocontroller.netImpressumNutzungsbedingungenWerbung auf Mikrocontroller.net