Statistik und Autorschaft
Uwe Topper
Berlin · 2006
Rezension eines Kapitels in: Fomenko, Anatoly T. (2005):
History: Fiction or Science?
Chronology vol. 2 (Delamere, Paris etc.)

In diesem hochinteressanten und sehr eigenwilligen zweiten Band der neuen englischen Buchreihe von Fomenko befindet sich als Annex 3 (S. 425-444) ein Beitrag der Eltern von Anatoly T. Fomenko, Timofei G. und Valentina P. Fomenko, die von 1974 bis 1981 in Moskau ein Forschungsprojekt durchführten, das erstaunliche Ergebnisse gebracht hat, deren Anwendung für unsere chronologiekritische Analyse in hohem Grade nützlich sein könnte.
Nach einer gekürzten Veröffentlichung 1983 im Institut für sowjetische Geschichte an der Akademie der UdSSR wurde die Gesamtarbeit 1996 herausgegeben.

Es geht um die Erkennung der Autorschaft eines beliebigen Textes, der genügend Einzelelemente (Worte, Sätze) enthält, die seine individuellen Eigenschaften untersuchbar machen. Wenn von einem Autor ein größeres Werk oder mehrere Werke gleicher Gattung vorliegen, müßte es ein leichtes sein, die häufig wiederkehrenden Begriffe, Wendungen und Eigenarten im Stil statistisch zu erfassen und an Hand dieser Merkmale ein weiteres Werk desselben Autors, dessen Urheberschaft unbekannt ist oder absichtlich verschwiegen wird, zu erkennen. Die Nutzanwendung der Methode bezog sich zunächst nur auf bekannte russische Literatur der letzten drei Jahrhunderte, wurde dann aber auf das umstrittene Werk "Der Stille Don" ausgedehnt, wobei eine erstaunliche Lösung herauskam. Die Nutzanwendung für uns heute sehe ich darin, daß man mit Hilfe dieser Methode einen angeblich antiken Autor mit einem bekannten Renaissance-Schriftsteller identifizieren könnte, wenn das Verfahren eindeutig ist und eine entsprechend große auswertbare Datenmenge vorliegt.

Nun ist es ja ein bekannter Trick, daß ein Autor, der seine Person verstecken will, in einem Werk, das er zusätzlich zu seinen schon bekannten Schriften herausgeben möchte, seinen Stil verändert, gewisse bekannte Reizwörter vermeidet, eigentümliche Wendungen abändert usw. - das kann einen Neugierigen durchaus täuschen. Es gibt aber Sprachelemente, die nicht nur ein sehr intelligenter Pseudonymbenützer übersieht, sondern die auch fast unmöglich bewußt geändert werden können, nämlich kleine Wörtchen wie Präpositionen, Bindewörter, Umstandswörter usw. Auf dieser Erkenntnis, die sich aus den jahrelangen Untersuchungen des Ehepaars Fomenko herausfilterten, beruht die Methode, die die Fomenkos erfolgreich auf ein umstrittenes Literaturwerk, den "Stillen Don", anwandten. Als Autor dieses Werkes trat der bekannte Dichter Michail Scholochow auf (der 1965 den Literaturnobelpreis dafür erhielt), aber es wurde auch ebenso lange Zeit heftig angezweifelt, daß der Roman von Scholochow stamme. Aus der vorgelegten mathematischen Analyse der Werke von Scholochow im Vergleich zum Prosatext "Der stille Don" können Fomenkos mit Sicherheit schließen, daß dieser von einem anderen Dichter geschrieben sein muß.

Schauen wir uns die Methode an.
Als Vorläufer der Arbeitsweise nennen die beiden Autoren zunächst W. Fuchs (London 1955 und Stuttgart 1968), der Silbenzahl und Satzlänge als eigentümliche Werte eines Textes in Betracht zog. Demgegenüber hatte schon A. A. Markov 1916 festgestellt, daß natürlicherweise viele der untersuchten Worthäufigkeiten und Verwendungsarten "sich um einen gemeinsamen Wert herum gruppieren müssen aus sprachimmanenten Regeln", was die zweifelsfreie Zuordnung der Autorschaft erschwert.

Fomenkos fordern daher, daß als unzweifelhafte Eigenschaften einerseits solche zählen müssen, die einen Autor oder einer kleinen Gruppe gleicher Autoren gemeinsam sind, und daß sie andererseits bei anderen Autoren nicht in gleicher Weise wiederkehren dürfen. Als unbrauchbar scheiden sofort alle jene Wörter und Satzbildungen aus, die ein Dichter bewußt wählt, um seinem Stil eine besondere Note zu verleihen. Nur unbewußte Charakteristika kommen für die Beurteilung in Betracht. Für die Untersuchung müssen zwecks Abgrenzung außerdem eine große Anzahl von Werken verschiedener Autoren oder Gruppen zur Verfügung stehen.

Eine völlige Auswertung aller literarischen Texte, die in Frage kommen, war seinerzeit eine arbeitsmäßige Unmöglichkeit, deshalb mußte ferner noch eine statistisch verwertbare Methode der Beispiel-Auswahl angewandt werden, die möglichst gleichbleibend durchführbar sei. Mit den damals noch nicht so weit entwickelten technischen Fähigkeiten computergestützter Analysen ist diese Vorsichtsmaßnahme verständlich, dürfte aber heute eine weit geringere Rolle spielen. Natürlich stehen einem Autor heute, wenn er sich "verstecken" will, dieselben Computerdienste zur Verfügung, weshalb sich wie immer mit dem technischen Fortschritt auch die Notausgänge und Schlupflöcher in gleichem Maße vervielfältigen, wie man glaubt, sie einschränken zu können. Da ich nur im Sinn habe, die Methode für unsere geschichtliche Analyse, besonders bezüglich der Renaissance-Autoren, anwendbar zu machen, ist diese Überlegung für uns allerdings belanglos.

Die Fomenkos wandten ihre Untersuchung zwecks Nutzbarmachung der Methode für einen erstaunlich weiten Bereich von russischen Literaturwerken an, beginnend im 18. Jh. mit sechs Autoren (von Tschulkow bis Krylow), im 19. Jh. mit neun Dichtern von Gogol bis Tolstoi und im 20. Jh. mit weiteren acht von Gorky bis Scholochow. Eine der wichtigen Erkenntnisse war, daß ab einer ausreichenden Menge von Wörtern, hier 16.000, eine signifikante Häufigkeit ihrer Verwendung als Kurve erkennbar gemacht werden konnte. Aus einer Liste von neun untersuchten Eigenheiten ergab sich schließlich, daß nur eine Gruppe tatsächlich als Invariante nutzbar zu machen war, während die anderen höchstens in ihrer Kombination gewisse Aussagen zuließen. Diese Invariante betrifft die "kleinen" Wörtchen, besonders die Häufigkeit der im Russischen sehr wichtigen "in" und "nicht".

Tatsächlich zeigen die beiden Autoren mit mathematischer Sicherheit, daß Scholochow nicht den "Stillen Don" geschrieben haben kann, und auch, daß es möglicherweise sein Zeitgenosse Fjodor D. Krjukow gewesen sein könnte, der damals in Rußland noch weitgehend unbekannt war und von dem nicht ausreichend Textmaterial zwecks Analyse zur Verfügung stand. Sie stützen damit den seit Solschenizyns Veröffentlichung eines anonymen Werkes 1974 in Paris ausgesprochenen Verdacht, daß Krjukow den „Stillen Don“ geschrieben habe, was weiter durch ein gefilmtes Interview mit Scholochow 1975 erhärtet wurde (erläutert in Corino (Hrg.) „Gefälscht!“ (Eichborn 1990), in einem Beitrag von Christa Grewe-Volpp).

Wer sich für die mathematische Seite der Untersuchung interessiert, sollte diesen Beitrag in Fomenkos Buch unbedingt lesen. Die beigegebenen Tafeln und Kurven sprechen für sich. Ich möchte nämlich anregen, daß sich im Laufe der Zeit - mit dem Vorhandensein einer großen Zahl elektronisch erfaßter und zugänglich gemachter Texte der Renaissance - junge technisch begabte Geschichtsanalytiker in dieser Weise an der Arbeit beteiligen und so die Verbindungslinien zwischen den "Herausgebern" der antiken Werke und den tatsächlichen Autoren aufzeigen.

Unsere bisherige Betrachtungsweise der Renaissance-Werke war weitgehend künstlerisch bestimmt, vertraute also auf ein gewisses Empfinden für Stil und geistige Voraussetzung einer Person, was nur ansatzweise Ergebnisse erzielen konnte, während eine mathematisch-naturwissenschaftliche Untersuchung eine weit größere Zahl von Menschen von der Richtigkeit unserer Vermutungen überzeugen könnte.

Nachtrag (Februar 2007)

Ein anderer Beitrag in Corino (Hrg.) „Gefälscht!“ veranlaßt mich zu einem Nachtrag: Peter von Moos schreibt über Heloise und Abaelard, daß diese acht Briefe, die man bisher meist für einen echten Briefwechsel zwischen den beiden Personen gehalten hatte, nunmehr durch „computergestützte Stiluntersuchungen“ (S. 155) einem einzigen Verfasser zugeschrieben werden müssen.  Das hätte man zwar mit etwas Einfühlung auch schon früher herausfinden können, neu an dieser Aussage ist eben die computertechnische Auswertung des Stils der Briefe, und die ist damit für die Fachleute entscheidend geworden.

Auch einer der bestunterrichteten amerikanischen Historiker, John Benton, hat eine „computerisierte Wortfrequenzanalyse“ (S. 156) der Briefe durchgeführt und dasselbe Ergebnis erzielt. Es wäre nun eine wünschenswerte Weiterarbeit, sagt Moos, „eine große Zahl stilistischer Merkmale (nicht nur Satzschlüsse und Wortfrequenzen) aus einem repräsentativen Text-„sample“ des 12. und 13. Jahrhunderts in einen Zentralcomputer“ (S. 157) einzuspeisen und dadurch die genaue chronologische Einordnung dieser berühmten Fälschung herauszubekommen.

Inwieweit diese hoffnungsvollen Ansätze von 1987 inzwischen ausgeführt wurden, entzieht sich meiner Kenntnis. Vermutlich ist nicht konsequent in dieser Richtung weitergeforscht worden, sonst wären in den vergangenen 20 Jahren sehr viele Fälschungen erkannt worden und die Lexika würden inzwischen ganz andere Aussagen enthalten. Scheut man sich oder hat diese technische Methode zu große Schwächen, um weiträumig eingesetzt zu werden?


Ich möchte ein Kommentar zu diesem Text schreiben:

murex