Gedanken zu Wortwolken
Das liesse sich mit einem Tagcloud-widget realisieren, wie ich das auf die Schnelle überblicke. Allerdings müssten dafür ThemenTags angelegt werden. Wer das möchte, dem kann ich die nötigen Rechte dafür einräumen und der/die kann immer mal neue Tags hinzufügen und so mit der Zeit die Wolke vergrößern. Diese Wolke wäre dann aber wohl themenübergreifend, forenweit und nicht nur auf einen Strang bezogen.
"Eine Schlagwortwolke (auch Wortwolke, Schlagwortmatrix oder Stichwortwolke, selten Etikettenwolke; engl.: tag cloud, word cloud) ist eine Methode zur Informationsvisualisierung, bei der eine Liste aus Schlagwörtern, oft alphabetisch sortiert, flächig angezeigt wird, wobei einzelne unterschiedlich gewichtete Wörter größer oder auf andere Weise hervorgehoben dargestellt werden. Sie kann so zwei Ordnungsdimensionen (die alphabetische Sortierung und die Gewichtung) gleichzeitig darstellen und auf einen Blick erfassbar machen. ...
... Für die Erstellung von Schlagwortwolken verwendet man üblicherweise speziell dafür geeignete Software. So gibt es beispielsweise Software, welche aus Texten oder Webseiten die Schlagworte und deren Häufigkeit automatisch eruieren und die Schlagwortwolke generieren. Andere Programme wiederum benötigen eine Liste an Schlagworten und deren Gewicht, um die Schlagwortwolke generieren zu können. ..."
Schlagwortwolke
Wenn ich das richtig verstanden habe, dann gibt es Software, welche eine Wortwolken zu einem Text (z.B. Thread) automatisch generiert. Man kann zweit Aufgabenbereiche unterscheiden: a) die Häufigkeit gleicher Wörter bestimmen und diese nach Häufigkeit sortieren b) diese Wörter in einer Wortwolke graphisch darstellen (eine Grafik erzeugen), wobei häufig benutzte Wörter größer dargestellt werden.
Das muss Psw (wenn gewünscht) nur einmal einrichten und dann sollte das automatisch gehen. Zwar schätzte ich den Nutzen von Wortwolken-Grafiken für Menschen nicht so hoch ein aber es kann auch mal interessant sein, z.B. auch für Journalisten oder so, die einen Artikel über User schreiben wollen.
Denkbare Vorgehensweise:
- Eine geeignete Software für Wortwolken suchen, siehe auch
Vielleicht taugt word_cloud von Andreas Mueller was.
- Die Software nutzen, um für jeden Thread eine Wortwolken-Grafik zu generieren, diese abspeichern und bei der Thread-Darstellung einen Button einrichten, der die Wortwolken-Grafik anzeigt, wenn man draufklickt. Bei der Darstellung der Wortwolke solle das Datum ihrer Erzeugung angegeben und dazu abgespeichert werden.
- Vor der Wortwolken-Generierung muss der Input für den Wortwolken-Generator (die Software) ggf. aufbereitet werden, z.B. indem alle Beiträge eines Threads in eine (temporäre) Input-Textdatei geschrieben werden und dann noch unerwünschte Elemente (URLs, problematische Sonderzeichen, usw.) gelöscht werden.
- Eventuell sollte es zwei Wortwolken pro Thread geben: pur (alle Wörter) und bearbeitet (ohne häufige aber nichtssagende Wörter wie z.B. "und", "oder", usw). Für die bearbeite Wortwolke muss eine Liste mit Wörtern erstellt werden, welche aus der Input-Textdatei vor der Generierung der Wortwolke gelöscht werden. Eine pauschale Löschung aller kurzen Wörter ist ungünstig, weil es auch bedeutendere kurze Wörter gibt, wie z.B. gut, USA, ich, du, usw. (ja, auch usw. sollte in der Wortwolke auftauchen können, weil es ein Hinweis auf weitere Aspekte, einen größeren Themenbereich ist).
- Nun müssen die Wortwolken nur noch gelegentlich aktualisiert werden. Dazu braucht es nicht bei jedem neuen Beitrag eine Neuberechnung, weil die Wortwolke eines schon etwas längeren Threads sich durch ein paar neue Worte nicht so stark ändert. Denkbarer Aktualisierungsalgorithmus:
a) Eine schon länger nicht mehr aktualisierte Wortwolke wird beim Aufruf durch einen User vorher neu berechnet.
b) Automatische Aktualisierung der Wortwolken, indem z.B. täglich geprüft wird, welche Threads so viele neue Beiträge haben, dass ihre Wortwolke aktualisiert werden sollte. Denkbare Aktualisierungskriterien dazu:
- mindestens ein neuer Beitrag und Wortwolke älter als X Tage, wobei X auch von der Größe des Threads abhängen kann, also z.B. Ganzzahl X = "Anzahl der Beiträge" / 100 + 1.
- oder der Thread hat seit der letzten Wortwolken-Generierung Y Prozent neue Beiträge, mit z.B. Y = 2, 3, 5 oder so.
Man beachte irgendwelche Probleme durch Sonderzeichen, URLs, usw. und vermeide Sicherheitslücken durch
Code Injection. Neue Softwareversionen können ggf. Fehler/Sicherheitslücken enthalten. (alles imho)