[buug-l] w3m -dump - text reformatting

Sven Guckes guckes@math.fu-berlin.de
Mon, 17 Jun 2002 21:55:48 +0200


* Michael Wiedmann <mw@miwie.in-berlin.de> [2002-06-17 17:56]:
> Zum wandeln von HTML nach TXT benutze ich z.Z. noch
> w3m -dump --cols 72 IN > OUT
>
> das führt jedoch ggf. zu folgendem unerwünschten Effekt:
> fällt zufällig ein 'Wort' der Art '\sowasbloedesaberauch'
> auf die zu trennende Stelle wird der führende '\' vom Rest
> des Wortes getrennt, also: \ NL sowasbloedesaberauch.
> Hat dafür jemand eine Lösung?

da muss man wohl die definition von woertern umprogrammieren.
ein switch dafuer ist mit bei w3m aber nicht bekannt.

die definition von "buchstaben" fuer "woerter" kann man beim
vim einstellen - und mit dem buitlin text formatting kann
man dann den text auch erneut auf textwidth reformatieren.
das geht natuerlich auch in einer pipe.

eventuell kann man aber auch "fmt" oder "par" benutzen.
das kommt dann aber sicherlich ganz auf den text an.
tabellen werden natuerlich nicht so einfach erkannt.

und mit perl sollte es ein einzeiler sein.  oder so.  ;-)

Sven