htmltotext

Extract-tekst en sommige metainfo uit HTML, omgaan met misvormde pagina's zo goed mogelijk
Download nu

htmltotext Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • GPL
  • Prijs:
  • FREE
  • Naam uitgever:
  • Richard Boulton
  • Uitgever website:
  • http://pypi.python.org/pypi/htmltotext/
  • Besturingssystemen:
  • Mac OS X
  • Bestandsgrootte:
  • 26 KB

htmltotext Tags


htmltotext Beschrijving

Extract-tekst en sommige metainfo uit HTML, omgaan met misvormde pagina's zo goed mogelijk HTMLTOTEXT is geschreven voor een zoekmachine, zodat deze eenvoudig de metagegevens en tekstuele inhoud van HTML-pagina's kan extraheren. HTMLTOTEXT probeert het hoofd te bieden aan ongeldige markup en onjuist gespecificeerde tekensets, en streeft naar HTML-tags (splitsing van woorden bij tags op de juiste manier) .Htmltotext weggooit ook de inhoud van script-tags en stijllabels. Evenals tekst uit het lichaam van de pagina, haalt het de paginatitel uit en de inhoud van de meta-beschrijving en trefwoorden van trefwoorden. Htmltotext parseert ook meta-robots-tags om te bepalen of de pagina moet worden geïndexeerd. De HTML-parser die door deze module wordt gebruikt, werd geëxtraheerd uit de XAPIAN-zoekmachinebibliotheek (en specifiek, van het omindex-indexeringshulpprogramma in die bibliotheek).


htmltotext Gerelateerde software

Qpy

Een eenvoudig te gebruiken en gratis tool voor het genereren van HTML ...

194 21 KB

Downloaden

Haus

Een losjes toegetreden WSGI-Centric Web Programming Framework ...

175 17 KB

Downloaden