| htmltotext Extract-tekst en sommige metainfo uit HTML, omgaan met misvormde pagina's zo goed mogelijk |
Download nu |
htmltotext Rangschikking & Samenvatting
- Naam uitgever:
- Richard Boulton
- Uitgever website:
- http://pypi.python.org/pypi/htmltotext/
- Besturingssystemen:
- Mac OS X
htmltotext Tags
htmltotext Beschrijving
Extract-tekst en sommige metainfo uit HTML, omgaan met misvormde pagina's zo goed mogelijk HTMLTOTEXT is geschreven voor een zoekmachine, zodat deze eenvoudig de metagegevens en tekstuele inhoud van HTML-pagina's kan extraheren. HTMLTOTEXT probeert het hoofd te bieden aan ongeldige markup en onjuist gespecificeerde tekensets, en streeft naar HTML-tags (splitsing van woorden bij tags op de juiste manier) .Htmltotext weggooit ook de inhoud van script-tags en stijllabels. Evenals tekst uit het lichaam van de pagina, haalt het de paginatitel uit en de inhoud van de meta-beschrijving en trefwoorden van trefwoorden. Htmltotext parseert ook meta-robots-tags om te bepalen of de pagina moet worden geïndexeerd. De HTML-parser die door deze module wordt gebruikt, werd geëxtraheerd uit de XAPIAN-zoekmachinebibliotheek (en specifiek, van het omindex-indexeringshulpprogramma in die bibliotheek).
htmltotext Gerelateerde software