| htmltotext Extract-tekst en enkele metainfo uit HTML, omgaan met misvormde pagina's zo goed mogelijk. |
Download nu |
htmltotext Rangschikking & Samenvatting
- Naam uitgever:
- Richard Boulton
- Uitgever website:
- http://lemurconsulting.com
htmltotext Tags
htmltotext Beschrijving
Extract-tekst en sommige metainfo uit HTML, omgaan met misvormde pagina's zo goed mogelijk. HTMLTOTEXT is een Python-pakket dat is geschreven voor een zoekmachine, om het toe te staan de tekstuele inhoud en metadata uit HTML-pagina's te extraheren. Het probeert het om te gaan met ongeldige markup en onjuist gespecificeerde tekensets en streeft naar HTML-tags (splitsing van woorden op tags op de juiste manier). Het vergemakkelijkt ook de inhoud van script-tags en stijl Tags.As, en tekst uit het lichaam van de pagina, het extraheert de paginatitel en de inhoud van de metabeschrijving en trefwoorden. Het parseert ook meta-robots-tags om te bepalen of de pagina moet worden geïndexeerd. De HTML-parser die door deze module wordt gebruikt, werd geëxtraheerd uit de Xapian Search Engine-bibliotheek (en specifiek, van het Omindex-indexeringshulpprogramma in die bibliotheek). Vereisten: · Python
htmltotext Gerelateerde software