htmltotext

Extract-tekst en enkele metainfo uit HTML, omgaan met misvormde pagina's zo goed mogelijk.
Download nu

htmltotext Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • GPL
  • Prijs:
  • FREE
  • Naam uitgever:
  • Richard Boulton
  • Uitgever website:
  • http://lemurconsulting.com

htmltotext Tags


htmltotext Beschrijving

Extract-tekst en sommige metainfo uit HTML, omgaan met misvormde pagina's zo goed mogelijk. HTMLTOTEXT is een Python-pakket dat is geschreven voor een zoekmachine, om het toe te staan de tekstuele inhoud en metadata uit HTML-pagina's te extraheren. Het probeert het om te gaan met ongeldige markup en onjuist gespecificeerde tekensets en streeft naar HTML-tags (splitsing van woorden op tags op de juiste manier). Het vergemakkelijkt ook de inhoud van script-tags en stijl Tags.As, en tekst uit het lichaam van de pagina, het extraheert de paginatitel en de inhoud van de metabeschrijving en trefwoorden. Het parseert ook meta-robots-tags om te bepalen of de pagina moet worden geïndexeerd. De HTML-parser die door deze module wordt gebruikt, werd geëxtraheerd uit de Xapian Search Engine-bibliotheek (en specifiek, van het Omindex-indexeringshulpprogramma in die bibliotheek). Vereisten: · Python


htmltotext Gerelateerde software

Openphyra

OpenPhyra is een modulair en uitbreidbaar raamwerk voor het beantwoorden van open domeinvraag (QA). ...

483

Downloaden

Jabref

Jabref is een grafische Java-applicatie voor het beheren van BIBTEX (. BIB) -databases. ...

325

Downloaden