Jericho html parser

Gratis en Open Source HTML PARDER voor uw Mac
Download nu

Jericho html parser Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • GPL
  • Prijs:
  • FREE
  • Naam uitgever:
  • M Jericho
  • Uitgever website:
  • http://jericho.htmlparser.net/doc/index.html
  • Besturingssystemen:
  • Mac OS X
  • Bestandsgrootte:
  • 1.7 MB

Jericho html parser Tags


Jericho html parser Beschrijving

Gratis en open source html parser voor je Mac JERICHO HTML PARDER is een open source Java-bibliotheek die analyse en manipulatie van delen van een HTML-document, inclusief tags van de server-side-side, waardoor het woord is, terwijl u het woordelijke, ongeldige of niet-herkende HTML reproduceert. JERICHO HTML PARDER biedt ook html-formuliermanipulatiefuncties op hoog niveau. Hier zijn enkele belangrijke kenmerken van "Jericho HTML PARDER": · · De aanwezigheid van slecht geformatteerde HTML interfereert niet met het parseren van de rest van het document, waardoor de bibliotheek ideaal is voor gebruik met "Real-World" HTML die andere parsers verslikt. · · PHP-, JSP-, ASP-, PSP- en MASON SERVER-tags worden expliciet herkend door de parser. Dit betekent dat normale HTML nog steeds goed is geparseerd, zelfs als er serverlabels in hen zijn, die gebruikelijk zijn bijvoorbeeld bij het dynamisch instellen van elementattributen. · · Het is noch een evenement of boomgebaseerde Parser, maar gebruikt eerder een combinatie van eenvoudige tekstzoekopdracht, efficiënte tagherkenning en een tag-positie-cache. De tekst van het hele brondocument wordt eerst in het geheugen geladen en vervolgens alleen de relevante segmenten doorzochten naar de relevante tekens van elke zoekbewerking. · · In vergelijking met een op boom gebaseerde parser zoals DOM, kunnen de geheugen- en hulpbronnenvereisten veel beter zijn als slechts kleine delen van het document moeten worden geparseerd of gewijzigd. Onjuiste of slecht geformatteerde HTML kan eenvoudig worden genegeerd, in tegenstelling tot opgenomen parers die elk knooppunt in het document van boven naar beneden moeten identificeren. · · Vergeleken met een op gebeurtenis gebaseerde parser zoals SAX, is de interface op een veel hoger niveau en intuïtievere, en een boomrepresentatie van de documentelementhiërarchie wordt eenvoudig eenvoudig gemaakt. · · De begin- en eindposities in het brondocument van alle geparde segmenten zijn toegankelijk, waardoor alleen geselecteerde segmenten van het document mogelijk is zonder het volledige document uit een boom te reconstrueren. · · Het rij- en kolomnummer van elke positie in het brondocument zijn gemakkelijk toegankelijk. · · Geeft een eenvoudige maar uitgebreide interface voor de analyse en manipulatie van HTML-formulierregelaars, inclusief de extractie en populatie van initiële waarden en conversie naar alleen-lezen of gegevensweergavemodi. Analyse van de formulierregelaars maakt ook mogelijk dat gegevens die worden ontvangen van het formulier dat moet worden opgeslagen en gepresenteerd op een passende manier. · · Types voor aangepaste tag kunnen eenvoudig worden gedefinieerd en geregistreerd voor erkenning door de parser. · · In de ingebouwde functionaliteit om alle tekst uit HTML-markering te extraheren, geschikt voor het invoeren in een tekstzoekmachine zoals Apache Lucene. · · Ingebouwde functionaliteit om HTML-markering met eenvoudige tekstopmaak weer te geven. · · In de ingebouwde functionaliteit om HTML-broncode te formatteren die elementen in streepje in de diepte in de hiërarchie van het documentelement in het document element. · · Ingebouwde functionaliteit om de HTML-broncode te comprimeren door alle onnodige witte ruimte te verwijderen.


Jericho html parser Gerelateerde software

Rage Webdesign

Webpagina's maken, test ze op alle browsers en publiceer ze met deze verbazingwekkende software ...

608 17.4 MB

Downloaden