OpenCorpora-tools

OpenCorpora.org Python-interface
Download nu

OpenCorpora-tools Rangschikking & Samenvatting

Advertentie

  • Rating:
  • Vergunning:
  • MIT/X Consortium Lic...
  • Prijs:
  • FREE
  • Naam uitgever:
  • Mikhail Korobov
  • Uitgever website:
  • http://bitbucket.org/kmike/

OpenCorpora-tools Tags


OpenCorpora-tools Beschrijving

OpenCorpora-tools is een module die Python-interface biedt op http://optencorpors.org/installatiePip Installeer opencorporporporporporporporporporporporporporporporporporporporporporporporpions / 2.7 Dan ARGPARSE EN BESTELLINGSDICT-pakketten zijn verplicht: PIP-INSTALLATIE ARGPARSPIP INSTALLES BESTELLINGDICTUSEAGEOVERTICHTING CORPOROPERSCORTIONE S-tools werkt met XML van HTTP : //Opencorpors.org/. Je kunt de XML handmatig downloaden en uitpakken (van 'Downloads'-pagina) of gewoon de meegeleverde opdrachtregel gebruiken Util: OpenCorporsa DownloadRun RODECORTA Download --Help voor meer opties. Importeer opencorporsa >>> Corpus = opencorpora.corpora ('annot.opcorpora.xml') Krijg een lijst met documenten: >>> Catalog = Corpus.catalog () >>> DOC_ID, DOC_TITLE = Catalogus >>> Print doc_id1610 >>> doc_title24105 « » Work met een document: >>> doc = corpus >>> print doc.title () 24105 « » >> > DOC.WORDS () >>> DOC.SENTS () : « » >>> print doc.paras () « » · , «» .corpora, document, alinea en zinklassen ondersteunen de volgende methoden (wanneer het logisch is, bijv Zin heeft geen paragrafen): - Woorden () - Retourneert een lijst met woorden en andere tokens; - senten () - retourneert een lijst met zinsinstanties; - Paras () - retourneert een lijst met paragraaf-instanties; - Documenten () - Retourneert een lijst met documentinstanties (dit is Memory Hog!); - Tagged_words () - Retourneert een lijst met (str, str); - Tagged_Sents () - Retourneert een lijst met (lijst van (str, str)); Tagged_Paras () - Retourneert een lijst met (lijst van (lijst van (str, str)))); - iterwords (), iters (), iteraras (), iterdocumenten (), iter_tagged_words, iter_tagged_pents, iter_tagged_paras - retourneer iterators over woorden, Zinnen, paragrafen of documenten; u kunt ook over corpora, document, alinea en zin (dit levert documenten, paragrafen, zinnen en woorden op), bijvoorbeeld: >>> verzonden = doc.sents () >>> voor Word In Verzonden: ... Print Word ... «» The API is gemodelleerd naar NLTK's CorpusReader Api.it het niet precies hetzelfde, maar is erg vergelijkbaar. B.v. Sents () in OpenCorpora-tools Retourneert een lijst met zin-instanties en senten () in NLTK Retourneert een lijst met lijst met strijkers, maar zin-gevallen kwakzakken als een lijst met strijkers (het kan worden geïndexeerd, geopenbaard, enz.) Dus opencorports. Corpora API is misschien te zien als een superset van NLTK CorpusReader API.PRODUCT's startpagina


OpenCorpora-tools Gerelateerde software

traag

Een Python-module voor Toepassingen voor super eenvoudige systeemvak ...

76

Downloaden

Bozerib

Een Python-module met een paar functies om de * bloedalcoholgehalte * van mensen te berekenen ...

63

Downloaden