Basics
Een overzicht van enkele basisconcepten en basis-objecten:
- Een overzicht enkele van de basisconcepten:
interactief en shell script, help, syntax, modules en packages importeren - Een overzicht van de basis-objecten en de belangrijkste methods:
- Basis objecten en eigenschappen
- Integer
- Float
- Long
- Complex getal
- String
- Unicode
- Boolean
- NoneType
- Tuple
- List
- Dictionary
- Set
- File
- Iterable objects
- Mutable en immutable objects
Uitbreiding
- Links naar interessante Python-modules:
- Standaard functies
- Python scripts aanroepen via de shell, communicatie met de shell.
- Interactie met het operating system
- Bewerkingen met paden
- Regular expressions
- Strings en templates
- System calls
- Verwerking van commandline opties
- Tijdsfuncties
- Bewerkingen met kommagetallen
- Randomiseren en kansverdelingen
- Comma separated value files
- Tekstcoderingen
- Webpagina's ophalen
- Omzetting van HTML entities naar strings
- Servers en clients schrijven
- XML files verwerken
- Modules testen
- CGI scripts schrijven
- Classes definiëren, basic customization of classes
- Afhandelen van Errors: Errors and exceptions
- Een mogelijke structuur van een Python module: my_module.py
- Een overzicht van enkele advanced topics a.d.h.v. voorbeelden: advanced.py
Oefeningen
De links wijzen naar .py files. Wanneer je deze Python-modules importeert in Python dan heb je de oplossingen als functies.
- Enkele oefeningen op de basics: basics_ex.py
- Enkele oefeningen op de uitbreiding: advanced_ex.py
Documenten gebruikt in de oefeningen:
- testfile1.txt
- testfile2.txt
- testfile3.txt
- mbsp.xml
- dimin.train
- dimin.test
- Een Timbl-Client: Timbl.py
- Een Mbt-Client: Mbt.py
- Een tokenizer gebaseerd op de tokenizer van MBSP: mbsptokenizer.py
Setup
Een overzicht van hoe Python aan te passen aan je eigen noden:
Interessante packages en links
Een repository voor Python packages vind je op:
http://pypi.python.org/pypi
Een overzicht van de daar aanwezige NLP packages:
- Natural language toolkit:
http://nltk.sourceforge.net/index.php/Main_Page
Om nltk te installeren heb je nog andere modules nodig: numpy, dateutil en pytz - ConceptNet: http://web.media.mit.edu/~hugo/conceptnet/
- Een package om grafieken te plotten: matplotlib/pylab
Problemen met het aanmaken van PDF's?
Een shared object dat ervoor zorgt dat timbl geïmporteerd kan worden in Python: timbl.so.
Een Python interface voor TadPole: tadpole.py
Een Python script om op basis van de Timbl outputfile de recall, precision, ... te berekenen. (ook voor maxent): confusionmatrix.py
Enkele mogelijk interessante links zijn:
(Alle links werden bezocht in november 2007)