Le Corpus français est une base de données composée de près de 37 millions de phrases, soit environ 700 millions de mots. Il a été extrait et constitué par le groupe de recherche TAL de l'Université de Leipzig / Allemagne, et aménagé avec le concours de Daniel Elmiger et Alain Kamber (Université de Neuchâtel / Suisse). Les interfaces et outils de recherche ont été développés dans le cadre du projet Leipzig Corpora Collection of Computer Science de l'Université de Leipzig.
Le corpus, dédié à l'étude du français contemporain écrit, est composé de trois parties:
- Informations tirées de journaux francophones (plus de 19 millions de phrases)
- Pages web (plus de 11 millions de phrases)
- Wikipédia (près de 6 millions de phrases)
