Using gzip to do computational linguistics