Testing a rhyme hypothesis

I read somewhere that if you

  1. take a list of words
  2. reverse the letters in each word
  3. sort the (reversed) words alphabetically
  4. then reverse the words back to normal

You’ll end up with a list of words, where words that rhyme are next to each other. I wondered if this would work for danish, so I gave it a try by using the danish wikipedia page on the danish language as the source:

curl 'http://da.wikipedia.org/wiki/Dansk_(sprog)' | lynx -dump -stdin -display_charset UTF-8 | sed -e 's/[^[:alpha:]]/ /g' | tr "[:upper:]" "[:lower:]" | awk '{ for (i=1;i<=NF;i++) print $i }' | sort -u | rev | sort | rev

Here is the result of running this command, it actually works quite nice (kept the words that more or less rhyme):

wikimedia
wikipedia
fra
schwa
litteraturselskab
sprogvidenskab
grad
hvad
mærkværdighed
med
bordered
ørred
ved
derved
tid
udland
lolland
sjælland
grønland
adoptivland
ord
nord
ordforråd
betød
stød
begribe
fade
gade
grønnegade
udprægede
affikserede
relaterede
vokoide
forside
skribentforside
udvide
uddybende
udseende
følgende
fremherskende
engelsktalende
manglende
bestemmende
stavelsesbærende
foranstående
ovenstående
grunde
begynde
afkode
nabolyde
både
måde
røde
optage
tryksvage
betydelige
vanskelige
forskellige
personlige
samtlige
egentlige
rækkefølge
lange
mange
ikke
lukke
række
nordiske
østnordiske
vokaliske
historiske
grammatiske
skandinaviske
europæiske
engelske
danske
ganske
germanske
nordgermanske
vestjyske
tyske
tale
udtale
kontinentale
officielle
aktuelle
rolle
skulle
forveksle
samme
sprogstamme
komme
artiklerne
dialekterne
eksterne
gruppe
type
flere
mere
bøjningslære
sætningslære
være
forbindelse
oprindelse
deltagelse
indholdsfortegnelse
udbredte
påbegyndte
stødte
vedhængte
bestemte
ubestemte
berømte
...

Leave a Reply