El lenguaje natural es el lenguaje oral y escrito que utilizamos las personas para comunicarnos entre nosotros, ya que es el más amigable, es natural (como su nombre indica). Este tipo de lenguaje se caracteriza por depender del contexto y de los interlocutores, e incluye elementos que pueden dificultar su interpretación como palabras de argot, acrónimos, sinónimos, homónimos, etc. Se trata de lenguaje muy flexible, rico que puede llegar a ser muy especializado pero, a la vez, también puede resultar ambiguo.
Los sistemas de información no pueden utilizar este tipo de lenguaje para tomar decisiones de forma autónoma, ya que no lo pueden interpretar automáticamente, comparar ni explotar de manera global. Existen herramientas de procesamiento del lenguaje natural que permiten transformar texto desestructurado en vocabulario controlado, normalizándolo. El uso de estas herramientas está en aumento, aunque todavía son muy dependientes del contexto y no permiten tratar información heterogénea. El caso que más se está trabajando es el de la codificación de diagnósticos semiautomática o asistida , a partir de un literal escrito en un campo de diagnóstico por parte de un profesional asistencial, y en base a un vocabulario controlado como la CIE-9-MC o la CIE-10. En cualquier caso, para que los sistemas de información puedan identificar, comparar y operar con la información que almacenan, es necesario estructurarla, utilizando vocabularios controlados.