Une diphtongue : c’est quoi ? Quelques explications sur sa nature phonétique et comment elle est impliquée dans la syllabe, le hiatus, la diérèse et la synérèse.
ℹ️ Cet article fait partie d’une série que j’ai écrite pour initier à la phonétique et à l’alphabet phonétique international. Si vous ne comprenez pas certains concepts que j’aborde ici, consultez ce lien pour en trouver le sommaire !
Sommaire
La place de la diphtongue
Les consonnes et les voyelles constituent les segments, qui sont les plus petits éléments de la prononciation d’une langue. Toute langue dispose d’un nombre fini de consonnes et de voyelles dites “pertinentes” qui forment ses phonèmes.
→ Voir aussi mon article Quelle est la différence entre phonologie et phonétique ?.
Parfois, les phonèmes peuvent « s’attacher » les uns aux autres. Quand cela arrive avec deux consonnes, on peut être devant une consonne affriquée. Quand deux voyelles se « mélangent » dans une seule et même syllabe sans devenir une seule autre voyelle, elles forment une diphtongue. Une diphtongue est constituée d’un son initial et d’un son final, mais comme une voyelle est réalisée sans contact des organes phonateurs entre eux (de la langue avec le palais par exemple), les « mélanges » peuvent être très variés et subtils.
Les voyelles forment des sons vocaliques qu’on compte souvent à part des voyelles. C’est à ça qu’on va s’intéresser ici.
La nature de la diphtongue
Une voyelle = une position
Une voyelle est produite par une certaine position de la langue (déterminée par l’aperture et le point d’articulation, c’est-à-dire sa position verticale et horizontale dans la bouche), ainsi que grâce aux lèvres, qui peuvent être arrondies ou non arrondies. Anatomiquement, ces deux premiers paramètres sont représentés sur un trapèze vocalique (montré vierge ci-dessous).
Une voyelle peut donc être représentée sur le trapèze vocalique en fonction de son aperture et de son point d’articulation. C’est ce qu’on fait quand on représente les voyelles d’une langue, par exemple l’espagnol ci-dessous.
On n’indique pas quelles voyelles sont arrondies (= produites avec les lèvres arrondies) mais on le sait grâce au caractère de l’alphabet phonétique (ici, ‹o› et ‹u› sont les voyelles arrondies de l’espagnol).
Ces voyelles correspondent (dans le sens de lecture) aux sons I OU É O A du français. Exercez-vous à les prononcer et comparez la position de langue lors de leur production – elle correspondra à leur position sur le trapèze vocalique.
Une diphtongue = un mouvement
Lors de la production d’une diphtongue, au lieu de représenter un point sur le trapèze vocalique, on va tracer une droite, car une diphtongue consiste à passer d’une voyelle à une autre dans le même mouvement de la langue. J’ai trouvé une image qui illustre ce phénomène pour l’espagnol.
Le diagramme montre (pas très clairement à mon avis) que chaque diphtongue de l’espagnol fonctionne dans les deux sens. Je représente /ej/ et /je/ isolément ci-dessous.
Il n’y a pas vraiment de limites à la variété de mouvements possibles. Les diphtongues peuvent impliquer aussi bien des voyelles arrondies que non arrondies, et éventuellement combiner les deux. En voici quelques exemples tirés de différentes langues.
On peut utiliser la petite phrase “no highway cowboys” pour illustrer cinq diphtongues de l’anglais américain.
Comme une voyelle du haut du trapèze vocalique est dite “fermée” (langue proche du palais) et qu’une voyelle en bas de celui-ci est “ouverte” (langue totalement abaissée), on parle parfois de diphtongue “fermante” (la flèche pointe vers le haut sur le trapèze) ou “ouvrante” (la flèche pointe vers le bas).
La semi-voyelle et la notation en alphabet phonétique
Une diphtongue est toujours basée sur une voyelle principale (qui est le point de départ ou d’arrivée de son mouvement) et une semi-voyelle (qui détermine la direction du mouvement).
Par exemple, les diphtongues “yé” /i̯e/ et “éï” /ei̯/ (vues ci-dessus pour l’espagnol) ont pour voyelle principale le /e/, qui dans le premier cas est le point d’arrivée, et dans le second cas le point de départ. Dans le premier cas, le mouvement va consister à partir du son /i/ (en linguistique anglophone, on parle d’onglide), et dans le second cas à tendre vers le son /i/ (offglide).
→ Une semi-voyelle est aussi appelée semi-consonne ou glide par anglicisme – plus techniquement, on parle parfois de voyelle non syllabique.
En alphabet phonétique international (API), une semi-voyelle est marquée avec le diacritique /◌̯/ (voir sur Graphemica), une brève inversée souscrite qui peut être ajoutée à n’importe quelle voyelle et qui indique qu’elle n’est pas syllabique.
Trois semi-voyelles courantes ont leur propre caractère API, ce qui explique pourquoi j’utilise parfois deux notations équivalentes dans mon article.
/i̯/ = /j/
/y̯/ = /ɥ/
/u̯/ = /w/
Il existe d’autres transcriptions de la diphtongue, toutefois les signes spécifiques sont privilégiés et la brève souscrite est très courante. En tout – et à ma connaissance –, la diphtongue /aw/ peut par exemple être transcrite de quatre manières différentes, mais les deux dernières sont vieillies et dépréciées : /aw, au̯, aᵘ, a͡u/.
Autres merveilles de la diphtongue
Le hiatus, la diérèse et la synérèse
Un hiatus se produit quand deux voyelles se suivent sans produire de diphtongue. Dans ce cas, elles font donc partie de syllabes différentes.
Les mots “abeille” et “abbaye” sont distingués en français par le fait que le premier possède une diphtongue et le second un hiatus. En-dehors de ça, les voyelles sont les mêmes.
Certains mots peuvent présenter ou une diphtongue ou un hiatus en fonction du dialecte. C’est le cas du mot “lion”, que je prononce avec un hiatus, donc en deux syllabes (/li.ɔ̃/) tandis que certains dialectes le prononcent avec une diphtongue, en une seule syllabe : /ljɔ̃/, /li̯ɔ̃/.
En poésie, on peut prendre la liberté de décider si un mot utilise une diphtongue ou un hiatus. Si on opte pour la diphtongue, c’est une synérèse (par exemple “écuelle” en deux syllabes – /e.kɥɛl/ – au lieu de trois – /e.ky.ɛl/). Si on préfère le hiatus, c’est une diérèse ; en 1830, celle du mot “lion” a fait scandale quand Victor Hugo l’a employée dans un alexandrin de sa pièce Hernani : il faut prononcer le mot en deux syllabes si l’on veut que le vers ait bien douze syllabes, ce qui contrevenait à la règle d’alors.
Vous êtes mon lion, superbe et généreux.
Vous|ê|tes|mon|li|on [césure] su|per|be et|gé|né|reux
La monophtongaison et la diphtongaison
Tout à l’heure, je disais qu’une diphtongue ne consistait pas en la “fusion” d’une voyelle avec une autre : en effet, elles sont juste réalisées en succession rapide. Mais parfois, au cours de l’évolution d’une langue, une diphtongue se simplifie et devient effectivement une seule voyelle, généralement intermédiaire (plutôt que de faire un mouvement articulatoire, on ne conserve que sa position médiane, moins complexe). C’est ce qu’on appelle la monophtongaison, car le son de la diphtongue (“qui a deux sons”) devient une monophtongue (”qui a un seul son”).
L’orthographe française témoigne de nombreuses monophtongaisons qui se sont produites au cours de l’histoire de la langue :
- ‹eu› se prononçait /ɛw/, /ɛu̯/ en ancien français, simplifié aujourd’hui en /ø/ ou /œ/ ;
- ‹ai› se prononçait /aj/, /ai̯/, aujourd’hui /ɛ/ ou /e/.
Je pourrais donner beaucoup d’autres exemples mais il est plus intéressant d’en piocher dans d’autres langues :
- ‹οι›, en grec ancien, se prononçait /oj/, /oi̯/ ; le grec moderne le prononce /i/ ;
- ‹ēa›, en vieil anglais, se prononçait /æːɑ̯/ ; on la retrouve dans certains mots anglais avec ‹ea› prononcé /iː/ (“East”…) ;
- ‹ei›, en moyen haut allemand, se prononçait /ɛj/, /ɛi̯/. Attention, c’est un piège : c’est resté une diphtongue en allemand moderne (pas de monophtongaison donc), mais elle se prononce aujourd’hui /aj/, /ai̯/.
La diphtongaison est le phénomène inverse : parfois, une voyelle simple (généralement longue et/ou accentuée) en devient deux. On observe de nombreuses diphtongaisons de voyelles accentuées du latin au cours de sa transformation en l’espagnol et l’italien :
- en espagnol, l’infinitif “pensar” devient “pienso” à la première personne au présent de l’indicatif (/pen.saɾ/ → /pjen.so/) ;
- en espagnol, l’infinitif “contar” devient “cuento” à la première personne au présent de l’indicatif (/kon.taɾ/ → /kwen.to/) ;
- le mot latin “bonus”, en italien, est devenu “buono” (/bo.nus/ → /bwɔ.nɔ/) ⁽¹⁾.
L’anglais démontre également de nombreuses diphtongaisons, en témoigne notamment le ‹a› de “game”, qui était prononcé long en moyen anglais (/gaːmə/) et qui est diphtongué aujourd’hui (/geɪ̯m/).
Le français métropolitain ne fait pas vraiment de diphtongaisons mais c’est un phénomène répandu en français québécois ⁽²⁾.
La triphtongue
La triphtongue fonctionne de la même manière que la diphtongue, sauf que ce sont trois voyelles qui se “mélangent” en une seule syllabe. Le mouvement pour les produire implique donc trois positions. En voici deux exemples.
Le français n’a pas de triphtongue sauf peut-être dans quelques mots prononcés rapidement (je pense à “ébullition”, normalement prononcé /e.by.li.sjɔ̃/ mais que je prononce à peu près [e.bjɥi.sjõ], [e.bi̯y̯i.sjõ], ce que je trouve absolument génial, mais je m’égare) toutefois on peut citer pour l’exemple l’interjection “yay !” /jɛj/, /i̯ɛi̯/.
On peut en théorie pousser jusqu’à la quadriphtongue (aussi appelée tétraphtongue) qui, comme vous vous en doutez, implique quatre voyelles. Dans tous les cas, elle serait très rare : Quora en parle ⁽³⁾ pour le mot anglais “cow” prononcé “caaouw”, ce qui doit ressembler à quelque chose comme /ki̯e̯aʊ̯/ en alphabet phonétique, ou plus simplement /kje̯aʊ̯/. Inutile d’aller si loin. Ah, zut, trop tard.
Pour la liste des diphtongues françaises, je vous invite à aller voir cet article !
Sources
- Index Diachronica: involving /ɔ/, Index Diachronica
- La diphtongaison, Banque de dépannage linguistique
- Is it possible for a language to have four vowels in a syllable (quadriphthong)?, Quora
- French phonology, § Glides and diphthongs, English Wikipedia
(Ainsi que le Wiktionnaire pour beaucoup d’entrées et de vérifications.)
Bannière : pch.vector, via Freepik
Bonjour, vos articles sont toujours excellents et instructifs, mais je me permets de poser mon avis sur celui-ci par rapport au fait que vous posez comme équivalent les notations /VV̯/ et /Vj/, /Vw/ ou, /Vɥ/ ; or il y a deux différences fondamentales. La première est le fait que la première transcription est une pure diphthongue, donc qui est considérée comme une seule et même entité phonatoire, donc un phonème, tandis que la seconde transcription où vous mettez une voyelle puis une semi-voyelle est considérée comme étant une suite de deux phonèmes distincts ; ils ne » fusionnent » pas ; la seconde différence est que leur prononciation est subtilement différente, le /aj/ de » aïe » sonne différemment du /aɪ̯/ de » time « , parce que la première prononciation induit une séquence voyelle + semi-consonne/voyelle tandis que l’autre induit une diphtongaison avec un deuxième élément, le timbre cible, qui, comme vous l’avez souligné, » glisse « * ; c’est pour cette raison que le fait que le français soit présenté avec 32 diphthongues ( 20 si l’on suit votre idiolecte ), me paraît être erroné. Je me souviens ainsi d’une vidéo de
Monté sur Linguisticæ où il y faisait un comparatif qualitatif et quantitatif des systèmes phonologiques anglais et français et il était dit que le nombre et la nature des diphthongues était discuté(s) en français.
Mais je remarque dans un certain nombre d’articles anglophones et/ou francophones une fusion des deux notions ( par exemple avec le tableau des diphthongues en français traduit par vos soins de l’article en anglais ).
Après, dans un registre moins rigoureux, pourquoi pas mettre la semi-voyelle présente dans une séquence (s)V+C en tant qu’élément articulatoire secondaire ? ( il me semble que dans un de vos articles vous en parliez ) Ainsi, Niort, soit /njɔr/ ( ≠ /ni̯ɔr/ ), pourrait être réalisé [nʲɔʁ] ? Cela pourrait être une piste intéressante, surtout qu’il me semble qu’on peut différencier une séquence « Cᶜ » et « CC » par spectrogramme.
* et également le fait que ici dans le lemme en anglais, il s’agit d’un qui subit une réduction vocalique et est donc relâché en /ɪ/.
Bonjour !
Wow, mes compétences en phonétique sont dépassées, je crois. Pure diphtongue ? Comment peut-on avoir une suite de phonèmes vocaliques *distincts* qui ne soient pas en hiatus ? Cela m’aiderait peut-être que vous me donniez votre définition rigoureuse de la diphtongue dans les circonstances que vous précisez.
Du reste, je connais la différence entre [aj] et [aɪ̯], mais j’ai toujours lu jusqu’ici que [aj] et [ai̯] étaient parfaitement équivalents.
Il me paraît certain que certains locuteurs prononcent /njɔʁ/ comme [nʲɔʁ], mais nous sortons bien entendu du domaine de la diphtongue !
En vous remerciant pour votre lecture.
À mon avis, ce débat sur l’existence (ou non) de diphtongues va durer encore longtemps. «Glisse, fusionne»… Tout cela reste assez vague, à partir de quel moment (scientifiquement parlant) ça «fusionne» ou pas, à partir de quelle limite chiffrable et mesurable ?
Oui, même la frontière acoustique entre une diphtongue (quelle qu’elle soit) et deux voyelles en hiatus peut être floue.
(Re)Bonjour !
Alors concernant la qualification de diphthongue « pure » c’était juste dans l’optique de contraster avec ce que votre article présentait comme étant des diphthongues en français ; l’adjectif » pure » est ici nullement scientifiquement fondé.
Si j’ai bien compris votre question, je considère qu’il peut y avoir une suite de deux phonèmes qui se suivent sans former de hiatus puisque je considère le second élément ( si l’on reprend mon exemple avec /aj/ ) comme étant une semi-voyelle/consonne ; ainsi, il n’y a ni hiatus ni diphthongue.
Voici ma définition de » diphthongue « , raffermi au fur et à mesure de l’accumulation de mes connaissances et qui peut tout à fait changer :
Une diphthongue est un phonème vocalique composée de deux sous-éléments ; le premier étant le timbre source, c’est-à-dire la voyelle duquelle la diphthongue repose, ainsi que le timbre cible, qui est la voyelle vers laquelle la diphthongue tend ; ( comme vous l’avez souligné ), la diphthongue est un phénomène de » glissement » d’une voyelle A vers une voyelle B ; comme tout phonème, la diphthongue est une entité phonatoire dotée de la capacité de distractivité et peut ainsi former des paires minimales ; notez que le timbre source et le timbre cible peuvent intervertir leur position.
Ainsi, selon ma définition, les diphthongues présentées en français et celles où la notation consiste en un /V(s)C/ ne peuvent en être puisqu’elles ne sont pas composées de deux phonèmes vocaliques, dont l’un sera altéré.
Concernant la remarque de Siddhartha, je pense que le caractère de » fusion » est applicable à partir du moment où la diphthongue est capable de faire des paires minimales ( mais là il s’agit d’un débat sémantique et non relatif quant au caractère phonétique des diphthongues ).
Je me permets de réitérer un élément présent dans mon premier commentaire par rapport au fait de l’analyse au spectrogramme ; si je ne dis pas de sottise, on peut distinguer une séquence Cᶜ ,d’une séquence CSC/SV d’une séquence VV̯ ; donc le caractère d’une diphthongue se mesurait à la fois par sa capacité à faire des paires minimales et à la fois par certaines qualités acoustiques qui ne sont pas détenues par ses autres consœurs.
Je me permets également de faire une remarque supplémentaire ; si en français standard il y avait le nombre de 32 diphthongues, cela ferait un système phonologique extrêmement riche ! Ça me paraît totalement surprenant.
Bien cordialement ;
Bonjour. Je ne comprends toujours pas les distinctions que vous proposez. Une diphtongue est, à ma connaissance (qui, comme la vôtre, peut changer), forcément constituée d’une semi-voyelle (initiale ou finale), aussi appelée voyelle non syllabique. Les semi-voyelles ne sont pas seulement /j, w, ɥ/, qui ont leur caractère attitré car elles sont fréquentes ; ce sont les versions non syllabiques de /i, u, y/. Pour le dire autrement, tout offglide ou onglide est une semi-voyelle.
Bonsoir ; c’est bien là le problème qui fait que ma définition fait schisme avec la vôtre : je considère une voyelle non-syllabique différente d’une semi-voyelle, et ce sur aucune véritable base scientifique, je le concède.
Mais je citerai l’article francophone sur les voyelles syllabiques ( assez pauvre mais il illustre bien comment j’appréhende la notion ) : » Certaines langues comme l’anglais disposent d’un grand nombre de diphtongues. La transcription la plus simple consiste à les noter comme des consonnes spirantes, telles que eye [aj] ou cow [kaw]. Cependant, les phonéticiens font souvent l’objection que les segments finaux de ces diphthongues sont purement vocaliques, et donc que les symboles et sont inappropriés; en effet, la constriction des consonnes [j] ou [w] dans yes [jɛs] ou wall [wɔɫ] est absente dans une voyelle non syllabique. » ; ainsi, j’ai toujours considéré les voyelles non-syllabiques comme ayant une constriction moindre voire nulle comparées aux semi-voyelles*.
Et comme élément confirmant mon scepticisme, est, comme l’extrait de l’article le souligne, dans les transcriptions en anglais, on transcrit à la fois des séquences semi-voyelle/consonne + voyelle sans que cela n’incluent une diphthongue ; ainsi, » future » est transcrit /ˈfjuːt͡ʃə/ ( en RP ) et non /ˈfɪ̯uːt͡ʃə/ ; tandis qu’un lemme comme » low » transcrit /ləʊ̯/ et non /ləw/ ; la différenciation me paraît ainsi suspecte si l’on considère les deux notations comme purement équivalente, serait-ce par pur conservatisme ? Je sais que la transcription RP est parfois si éloignée de la réalité…
* l’article n’est nullement sourcé, je ne le considère pas comme une preuve de ce que j’argumente mais comme une illustration de celui-ci.
Si on arrive à établir une différence de constriction, alors je comprendrais la différence entre semi-voyelle et voyelle non syllabique. Toutefois, si la transcription phonologique anglaise vous donne raison là-dessus, elle ne change rien au postulat de départ : effectivement, on transcrit “low” : /ləʊ̯/, ce qui indique une constriction moindre que */ləw/ (et j’avoue que je ne l’avais jamais vu comme ça), néanmoins */ləw/ est l’équivalent de */ləu̯/ et non de /ləʊ̯/, et /ˈfjuːt͡ʃə/ est l’équivalent de */ˈfi̯uːt͡ʃə/ et *non* de */ˈfɪ̯uːt͡ʃə/. Le choix de l’une ou l’autre transcription correcte est convention. Donc pas besoin de « distinguer semi-voyelles et voyelles non syllabiques » pour conserver la distinction transcrite de constriction.
[…] On en parle peu mais le français a de nombreuses diphtongues. En voici la liste (pour le français métropolitain), sous forme de complément à mon article “Qu’est-ce qu’une diphtongue ?”. […]
[…] Voyez mon article « Qu’est-ce qu’une diphtongue ?« . […]
[…] connaissez les diphtongues ? J’ai un article sur le sujet qui pourra vous éclairer, mais je vais résumer […]
[…] diphtongaisons de certaines voyelles. Pour en savoir plus sur les diphtongues, voyez mon article « Phonétique : qu’est-ce qu’une diphtongue ? ». Il y aurait d’ailleurs beaucoup d’autres choses à dire sur le français […]
[…] La nature de la diphtongue […]
[…] La nature de la diphtongue […]
[…] autre voyelle. Les deux voyelles ensemble forment une diphtongue (j’ai un article à ce sujet ici si vous voulez plus d’informations sur les […]
Bonjour, et merci pour votre article. Je me permets de relever une petite erreur je crois :
« Victor Hugo l’a employée dans un alexandrin de sa pièce Hernani : il faut prononcer le mot en deux syllabes si l’on veut que le vers ait bien treize pieds, ce qui contrevenait à la règle d’alors. »
Je pense que vous avez sans doute voulu écrire : douze pieds et non treize 🙂
Et si on veut pousser la précision encore plus loin, en poésie française on parlera plus volontiers de douze syllabes plutôt que douze pieds (même si l’usage l’autorise). Le terme de « pied » étant plutôt réservé pour la poésie grecque ou latine.
Oups, bien vu ! J’ignorais aussi que « pied » était en théorie réservé à la poésie gréco-latine. Merci beaucoup !
[…] français de France, sauf cas exceptionnels, n’a pas de diphtongues (du moins pas au sens traditionnel). En revanche, c’est le cas du français […]