La voix sur réseau IP, parfois appelée téléphonie IP ou téléphonie sur Internet, et souvent abrégée en « VoIP » (abrégé de l'anglais Voice over IP), est une technique qui permet de communiquer par voix à distance via le réseau Internet, ou tout autre réseau acceptant le protocole TCP/IP.
Au contraire des téléphones analogiques filaires (RTC) dépendant de centraux téléphoniques dédiés, la voix sur IP permet le transport de conversations téléphoniques sur tout réseau numérique ou analogique acceptant le protocole TCP/IP (Ethernet, RNIS, PPP, etc.)
Schématiquement, le transport de la voix se fait ainsi. Le codec audio de l'émetteur numérise et compresse la voix, ces données numériques sont acheminées jusqu'au destinataire dans des paquets IP. Le codec du destinataire effectue les opérations inverses (décompression, puis restitution du son).
Pour assurer une certaine qualité à la voix, il y a plusieurs facteurs à considérer. Par convention, l'information voyage dans des datagrammes UDP (on ne parle en effet de paquet qu'après encapsulation IP), un protocole qui ne garantit pas la livraison, en échange de moins de traitement tout au long de son voyage sur le réseau. Selon les conditions du réseau, engorgement surtout, certains datagrammes UDP sont détruits. Pour cette raison, des datagrammes peuvent être retransmis à plusieurs reprises.
La numérisation est un processus discret, c'est-à-dire que plusieurs fréquences contenues dans la voix ne sont pas numérisées ni restituées, ce qui amène une perte d'information. Il est possible d'augmenter la qualité de la voix, mais au prix de demander plus de bande passante. Pour la voix, sans compression, la bande passante est de 64 kbps (codec G711), il existe de nombreux autres codecs dont le G729 moins consommateur et dernièrement des normalisations autour de codecs larges bandes comme G729-EV, permettant d'améliorer sensiblement la qualité vocale des communications.
Pour des raisons techniques, le phénomène d'écho est, à degré variable, omniprésent dans ce type de communication. Les logiciels qui compensent cet effet sont souvent propriétaires. Supposons que l'appareil A utilise le logiciel A et que l'appareil B utilise le logiciel B. Les deux logiciels risquent de traiter l'écho de façon légèrement différente, ce qui amène des effets de bord non contrôlés. Par exemple, des sifflements se font entendre pendant la communication. Finalement, la latence variable du réseau Internet fait que les données voyagent plus ou moins vite. Alors que cette variabilité est acceptable pour des données, elle ne l'est pas pour la voix, phénomène physique qui demande une certaine continuité pour que les gens puissent se comprendre.
La transmission des fax et les services d'urgence (18, 17,911...) sont aussi des défis importants à résoudre pour la téléphonie IP dite grand public. En effet l'utilisation d'adresse IP est relativement indépendante de la localisation de l'utilisateur (contrairement à l'utilisation d'une ligne de cuivre traditionnelle qui identifie formellement la localisation de l'usager), ce qui complexifie le routage des appels vers le service d'urgence le plus proche.