Dans linguistique, la désambiguïsation est le processus qui consiste à déterminer quel sens mot est utilisé dans un particulier le contexte. Également connu sous le nom de désambiguïsation lexicale.
En linguistique computationnelle, ce processus discriminant est appelé désambiguïsation au sens du mot (WSD).
Exemples et observations
"Il se trouve que notre la communication, dans différents langues de même, permet d'utiliser la même forme de mot pour signifier différentes choses dans les transactions de communication individuelles. La conséquence est qu'il faut comprendre, dans une transaction particulière, la signification voulue d'un mot donné parmi ses sens potentiellement associés. Tandis que le ambiguïtés résultant de ces multiples associations forme-signification sont au lexical niveau, elles doivent souvent être résolues au moyen d'un contexte plus large discours intégrer le mot. Par conséquent, les différents sens du mot «service» ne pouvaient être distingués que si l'on pouvait regarder au-delà du mot lui-même, comme service du joueur à Wimbledon »avec« le service du serveur à Sheraton ». Ce processus d'identification des significations des mots dans un discours est généralement connu comme
sens des mots désambiguïsation (WSD). "(Oi Yee Kwong, Nouvelles perspectives sur les stratégies informatiques et cognitives pour la désambiguïsation du sens des mots. Springer, 2013)Désambiguïsation lexicale et désambiguïsation au sens du mot (WSD)
"Lexical désambiguïsation dans sa définition la plus large n'est rien de moins que la détermination de la signification de chaque mot dans le contexte, qui semble être un processus largement inconscient chez les gens. En tant que problème de calcul, il est souvent décrit comme «AI-complet», c'est-à-dire un problème dont la solution suppose une solution à compléter langage naturel compréhension ou raisonnement de bon sens (Ide et Véronis 1998).
"Dans le domaine de la linguistique informatique, le problème est généralement appelé désambiguïsation des mots (WSD) et est défini comme le problème de déterminer par calcul quel «sens» d'un mot est activé par l'utilisation du mot dans un le contexte. WSD est essentiellement une tâche de classification: les sens des mots sont les classes, le contexte fournit et chaque occurrence d'un mot est affectée à une ou plusieurs de ses classes possibles en fonction de la preuve. Il s'agit de la caractérisation traditionnelle et commune de la WSD qui la considère comme un processus explicite de désambiguïsation par rapport à un inventaire fixe des sens des mots. Les mots sont supposés avoir un ensemble fini et discret de sens dictionnaire, une base de connaissances lexicales, ou une ontologie (dans cette dernière, les sens correspondent à des concepts qu'un mot lexicalise). Des inventaires spécifiques à l'application peuvent également être utilisés. Par exemple, dans un cadre de traduction automatique (MT), on peut traiter les traductions de mots comme des sens approche qui devient de plus en plus faisable en raison de la disponibilité de grandes langues multilingues parallèle corpus qui peuvent servir de données de formation. L'inventaire fixe des WSD traditionnels réduit la complexité du problème, mais des champs alternatifs existent.. .. "(Eneko Agirre et Philip Edmonds," Introduction ". Désambiguïsation de Word Sense: algorithmes et applications. Springer, 2007)
Homonymie et désambiguïsation
"Lexical désambiguïsation convient particulièrement aux cas de homonymie, par exemple, une occurrence de basse doit être mappé sur l'un des éléments lexicaux basse1 ou basse2, selon la signification voulue.
"La désambiguïsation lexicale implique un choix cognitif et est une tâche qui inhibe les processus de compréhension. Il faut le distinguer des processus qui conduisent à une différenciation des sens des mots. La première tâche est accomplie de manière assez fiable également sans beaucoup d'informations contextuelles tandis que la seconde ne l'est pas (cf. Veronis 1998, 2001). Il a également été démontré que les mots homonymes, qui nécessitent une ambiguïté, ralentissent l’accès lexical, tandis que les mots polysémiques, qui activent une multiplicité de sens des mots, accélèrent l'accès lexical (Rodd e.a. 2002).
"Cependant, à la fois la modification productive des valeurs sémantiques et le choix simple entre des éléments lexicalement différents ont en commun, ils nécessitent des informations non lexicales supplémentaires. "(Peter Bosch," Productivity, Polysemy, and Predicate Indexicality. " Logique, langage et calcul: 6e Symposium international de Tbilissi sur la logique, le langage et le calcul, éd. par Balder D. dix Cate et Henk W. Zeevat. Springer, 2007)
Désambiguïsation des catégories lexicales et principe de vraisemblance
"Corley et Crocker (2000) présentent un modèle à large couverture de catégorie lexicaledésambiguïsation basé sur Principe de vraisemblance. Plus précisément, ils suggèrent que pour une phrase composée de mots w0... wn, le processeur de phrases adopte le plus probable une partie du discours séquence t0... tn. Plus précisément, leur modèle exploite deux probabilités simples: (je) la probabilité conditionnelle du mot wje étant donné une partie particulière du discours tje, et (ii) la probabilité de tje étant donné la partie précédente du discours ti-1. Au fur et à mesure que chaque mot de la phrase est rencontré, le système lui attribue cette partie du discours tje, ce qui maximise le produit de ces deux probabilités. Ce modèle capitalise sur l’idée que de nombreux syntaxique les ambiguïtés ont une base lexicale (MacDonald et al., 1994), comme dans (3):
(3) Les prix / marques d'entrepôt sont moins chers que les autres.
"Ces phrases sont temporairement ambiguës entre une lecture dans laquelle des prix ou fait du est le verbe principal ou partie d'un nom composé. Après avoir été formé sur un grand corpus, le modèle prédit la partie la plus probable du discours pour des prix, tenant correctement compte du fait que les gens comprennent prix comme un nom mais fait du comme verbe (voir Crocker & Corley, 2002, et les références qui y sont citées). Non seulement le modèle tient compte d'une gamme de préférences de désambiguïsation enracinées dans la catégorie lexicale ambiguïté, cela explique aussi pourquoi, en général, les gens sont très précis dans la résolution de ces ambiguïtés. " (Matthew W. Crocker, «Rational Models of Comprehension: Addressing the Performance Paradox». Psycholinguistique du XXIe siècle: quatre pierres angulaires, éd. par Anne Cutler. Lawrence Erlbaum, 2005)