<body><script type="text/javascript"> function setAttributeOnload(object, attribute, val) { if(window.addEventListener) { window.addEventListener('load', function(){ object[attribute] = val; }, false); } else { window.attachEvent('onload', function(){ object[attribute] = val; }); } } </script> <div id="navbar-iframe-container"></div> <script type="text/javascript" src="https://apis.google.com/js/platform.js"></script> <script type="text/javascript"> gapi.load("gapi.iframes:gapi.iframes.style.bubble", function() { if (gapi.iframes && gapi.iframes.getContext) { gapi.iframes.getContext().openChild({ url: 'https://www.blogger.com/navbar/9182671?origin\x3dhttp://delic-actu.blogspot.com', where: document.getElementById("navbar-iframe-container"), id: "navbar-iframe" }); } }); </script>

Delic-Actu

mardi, octobre 25, 2005

Séminaire (7/11): Quelques ratés dans les moteurs (Véronis)

Recherche d'information: quelques ratés dans les moteurs...

Jean Véronis, Jeudi 3 novembre, 16h-17h30
salle C212

Les moteurs de recherche font parfois apparaître de curieuses aberrations. Bugs ou bidonnages? La question est parfois difficile à trancher. Je présenterai un certain nombre de problèmes que j'ai relevées au cours des derniers mois, en particulier sur le moteur le plus utilisé, Google, dont les déclarations publiques (sur sa taille d'index par exemple), ne semblent pas toujours en accord avec les observations. Point d'accès désormais presque exclusif sur les données du Web mondial, les moteurs sont de véritables boîtes noires, dont il est bien difficile de comprendre les règles : je décrirai brièvement un certain nombre de techniques de rétro-ingénierie qui permettent d'effectuer différents tests de cohérence et de vraisemblance. Au-delà de l'aspect "défense du consomateur" que peut avoir ce travail d'expertise, j'essaierai de montrer les véritables défis qui se posent à l'indexation, en particulier à cause des changements considérables qui ont affecté le Web au cours des dernières années ou même des derniers mois (explosion de la taille, du spam, des blogs, des pages dynamiques, de la "cyberlangue", etc.).

Webographie:

1. Le mystème des pages manquantes de Google
2. Yahoo: 19 milliards de pages?
3. Google: 7 bougies et un gâteau rassis


ps: l'exposé fera suite à l'intervention de Matthieu Lafourcade (15h)