Aunque se han convertido en una gran parte de nuestro día a día, los motores de búsqueda siguen siendo un gran misterio. Por poner un ejemplo, cada día hay 3,5 mil millones de búsquedas en Google. Es perfectamente normal, ya que escribir una consulta y obtener una respuesta en pocos segundos puede llegar a ser adictivo y convertirse fácilmente en parte de tu vida. El misterio recae en cómo encuentra el buscador estos resultados y los presenta tan rápidamente. Por ello, aquí te traemos algunas de las muchas preguntas que se pueden llegar a generar sobre los motores de búsqueda y las técnicas que se esconden detrás.
¿Quién hace el trabajo?
Para mostrar los resultados de lo que quiera que sea que estés buscando, debe existir algo llamado “rastreador” o “araña”. Estos son términos genéricos para un robot de internet cuyo rol es navegar por internet, rastrear diferentes páginas web y tomar nota de su contenido. Estos robots están programados para seguir enlaces de web en web y enviar los datos a sus servidores. Este procedimiento está habilitado solo para páginas web que no especifican si quieren que los rastreadores las examinen, esos que son conocidos como parte de la Dark Web o Deep web, lo cual se realiza indexando estas webs como “noindex”, que para los buscadores significa que no se deben incluir en el índice y se quedan fuera de las bases de datos.
¿Qué es la Indexación o Indexing?
La indexación es el proceso que hace posible que tus búsquedas se respondan rápidamente. Después de que los rastreadores acaben de ir por las webs siguiendo los enlaces y los hayan guardado en los servidores, hacen una copia de estos y añaden la URL al índice. Para almacenar todo esto se necesita una extensa memoria, en el caso de Google sus servidores tienen más de 100 000 000 Gigabytes de almacenamiento. Para ponerte en situación, solo un uno por ciento de esto es como 10 000 horas de televisión. Es una cantidad descomunal de información que se hace cada vez más grande y, no es por nada, este es solo uno de los buscadores.
¿Cómo reproducen esta información?
La indexación es solo una parte del proceso ya que hay otro proceso entre esas bases de datos y los resultados que se ofrecen. A este se le llama “proceso de recuperación”, aunque cada motor de búsqueda utiliza métodos diferentes y por eso los resultados nunca son los mismos. Hay una serie de criterios que utilizan para elegir qué páginas web parece que encajan mejor con lo que buscas. Estos algoritmos comparan millones de páginas diferentes para ver cuál puede ser la mejor para ti. Lo que hacen es ver si tus términos de búsqueda están en el título, uno al lado de otro, cuántas páginas tiene enlazadas tu web o en qué orden buscaste esas palabras clave. El método específico de uno de estos algoritmos nunca será revelado completamente, si no habría gente que intentaría utilizarlo como ventaja para obtener mejores resultados. Ya pasó en algún momento cuando los motores de búsqueda solían posicionar webs por la frecuencia de las palabras clave, por lo que se creó el término “relleno de palabras clave” o “keyword stuffing”.
Aquí es cuando se pone interesante. El software que genera los resultados utiliza aprendizaje automático. En teoría, esto significa que como cada vez analiza más páginas, se vuelve más preciso. Al final puede entender incluso el significado
subyacente de una palabra. Sin embargo, la forma más precisa de hacer una búsqueda no es escribir una pregunta entera. Por ejemplo: “¿Cómo hago un pastel de chocolate para ganar un premio?” no funcionaría. Sería mejor que buscaras basándote en las palabras clave: “ganar”, “premio”, “pastel” y “chocolate”. Esto hace que los recuperadores de información lo tengan mucho más fácil para proporcionar resultados más exactos centrados en esas palabras clave.
¿Cómo se decide el orden?
Después de que los resultados hayan sido especialmente seleccionados por el método que el motor de búsqueda crea conveniente, los pone en el orden que considera que ayudará más a lo que estás buscando. Esto es lo que se llama ranking o posicionamiento, que para google es conocido como “Page Rank” o PR (nombrado así por Larry Page). Este proceso es similar al que se utiliza principalmente para la recuperación de las páginas, teniendo en cuenta el orden, la frecuencia y la calidad de las palabras clave; aunque son solo unos ejemplos de cómo se hace realmente. La colocación en el sistema de posicionamiento se puede mejorar con las técnicas de optimización en los motores de búsqueda, más conocidas como SEO (por sus siglas en inglés, Search Engine Optimization), que da una ventaja sobre la competencia si se ejecutan adecuadamente. Son una cantidad inmensa de técnicas sencillas que componen el conjunto de SEO que van desde la optimización de palabras clave al linkbuilding y todas tienen igual importancia. El algoritmo de Google tiene en cuenta más de 200 criterios para determinar los resultados del ranking