Entrevista de Eric Enge a Matt Cutts de Google
Octubre 8, 2007
Matt Cutts se unió al equipo de Google como Ingeniero de Sofware en Enero de 2000. Antes trabajó en su tesis sobre gráficos de computadora en la universidad de Carolina del Norte en Chapel HIll. Es graduado también en ciencia y matemáticas aplicadas a ordenador por la universidad de Kewntucky. Ha escrito SafeSearch, que es el filtro de la familia Google. Además de su experiencia en Google, trabajó para el Departamenteo de Defensa y una compania desarrolladora de juegos. Dice que Google es por lejos lo más divertido. Lidera el equipo Webspam de Google.
Eric Enge: Hablemos sobre las diferentes clases de links que la gente hace, tales como links a través JavaScript u otra clase de redirección a un link de otro, todavía el link representa realmente un "voto". Puedes hablarnos de los escenarios en los cuales el link es realmente reconocido como tal?
Matt Cutts: Un link directo siempre es el más simple, o sea que si puede arreglártelas para hacer un link directo esto siempre es muy útil. Hubo recientemente una propuesta interesante de alguien que trabaja en Firefox o para Mozilla, creo, que era la idea de atribuir un ping, donde el link aun pueda ser directo, pero el ping sería usado para propósitos de rastreo. Algo así sería promisorio, porque te permitiría mantener la naturaleza directa de un link, mientras puedes enviar una senal directa a alguien. En general, Google hace un trabajo relativamente bueno siguiendo las redirecciones 301, y 302 e incluso los Meta Refresh y Javascript. Típicamente lo que no hacemos sería seguir una cadena de redirecciones a través de un robot.txt que en sí mismo lo prohíbe.
Eric Enge: De acuerdo.
Matt Cutts:Pienso que en muchos casos calculamos el propio o apropiado Pangerank, o Link Juice, [Link Juice es la calidad o el peso que un sitio web puede transmitir a otros sitios a través de sus enlaces] o como quieras llamarlo, que debería fluir a través de links semejantes.
Eric Enge: Bien, o sea, ustedes tratan de rastrear eso y suministrar crédito.
Matt Cutts: sí.
Eric Enge: Bien. Hablemos un poco sobre los diversos usos del NoIndex, Nofollow y Robots.txt. Todos tienen ligeras diferencias entre sí. Veamoslo con respecto de tres cosas: 1) en que casos detiene el paso del link juice; 2) en qué casos la página sigue siendo visitada e indexada y 3) en qué casos la página afectada se mantiene o no fuera del índice.
Matt Cutts: Empezaré por robots.txt, poque es el método fundamental para poner un signo electrónico de No pasar que la gente usa desde 1996. Robots.txt es interesante porque fácilmente puedes decirle a cualquier motor de búsqueda que no rastree un directorio en particular, o incluso una página, y muchos motores de búsqueda soportan variantes tales como comodines, o sea que puedes decir no rastrees *.gif, y no rastrearemos ningún GIF para nuestro buscador.
Tenemos incluso unos estándares adicionales como Sitemap Support, así que puedes decir acá hay un link donde mi Sitemap puede ser encontrado. Creo que la única extensión que Google no soporta es el craw-delay. Y la razón por la cual no la soporta es porque mucha gente, accidentalmente, la complica. Por ejemplo, establecen un retraso a cien mil, lo cual significa que vas a crawlear una página cada 24 horas o algo parecido.
Hemos visto gente que establecen demoras que sólo nos permiten rastrear sus sitios una vez al mes. Lo que hicimos entonces fue suministrar la capacidad de poner un límite, pero el craw-delay es lo inverso; esta diciendo crawleame una vez cada "n" segundos. En efecto, lo que quieres es host-load, que te permite definir a cuántos Googlebots permitirás que rastreen tu sitio por vez. Así, un host-load de dos significa que 2 Googlebots podrán rastrear el sitio a la vez.
Ahora, robots.txt dice que no te permite rastrear una página, y por lo tanto Google no examina las páginas prohibidas en el robots.txt. Sin embargo, estas pueden adquirir PageRank, y pueden ser retornadas en nuestros resultados de búsqueda.
En los viejos tiempos, muchas webs populares no querían ser crawleadas en absoluto. Por ejemplo, eBay y el New York Times no permitían que las crawlease ningún motor de búsqueda o, al menos, Google. La Bibloteca del Congreso tenía varias secciones que te decían no tienes permiso para rastrearme con un motor de búsqueda. Y así, cuando alguien entraba a Google y tipeaba eBay, y no habíamos crawleado a eBay, y no podíamos retornar eBay, nos pareció que estaba suboptimizado. Así, el compromiso que debimos enfrentar fue que no te rastrearíamos desde el robots.txt, pero sí podíamos devolver la referencia de la URL que veíamos.
Eric Enge: Basados en los links que otros sitios tenían hacia esas páginas.
Matt Cutts: Exacto. Así, retornaríamos la referencia no rastreada a eBay.
Eric Enge: El modo clásico que muestra cuando sólo listas la URL, sin descripción, y esa sería la entrada que ves en el índece, verdad?
Matt Cutts: Exacto. Lo divertido es que a veces podíamos apoyarnos en la descripción del ODP (conocido también como DMOZ). Y así, incluso sin rastrear, podíamos devolver una referencia que parecía tan adecuada que la gente pensaba que la habíamos rastreado, y esto causó un poco de confusión al principio. De modo que robots.txt fue uno de las estándares más duraderos. Por lo demás, para Google NoIndex significa que ni siquiera miraremos en nuestros propios resultados de búsqueda.
Así, con robots.txt por buenas razones hemos mostrado la referencia incluso si no podemos crawlearla, siendo que si rastreamos una página y encontramos un Meta tag que dice NoIndex, ni siquiera retornaremos esa página. Para bien o para mal, es una decisión que tomamos. Creo que Yahoo y Microsoft puede manejar el NoIndex de un modo ligeramente diferente lo cual es menos desafortunado, pero cada cual elige cómo quiere manipular los dierentes tags.
Eric Enge: Puede una página con NoIndex acumular PageRank?
Matt Cutts: Una página con NoIndex puede acumular PageRank, porque los links son todavía seguidos por fuera desde una página de NoIndex.
Eric Enge: Así, pueden acumular y transmitir PageRank.
Matt Cutts: Correcto, e incluso acumularán PageRank, pero no serán mostrados en nuestro índice. Así, yo no haría una página con NoIndex que muera en sí misma. Puedes hacer una página con NoIndex que tenga multitud de enlaces hacia otras páginas.
Por ejemplo quieres tener un Sitemap maestro y por la razón que sea no quieres indexarlo, pero tener links hacia todos tus sub Sitemaps.
Eric Enge: Otro ejemplo es si tienes páginas en un sitio que, desde el punto de vista de un usuario, reconoces que vale la pena tener, pero sientes que es demasiado duplicativo de otra página en el sitio.
La página podría aun tener links, pero no la quieres indexar y quieres que el crawler siga su camino en el resto del sitio.
Matt Cutts: Está bien. Otro buen ejemplo es, quizás tienes una página para loguearte, y todos terminan linkeando a esa página. Esto provee muy poco valor de contenido, así que deseas desindexar la página, pero los enlaces salientes aun mantendrían el PageRank.
Ahora, si quieres agregar además un metatag NoFollow, lo que nos dirá que no mostremos esa página en el índice de Google, y que no sigamos ningún link saliente, y el PageRank no fluye desde esa página. Pensamos realmente en estas cosas tratando de suministrar tantas oportunidades como sea posible para darle forma tanto si quieres que tu PageRank fluya, o si quieres que Googlebot le dedique más tiempo y atención.
Eric Enge: el metatag NoFollow implica un NoIndex en una página?
Matt Cutts: No. Los tags NoIndex y NoFollow son independientes. El metatag NoIndex, para Google al menos, significa que no mostramos esa página en el índice de Google. El NoFollow significa que no seguimos los enlaces salientes de toda la página.
Eric Enge: Qué hay acerca de la página A que enlaza a B, si la página A tiene un metatag NoFollow, o el link a la página B tiene un NoFollow en el link? La página B aún será rastreada?
Matt Cutts: No será rastreada debido a los links encontrados en la página A. Pero si alguna otra página en la web linkea a la página B, entonces podemos descubrir la página B mediante aquellos otros links.
Eric Enge: Correcto. Así que tenemos dos niveles de NoFollow. Uno es el atributo de un link, y otro es el metatag, ¿correcto?
Matt Cutts: Exacto.
Eric Enge:Lo que estuvimos haciendo fue trabajar con clientes y que tomen páginas tales como sus "Acerca de", y sus páginas de contacto, y las enlacen desde la homepage normalmente, sin un atributo Nofollow; y luego que las enlaces usando NoFollow desde cada una de las otras páginas. Sólo es una forma de bajar la cantidad de link juice que tienen. Ese tipo de páginas son usualmente las que mayor PageRank consiguen en el sitio, y no hacen nada para ti, en términos de tráfico de búsqueda.
Matt Cutts: Absolutamente. Así, concebimos al NoFollow como un precioso mecanismo general. El nombre, NoFollow, puede desviarnos del hecho de que es además un metatag. Y como metatag, NoFollow significa que no rastrearemos ningún link de la página entera.
NoFollow como atrubuto de link individual significa no seguir este particular link, y así realmente, sólo extiende esa granularidad hasta el nivel del link.
Tuvimos una entrevista con Rand Fishkin y hablamos del hecho de que NoFollow era una herramienta perfectamente aceptable para usar junto al robots.txt. NoIndex y NoFollow como un metatag pueden cambiar la forma en que Google rastrea tu sitio. Es importante comprender que típicamente estas cosas son más un efecto de segundo orden. Lo que importa es tener un sitio excelente y asegurarse de que la gente lo conozca, estas herramientas te permiten elegir cómo desarrollar PageRank entre tus páginas.
Eric Enge: De acuerdo. Otro escenario hipotético podría ser si tienes un sitio y descubres que tienes un problema de inmenso contenido duplicado. Mucha gente descubre eso porque algo malo ha sucedido. Quieren actuar prestamente, así que pueden poner NoIndex a esas páginas, pues eso las sacará del índice al remover el contenido duplicado. Entonces, cuando ya están fuera del índice, puedes o bien dejarlas con el NoIndex o puedes volverte al robots.txt para prevenir que las páginas sean rastreadas. ¿Cuál es el sentido si tiene alguno?
Matt Cutts: Eso está en un nivel donde aliento a la gente a experimentar y ver qué funciona mejor para ellos, porque nosotros damos muchas maneras de remover contenido.
Matt Cutts: Ahí está el robots.txt
Eric Enge: Seguro. También puedes usar la herramienta para remover URL.
Matt Cutts: la herramienta para remover URL es otra forma de hacerlo. Típicamente, lo que yo recomendaría es, en vez de seguir la ruta del NoIndex, sería asegurarse que todos sus links apuntan a la versión de la página que piensan es la más importante. Así si descubren dos copias, puedes mirar los backs links dentro de nuestra Webmaster Central, o usar Yahoo, o cualquier otra herramienta para explorarla, y preguntarte cuáles son los backlinks para esta página particular, y por qué esta página estaría mostrandose como duplicada de otra.
Todos los backlinks que están en tu propia página son fáciles de cambiar por los de tu página preferida. Es una cosa bastante rápida que puedes hacer, y que usualmente lleva un día o dos en tener efecto. Por cierto, si se trata de una URL realmente profunda, podrían intentar el experimento con NoIndex. Probablemente yo tendería hacia una rotación óptima de links como primera línea de defensa, y luego, si ésto no lo resuelve, consideraría utilizar NoIndex.
Eric Enge: Hablemos sobre los algoritmos no basados en links. Cuáles son algunas de las cosas que pueden usar ustedes como senales que no sean links para ayudarse en la relevancia y calidad de búsqueda? Además, pueden dar alguna indicación sobre tales senales que ya estén implementando?
Matt Cutts: Yo diría que ciertamente los links son la forma primaria en que miramos las cosas ahora, en términos de reputación. El problema con algo como otros métodos de medir reputación que los datos podrían decrecer. Imagina por ejemplo que decides mirar la gente que está en varios directorios de páginas amarillas, o cosas por el estilo. El problema es que un negocio relativamente reconocido con múltiples localidades puede no querer listar todas sus direcciones.
Muchas de esas senales que observamos para determinar la calidad o ayudarnos a determinar la reputación puede ser ruido. Yo plantearía como la posición básica de Google que estamos abiertos a cualquier senal que potencialmente mejore la calidad. Si alguien me detiene y me dice: "la fase de la luna se correlaciona muy bien con los sitios de alta calidad, yo no lo dejaría fuera de consideración, yo haría el análisis y lo examinaría.
Eric Enge: Sí, y habría SEOs tratando de manipular el curso de la luna.
Matt Cutts: Es divertido, porque si recuerdas, Webmaster World solía rastrear actualizaciones de Google Dance, y ellos tenían un chart, porque se basaba en un esquema de unos 30 días. Cuando llegaba la luna nueva la gente empezaba a esperar que Googe Dance sucediera.
En cualquier caso, el problema es que cualquier senal podría ser ruido, y debes ser muy cuidadoso al considerar la calidad de la senal.
Eric Enge: Cierto. Un ejemplo de senal ruidosa podría ser la cantidad de Gadgets instalados desde un sitio particular sobre la homepage de iGoogle
Matt Cutts: Yo ciertamente imagino a alguien tratando de hacer spam con esa senal, creando un montón de cuentas, y luego instalando un motón de sus propios Gadgets o algo así. Lamento decirte que pasar por ese análisis adverso donde dices ok, como abusará alguien esta vez sobre alguna nueva senal de la red.
Eric Enge: El bounce rate es otra cosa que ustedes podrían mirar. Por ejemplo, alguien hace una búsqueda y va a un sitio, y luego vuelve casi inmediatamente a la página de resultados de Google cliqueando sobre otro link, o haciendo una búsqueda similar. Podrían usar eso como senal potencial.
Matt Cutts: en teoría. Pienso que típicamente no confirmamos o negamos al utilizar cualquier senal en particular. Es un gran problema, porque algo que funciona muy bien en un lenguaje podría no hacerlo en otro.
Eric Enge: Así es. Uno de los problemas con el bounce rate es que la web se mueve hacia dales la respuesta ahora. Por ejemplo, si tienes un GAdget, quieres la respuesta en el Gadget. Si utilizas links de suscripción, quieres la respuesta en la suscripción. Cuando logras que alguien entre a tu sitio, tiene que haber algo que les de la respuesta que buscan inmediatamente, y pueden verla e inmediatamente salir, y consigues la relación marca/beneficio de eso.
En este caso, es realmente una senal de calidad positiva más bien que una negativa.
Matt Cutts: Cierto. Podríamos ir más allá y ayudar a la gente a encontrar su respuesta directamente de un snippet en la página de resultados de búsqueda, y así ellos no harían clic en el enlace. Hay también unos cuantos casos que se salen de las reglas, tienes que considerar en todo momento que estás pensando en una nueva forma de tratar de medir la calidad.
Eric Enge: En efecto. Qué hay de los datos de la barra y los datos de análisis de Google?
Matt Cutts: bien, prometí que mi equipo de Webspam no iría al grupo de google Analytics ni tomaría sus datos y los usaría. Calidad de búsqueda y otras partes de Google pueden usarlo, pero ciertamente mi grupo no. He hablado antes de cuántos datos de la barra Google podrían ser nadamás que ruido. Puedes ver un ejemplo de cuán ruidoso es esto instalando Alexa. Si lo haces, ves un definido sesgo hacia algunos sitios. Sé que mi sito no consigue tanto tráfico como otros, y sin embargo puede registrar alto en Alexa debido a esta desviación.
Eric Enge: Bien. El propietario de un sitio podría empezar a pedirle a la gente que instale la barra Google cuando nadie lo visita.
Matt Cutts: sí. Estás seguro de que no quieres instalar la barra Google, Alexa y por qué no también Compete y Quantcast? Estoy seguro de los Webmaster son un poco entendidos en esto, de ahí la vasta mayoría de sitios. Así, es interesante ver que usualmente hay una desviación del Webmaster o SEO, con muchas de estas herramientas basadas en el uso.
Eric Enge: Pasemos al texto oculto. Hay muchas formas legítimas en que la gente puede usarlo y, por supuesto, modos en que pueden usarlo ilegítimamente.
Me choca que mucho de este texto oculto es difícil de diferenciar. Puedes tener alguien que sólo está usando un simple escenario de CSS con display:none, y quizás están ocultando keywords, pero quizás lo hacen con cierto nivel de inteligencia, haciendolo mucho más difícil de detectar que el sitio del cual escribiste recientemente. Cómo te manejas con estas variadas formas de texto oculto?
Matt Cutts: Seguro. No sé si viste el post del blog recientmente donde alguien trató de las diferenes maneras de ocultar texto y terminaba con 14 técnicas diferentes. Era un post divertido, y se lo reenvié a alguien y dijo "Hey, ¿cuántos habiamos probamos nosotros?" Había al menos un par que no eran estrictamente texto oculto, pero aun así era un post interesante.Ciertamente hay algunos casos en que la gente hace uso abusivo o enganoso con el texto oculto y esas son las cosas que más hacen enojar a nuestros usuarios. Si el contador de tu web muestra una sola cifra, es sólo eso, un número. Probablemente, los usuarios no van a quejarse de eso a Google, pero si tienes 4.000 palabras escondidas al final de la página es claramente la clase de cosas que si el usuario descubre, sí hace que se enfaden.
De modo interesante, les molesta tanto si les resulta útil como si no. Vi que alguien hizo un post en un blog, hace poco, que tenía una queja porque tenían seis palabras de texto oculto y cómo las mostraban para la consulta "panel de acceso". En efecto, el texto ocutlo ni siquiera incluía las palabras panel de acceso, sno una variante de la frase.
Eric Enge: El post me resulta conocido.
Matt Cutts: Encontré divertido que esta persona se hubiera ofendido por seis palabras de texto oculto y se quejaba de una consulta que tenía sólo una palabra de las dos. Así ves un gran espectro donde la gente se disgusta de toneladas de texto oculto con keywords. Con tan poco como seis palabras, vemos quejas al respecto. Nuestra filosofía ha tratado de no encontrar falsos positivos, sino tratar de detectar casos como keyword stuffing, o gibberish, o stitching pages, o scrapping, especialmente usado junto con texto oculto.
Usamos una combinación de algoritmo y cosas manuales para encontrar texto oculto. Creo que Google está solo en esto de notificar a los webmaster sobre la incidencia relativamente pequena del texto oculto, porque es algo donde trataremos de enviar al webmaster un email y alertarlo en Webmaster Central. Típicamente, obtienes una penalización relativamente corta de Google, quizás 30 días por algo como eso. Pero ciertamente puede aumentar con el tiempo, si continúas dejando el texto en tu página.
Eric Enge: Bien. Así, una penalización de 30 días en este tipo de situación, significa removerlo del índice, o sólo depriorizando sus rankings?
Matt Cutts: típicamente con texto oculto, una persona normal puede verlo e instantéanmente decir que es texto oculto. Hay ciertos casos donde puedes decir que no es así, pero la vasta mayoría del tiempo es relativamente obvio. Así, por eso sería, tipicamente, una remoción por 30 días.
Luego, si el sitio remueve el texto oculto o hace un pedido de reconsideración directamente después de eso, podría ser más breve. Pero si continúa dejando el texto oculto la penalización puede ser más larga.
Tenemos que hacer un balance de lo que pensamos es mejor para nuestros usuarios. No queremos remover recursos de nuestro índice más tiempo del necesario, especialmente si es de calidad relativamente alta. Pero al mismo tiempo, queremos tener un índice limpio y proteger su relevancia.
Eric Enge: bien, nota que Accespanels.net ha removido el texto oculto y todavía están ranqueados no. 1 en Google para la consulta "acces panels".Lo chequié hace unos días, y el texto oculto había sido removido. El sitio tiene un indicador de "última actualización" al final de la página, y era de un día antes de chequearlo.
Matt cutts: Eso es, probablemente no deberíamos entrar en mucho detalle sobre ejemplos individuales, pero este caso llamó nuestra atención y sigue su camino a través del sistema.
Eric Enge: De acuerdo. Cuando se reporta spam en la web, escribir un post en un blog muy popular y llamar la atención es bastante efectivo. Pero, además las herramientas del webmaster te permiten hacer tu suscripción allí, y además muy rápido, no es así?
Matt Cutts: así es. Tratamos de ser muy cuidadosos sobre las suscripciones que conseguimos de nuestro formulario de informes. Siempre tuvimos claro que el primer y principal propósito con esto es verlo como una forma de mejorar la calidad de nuestro algoritmo. Pero es definitivamente el caso que miramos muchos de estos manualmente, asi que puedes imaginar que si tienes una queja sobre un sitio popular porque ocultan seis palabras, podríamos ciertamente chequearlo. Por ejemplo, el incidente que fue discutido hace un minuto atrás, alguien lo había cheqeuado hoy temprano y notó que el texto oculto había desaparecido.
Probablemente no nos molestaremos en poner una penalización postmortem sobre ese sitio pero, es definitivamente el caso de que tratamos de mantener una mente abierta y mirar los reportes de spam, y reporte en toda la web no sólo en grandes blogs, sino en pequenos blogs.
Tratamos de ser receptivos y adaptarnos relativamente bien. Este incidente en particular fue interesante, pero no creo que el texto involucrado afecte realmente esa consulta puesto que eran palabras diferentes.
Eric Enge: Cierto. Existen escenarios de texto oculto que son más difíciles para ustedes discenir, ya sean o no spam, versus algo como mostrar solamente parte de un sitio,digamos los términos y condiciones o las estructuras de menú dinámicas? Hay escenarios donde sea realmente difícil para ustedes, sea spam o no?
Matt Cutts: Pienso que Google maneja la gran mayoría de idiomas como menús dinámicos y cosas como esas muy bien. En casi todos estos casos, se pueden construir ejemplos interesantes de texto oculto. Como muchas técnicas,el texto oculto está sobre un espectro. La mayor parte del tiempo, puedes verlo e instantáneamente decir que es malicioso, o que es una enorme cantidad de texto, o que no fue disenado para el usuario. Típicamente centramos nuestros esfuerzos en lo que consideramos de más alta prioridad. Las páginas keyword stuffed con un montón de texto oculto definitamente obtienen más atención.
Eric Enge: Ajá.
Matt Cutts: Así, vemos muchas técnicas diferentes de spam como parte de un espectro. Y el mejor consejo que puedo dar a tus lectores es probablemente pedir a un amigo que mire tu sitio, es fácil hacer un Ctrl+A, es fácil chequear cosas con las hojas de estilo desactivadas, y para la mayoría de los idiomas más comunes, las mejores prácticas que muchos sitos hacen en vez de tratar de hacer una cosa extremadamente rara que podría ser malinterpretada incluso por una persona común como spam.
Eric Enge: suficiente. Hubo un escenario que reportamos mucho tiempo atrás, que involucraba un sitio que estaba comprando enlaces, y ninguno de estos tenía etiquetas. Había un patrón extenso de ellos, pero una cosa que notamos y pensamos era una senal potencial fue que los links estaban separados del contenido, ya fuera en la columna derecha y en la izquierdo, y el contenido principal de las páginas estaba en el centro. Los links no estaban integrados al sitio, no había etiquetas en ellos, pero eran relevantes. Es un ejemplo de senal sutil, así, debe ser un desafío pensar cuánto se puede hacer con ese tipo de senal.
Matt Cutts: Pasamos cada día, todo el día, muy ocupados buscando contenido de alta calidad y de baja calidad. Creo que nuestros ingenieros y las personas interesadas en spam de web están relativamente acostumbrados a cosas que son bien naturales y orgánicas. Es gracioso ver cómo unas pocas personas hablan de falsificar lo natural y lo orgánico.
Realmente no es tan difícil ser natural y orgánico, y a veces la creatividad que pones tratando de parecer natural podría ser mucho mejor usada desarrollando un buen recurso, una buena guía, o un gran gancho que mantega a la gente interesada. Esto atraerá por sí mismo links completamente naturales, y estos siempre serán links de más alta calidad, porque son elegidos editorialmente. Alguien realmente va a enlazarte, porque piensa que tienes un gran sitio o buen contenido.
Eric Enge: Pienso que tienes un poco del síndorme del jugador de las Vegas también. Cuando alguno descubre que tiene algo que parecer haber funcioando, quieren hacermás, y más, y más todavía, y es algo difícil de parar. Ciertamente no sabes dónde está la barrera, y hay sólo una forma de saberlo, que es ir más allá.
Matt Cutts: Espero que las directrices que dimos en la Webmaster Guidelines sean de sentido común. Creo que fue divertido que respondieramos al feedback dela comunidad y recomendáramos a esa gente que evitaran el uso excecivo de links recíprocos, por supuesto algunos de ellos ocurren naturalmente, pero la gente empezó a preocuparse y preguntarse cuál era la definición de excesivo. Me pareció divertido porque entre esas respuestas una decía "si estás usando un montón de scripts automáticos para enviar spam, eso califica como excesivo".
La gente rápida y razonablemente llegó a una clara definición de qué es excesivo y es la clase de orientación general que tratamos de dar, para que la gente pueda usar su sentido común. A veces la gente se ayuda entre ella para saber más o menos dónde están los límites, de modo que no deben preocuparse de si que estén acercándose demasiado.
Eric Enge: La última pregunta es una cuestión relativa a un link. Puedes conseguir una avalancha de links de diversas maneras. Puedes aprecer en la primera página de Digg, o puden escribir de tí en el New York Times, y de repente una lluvia de links cae sobre tu sitio. Hay patrones de ayuda mediante los cuales Google habla de análisis temporales, por ejemplo, si estás adquieriendo links a cierta velocidad, y de pronto esto se incrementa.
Esto podría ser una senal de spam. En correspondencia, si estás creciendo a un ritmo muy acelerado, y luego ese ritmo decae significativamente, eso podría ser una senal de calidad pobre. Entonces, si eres el propietario de un sitio y esto te ocurre a tí, debes preocuparte de cómo será interpretado?
Matt Cutts: Diría que el promedio de los sitios no debe preocuparse, porque del mismo modo que te pasas todo el día pensando sobre los links, páginas y qué es natural y qué no lo es, es muy común, por unas pocas cosas salir en la primera página de Digg. Sucede docenas de veces en un día; y bien puede ser una cosa única para tu sitio, pero ocurre alrededor de la web todo el tiempo. De modo que un buen motor de búsqueda necesita ser capaz de distinguir los diferentes tipos de patrones de enlaces, no sólo por su contenido real, sino de las últimas noticias y cosas parecidas.
Creo que hacemos un buen trabajo distinguiendo entre links reales y links que son quizás algo más artificiales, y vamos a continuar mejorándolo. Seguiremos trabajando para ser aun más listos en cómo procesamos los links que vemos a medida que pasa el tiempo.
Eric Enge: Puede haber un tipo muy agresivo que sabe cómo trabaja el sistema de Digg y sale en la primera página de Digg cada semana o algo así. Acabaría con un gran crecimiento de links en muy corto tiempo, y eso es lo que algunos de los expertos deberían advertirte.
Matt Cutts: Ese es un caso interesante. Pienso que, al menos en esa situación, aun tienes que tener algo suficientemente atrayente para que la gente se siga interesandode algún modo.
Eric Enge: Tú has atraído alguna audiencia.
Matt Cutts: Sí. Ya se trata de un grupo de tecnología Digg, o Reddit, creo que cosas diferentes atraen a diferentes grupos demográficos. Fue interesante en las Estrategias de Motores de búsqueda de San Jose ver a Greg Boser recoger el enfoque de la construcción del link viral. Pero pienso que un factor distintivo es que con una campana de link viral, aun tienes que seguir siendo viral. No puedes garantizar que algo será viral, asi que los links que consigas con estas campanas tienen algún componenete editorial en ellos, que es lo que buscamos.
Eric Enge: La gente tiene que responder en algún nivel o no irás a ninguna parte.
Matt Cutts: Así es. Encuentro interesante que es relativamente raro en estos días para la gente hacer una consulta y encontrase con spam completamente irrelevante. Esto, absolutamente, aun puede ocurrir, y si lo buscas lo encontrarás, pero no es un típico problema que la gente tenga a diario hoy. Con el tiempo, en spam de Web, fuimos pensando más acerca de las desviaciones y cómo ranquear cosas en su tópico apropiadamente. Igual que solíamos pensar cómo devolver las páginas más relevantes en vez de un tópico fuera de lugar.
Lo más divertido de trabajar en Google es que el desafío siempre está cambiando y llegas a trabajar y siempre hay nuevas e interesantes situaciones para afrontar. Creo que nos mantendremos tratando de mejorar la calidad de la búsqueda y la forma en que manejamos los links, y sostener la reputación, y a cambio tratamos de trabajar con los webmasters que quieren regresar el mejor contenido y tratar de hacer sitios que puedan ser exitosos.
Eric Enge: Muchísimas gracias.
Matt Cutts: Siempre es un placer hablar contigo, Eric
http://www.stonetemple.com.
Vocabulario Técnico
Un crawler
es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.
craw - delay:
Con esto le decimos a un robot que espere tantos segundos entre cada acceso
miércoles 13 de febrero de 2008
Entrevista completa a Matt Cutts de Google
Suscribirse a:
Enviar comentarios (Atom)
Archivo del blog
-
▼
2008
(8)
-
▼
febrero
(8)
- ¿Le pagan una miseria sus clics de Adsense? Soluci...
- La educación perdida en la web 2.0. Sea amable y g...
- Herramientas SEO fundamentales
- IceRocket Blog Tracker: gratis, invisible, rápido,...
- El secreto del gurú 2.0 es usar técnicas de la web...
- La espantosa verdad de Matt Callen sobre Adsense. ...
- La espantosa verdad de Matt Callen sobre Adsense (...
- Entrevista completa a Matt Cutts de Google
-
▼
febrero
(8)

0 comentarios:
Publicar un comentario en la entrada