Pastillas Rojas con Cianuro, 3ª parte: Seeks y Yacy

yacy seeks

Originalmente a esta saga la iba a llamar «Un venenito muy sutil llamado libertad«, en honor a una infame frase de María Julia Alsogaray, y también por lo que dice la versión en española de prism-break.org en cuanto a los buscadores:

«Startpage es privativo, hospedado en los Estados Unidos y Holanda, y provee resultados anonimizados de Google (incluyendo imágenes). DuckDuckGo es parcialmente privativo, hospedado en los Estados Unidos, y provee resultados anonimizados de Bing.¡Elige tu veneno!»

Como funciona un motor de búsqueda? Bastante fácil.

1) Una araña visita tu página web, entrando por el root, lee TODO el contenido y crea una lista de lo que ha encontrado.
(Si tenés configurado un robots.txt podés indicar qué araña puede mirar tal contenido y que araña no.)
2) La información es indexada según los algoritmos internos usados por el buscador
3) Esta información es llevada a una central donde se almacena.
4) Cuando alguien realiza una búsqueda, y el sistema muestra todas las webs que contienen la palabra o frase buscada.

Seeks y Yacy son motores de búsqueda también pero, además de ser alternativas libres, hacer búsquedas anónimas (via proxy), no incluir publicidad y ser menos propensos a la censura, son motores de búsqueda descentralizados. Sin embargo ambos muy distintos de enfoque.

Por un lado Yacy es un buscador descentralizado PURO, ya que tiene su propia araña P2P la cual busca entre los nodos activos y recoge el contenido. En cambio Seeks es más bien un meta-buscador (como duckduckgo) que hace búsquedas anónimas en los buscadores centralizados (Google, Bing, Yahoo, etc.) pero tiene un filtro descentralizado, cada nodo muestra los resultados que quiere mostrar.

Hablando de otras cosas y en plan comparativo surgen tres cosas:

1) Muchos achacan los malos resultados de Yacy y es porque devuelve resultados sólo de lo que recolecte el crawler y dependiendo de los nodos activos. Seeks no tiene ese problema ya que busca en los servidores centrales y luego cada nodo filtra los resultados.
2) Yacy es más fácil de instalar y configurar que Seeks (lo digo por experiencia, ya les digo como), además de que es multi plataforma.
3) La búsqueda P2P gasta banda ancha y es lenta. DuckDuckGo sale ganando frente a los dos.

Para instalar Yacy (requiere OpenJDK6): Descargar paquete fuente, descomprimirlo (no hay necesidad de compilarlo), en el directorio ejecutar sh StartYacy.sh, abrir un navegador, entrar en localhost:8090 (se puede cambiar) y ya está. También hay paquetes para Gentoo, Debian, Opensuse y Arch.

Para instalar Seeks: Instalar libevent y elegir entre descargar los paquetes para Debian, Arch, Ubuntu y Gentoo, o descargar el código fuente y compilarlo. Habilitar el plugin httpserv (para que la compu sea un nodo público más), abrir un navegador, entrar en s.s/websearch-hp y ya está.

Para incluir las búsquedas de Yacy en Seeks: Tener Yacy Corriendo, modificar un archivo y reiniciar Seeks (hay que reiniciar seeks cada vez que se toque un archivo de configuración).

También pueden probar usar los nodos públicos, tanto en yacy como en seeks. Y con esto ya está este artículo. Yo por ahora me quedo con el patito y sus poderosos bangs


Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.

  1.   matizak dijo

    Buenos proyectos, los dos. Esto de la búsqueda descentralizada tiene es muy bueno.

  2.   Alberto Aru dijo

    ¡Buen aporte! ¿cómo afecta esto a nuestra privacidad?
    Por cierto, no sé en arch, pero en manjaro no consigo instalarlo aún. (Tengo libevent instalado).

    1.    diazepan dijo

      Sólo hace búsquedas anónimas.

      1.    eliotime3000 dijo

        Aquí te dejo los !bangs

    2.    Holico dijo

      Se puede hacer un perfil completo de tu persona solo con saber lo que buscas con google, y lo hacen. Además te saltas la posible censura, aunque no es tan grande en los paises latinos. Aquí lo explica mejor duckduckgo.

      http://donttrack.us/
      http://dontbubble.us/

  3.   Mr.Linux dijo

    El tema del post es tan didáctico( no conocía dichos motores) e informativo que me animé a dar las gracias. A propósito para los que quieran indagar y saber un poco más de Yacy les dejo este link donde también lo pueden descargar.
    http://yacy.net/es/

  4.   eliotime3000 dijo

    Yo apoyo al superpato por lo genial que es.

  5.   usemoslinux dijo

    Excelente aporte! Felicitaciones!

  6.   Javier dijo

    Gracias por la información. No sabía que DuckDuckgo usaba los resultados de Bing, supongo que por eso no me parecía tan eficaz.
    Aparte de esto, ¿qué se sabe de ixquick? En su propia web anuncian que es «el más anónimo» pero no aparece en la lista de prism-break. Y me gusta su eficacia y puntería. ¿Podemos enterarnos de algo más de este servicio?
    Gracias mil por el blog. Saludos.

    1.    r3is3rsf dijo

      ixquick es practicamente lo mismo que startpage, que si aparece en la lista de prism-break, es la misma compañia, solo que startpage muestra resultados anonimizados de google e ixquick de bing,google, yahoo y otros. Ellos mismos dicen que tienen la misma palitica de privacidad.

      1.    Javier dijo

        Muchas gracias por la información. Añadido a la caja de búsquedas.

    2.    elav dijo

      Pues en estos días he venido usando Bing de forma alternativa y ¿sabes que? No me parece tan malo. Es muy rápido y además, me encanta la forma en la que muestra las imágenes. 😉

  7.   jony127 dijo

    Y que diferencia real hay entre usar duckduckgo, starpage o google si los 3 son privativos???? Hasta ahora siempre he usado por defecto google, llevo sólo unos pocos días probando duckduckgo.

    Igual me animo a dejar google por otro pero igual es más paranoia que otra cosa, no veo que tiene de perjudicial usar google aparte de la publicidad o que almacene mis búsquedas, vamos tampoco soy ningún terrorista que se dedique a buscar información «sensible» así que tampoco creo que nos tengamos que preocupar más de la cuenta por estos temas.

    1.    elav dijo

      Supuestamente la diferencia está en que Duck²Go no hace un seguimiento de tus preferencias y demás..

    2.    r3is3rsf dijo

      La diferencia entre google, yahoo, bing y duckduckgo y startpage es que aun siendo privativos estos ultimos no almacenan tus busquedas ni ip, ademas de que no crean ningun perfil de preferencia como google (que usa para dar resultados personalizados).

      Ademas que no guardan cookies en tu navegador al menos que asi se lo indiques, y las cookies de preferencia que guardan son los cambios de idioma o color que hagas al buscador, incluso startpage te permite generar una URL con las preferencias de busqueda cambiadas en caso de que no quieras guardar cookies en el navegador.

  8.   MD dijo

    Yacy siempre he estado interesado, pero no entiendo como funciona por debajo (un articulito de divulgación molaría 😉 ), por ejemplo mi primera pregunta es:
    – ¿Donde se quedan los datos extraídos de un crawler de un nodo cuando se desconecta de la red?
    – ¿Tiene algún algoritmo que prioriza esos datos para replicarlos a los otros nodos?