Vor einigen Tagen haben wir auf YiGG den Weltspion eingeführt. Die Arbeit daran hat uns allen viel Spaß bereitet, da neben dem PHP-Teil auch eine JAVA-Anwendung geschrieben werden musste, die in regelmäßigen Abständen RSS-Feeds nach neuen Einträgen abgrast.
Nebenher mussten tausende RSS-Feeds kategorisiert werden. Das ganze Team war eine schöne Zeit beschäftigt.
Herausgekommen ist eine Anwendung, die live Anzeigt was gerade in der Welt passiert.
Das Kapital einer solchen Anwendung sind natürlich die RSS-Feeds, die abgeklappert werden. Da mein persönlicher virtueller Dunstkreis doch recht klein ist, habe ich nach einer automatisierten Lösung dafür gesucht neue RSS-Feeds zu finden und bin dabei auf YaCy, eine P2P Suchmaschine gestoßen.
YaCy Demonstration 2007 von Michael Christen auf Vimeo.
Seit etwa einer Woche benutze ich YaCy und mein MacBook grast sich langsam aber sicher durchs Internet. Nach dem Starten des Java-Crawlers kann man auf einer Webseite das geschehen beobachten.Das ganze sieht dann so aus:
Das lustige und tolle daran, diese Grafiken werden Live von YaCy erstellt und man kann sie überall einbinden.
Ein weiteres gelungenes Feature ist die Internet-Visualisierung, die aus dem eigenen Index Bilder von der Linkstruktur belibieger Webseiten bauen kann.
Bemerkenswert ist, das YaCy verhältnismäßig wenig Traffic erzeugt und nicht besonders CPU-hungrig ist.
Mein persönliches Fazit: Ich kann mir schön RSS-Feeds aus dem Index ziehen und YaCy darf dafür schön weiterwerkeln. Neben allen Vorteilen gibt es natürlich noch die völlig unzensierte verteilte Suche. Wer es ausprobieren möchte, den lade ich ein sich bei Web 2.0 Dudes YaCy-Suche umzusehen.
Cool! Die Linkstruktur sieht man aber nur mit dem Admin-Account auf deinem Peer, daher sieht das sonst niemend.
YiGG ist aber gut gelungen!
du kannst übrigens auch YaCy-Suchergebnisse als rss ausgeben, dazu einfach die html-Endung der Ergebnisseite nach rss umbenennen, wie:
http://web2.0du.de:8080/yacysearch.rss?verify=false&resource=local&query=yigg
Ich bin wirklich restlos begeistert von YaCy. Vielen herzlichen Dank auf jeden Fall nochmal an euch Jungs Michael! Das Bild habe ich einfach mal Statisch hochgeladen.
Nett wäre MySQL-Support, gibt es Pläne den zu implementieren und wenn nein, wie schwer schätzt du das ganze ein? Würde evtl. mal selber Hand anlegen wollen?
vielen Dank,
nun das Dritte direkt nutzbare YaCy WebFrontend.
Haben wir sofort in
http://www.2wid.net/Internet/Suche/Suchmaschinen/Suchmaschinen-Liste/P2P-Suchmaschinen/kt2286.php
aufgenommen.
Für 2WiD sind unter web2.0du.de:8080 bereits recht gute Ergebnisse zu sehen.
Vielen Dank. Natürlich lassen sich ähnliche Ergebnisse auch bei den anderen Teilnehmern im YaCy-Netzwerk erzielen.
Ich habe als Einstiegspunkt für die Crawls unter anderem YiGG mit der Suchtiefe 4 verwendet. Sicher war 2Wid dort dabei.
Ja, wir sind öfter mal bei yigg dabei. Dann wird’s daran liegen.
Sind hier noch weitere öffentliche YaCy Web-Frontends bekannt ?
http://www.lilirasa.com/
http://yacy.dyndns.org:8000/
Quelle: http://web2.0du.de:8080/supporter.html
Robert: was meinst du mit mySQL-Support?
Wir haben als backend keine sql-db, u.a. weil das einerseits die Mitmach-Schwelle höher legt, und andererseits eine relationale DB nicht unbedingt die optimale Datenstruktur für den Index liefert.
@Michael Im Grunde wäre es halt cool eine vollwertige API zu haben um spannende Sachen mit YaCy basteln zu können, vielleicht fangen wir lieber so rum an 😉
Das MySQL für so etwas seine Tücken hat, das glaube ich Dir natürlich ungesehen. Wenn die einzelne Tabelle erstmal ein paar Gigabyte groß wird kann es ungemütlich werden. Vielleicht könnte man statt dessen einfach SOAP, REST oder XML-RPC einbauen.
API: das Thema will ich auch vertiefen. Momentan sieht das so aus:
Daten-Output: Opensearch, das ist da (der RSS Output)
Daten-Input: hier haben wir leider noch keine richtige API, vom Crawl start mal abgesehen. Wenn man explizit ohne Crawler Daten reinschieben will, so muss man auch ein Repository definieren. Das ist auf dem Weg. Beim Protokoll möchte ich mich an Solr orientieren. Das wäre dann XML über REST.
Hört sich gut an. Wenn ich mit Manpower aushelfen kann, sag gerne bescheid. Wäre mal cool Eclipse für etwas anderes als PHP5, Symfony und Doctrine zu benutzen.
Eine YaCy-Api wünsche ich mir ziemlich, die könnte zB man sicher auch gewinnbringend bei YiGG einsetzen.
Danke für die Liste der offenen Web-Frontends. Ist ja eine ganze Menge:
http://www.2wid.net/Internet/Suche/Suchmaschinen/Suchmaschinen-Liste/P2P-Suchmaschinen/YaCy/Liste-von-YaCy-Web-Frontends/kt7907.php
Mal sehen, wann sich Google, Yahoo und Co. sorgen machen werden.
Ich habe jetzt schon ein gutes Gefühl bei YaCy, also ich Suche persönlich schon fast genauso Häufig mit YaCy als mit Google. Das liegt aber evtl einfach nur daran, dass ich selber bestimmen kann, wie mein Index ausgerichtet ist und in welchem Umkreis die Seiten liegen sollen.
Pingback: Tracking in YaCy einbauen | Web 2.0 Dude