DepSpid (beendet)
Das Projekt verfolgte zwei Ziele:
- Aufbau einer Datenbank, welche die Abhängigkeiten zwischen einzelnen Websites und Gruppen von Websites beinhaltet
- Sammeln von statistischen Daten über die Struktur des Internets
Das Projekt wurde 2008 beendet, weil technische Schwierigkeiten den Betrieb immer komplizierter machten.
Inhalt
Phasen von DepSpid
Jeder DepSpid Task lief in zwei Phasen.
Netzwerkphase (Phase 1)
Während der nicht-CPU-intensiven Phase, scannte der DepSpid eine Reihe von Web Pages und speicherte das Resultat in eine temporäre Datenbank für die weitere Verarbeitung in Phase 2.
Eine DepSpid Phase bestand aus mehreren Jobs. Die exakte Anzahl von Jobs per Task variierte für gewöhnlich zwischen 10 und 50. Ein Job war normalerweise eine Domain, Subdomain oder ein Verzeichnis unter einer Domain. In Phase 1 lief der DepSpid zyklisch durch die Jobs einer Task, um die Last des ausgewählten Servers gering zu halten.
Jeder Job, der gestartet wurde, lud die Hauptseite der Domain/Subdomain und die dazugehörige robots.txt (wenn verfügbar). Die geladene Seite wurde auf Links und andere Inhalte gescannt. Jeder gefundene Link wurde durch einen HTTP HEAD Request validiert. Die Abhängigkeit zwischen der Seite und ihren Links wurde in einer temporären Datenbank gespeichert. DepSpid folgte jedem Link der zu der Domain gehört wo DepSpid gestartet wurde und behandelte jede Seite wie die Hauptseite, es sei denn sie war durch die robots.txt ausgeschlossen. Links, die die Original Domain verlassen, wurden als ein externer Link markiert und nicht weiter durch den aktuellen Job verfolgt.
Ein Job endete, wenn keine Links mehr zu finden war, oder wenn das vorher definierte Limit erreicht wurde. Das aktuelle Limit war der Level (die Tiefe), die Anzahl der besuchten Links und die Menge der übertragenen Bytes.
Die Phase 1 war nicht-CPU-intensiv konnte aber die Bandbreite der Internetverbindung beeinträchtigen. Wenn die Internetverbindung offline war, wurde die Netzwerkphase ausgesetzt, bis die Verbindung wieder stand. Normalerweise dauerte die Netzwerkphase einige Sekunden oder Minuten für jeden Job, konnte aber auch einige Stunden oder Tage dauern je nach der Geschwindigkeit der Netzwerkverbindung und der Antwortzeit der besuchten Server.
Rechen Phase (Phase 2)
Diese Phase benötigte keine Internetverbindung aber mehr CPU Zeit. Da BOINC das Umschalten zwischen nicht-CPU-intensiven Phasen und normalen Verarbeitungsphasen unterstützt, wurde diese Phase durchgeführt, als wäre es eine nicht-CPU-intensive Phase. Das bedeutete, dass diese Phase permanent liefen und nicht wie andere BOINC Projekt umschaltete.
Phase 2 berechnete aus den Daten der Phase 1 die Abhängigkeiten zwischen allen Seiten.
Nachdem alle Abhängigkeiten berechnet wurden, wurden die Abhängigkeiten zu externen Seiten, die einem definierten Schwellwert entsprachen, dem Projekt-Server gemeldet und in die Hauptdatenbank eingefügt.
Projektübersicht
![]() | |
---|---|
Name | DepSpid |
Kategorie | Internet |
Ziel | Sammeln von statistischen Daten im Internet |
Kommerziell | nein |
Homepage | www.depspid.net |
Dieses Projekt wird in Deutschland durchgeführt. |
Projektstatus
Statistiken
Wo | Übersicht | Top Teams | Top User |
---|---|---|---|
Projekt Home Page | Top Teams | Top User | |
BOINCstats.com | Übersicht | Top Teams | Top User |
stats.free-dc.org | Übersicht | Top Teams | Top User |
allprojectstats.com: Der Service wurde eingestellt. |
Clientprogramm
Betriebssysteme
Windows | ||
Linux | ||
DOS |
|
|
BSD | ||
Solaris | ||
Java (betriebssystemunabhängig) |
Konfiguration
DepSpid (beendet) benutzt die BOINC-Infrastruktur. Die Anmeldung, Installation und Konfiguration sind auf der allgemeinen BOINC-Seite beschrieben.
Veröffentlichte Versionen
- 27.04.2008: 5.28
- 16.03.2008: 5.27
- 06.09.2007: 5.17
- 12.08.2007: 5.13
- 09.08.2007: 5.12
- 01.07.2007: 5.10
- 26.05.2007: 5.08
- 17.12.2006: 5.07
- 09.12.2006: 5.04
- 07.12.2006: 5.03
- 29.10.2006: 5.02
- 22.10.2006: 5.01
- 21.07.2006: 5.00
Meldungen
RSS-Feed
Der RSS-Feed von http://depspid.bjoernhenke.de/rss.xml|title=none|max=10 konnte nicht geladen werden: Während der HTTP-Anfrage ist ein Fehler aufgetreten: 404 Not Found