Mots et nuages...: 11/15/10

On a bien avancé dans notre projet, en passant à une variante de script qui contient la commande wget, commande qui nous permet d’aspirer les pages web et les stocker dans des fichiers locaux.

Notre script se présente sous la forme suivante:

Le résultat obtenu se présente, alors sous la forme:

Même si on a obtenu un bel tableau, il nous reste des problèmes à résoudre. A titre d’exemple, on ne sait pas comment faire pour créer une arborescence complète dans le dossier Pages Aspirées, qui contiendra le dossier langue « Français » et après les sous-dossiers Sens1, Sens2, etc. Pour l’instant on a réussi de créer juste les sous-dossiers Sens1, Sens2 etc.

Un 2eme problème reste le chemin vers les dossiers qui apparait complet à l’intérieur du tableau «./URLS/Anglais ».On a essaye la commande basename $fic suivi de cut –d\.-f2, mais ca ne marche pas.

Un 3eme problème est lié au fait que dans les sous-dossiers crées en Pages-Aspirées, j’ai toujours les pages aspirées numéro 2, 3, 4..., mais je n’ai pas la première page aspirée dans chaque sous-dossier-voilà un aperçu de ce que j’ai obtenu:

De même, les pages sont aspirées mais, quand on ouvre la plupart d’entre eux (les pages de Wikipedia, wikisource), on s’aperçoit qu’on ne peut pas y accéder.

En essayant de résoudre ces problèmes-là, on passe aussi à une autre étape, le script modifié avec la commande lynx.

Pour tout commentaire ou indication qui pourrait nous être utile, nous serons reconnaissantes.

Mots et nuages...

Pages

lundi 15 novembre 2010

Tableaux wget