Pages

samedi 27 novembre 2010

Problème script


Il se passe quelque chose de très étrange avec mon script. Beaucoup de pages ne sont pas aspirées en revanche toute la colonne DUMP est complète mais ... les pages dumpées ne correspondent pas à la page en question. Comme si l'ordinateur elles étaient lues de manière aléatoire!!!


mercredi 24 novembre 2010

Voici le tableau obtenu:


Tablo 5 Colonnes

Nous avons réussi à modifier notre script afin d'obtenir un tableau à 5 colonnes.
Cependant un nombre important de pages ne sont pas aspirées à cause d'un problème d'encodage.
Nous travaillons actuellement sur le script afin de convertir l'encodage d'origine des pages en utf -8.

lundi 15 novembre 2010

Tableaux wget


On a bien avancé dans notre projet, en passant à une variante de script qui contient la commande wget, commande qui nous permet d’aspirer les pages web et les stocker dans des fichiers locaux.

Notre script se présente sous la forme suivante:


Le résultat obtenu se présente, alors sous la forme:


Même si on a obtenu un bel tableau, il nous reste des problèmes à résoudre. A titre d’exemple, on ne sait pas comment faire pour créer une arborescence complète dans le dossier Pages Aspirées, qui contiendra le dossier langue « Français » et après les sous-dossiers Sens1, Sens2, etc. Pour l’instant on a réussi de créer juste les sous-dossiers Sens1, Sens2 etc.

Un 2eme problème reste le chemin vers les dossiers qui apparait complet à l’intérieur du tableau «./URLS/Anglais ».On a essaye la commande basename $fic suivi de cut –d\.-f2, mais ca ne marche pas.

Un 3eme problème est lié au fait que dans les sous-dossiers crées en Pages-Aspirées, j’ai toujours les pages aspirées numéro 2, 3, 4..., mais je n’ai pas la première page aspirée dans chaque sous-dossier-voilà un aperçu de ce que j’ai obtenu:


De même, les pages sont aspirées mais, quand on ouvre la plupart d’entre eux (les pages de Wikipedia, wikisource), on s’aperçoit qu’on ne peut pas y accéder.

En essayant de résoudre ces problèmes-là, on passe aussi à une autre étape, le script modifié avec la commande lynx.

Pour tout commentaire ou indication qui pourrait nous être utile, nous serons reconnaissantes.


mardi 2 novembre 2010

Les tableaux


La dernière séance du cours Projet encadré a été consacré à la création des tableaux des liens dans un editeur de texte (Notepad ++ dans mon cas) en langage HTML et à l’execution sous Cygwin. Grand défi, car le langage html parait simple à première vue, mais en réalité c’est très facile de se perdre dans ses méandres.

Après plusieurs essai, j’avais toujours un problème qui m’apparait lorsque j’executais le script :syntax error near unexpected token `$'in\r''. Cependant, j’ai trouvé la solution en cherchant sur internet, mais de toute façon je me suis rendu compte en feuilletant les cours que les profs nous ont déjà parlé de cette conversion.
Bon, pas de problèmes, parfois le chemin plus long nous permet de comprendre mieux les détails. Donc, j’ai découvert que cette erreur vient d’une incompatibilité, une différence d'encodage des caractères entre Unix/Linux et Windows, notamment sur les caractères de retour à la ligne. Il fallait passer le script du format Windows au format Unix avec la commande : dos2unix tableau.sh et après relancer le script : ./tableau.sh ou sh tableau.sh

Une fois ce problème resolu, j’ai pu passer à des choses plus sérieuses, comme le script qu’on était censé de modifier pour avoir deux colonnes, une avec une numérotation automatique et l’autre avec les liens activés.
J’ai construit le script à partir du modèle qu’on a téléchargé en cours, en introduisant une incrementation qui nous permet de compter et numéroter les lignes et en personnalisant un peu en couleurs de bordures afin de donner un peu de vie à nos tableaux. Toutefois, j’ai ajouté les liens des urls par la commande:
echo "$nom" >> $tablo;






Après avoir executé tout ça sous Cygwin, voilà un petit aperçu du résultat :






Evrika! On pourrait dire, mais cette etape n’est pas finie, car on doit retrouver une solution pour automatiser la tache, afin de ne pas executer le script pour chaque fichier d’ urls. Ici, on reflechit comment introduire une variable ou plusieurs si nécessaire, comment construire une boucle for qui nous permettra de rentrer plusieurs fichiers d’urls.
Allez équipe !

A suivre..