Forums : Xul, Xbl, JS...

Aller à la discussion :  Plus récente Plus ancienne

# Extraire le texte brut d'une page web

Envoyé par : crystalizer

Date : 31/01/2006 10:04

Comment puis-je extraire le texte brut d'une page web via une extension ? J'ai bien l'arbre DOM que je peux parser, mais existe-t-il une commande qui permet d'obtenir cette info ? J'ai essayé :

var text = content.document.toString();

mais j'obtiens :

{object XPCNativeWrapper {object HTMLDocument}}

PS : J'ai remplacé les crochets par des accolades pour éviter les crashs de firefox à l'affichage du message

# Re: Extraire le texte brut d'une page web

Envoyé par : Drazic

Date : 31/01/2006 13:18

Euh je sais pas exactement pour ton problème, mais tu peux essayer de faire ça :

var text = content.document.toString();

for (temp in text) dump(temp+'\n');

La commande dump permet d'afficher quelque chose dans la console de firefox (équivalent à alert, mais beaucoup plus pratique pour les tests de développements étant donné que firefox n'est pas bloqué tant que tu ne presse pas "ok" !).

La boucle for donc va afficher sur la console toutes les propriétés que text possède, il ne te restera plus qu'à les tester jusqu'à trouver la bonne ^^

Pour ouvrir la console, il faut déjà l'activer (tu trouvera indirectement comment faire sur ce tuto, au passage crée un profil de développement si ce n'est pas déjà fait : http://www.xulfr.org/wiki/ConfigurerMozillaPourDevelopper). Ensuite, rajoute -console à ton raccourci pour firefox.

Bonne chance :)

# Re: Extraire le texte brut d'une page web

Envoyé par : hhf

Date : 02/02/2006 19:26

ben, je sais pas pkoi tu veux faire ca, mais j'ai deux propositions à te faire 1) tu as besoin de visualisé dans un premier temps le document, et en 2e tu veux le 'lires'. dans ce cas un innerHTML devrais te donner tout le texte de la page. Astuce : pour voir l'accessibilité de ce genre de proprieté, utilise l'inspecteur DOM.

2) tu as surtout besoins de lire la page, fais un XMLHttpRequest, et lis le req.responseText.

Ceci dit a mon avis la 2e solution est la mieux, meme si tu as deja affiché la page, en utilisant la mm url pour le XmlHttpRequest, je pense que le nav utilisera le cache. à verifier.

Voilou....

Il n'est plus possible de poster des messages dans ce forum.


Copyright © 2003-2013 association xulfr, 2013-2016 Laurent Jouanneau - Informations légales.

Mozilla® est une marque déposée de la fondation Mozilla.
Mozilla.org™, Firefox™, Thunderbird™, Mozilla Suite™ et XUL™ sont des marques de la fondation Mozilla.