Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Petite info #1

Open
Protocteur opened this issue Sep 10, 2016 · 2 comments
Open

Petite info #1

Protocteur opened this issue Sep 10, 2016 · 2 comments

Comments

@Protocteur
Copy link

Protocteur commented Sep 10, 2016

Salut c'est vincent de WMB
Du coup t'a utilisé strip_tags au lieu de DomDocument comme je l'avais suggéré et c'est une très bonne idée (en fait j'avais en tête un crawler sémantique avec un scoring en fonction des tags qui encapsule les mots/expressions ces derniers temps, d'où l'idée du DomDoc et de l'exo :p)

Mais bref, le code de la branche noframework est ok pour moi. Le seul truc qui me dérange c'est la boucle for pour parser les mots.

de mon côté j'aurai eu tendance a utiliser preg_split qui t'évite de faire des micro manip pour parser les mots. y'a aussi explode qui peu être utile mais dans le cas d'une page web bourré de ponctuation le preg_split me parai plus approprié.

@JavaProcessingOctopus
Copy link
Owner

D'accord, je comprends mieux pourquoi tu suggérais DomDoc.
Ça a tout de suite plus de sens si tu parlais d'éléments plutôt que de mots.

Pour ce qui est de la boucle for et de preg_split, j'ai vu que preg_split renvoyais un tableau numérique avec les valeurs.
De ce que j'ai compris j'aurais dû compte les mots dans ce cas aussi.
J'ai raté une subtilité de preg_split ?

Je pense passer sur la branche symfony demain, je repasserais sur les différentes fonctions plus tard. Entre autre il y a un caractère qui est interprété comme un mot qui me dérange.

Merci pour cette réponse rapide.

@Protocteur
Copy link
Author

pour ton exo c'est bien les mots qui sont important, c'est juste que l'app que j'ai en tête nécessite de scorer les mots en partie en fonction des balises (genre filer un meilleur score si les mots sont dans un h1) etc ..

sinon pour le preg_split c'est bien ça, c'est surtout de mon point de vue avantageux pour obtenir tout de suite la liste des mots.

après suffit d'exploiter ça : http://php.net/manual/fr/function.array-count-values.php

et hop le taff est fait :p

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants