Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feature Request] Monitoria mais limpa/assertiva #19

Open
rafaelribeiroo opened this issue Dec 4, 2023 · 1 comment
Open

[Feature Request] Monitoria mais limpa/assertiva #19

rafaelribeiroo opened this issue Dec 4, 2023 · 1 comment
Assignees
Labels
enhancement New feature or request

Comments

@rafaelribeiroo
Copy link

Boa noite @carmolim, obrigado mais uma vez pelo excelente projeto.

Recentemente, tive uma ideia para mantermos a monitoria e, consequentemente as notificações, mais assertivas, visto que atualmente o programa pega os anúncios impulsionados que não são originários/oriundos do termo de busca monitorado. Poderia por gentileza remove-los do scraper? Atualmente eu tenho uma solução paliativa mas não estou muito satisfeito.

Geralmente são identificados pela tag a seguir
<span data-ds-component="DS-Badge" role="status" class="olx-badge olx-badge--info" aria-label="Impulsionado" style="color: var(--color-neutral-70); background-color: var(--color-primary-100);">IMPULSIONADO</span>

E costuma aparecer itens que não são exclusivamente os anúncios desejados.

@carmolim carmolim added the enhancement New feature or request label Dec 6, 2023
@carmolim
Copy link
Owner

carmolim commented Dec 6, 2023

Fala @rafaelribeiroo!

Desde a PR #8 as informações dos anúncios estão vindos de um json que fica em cada página, fica bem mais fácil de puxar as informações do json que extrair do HTML, o OLX já mudou algumas vezes a estrutura dos anúncios o script parava de funcionar.

Estava fazendo uns testes agora usando esse link para fazer a busca: https://www.olx.com.br/moveis/estado-sp?q=sof%C3%A1 e aparentemente as vezes o json trazia infomações que não tinham nada a ver com os resultados exibidos, olha esse exemplo:

Esses são os primeiros 4 resultados
image

Mas no JSON estão aparecendo anúncios que não tem relação alguma com a buscar e não o aparecem na página. No json a ordem é a seguinte:

  1. ✅ Sofá retrátil em estado impecável, pouquíssimo uso.
  2. ✅ Sofá Cama
  3. 🛑 Lava e seca Samsung 8,5kg 127v novíssima com garantia
  4. 🛑 Lixeiras De Rua Calçada Prime Branco/Preto
  5. 🛑 Entregamos hoje!! Cama Box Conjugada Preço promocional Aproveite!!
  6. 🛑 Mesa Com Tampo + Cavaletes Em Mdf Na Cor Verde (pintados)
  7. 🛑 Entregamos hoje!! Cama Box Conjugada Preço promocional Aproveite!!
  8. 🛑 churrasqueira para espetinhos
  9. 🛑 Purificador de água Lorenzetti Gioviale água natural
    Rack
  10. ✅ Sofa cinza grande retratil 4 lugares
  11. 🛑 Pontaletes
    ...

Em um outro teste na mesma url parece que voltou tudo ao normal, não sei se teve algum bug na hora que estava testando, mas não consegui mais reproduzir essa divergência, vou ter que fazer mais testes, talvez isso também esteja acontecendo no seu caso. Você consegue compartilhar algum exemplo?

Lendo o json vi que tem uma propriedade isFeatured: true nos anúnicos Impulsionados e nos Destacados, mas nos casos que vi eles faziam sentido com a busca que estava sendo realizada, por faz sentido manter, até por que essa é uma das formas do OLX ganhar dinheiro, mas se de fato estiver vindo informações que não fazem sentido talvez seja necessário voltar puxar os dados direto do HTML mesmo.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants