Skocz do zawartości
Zamknięcie Forum PC LAB

Szanowny Użytkowniku,

Informujemy, że za 30 dni tj. 30 listopada 2024 r. serwis internetowy Forum PC LAB zostanie zamknięty.

Administrator Serwisu Forum PC LAB - Ringier Axel Springer Polska sp. z o.o. z siedzibą w Warszawie: wypowiada całość usług Serwisu Forum PC LAB z zachowaniem miesięcznego okresu wypowiedzenia.

Administrator Serwisu Forum PC LAB informuje, że:

  1. Z dniem 29 listopada 2024 r. zakończy się świadczenie wszystkich usług Serwisu Forum PC LAB. Ważną przyczyną uzasadniającą wypowiedzenie jest zamknięcie Serwisu Forum PC LAB
  2. Dotychczas zamowione przez Użytkownika usługi Serwisu Forum PC LAB będą świadczone w okresie wypowiedzenia tj. do dnia 29 listopada 2024 r.
  3. Po ogłoszeniu zamknięcia Serwisu Forum od dnia 30 października 2024 r. zakładanie nowych kont w serwisie Forum PC LAB nie będzie możliwe
  4. Wraz z zamknięciem Serwisu Forum PC LAB, tj. dnia 29 listopada 2024 r. nie będzie już dostępny katalog treści Forum PC LAB. Do tego czasu Użytkownicy Forum PC LAB mają dostęp do swoich treści w zakładce "Profil", gdzie mają możliwość ich skopiowania lub archiwizowania w formie screenshotów.
  5. Administrator danych osobowych Użytkowników - Ringier Axel Springer Polska sp. z o.o. z siedzibą w Warszawie zapewnia realizację praw podmiotów danych osobowych przez cały okres świadczenia usług Serwisu Forum PC LAB. Szczegółowe informacje znajdziesz w Polityce Prywatności

Administrator informuje, iż wraz z zamknięciem Serwisu Forum PC LAB, dane osobowe Użytkowników Serwisu Forum PC LAB zostaną trwale usunięte ze względu na brak podstawy ich dalszego przetwarzania. Proces trwałego usuwania danych z kopii zapasowych może przekroczyć termin zamknięcia Forum PC LAB o kilka miesięcy. Wyjątek może stanowić przetwarzanie danych użytkownika do czasu zakończenia toczących się postepowań.

Temat został przeniesiony do archiwum

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

PwnT^

Python, proste zadanie :E

Rekomendowane odpowiedzi

Może mi ktoś pomoc? Na TI dostalem zadanie domowe.

 

Napisz program, który znajdzie i wydrukuje pierwszy link zawarty na stronie HTML. Wynik działania programu powinien wyglądać tak:

 

znaleziony link to: http://en.wikipedia.org/wiki/List_of_programming_languages

 

Strona HTML

 

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pl" lang="pl">

<head>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

<link rel="alternate" type="application/atom+xml" title="Atom 1" href="feed/atom.atom" />

</head>

<BODY>

<p>Istnieje wiele <a href="http://en.wikipedia.org/wiki/List_of_programming_languages">jezykow programowania</a> komputerow.

<p><a href="http://pl.python.org">Python</a> jest pierwszym, ktorego ucza sie Panstwo na naszym Wydziale.

Istnieja darmowe <a href="http://pl.wikibooks.org/wiki/Zanurkuj_w_Pythonie">ksiazki</a> na jego temat, mozna uczyc sie nowych rzeczy na <a href="http://pl.python.org/forum">forach dyskusyjnych</a>, istnieje tez obfita <a href="http://pl.python.org/docs/">dokumentacja techniczna</a> w jezyku polskim.

 

<p>Na kolejnych latach poznaja Panstwo jeszcze jezyki <a href="www.cplusplus.com/">C i C++</a>, jezyk programowania <a href="http://www.google.pl/url?sa=t&rct=j&q=matlab%20j%C4%99zyk&source=web&cd=5&cad=rja&ved=0CEAQFjAE&url=http%3A%2F%2Fwww.ont.com.pl%2Fmatlab.php&ei=DPB-UM3bEcnctAa444GYCw&usg=AFQjCNFYOEk7q6ebBMH3rLfS2jbwQGbwfQ">MATLAB</a>, <a href="http://pl.wikipedia.org/wiki/Asembler">assemblery</a> roznych procesorow, a zapewne takze SQL (http://www.labsql.pl/co_to_jest_sql.html), i inne.

 

</BODY>

</HTML>

 

 

Zrobiłem coś takiego, niestety nie dziala, wynikiem tego jest:

 

znaleziony link to: lns="http://www.w3.org/1999/xhtml" xml:lang="pl" lang="pl

 

 

strona = '''<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pl" lang="pl">

<head>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

<link rel="alternate" type="application/atom+xml" title="Atom 1" href="feed/atom.atom" />

</head>

<BODY>

<p>Istnieje wiele <a href="http://en.wikipedia.org/wiki/List_of_programming_languages">jezykow programowania</a> komputerow.

<p><a href="http://pl.python.org">Python</a> jest pierwszym, ktorego ucza sie Panstwo na naszym Wydziale.

Istnieja darmowe <a href="http://pl.wikibooks.org/wiki/Zanurkuj_w_Pythonie">ksiazki</a> na jego temat, mozna uczyc sie nowych rzeczy na <a href="http://pl.python.org/forum">forach dyskusyjnych</a>, istnieje tez obfita <a href="http://pl.python.org/docs/">dokumentacja techniczna</a> w jezyku polskim.

 

<p>Na kolejnych latach poznaja Panstwo jeszcze jezyki <a href="www.cplusplus.com/">C i C++</a>, jezyk programowania <a href="http://www.google.pl/url?sa=t&rct=j&q=matlab%20j%C4%99zyk&source=web&cd=5&cad=rja&ved=0CEAQFjAE&url=http%3A%2F%2Fwww.ont.com.pl%2Fmatlab.php&ei=DPB-UM3bEcnctAa444GYCw&usg=AFQjCNFYOEk7q6ebBMH3rLfS2jbwQGbwfQ">MATLAB</a>, <a href="http://pl.wikipedia.org/wiki/Asembler">assemblery</a> roznych procesorow, a zapewne takze SQL (http://www.labsql.pl/co_to_jest_sql.html), i inne.

 

</BODY>

</HTML>'''

 

# czesc 1:

początek = strona.find( ' <a href=" ')

początek = początek + 9

koniec = strona.find('">', początek)

Link = strona[ początek : koniec ]

print("znaleziony link to:", Link)

 

# czesc 2:

def znajdz_Link(strona):

początek = strona.find( ' <a href=" ')

początek = początek + 9

koniec = strona.find('">', początek)

Link = strona[ początek : koniec ]

return Link

print("znaleziony link to:", znajdz_Link(strona) )

 

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

to na początek sprawdź co znajduje dla samego 'href'

 

a, co ja p*****, masz: strona.find( ' <a href=" ')

innymi słowy python szuka DOKŁADNIE 'spacja<a href="spacja', nie znajduje, więc początek = -1, +9 daje 8, czyli niemal dokładnie na środku xmlns

 

nie znajdzie jeśli jest: a class="", a rel="", a target="", a id="", itd.

 

re.compile odpowiedzią na wszystkie problemy

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

nie znajdzie jeśli jest: a class="", a rel="", a target="", a id="", itd.

Albo zwykłą podwójna spacja miedzy atrybutami :P

 

re.compile odpowiedzią na wszystkie problemy

Zależy jak ambitnie sobie postawimy problem, bo np. omijanie linków w HTML-owych komentarzach + jakieś inne haki to już spore wyzwanie.

 

Tak ogólnie (nie koniecznie do szkoły) do parsowania HTML-a w pythonie polecam bibliotekę "Beautiful Soup".

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

  • Ostatnio przeglądający   0 użytkowników

    Brak zarejestrowanych użytkowników przeglądających tę stronę.

×
×
  • Dodaj nową pozycję...