• 27.04.2024, 10:00
  • Registrieren
  • Anmelden
  • Sie sind nicht angemeldet.

 

Lieber Besucher, herzlich willkommen bei: Aqua Computer Forum. Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert. Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können. Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang. Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.

reguläre aus... | jetzt: python, urllib und äöüß

Mittwoch, 3. September 2008, 04:16

... irgendwie wollen die nie so wie ich will, also folgendes:

Quellcode

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<tr valign="middle">
      <td><span class="time">02.09.2008 22:43</span></td>
      <td>
            <a href="javascript:record('1:0:1:6dca:44d:1:c00000:0:0:0:','1220388180','120','Das Wetter im Ersten','Das Erste')">
                  <img src="timer.gif" border="0">
            </a>
      </td>
      <td class="genre00"> 
            <span class="event">Das Wetter im Ersten</span>
            <br>Genre: n/a<br>
            <span class="description"></span>
      </td>
</tr>

das wiederholt sich dann ganz oft, halt für alle sendungen....


daraus will ich nu für jede sendung das haben:
02.09.2008 22:43
Das Wetter im Ersten
und das was zwischen <span class="description"></span> steht wenn da was steht ^^

also, wer hat mal ne elegante lösung dafür? irgendwie is das bei mir immer nen mega konstrukt, obwohl es eigentlich auch relativ einfach gehen müsste....

Re: reguläre ausdrücke....

Mittwoch, 3. September 2008, 08:17

In der Annahme, dass du das bestimmt mit Python machst, willst du zum Scrapen von Websites BeautifulSoup, vielleicht html5lib, wahrscheinlich aber das ultraschnelle lxml.

Re: reguläre ausdrücke....

Mittwoch, 3. September 2008, 19:48

http://blog.gotbrain.de/archives/182-Hey…-sagt-a-z!.html

und

http://blog.gotbrain.de/archives/145-a-z0-9-21g.html

(bzw. die darin verlinkten Artikel) waren für mich gute Hilfen :)
Gute work-live-balance ist, wenn man von seinem Privatleben erschöpfter ist als von der Arbeit.

Re: reguläre ausdrücke....

Mittwoch, 3. September 2008, 20:42

Da kann ich dann auch ein Tool empfehlen: Kodos

Re: reguläre ausdrücke....

Donnerstag, 4. September 2008, 23:34

naja, ich habs dann irgendwie hingefummelt, ist zwar nicht schön geworden, aber erfüllt seinen zweck ;D

so, und weiter gehts:
das hier is daraus geworden: http://fuey.dyndns.org/index.py
wie man unschwer erkennt funktionieren die äöüß nicht, hängt mit urllib beim daten einlesen zusammen, kann man das irgendwie fixen? unicode scheint urllib ja nicht zu unterstützen, gibts nen anderen trick es dazu zu bringen die buchstaben richtig zu erkennen?

Re: reguläre aus... &#124; jetzt: python, urllib u

Freitag, 5. September 2008, 00:27

Öhm ich würde sagen Du musst dem Browser einfach mal nen Tipp geben dass er UTF-8 anzeigen soll  ;)
z.B. so:

Quellcode

1
 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />


Wenn man den Browser dazu zwingt (Firefox: Ansicht->Zeichenkodierung) gehts nämlich. Ein Doctype für das HTML könnte übrigens auch nicht schaden  ;)
C programmers never die. They are just cast into void. Neues moddingtech.de Portal online!

Re: reguläre aus... &#124; jetzt: python, urllib u

Freitag, 5. September 2008, 00:41

hm, stimmt, seltsame sache, denn ich habe in meiner python datei zum einlesen auch utf8 als coding angegeben, wenn ich da aber die daten mit print ausgebe siehts genauso aus wie vorher auf der website.
naja, muss man nicht verstehen, so gehts auf jeden fall, thx ;D

Re: reguläre aus... &#124; jetzt: python, urllib u

Freitag, 5. September 2008, 12:41

Unter Windows vermutlich? Die Kommandozeile zumindest bei XP taugt in Punkto Zeichenunterstützung nämlich eher nur begrenzt.


Zitat

das hier is daraus geworden: http://fuey.dyndns.org/index.py[/quote]
Ich bekomme da nur einen dicken Traceback. mod_python ist übrigens teh suxxorz :)

Re: reguläre aus... &#124; jetzt: python, urllib u

Freitag, 5. September 2008, 13:20

teh suxx0rz is eher das irgendwo nen bug in apache2 oder mysql is.... gibt zwar schlimmeres da das atm ja nur lokal bei mir is, aber muss natürlich net sein... nachdem ich beides neu gestartet habe gehts wieder ::)

zu mod python: naja, erfüllt halt seinen zweck ;)
die nächste web sprache die ich mir mal angucken wollte is http://haxe.org neko, sieht eigentlich ganz interessant aus

Re: reguläre aus... &#124; jetzt: python, urllib u

Freitag, 5. September 2008, 16:09

Wenn du unbedingt mod_python als Kontext nutzen willst (CGI reicht ja manchmal auch, ansonsten empfiehlt sich einfach mod_wsgi), dann empfehle ich einen WSGI-Wrapper wie das großartige Werkzeug. Damit hast du eine vernünftige, einheitliche API, gegen die du Web-Apps schreiben kannst, und durch die WSGI-Abstraktion kannst du sie beliebig per mod_python, mod_wsgi, CGI, FastCGI, SCGI oder einem separaten Server (wsgiref [Stdlib], Twisted, Paste, ...) deployen. *Das* gilt heutzutage als einzig vernünftige Art, Web-Apps mit Python zu entwickeln ;) Gibt's in Form von "Rack" übrigens auch für Ruby und wird von Frameworks wie Merb unterstützt.