Jump to content

Please help, trying to parse TV-listing site


cordoprod

Recommended Posts

Hello,

I am building an iPhone app and therefore I need to parse the data from a webpage.

 

The site I need to parse is this:

http://www.nrk.no/tv/

 

Some of the HTML is like this:

        <div class="program-content">
        <div class="wraparound">
            <div class="col">
				<h2>NRK1</h2>
				<ul class="channel_nrk1">

<li>
  <em>06:30</em>
  <strong>Morgennytt</strong>
  <div>
    <p>Nyheter og aktualiteter fra NRKs nyhetsredaksjon.<span><a href="http://www.nrk.no/programmer/sider/morgennytt/" title="Gå til hjemmesiden til Morgennytt">Hjemmeside</a><a class="ical" href="http://nrk.no/tvepg/iCal.aspx?from=20100106T053000Z&to=20100106T090000Z&channel=NRK1&program=Morgennytt&desc=Nyheter og aktualiteter fra NRKs nyhetsredaksjon." title="Få påmindelse i kalender."><img src="http://fil.nrk.no/gull/programoversikt/img/ics.GIF" alt="Få påmindelse i kalender." /></a></span></p>
  </div>
</li>
<li>
  <em>10:00</em>
  <strong>NRK nyheter</strong>
  <div>
    <p>Siste nytt fra nyhetsredaksjonen.<span><a href="http://www.nrk.no/programmer/sider/nrk_nyheter/" title="Gå til hjemmesiden til NRK Nyheter">Hjemmeside</a><a class="ical" href="http://nrk.no/tvepg/iCal.aspx?from=20100106T090000Z&to=20100106T090400Z&channel=NRK1&program=NRK nyheter&desc=Siste nytt fra nyhetsredaksjonen." title="Få påmindelse i kalender."><img src="http://fil.nrk.no/gull/programoversikt/img/ics.GIF" alt="Få påmindelse i kalender." /></a></span></p>
  </div>
</li>
<li>
  <em>10:05</em>
  <strong>Aktuelt</strong>
  <div>
    <p>Direkte fra studio om politikk, kultur og samfunnsliv.<span><a href="mailto://[email protected]" title="Send e-post til Aktuelt">E-post</a><a href="http://www.nrk.no/programmer/sider/aktuelt/" title="Gå til hjemmesiden til Aktuelt">Hjemmeside</a><a class="ical" href="http://nrk.no/tvepg/iCal.aspx?from=20100106T090500Z&to=20100106T094900Z&channel=NRK1&program=Aktuelt&desc=AKTUELT. &#xD;&#xA;Nytt magasinprogram med Anne Lindmo og Erik Wold.&#xD;&#xA;Kultur og politikk. &#xD;&#xA;Samtaler og deba..." title="Få påmindelse i kalender."><img src="http://fil.nrk.no/gull/programoversikt/img/ics.GIF" alt="Få påmindelse i kalender." /></a></span></p>
  </div>
</li>
<li>
  <em>10:50</em>
  <strong>Ut i naturen: Naturfilosofen</strong>
  <div>
    <p>Kan den vesle bekken bakom huset heime vere vegen til det store i naturen? Per Ingvar Haukeland stiller seg mange uvanlege spørsmål om natur. Vi følgjer tankane til naturfilosofen langs bekken under Bryggefjell.<span><a href="mailto://[email protected]" title="Send e-post til Ut i naturen">E-post</a><a href="http://www.nrk.no/programmer/sider/ut_i_naturen/" title="Gå til hjemmesiden til Ut i naturen">Hjemmeside</a><a href="http://podkast.nrk.no/program/ut_i_naturen.rss" title="Poddkastadresse">Podkast</a><a class="ical" href="http://nrk.no/tvepg/iCal.aspx?from=20100106T095000Z&to=20100106T101917Z&channel=NRK1&program=Ut i naturen: Naturfilosofen&desc=Opplev norsk natur med Ut i naturen. Se og les mer på nrknatur.no!" title="Få påmindelse i kalender."><img src="http://fil.nrk.no/gull/programoversikt/img/ics.GIF" alt="Få påmindelse i kalender." /></a></span></p>
  </div>
</li>

 

What I want to parse is all the times in <em> tags, all the strings like Morgennytt inn <strong> tags.

 

But here is a big problem. There are 4 channels in the HTML code. They are set up in 4 colons.

<div class="col">
				<h2>NRK1</h2>
				<ul class="channel_nrk1">

 

In the <h2> tag it is the name of the channel. But how can I insert all the em and strong tag contents, and know which channel they're connected to?

 

Thanks

Archived

This topic is now archived and is closed to further replies.

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.