半肾
精华
|
战斗力 鹅
|
回帖 0
注册时间 2017-10-24
|
本帖最后由 BRRM 于 2019-10-2 23:57 编辑
- <table class = 'content_box_item' border = 1 cellspacing=0 cellpadding=3 width = '720px'>
- <tr class = 'lmd'>
- <td class = 'bborder' align = 'left' colspan=10>
- <table class='btext' width='100%'><tr>
- <td width=24><img src = 'http://file5.ratemyserver.net/items/small/601.gif' border = '0' onMouseOver = "ddrivetip_image('<img src = \'http://file5.ratemyserver.net/items/large/601.gif\' border = \'1\'>')" onMouseOut = "hideddrivetip_image()"></td>
- <td valign='bottom'><b> 苍蝇翅膀 </b> 物品 ID# 601 (Wing_Of_Fly)</td></td>
- <td valign='bottom' align='right'>
- <a href='index.php?page=re_item_db&item_id=601&ird=0' title='查看这物品复兴后的资料' onclick='return popItem_re("601&ird=0",1,1)'><img src='images/see_renewal.gif' border=0></a>
- <a href='item_sprname_search.php?item_id=601'><img src='images/spr.gif' border=0 title='look up sprite name' onclick="return popWin('item_sprname_search.php?item_id=601&small=1', 'name', spr_dim)"></a>
- </tr>
- </table>
复制代码
看出问题了吗,第4行的 <table> 在第6行被 </td></td> 提前结束了。所以第11行的</table>把第1行的 <table class = 'content_box_item' ...>给结束了
也就是说
- soup.find_all('table', attrs={"class": "content_box_item"})[0]
复制代码 其实只解析了上面那部分内容。
简单的说,这个页面写得很不规范,只有聪明的浏览器才能解决这种不规范问题,这种库解决不了。
|
|