html – 从可能未格式化为表格的网页中提取数据

html – 从可能未格式化为表格的网页中提取数据,第1张

概述对于初学者来说,我绝不是VBA的专家.只知道足够危险8). 我开始搜索如何从网页中提取表格,并看到许多人提出了同样的问题.不幸的是,我读到的大多数东西都在我头上.我读过的一篇文章由Siddharth Rout向我指出了这个detailed article,但是我无法跟踪除了有两种方法Internet Explorer或其他方法之外发生的事情.由于我只安装了IE11和MS Office,我宁愿选择I 对于初学者来说,我绝不是VBA的专家.只知道足够危险8).

我开始搜索如何从网页中提取表格,并看到许多人提出了同样的问题.不幸的是,我读到的大多数东西都在我头上.我读过的一篇文章由SIDdharth Rout向我指出了这个detailed article,但是我无法跟踪除了有两种方法Internet Explorer或其他方法之外发生的事情.由于我只安装了IE11和MS Office,我宁愿选择IE路由.

我过去曾多次遇到过这个问题,并且总是放弃项目或手动完成任务.今天我想我会尝试学习如何做到这一点,希望我的未来生活有点容易.因此,我将使用来自游戏网站的数据,因为它模仿我过去遇到的其他事情.

所以今天(本周的……本月没有…我是一个乐观主义者!)项目是建立一个参与锦标赛的每个团队的清单,并将他们的结果复制到excel中.这类似于拉板球,曲棍球,棒球,足球或足球统计数据.我尝试使用Excel内置的Get Data From Web流程,但它没有识别网页上的表格.

网页的地址是:http://worldoftanks.com/en/tournaments/1000000017/

并在下图中

所以基础和我的出发点是简单地从1组中拉出团队列表并将其粘贴到没有格式的excel页面中.基本上是上图中黄色的区域.图像无法适应整个页面,但实际上该组中有10个团队.但是我想让它变量,因为有时你可能在一个组中有多于或少于10个团队.我将假设行数在这一点上是一个小问题.

一旦我弄清楚那部分,我希望切换到下一组相对容易,抓住团队和结果列表,并将它们添加到我在excel中构建的列表的末尾.在网页上,这将通过选择蓝色区域来完成.

现在,一旦我弄清楚这两件事,我就需要根据绿色锦标赛区域的阶段从头开始再次构建列表,并将该列表放在新页面上.我有一些想法如何实现这一点,但它将真正取决于前两个步骤的样子.

我也有自己的奖金任务,就是为每个团队拉出一个团队的时间表,看看他们如何对抗其他各个团队.谁击败谁打字交易.我希望我可以根据从上述任务中学到的信息来确定这一部分.

所以我很确定还有其他语言/ prgs更适合手头的任务,但我想坚持我所拥有的……以及迄今为止我知道的一点点.所以我尝试了一些VBA代码并评论了我需要实现的目标.到目前为止,我想我已经打开了网页!并在评论如何做一些事情时建立了一个思考过程.

Sub GetTeamData()Dim IE As ObjectDim roundcounter As IntegerDim groupcounter As IntegerDim TeamList As VariantDim WebAddress As StringDim Number_of_rounds as IntegerDim Number_of_Groups as Integer'set webaddress of site to link toWebAddress = "http://worldoftanks.com/en/tournaments/1000000017/"Set IE = CreateObject("InternetExplorer.Application")With IE    .Visible = True    .navigate (WebAddress)End With'What does this chunk of code do?  Wait for webpage to finish loading?While IE.readyState <> 4    DoEventsWend'set initial parameters for loops.  I am ok with hardCoding this for Now.Number_of_groups = 125Number_of_rounds = 5'start pulling teamdata'For roundcounter = 1 To number_of_rounds    'select roundcounter on webpage    'for groupcounter = 1 to number_of_groups        'select groupcounter on webpage        'grab table of 6-10 teams (position,team name,battles,wins,losses,tIEs,and points)        'add table to TeamList    'next groupcounter    'paste TeamList to sheet roundcounter cell A1    'clear TeamList'next roundcounter'Next task'based on results on how to pull group table date,pull indivIDual team schedule results to build matrix resultSet IE = nothingEnd Sub

我想到的一件事是,不是使用带有计数器的下一个循环,而是更容易将其设置为循环,直到发生错误,例如超过组或轮数.现在我在散步.

无论如何,如果有人会如此友善,让我开始如何从上面的图像拉黄色区域,将非常感激!请温柔!我确实已经意识到这个问题已被问过很多次……我只是不明白我在读什么.如果这不可能或极难做,请告诉我.提前感谢您的帮助,教育我.

更新16/03/19 0900

所以我今天早上再次尝试了Get Data From Web流程,但运气更多……但并不多.

在1个错误窗口之后,我单击是以获取要加载的网页

我在左上角的页面上显示了一个小黄色箭头.所以我试了一下它确实提供了信息.

但我确实注意到我想要的桌子旁边没有黄色的盒子,这让我想知道它是不是桌子.

当我输入信息时,这不是我要找的信息.当我浏览结果时,我可以看到我要查找的数据应该在哪里,但是所有结果都丢失了,只有表格列标题显示在约263行左右.

然后,我尝试从网页上使用select all for the page在网页上进行复制和粘贴方法.对于粘贴我尝试了不同的方法.保持源格式化没有任何结果.保持目的地格式带来信息.我尝试粘贴特殊(HTML,Unicode和文本)HTML使得外观看起来很漂亮,另外两个将所有内容放在一个列中.更重要的是,结果列在表中.

现在,如果我只需要第1组第1组的队列和结果,我可以使用它.只需删除表格上方和下方的所有行即可!但是由于每个组的网址都相同,而且每一轮我都不知道如何“点击”蓝色或绿色区域来更新信息.如果我知道这一点,我可以通过复制和粘贴每个页面来自动化该过程,然后将结果编辑到表格,并将表格移动到最后结果正下方的另一个表格.

对我来说似乎应该有一个更好的方法.

16/03/19 1600

<!-- ko if: visibleBracketType() === ROUND_ROBIN --><table  cellpadding="0" cellspacing="0">  <tr >    <th >#</th>    <th >      <div >        <span >Team</span>      </div>      <div >        Team      </div>    </th>    <th >      <div >        <span >Battles</span>      </div>      <div >        Battles      </div>    </th>    <th >      <div >        <span >VictorIEs</span>      </div>      <div >        VictorIEs      </div>    </th>    <th >      <div >        <span >Defeats</span>      </div>      <div >        Defeats      </div>    </th>    <th >      <div >        <span >Draws</span>      </div>      <div >        Draws      </div>    </th>    <th >      <div >        <span >Points</span>      </div>      <div >        Points      </div>    </th>  </tr>  <!-- ko foreach: {data: rrBrackets().teams,as: 'team' } -->  <tr  data-bind="CSS: {'tournament-table_tr__my-team': team.team_ID === $root.currentUserTeamIDInCurrentGroup()}">    <td  data-bind="text: team.position"></td>    <td  data-bind="CSS: {'tournament-table_td__my-team': team.team_ID === $root.currentUserTeamIDInCurrentGroup()}">      <a  target="_blank" data-bind="text: team.team_Title,attr: {href: $root.getTournamentTeamUrl(team.team_ID)}"></a>    </td>    <td  data-bind="text: team.battle_played"></td>    <td  data-bind="text: team.wins"></td>    <td  data-bind="text: team.losses"></td>    <td  data-bind="text: team.draws"></td>    <td  data-bind="text: team.extra_statistics.points"></td>  </tr>  <!-- /ko --></table>​

好吧,从我一直在阅读的各种帖子和我一直在观看的视频中收集的内容,我需要在网页编码中找到一些关键的“标签”,并且我最终可以开始提取数据.我在IE上点击F12来查看代码,然后在代码区域中我搜索了我正在查找的区域中的一些显示文本,并找到了上面的“代码”块.有很多GUESSING我希望我抓住了正确的大块.现在来弄清楚那个关键标签是什么以及如何使用它.顺便问一下,该网页的代码是什么?

解决方法 因此,如果我写了一个小Sub,我认为如果我理解正确,我认为应该解决你的问题.当然,你会投入一些工作,因为它现在只读一个阶段.但它从每个组读取数据:

Option ExplicitPrivate Sub Commandbutton1_Click()'make sure you add references to Microsoft Internet Controls (shdocvw.dll) and 'Microsoft HTML object library. 'Code will NOT run otherwise.Dim objIE As SHDocVw.InternetExplorer 'microsoft internet controls (shdocvw.dll)Dim HTMLDoc As MSHTML.HTMLdocument 'Microsoft HTML Object libraryDim HTMLinput As MSHTML.HTMLinputElementDim HTMLColl As MSHTML.IHTMLElementCollectionSet objIE = New SHDocVw.InternetExplorerDim HTMLCurrentDoc As MSHTML.HTMLdocument 'Microsoft HTML Object libraryDim RowNumber As Integer            RowNumber = 1With objIE    .Navigate "http://worldoftanks.com/en/tournaments/1000000017/" ' Main page    .Visible = 0    do while .READYSTATE <> 4: DoEvents: Loop        Application.Wait (Now + TimeValue("0:00:01"))        Set HTMLDoc = .document        Dim buttonRoundData As Variant        Set buttonRoundData = HTMLDoc.getElementsByClassname("group-stage_link")        Dim buttonData As Variant        Set buttonData = HTMLDoc.getElementsByClassname("groups_link")        Dim button As HTMLlinkElement        For Each button In buttonData           DeBUG.Print button.nodename            button.Click               Application.Wait (Now + TimeValue("0:00:02")) ' This is to prevent double entryIEs but it is not clean. you should definitly check if the table is still the same and wait then            Set HTMLCurrentDoc = .document            Dim RawData As HTMLtable            Set RawData = HTMLCurrentDoc.getElementsByClassname("tournament-table tournament-table__indent")(0)            Dim ColumnNumber As Integer            ColumnNumber = 1            Dim hRow As HTMLtableRow            Dim hCell As HTMLtableCell            For Each hRow In RawData.Rows                For Each hCell In hRow.Cells                    Cells(RowNumber,ColumnNumber).Value = hCell.innerText                    ColumnNumber = ColumnNumber + 1                Next hCell                ColumnNumber = 1                RowNumber = RowNumber + 1            Next hRow            RowNumber = RowNumber + 3        Next button    End WithEnd Sub

它的作用是启动一个不可见的IE,读取数据,点击按钮,读取下一个等等……

对于调试我建议将.Visible设置为1,这样你就会发生什么.

编辑1:如果你得到一个debBUGing错误,尝试Abort并再次运行它,它肯定需要一些错误处理,如果网站没有正确加载.

编辑2:使它更稳定,你应该真的付出注意,因为网页需要一些时间来加载,你必须在写入之前检查数据是否已经改变.如果它没有改变等待一秒左右然后再试一次.

这里我在Excel中获得了一些示例数据:

总结

以上是内存溢出为你收集整理的html – 从可能未格式化为表格的网页中提取数据全部内容,希望文章能够帮你解决html – 从可能未格式化为表格的网页中提取数据所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/web/1045369.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-24
下一篇 2022-05-24

发表评论

登录后才能评论

评论列表(0条)

保存