识别页面的主要内容

<p>给定一个HTML页面是一个文本重物,我想识别和解析出的主要内容。 P&gt; </p><p>使用 http://www.fivethirtyeight.com /2009/08/chavismo-obama-and-monroe-doctrine.html 作为一个例子,我想找出DIV#后4438372351887392855,其中包含标题和文章。 p&gt; </p><p>我什么都不知道可以完美还是工作时间的100%,但有没有,可以给我想要的结果的情况下,合理数量的做法? P&gt; </p><p>我现在的想法是通过每个div迭代,剥出的标记,然后找到包含大多数文本最内层的DIV。 P&gt; </p><p>在这一点上,我才刚刚开始,所以寻找输入我可以把走向概念方法。或者,如果事情是摆在那里,一个开源库,将是很好的。 P&gt; </p><p>先谢谢您的见解。 P&gt;
</p>

104 浏览 1 回复
  gt   一个   工作   内容   div  

回复

    <p>在arc90有些人做了这个一个相当令人印象深刻的工作与他们的可读性书签。 这似乎做找到“主”内容的一个不错的工作 - 你的作品完美列表页上的结果。 你可以看一下通过他们很好的注释的JavaScript(在书签链接),但你可能要联系自己的思想和权限的开发人员能够使用它们。 P&gt; </p><p>我刚满<a href="http://www.alchem​​yapi.com/api/" rel="nofollow">这个API解决方案的了。我还邀请其他的想法。 P&gt;
    </p>

    贺妃

相关提问


友情链接: