计算出,如果一个网站已经限制/密码保护区

<p>我有网站的大名单,我需要知道他们是否有受密码保护的区域。 P&gt; </p><p>我想这样做:下载所有与的HTTrack,然后写一个脚本,看起来像“登录”和“401禁止”的关键字。但问题是这些网站都是不同的/一些静态和动态的部分(HTML,CGI,PHP,Java的小应用程序...),其中大部分不会使用相同的关键字... P&gt; </p><p>你有什么更好的想法? P&gt; </p><p>非常感谢! P&gt;
</p>

155 浏览 1 回复
  gt   一个   网站   密码   登录  

回复

    <p>寻找密码字段将让你迄今为止,但不会使用HTTP认证站点帮助。寻找401S将有助于HTTP身份验证,但不会让你不返回401寻找像“登录”或链接的网站,不使用它,或者一“用户名”字段将让你多一些 p&gt; </p><p>我不认为你就可以完全自动地做到这一点,并确保你实际上检测所有的密码保护区。 P&gt; </p><p>您可能会想采取一个库,擅长网络自动化,以及自己写一个小程序读取文件的目标站点的列表,检查每个之一,并写入到一个文件“这些都是绝对包含口令“和”这些都不是“,然后你可能需要手动去检查是不是那些,并进行修改你的程序,以适应。使用的HTTrack是伟大的抓取数据,但它不会帮助检测 - 如果你写一个通用的HLL自己的“检查密码保护区”的计划,你可以做更多的检查,可避免产生更多的请求每个网站相比,有必要确定一个密码保护的区域中存在 p&gt; </p><p>您可能需要忽略robots.txt P&gt; </p><p>我建议使用皮尔斯的蟒口机械化,或任何好的网络自动化库您的首选语言具有。几乎所有的现代语言将有开一个漂亮的图书馆,并通过网页搜索,看着HTTP标头。 P&gt; </p><p>如果你不能够写这个你自己,你会使用的HTTrack或wget的或类似的有一个相当困难的时期,然后通过搜索响应 P&gt; </p><p>查找与密码字段的形式。 P&gt; </p><p>您可能需要刮网站上找到的登录页面。寻找像“登录”,“登录”,“登录”,“登入”,或刮整个网站(不用说,这里要小心)与短语的链接。 P&gt;
    </p>

    苏汇瑗

友情链接: