非爬虫方式批量下载IEEE Xplore文献(Bash Shell)

TacuBULK Verssion: 1.1(更新日期:2016年9月10日)

在TacuBULK的1.1版本中,在Windows下安装Cygwin(需要安装wget)来运行Bash Shell Script(.sh)。下载处理过程全自动完成,下载链接在文章底部。使用说明在下载文件的”readme.docx”中。

如果有建议和意见,欢迎评论、留言。

Cygwin

通过Cygwin可以在Windwos下运行Bash Shell脚本,默认安装不带有wget包,如何安装wget请参考Installing and Updating Cygwin Packages

TacuBULK Version: 1.0(更新日期:2016年7月18日)

2016年9月10日更新:Win10周年更新已经支持在Windows下运行Bash Shell,详情请移步至:How to Use Linux Bash Command on Win 10。此外若想在Windows环境下运行本文的脚本也可以使用Cygwingitbash(名称上看也可以是MINGW)。为了方便大家使用,作者在Windows的脚本修改在Cygwin上进行,推荐大家使用Cygwin。作者近期将更新脚本,改进某些不足,并将用C#改写,实现全程自动批量下载,敬请期待。

做为一名通信方面的工科学生,在学习过程中IEEE Xplore Digital Library(IEL)是搜索下载论文的不二之地。通常而言,在IEL上下载论文数量较少,并不会花费太多的时间,但如果是为了检索某一研究方向的进展、概况、常规设计时,就需要大量下载IEL上的论文。下载并进行重命名工作繁杂,使用传统手工方式工作效率极其低下。

作者使用Bash Shell(正则表达式)、Chrome(下载)、Notepad++(多文件搜索提取)三种工具相结合,想出一种批量下载IEL文献的方式,其流程大致为:

IEL搜索结果->导出Citation->Bash Shell处理Citation得到初步链接与论文名称->Chrome得到包含下载链接的htm1->Notepad++得到包含pdf下载链接的文件->Bash Shell处理得到pdf链接->Chorme下载pdf->Bash Shell处理重命名pdf文件

由于时间匆忙,现在的流程还不够简化,但可以证明其可行性,进一步改进将在作者空闲时进行,将只通过Bash Shell实现上述功能,后面将使用在Windows端实现,并可选是否为vpn环境下载。

批量下载示例(71篇,包含1992-2016的TMTT和JSSC)

具体操作流程(还没有好好简化,操作过程很繁琐)

温馨提示:此处内容,评论后刷新页面可见(需注册后评论)。


  1. 这里你必须是可以下载IEL文件的环境,例如东南大学九龙湖校区的seu-wlan网络,或是vpn。 

下载信息

  • 名称:脚本文件
  • 格式:rar
  • 版本:1.1
  • 大小:1011kB

点击下载

未经允许不得转载:TacuLee » 非爬虫方式批量下载IEEE Xplore文献(Bash Shell)

赞 (0)

评论 5

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. zzzzzz可以考虑直接解析页面的html代码,找到各个pdf文件的地址,然后下载就行. 校内环境相对方便,校外环境可以尝试用代理,不过可能比较复杂. 最后, 下这么多,真的会看吗? 看几篇高IF的,其实基本能窥全貌了.回复
    • TacuLee
      TacuLee直接解析html代码我并不会,不过要是这种方式,使用vpn代理也容易下载。下载这这么多主要还是用于文献检索,了解目前的情形,文章最后要列出指标进行比较。回复
  2. dabuyang久旱逢甘霖啊回复
  3. Mercy我要去试试哈回复
  4. 030gg4g4x8回复