前言

网络上多次爆出的GitHub泄露企业敏感信息事件,说明企业安全中GitHub关键字扫描是很关键及重要的安全基础建设,我用了一些事件针对不同类型的GitHub扫描开源产品作了一些测试调研,与君分享。

一、GitHub搜索接口

github给出了在代码找中搜索关键字的API,并且定义默认只搜索主分支代码,也就是master这个分支,只有小于384KB的文件才能被搜索。

在官方举例中:

https://api.github.com/search/code?q=addClass+in:file+language:js+repo:jquery/jquery

q 表示为关键字;

in:file 表示为在文件中搜索(在文件目录中则是in:path,);

language 表示语言为JavaScript;

repo 表示为在jquery/jquery存储库中搜索;

更多搜索语法可以前往官网查看https://github.com/search/advanced

API还提供了搜索结果展示的功能,在请求的时候带上请求头:

curl-H'Accept:application/vnd.github.v3.text-match+json'\https://api.github.com/search/code?q=addClass+in:file+language:js+repo:jquery/jquery

示例:但是这个功能只显示匹配到的关键字和行数,对于实际应用作用不大:

只显示匹配到的关键字和行数

二、开源工具介绍

网络上有很多GitHub扫描的开源工具,我的需求是:及时告警、扫描全面、可视化展示,经过一些测试对比后,推荐两款部署方便、配置简单的工具:

GSIL(https://github.com/FeeiCN/GSIL

Hawkeye(https://github.com/0xbug/Hawkeye

2.1 GSIL介绍

原理:

登录配置:采用token(https://github.com/settings/tokens),使用PyGithub库。

进行API调用(http://pygithub.github.io/PyGithub/v1/introduction.html)。

搜索范围:默认搜索前200个项目,最大5000(github限制)。

过程:通过API(/search/code)搜索规则文件rules.gsil中提交的关键字,然后分析得到的json结果,默认展示前30个相关项目。

扫描配置:在配置文件中会过滤一些作者认为无用的路径,可以根据实际情况屏蔽一些:

屏蔽

结果展示:该款工具没有页面展示,通过邮件告警,匹配存在关键词的行及其上下3行用于邮件发送来排查(用户体验较好)。

通过邮件告警

去重扫描:工具记录扫描过程中产生的相关代码内容、文件hash,在~目录下创建了一个隐藏文件夹.gsil。扫描引擎中如果文件的hash是之前遇到过的,则跳过:

去重扫描

周期扫描:可通过crontab配置,每小时执行一次:

@hourly /usr/bin/python /root/gsil/gsil.py 规则名称

2.2 Hawkeye介绍

扫描原理前面已经简单介绍过了,Hawkeye由于拥有图形化界面,因此可以和GSIL搭配使用,我通常将GSIL扫描出来的账号,作为重点关注对象,配置更加详细的策略来监测。

三、总结

GitHub关键字扫描还有很多其他的开源工具,比如比较轻量级的gitpprey(https://github.com/repoog/GitPrey),还有小米研发的X-patrol(https://github.com/MiSecurity/x-patrol),从安装环境要求、配置功能实现、部署难易程度入手,就能找到一款适合企业环境的开源扫描工具。再加上一些二次开发的话,基本可以保障一些触及关键字的GitHub信息泄露能被及时的发现与删除。

感谢阅读,欢迎指导。

*本文作者:胡说,转自FreeBuf