リポジトリのリポジトリ

Audris Mockus, “Amassing and indexing a large sample of version control systems: towards the census of public source code repository”, In Proceedings of the 2009 6th IEEE International Working Conference on Mining Software Repositories (MSR2009), pp. 11-20, 2009.

http://dl.acm.org/citation.cfm?id=1591133

今,SAILに2週間滞在しているA. Mockusの研究の1つ.VCSが違うものも含めて多くのソースコードリポジトリから履歴を取得して,indexingするプロジェクトの紹介.とりあえず,全部取得しておいて,後からいろいろ分析に使おうというのはよく考えることなんだけど,それを実際にやってたんだ.

Table 2に取得先の例が出ている.Subversionのものが多いので,時間かかりそうだ.この前,思いつきで作ったツールによる実験で,Apache.orgとEclipse.orgからgitのリポジトリを全部引っこ抜いたのも24時間かかったぐらいだし.SourceForgeから12万ものリポジトリを引っこ抜くなどというのは,考えただけで(ネットワークの負荷的に)恐ろしい.

一度取ってしまえば,いろいろネタは考えられる.何か提案できないか考えてみよう.