Tweet | |
小林, 水野, "N-gram IDFを利用したソースコード内の特徴的部分抽出手法," ソフトウェア・シンポジウム2017予稿集, pp. 46-55, 2017年6月. | |
ID | 760 |
分類 | 国内会議(査読付) |
タグ | コード ソース 内 手法 抽出 特徴 部分 |
表題 (title) |
N-gram IDFを利用したソースコード内の特徴的部分抽出手法 |
表題 (英文) |
|
著者名 (author) |
小林 勇揮,水野 修 |
英文著者名 (author) |
Yuki Kobayashi,Osamu Mizuno |
編者名 (editor) |
|
編者名 (英文) |
|
キー (key) |
Yuki Kobayashi,Osamu Mizuno |
書籍・会議録表題 (booktitle) |
ソフトウェア・シンポジウム2017予稿集 |
書籍・会議録表題(英文) |
|
巻数 (volume) |
|
号数 (number) |
|
ページ範囲 (pages) |
46-55 |
組織名 (organization) |
|
出版元 (publisher) |
|
出版元 (英文) |
|
出版社住所 (address) |
|
刊行月 (month) |
6 |
出版年 (year) |
2017 |
採択率 (acceptance) |
|
URL |
|
付加情報 (note) |
|
注釈 (annote) |
|
内容梗概 (abstract) |
従来の大域的な語の重み付け手法であるIDF(Inverse Document Frequency)には,単語N-gramに対して適用できない欠点があった.
しかし,近年の研究により,IDFを単語N-gramに対して適用する手法が提案された. 本研究では,このN-gram IDFをソースコードに対して適用し,ソースコード中の特徴的部分の抽出に応用できると考えた. 具体的には,局所的重み付けであるTF(Term Frequency)とN-gram IDFを利用した語の重み付け手法である$TF\verb|-|IDF_{N-gram}$を用いて,ソースコードごとの特徴語の抽出を行った. そして,その特徴語の行ごとの出現頻度を求めて,ソースコード中の特徴的部分の抽出を行った. まず,サンプルプログラムを用いて特徴語抽出の評価実験を行い,ソースコードにおいても特徴語をある程度抽出できることを示した. 次に,Apache Antの公開されているソースコードを用いて特徴的部分抽出を行い,またソースコードの変更による特徴的部分の変化についても調べた. その結果,ソースコードから特徴的部分の抽出をすることができた. また,その抽出した特徴的部分は,ソースコードの変更によってもソースコード全体の相対位置の変化が少ないことを示した. |
論文電子ファイル | 利用できません. |
BiBTeXエントリ |
@inproceedings{id760, title = {N-gram IDFを利用したソースコード内の特徴的部分抽出手法}, author = {小林 勇揮 and 水野 修}, booktitle = {ソフトウェア・シンポジウム2017予稿集}, pages = {46-55}, month = {6}, year = {2017}, } |