SEL@KIT: 小林, 水野, N-gram IDFを利用したソースコード内の特徴的部分抽出手法, 2017年6月.

Tweet
小林, 水野, "N-gram IDFを利用したソースコード内の特徴的部分抽出手法," ソフトウェア・シンポジウム2017予稿集, pp. 46-55, 2017年6月.
ID	760
分類	国内会議(査読付)
タグ	コードソース内手法抽出特徴部分
表題 (title)	N-gram IDFを利用したソースコード内の特徴的部分抽出手法
表題 (英文)
著者名 (author)	小林勇揮,水野修
英文著者名 (author)	Yuki Kobayashi,Osamu Mizuno
編者名 (editor)
編者名 (英文)
キー (key)	Yuki Kobayashi,Osamu Mizuno
書籍・会議録表題 (booktitle)	ソフトウェア・シンポジウム2017予稿集
書籍・会議録表題(英文)
巻数 (volume)
号数 (number)
ページ範囲 (pages)	46-55
組織名 (organization)
出版元 (publisher)
出版元 (英文)
出版社住所 (address)
刊行月 (month)	6
出版年 (year)	2017
採択率 (acceptance)
URL
付加情報 (note)
注釈 (annote)
内容梗概 (abstract)	従来の大域的な語の重み付け手法であるIDF（Inverse Document Frequency）には，単語N-gramに対して適用できない欠点があった．しかし，近年の研究により，IDFを単語N-gramに対して適用する手法が提案された．本研究では，このN-gram IDFをソースコードに対して適用し，ソースコード中の特徴的部分の抽出に応用できると考えた．具体的には，局所的重み付けであるTF（Term Frequency）とN-gram IDFを利用した語の重み付け手法である$TF\verb\|-\|IDF_{N-gram}$を用いて，ソースコードごとの特徴語の抽出を行った．そして，その特徴語の行ごとの出現頻度を求めて，ソースコード中の特徴的部分の抽出を行った．まず，サンプルプログラムを用いて特徴語抽出の評価実験を行い，ソースコードにおいても特徴語をある程度抽出できることを示した．次に，Apache Antの公開されているソースコードを用いて特徴的部分抽出を行い，またソースコードの変更による特徴的部分の変化についても調べた．その結果，ソースコードから特徴的部分の抽出をすることができた．また，その抽出した特徴的部分は，ソースコードの変更によってもソースコード全体の相対位置の変化が少ないことを示した．
論文電子ファイル	利用できません．
BiBTeXエントリ	@inproceedings{id760, title = {N-gram IDFを利用したソースコード内の特徴的部分抽出手法}, author = {小林勇揮 and 水野修}, booktitle = {ソフトウェア・シンポジウム2017予稿集}, pages = {46-55}, month = {6}, year = {2017}, }

Search

Tags