Channel: Bashタグが付けられた新着記事 - Qiita

X Mark channel Not-Safe-For-Work? cancel confirm NSFW Votes: (0 votes)

X Are you the publisher? Claim or contact us about this channel.

X 0

Showing article 1057 of 2912 in channel 75438448
Channel Details:

Title: Bashタグが付けられた新着記事 - Qiita
Channel Number: 75438448
Language: Japanese
Registered On: October 26, 2019, 6:41 am
Number of Articles: 2912
Latest Snapshot: November 17, 2025, 9:55 pm
RSS URL: https://qiita.com/tags/bash/feed
Publisher: https://qiita.com
Description: QiitaでBashタグが付けられた新着記事
Catalog: //qiita51.rssing.com/catalog.php?indx=75438448

↧

便利にkaggle Datasetにアップロード

January 15, 2021, 11:08 pm

≫ Next: gitリポジトリのオブジェクトデータベースをさくっとリストしてみる

≪ Previous: [memo] bash shortcut

kaggle notebook縛りのcode competition

最近kaggleでは、推論時にkaggleのnotebook環境しか使えないcode competitionが増えて、深層学習を使う系のコンペですと頻繁にローカルで学習済みのモデルのパラメータファイルをkaggle Datasetにアップロードして使うことがあります。

kaggle APIコマンドでもまだ面倒

Kaggle APIコマンドを使うことで、WebUIでの手作業は省けてデータダウンロード・アップロードが自動化できるのですが、メタデータのJSONファイルやAPIコマンドの編集・作成が面倒だったりします。
そこで、pythonで実行できるwrapper関数を作りましたので、供養しておきます。
関数の入力と、実験パラメータの記載されているyamlファイルと連携すると、実験条件等を自動でデータセットのコメントなどに反映できミスの予防や省力化に繋がります。

必要な前準備

kaggle APIのインストールとAPIトークンの生成が必要です。詳細は関連記事をご覧ください。
当然ながら、アップロードしたいファイルのパスにデータがないといけません。
- この関数はmodelというディレクトリに様々な実験ごとに更にmodel_exp_XXとサブディレクトリがあり、その中にモデルのパラメータファイルがあることを前提しています。
- 関数の引数ではモデルファイルの拡張子を指定して、.pth、.h5など適宜変更します。
loggerを用意すると、ログファイルに出力するように一応しています。

importsubprocessimportglobimportjsonimportosdefupload_to_kaggle(title:str,k_id:str,path:str,comments:str,update:bool,logger=None,extension='.pth',subtitle='',description="",isPrivate=True,licenses="unknown",keywords=[],collaborators=[]):'''
    >> upload_to_kaggle(title, k_id, path,  comments, update)

    Arguments
    =========
     title: the title of your dataset.
     k_id: kaggle account id.
     path: non-default string argument of the file path of the data to be uploaded.
     comments:non-default string argument of the comment or the version about your upload.
     logger: logger object if you use logging, default is None.
     extension: the file extension of model weight files, default is ".pth"
     subtitle: the subtitle of your dataset, default is empty string.
     description: dataset description, default is empty string.
     isPrivate: boolean to show wheather to make the data public, default is True.
     licenses = the licenses description, default is "unkown"; must be one of /
     ['CC0-1.0', 'CC-BY-SA-4.0', 'GPL-2.0', 'ODbL-1.0', 'CC-BY-NC-SA-4.0', 'unknown', 'DbCL-1.0', 'CC-BY-SA-3.0', 'copyright-authors', 'other', 'reddit-api', 'world-bank'] .
     keywords : the list of keywords about the dataset, default is empty list.
     collaborators: the list of dataset collaborators, default is empty list.
   '''model_list=glob.glob(path+f'/*{extension}')iflen(model_list)==0:raiseFileExistsError('File does not exist, check the file extention is correct \
        or the file directory exist.')ifpath[-1]=='/':raiseValueError('Please remove the backslash in the end of the path')data_json={"title":title,"id":f"{k_id}/{title}","subtitle":subtitle,"description":description,"isPrivate":isPrivate,"licenses":[{"name":licenses}],"keywords":[],"collaborators":[],"data":[]}data_list=[]formdlinmodel_list:mdl_nm=mdl.replace(path+'/','')mdl_size=os.path.getsize(mdl)data_dict={"description":comments,"name":mdl_nm,"totalBytes":mdl_size,"columns":[]}data_list.append(data_dict)data_json['data']=data_listwithopen(path+'/dataset-metadata.json','w')asf:json.dump(data_json,f)script0=['kaggle','datasets','create','-p',f'{path}','-m',f'\"{comments}\"']script1=['kaggle','datasets','version','-p',f'{path}','-m',f'\"{comments}\"']#script0 = ['echo', '1']
#script1 = ['echo', '2']
iflogger:logger.info(data_json)ifupdate:logger.info(script1)logger.info(subprocess.check_output(script1))else:logger.info(script0)logger.info(script1)logger.info(subprocess.check_output(script0))logger.info(subprocess.check_output(script1))else:print(data_json)ifupdate:print(script1)print(subprocess.check_output(script1))else:print(script0)print(script1)print(subprocess.check_output(script0))print(subprocess.check_output(script1))

こうすることでもっと効率よくできてるよという方がいましたら、ぜひコメントください。

関連記事：
- Kaggle APIで楽にGCPにデータをダウンロード
- Github 上の自分のコードを Kaggle Code Competition で使うのを CI で自動化

↧

Trending Articles

和歌山市でマンションの部屋全焼

September 8, 2015, 7:23 pm

更新プログラムがインストールされません

July 11, 2015, 4:06 am

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

September 15, 2013, 1:59 am

宇宙運命数「８」　はくちょう座

September 23, 2018, 7:32 pm

カラオケ鉄板ネタになるの間違いなし「大塚愛から福原愛」って何！？

December 2, 2016, 11:00 pm

2016年1月22日号　山口銀行（1月4日付）

January 22, 2016, 3:58 am

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

October 16, 2019, 2:30 pm

サキュバス戦記　攻略

February 18, 2019, 9:27 am

この記事は表示できません

August 23, 2019, 6:15 pm

【ネタバレ感想】「7人目のスタンド使い」その18

August 2, 2016, 8:00 pm

上海問屋、7色に切り替えられるアイソレーションキーボード

August 3, 2014, 2:00 pm

【変更対戦カードのお知らせ】7.23『アマチュア全日本選手権大会』

July 18, 2017, 1:47 am

Microsoft、最も議論を呼んだWindows 11のタスクバーの問題を修正中

December 28, 2021, 5:14 pm

野口興業（弘道会/山口組）

December 13, 2015, 11:12 pm

エンタープライズモードの設定方法について

August 29, 2014, 5:07 am

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

February 21, 2019, 5:31 am

サマータイムレンダ01

April 14, 2022, 8:34 am

Article 2

September 27, 2025, 5:31 pm

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

August 23, 2019, 1:32 am

株式会社アルテカ　代表　野村紘一

March 15, 2018, 12:16 am

© 2025 //www.rssing.com