パチスロサイバードラゴン

<ウェブサイト名>

<現在の時刻>

出典: 標準

このサイトではJavascript機能をOnにしてご利用ください。 ページの本文へ 日本語 English 中文 RIETIについて サイトマップ ヘルプ お問い合わせ 論文検索サービス サイト内検索 メニュー 研究テーマ プログラム (2024-2028年度) プログラム (2020-2023年度) プログラム (2016-2019年度) プログラム (2011-2015年度) 政策研究領域 (2006-2010年度) 主要政策研究課題 (2003-2005年度) 経済産業省共同プロジェクト プロジェクトコンテンツ 調査 フェロー(研究員) 肩書き別一覧 アルファベット順 過去の在籍者 フェローの活動 論文 ディスカッション・ペーパー(日本語) ディスカッション・ペーパー(英語) ポリシー・ディスカッション・ペーパー(日本語) ポリシー・ディスカッション・ペーパー(英語) テクニカル・ペーパー(日本語) テクニカル・ペーパー(英語) ノンテクニカルサマリー 英文査読付学術誌等掲載リスト Research Digest 政策分析論文 調査レポート 論文検索サービス 出版物 RIETIブックス(日本語) RIETIブックス(英語) 通商産業政策史 著者からひとこと RIETI電子書籍 年次報告書・広報誌(RIETI Highlight) その他出版物(日本語) その他出版物(英語) イベント シンポジウム ワークショップ BBLセミナー 終了したセミナーシリーズ データ・統計 JIPデータベース R-JIPデータベース CIPデータベース JLCPデータベース 日本の政策不確実性指数 産業別名目・実質実効為替レート AMU and AMU Deviation Indicators JSTAR(くらしと健康の調査) RIETI-TID 長期接続産業連関データベース マイクロデータ計量分析プロジェクト 海外直接投資データベース ICPAプロジェクト リンク集 コラム・寄稿 コラム Special Report EBPM Report フェローに聞く フェローの連載 世界の視点から 特別コラム 新聞・雑誌等への寄稿 特別企画 経済産業ジャーナル 研究テーマ フェロー(研究員) 論文 出版物 イベント データ・統計 コラム・寄稿 サイトマップ ヘルプ お問い合せ 閉じる ホーム論文ディスカッション・ペーパー(英語)2023年度 日本語タイトル:頑健で安定な政策学習に向けて:SONYにおける実装 Evaluating the Robustness of Off-Policy Evaluation 印刷 執筆者 成田 悠輔(客員研究員)/齋藤 優太(Cornell University)/宇田川 拓麻(ソニーグループ株式会社)/清原 明加(東京工業大学)/茂木 一輝(Stanford University)/舘野 啓(ソニーグループ株式会社) 発行日/NO. 2023年6月  23-E-041 ダウンロード/関連リンク 本文をダウンロード [PDF:1.2MB] (英語) ノンテクニカルサマリー 概要 過去に使用された方策(意思決定アルゴリズム)が作り出したログデータを用いて、別の新しい方策の性能を反実仮想予測することをオフ方策評価(Off-Policy Evaluation; OPE)や政策学習(Policy Leaning)という。OPEは、新しい方策アルゴリズムを実環境でいきなり用いることのリスクやコストの大きい医療・教育・自動運転・消費者サービスなどの応用場面で重宝する。 OPEの手法(推定量)は数多く提案されている。ただ、その多くが調整を要するハイパーパラメタを持つ。そのため、各応用例に合わせて適切なOPE手法を選択し、ハイパーパラメタの調整を行う必要がある。しかし現状では、信頼できる性能を示す手法を、数多くの論文を比較し特定することは困難である。なぜなら、現行の実験手順では、ある特定の性能推定対象となる方策に対して予めうまく性能推定できるようなハイパーパラメタを選択した上で、OPE手法の比較実験を行っているためである。そのため、性能推定対象の方策や使用するハイパーパラメタが異なるかもしれない別の応用場面において、各OPE手法が安定した性能を示すかどうか確かめることができない。 この問題を解決するのが当研究の目的である。そのため、私たちは「解釈性の高いオフライン評価実験手順(Interpretable Evaluation for Offline Evaluation; IEOE)」を提案する。IEOEは、ハイパーパラメタの選択や性能推定の対象となる方策が変わることでOPE手法の正確さがどのように変化するかを比較し評価できる実験手順である。さらにpyIEOEというオープンソースのPythonソフトウェアを開発し、IEOEによる実験手順を規格化した。このソフトウェアを使用することで、研究者は様々なOPE手法を彼らの研究において解釈性の高い方法で比較することができる。実践者が彼らの応用場面に合わせ、それぞれに適したOPE手法を選択することもできる。 私たちはIEOEの有用性を示すため、公開データセットを用いて既存の様々なOPE手法の再評価実験を行った。その結果、驚くべきことに、ハーパーパラメタの少ない単純な手法の方がより高度な手法よりも信頼性の高い結果を示すことが分かった。これは、より高度な手法は良い性能を示すために実験設定に依存した緻密なハイパーパラメタの調整を必要とし、実験設定の変化に脆弱であるためと考えられる。最後に、私たちはIEOEをSONYグループ内のEコマースの実データに適用し、実応用面でのIEOEの利用方法を示すとともにその有用性も確認した。 概要(英語) Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive settings such as precision medicine and recommender systems. Since many OPE estimators have been proposed and some of them have hyperparameters that need to be tuned, there is an emerging challenge for practitioners to select and tune OPE estimators for their specific application. Unfortunately, identifying a reliable estimator from results reported in research papers is often difficult because the current experimental procedure evaluates and compares the estimators’ performance on a narrow set of hyperparameters and evaluation policies. Therefore, it is difficult to know which estimator is safe and reliable to use. In this work, we develop Interpretable Evaluation for Offline Evaluation (IEOE), an experimental procedure to evaluate OPE estimators’ robustness to changes in hyperparameters and/or evaluation policies in an interpretable manner. Then, using the IEOE procedure, we perform extensive evaluation of a wide variety of existing estimators on the Open Bandit Dataset, a large-scale public real-world dataset for OPE. We demonstrate that our procedure can evaluate the estimators’ robustness to the hyperparameter choice, helping us avoid using unsafe estimators. Finally, we apply IEOE to real-world e-commerce platform data and demonstrate how to use our protocol in practice. 論文 ディスカッション・ペーパー(日本語) ディスカッション・ペーパー(英語) 2024年度 2023年度 2022年度 2021年度 2020年度 2019年度 2018年度 2017年度 2016年度 2015年度 2014年度 2013年度 2012年度 2011年度 2010年度 2009年度 2008年度 2007年度 2006年度 2005年度 2004年度 2003年度 2002年度 2001年度 ポリシー・ディスカッション・ペーパー(日本語) ポリシー・ディスカッション・ペーパー(英語) テクニカル・ペーパー(日本語) テクニカル・ペーパー(英語) ノンテクニカルサマリー 英文査読付学術誌等掲載リスト Research Digest 政策分析論文 調査レポート 関連サービス 論文検索サービス 情報発信 ニュースレター 更新情報RSS配信 Facebook X YouTube 研究テーマ プログラム (2024-2028年度) プログラム (2020-2023年度) プログラム (2016-2019年度) プログラム (2011-2015年度) 政策研究領域 (2006-2010年度) 経済産業省共同プロジェクト プロジェクトコンテンツ 調査 フェロー(研究員) 論文 ディスカッション・ペーパー(日本語) ディスカッション・ペーパー(英語) ポリシー・ディスカッション・ペーパー(日本語) ポリシー・ディスカッション・ペーパー(英語) テクニカル・ペーパー(日本語) テクニカル・ペーパー(英語) ノンテクニカルサマリー 英文査読付学術誌等掲載リスト Research Digest 政策分析論文 調査レポート 論文検索サービス 出版物 RIETIブックス(日本語) RIETIブックス(英語) 通商産業政策史 著者からひとこと RIETI電子書籍 年次報告書・広報誌(RIETI Highlight) その他出版物(日本語) その他出版物(英語) イベント シンポジウム ワークショップ BBLセミナー 終了したセミナーシリーズ データ・統計 JIPデータベース R-JIPデータベース CIPデータベース JLCPデータベース 日本の政策不確実性指数 産業別名目・実質実効為替レート AMU and AMU Deviation Indicators JSTAR(くらしと健康の調査) RIETI-TID 長期接続産業連関データベース マイクロデータ計量分析プロジェクト 海外直接投資データベース ICPAプロジェクト リンク集 コラム・寄稿 コラム Special Report EBPM Report フェローに聞く フェローの連載 世界の視点から 特別コラム 新聞・雑誌等への寄稿 特別企画 経済産業ジャーナル RIETIについて 個人情報保護 ウェブアクセシビリティ方針 RIETIウェブサイトについて サイトマップ ヘルプ お問い合わせ 経済産業省 独立行政法人経済産業研究所(法人番号 6010005005426) 当サイト内の署名記事は、執筆者個人の責任で発表するものであり、経済産業研究所としての見解を示すものでは有りません。掲載している肩書や数値、固有名詞などは、原則として初掲載当時のものです。当サイトのコンテンツを転載される場合は、事前にご連絡ください。 "ページの先頭へ戻る

ワールドカップ勝敗予想賭け カジノスロットブラウザゲーム カジ旅入金不要 7spin
Copyright ©パチスロサイバードラゴン The Paper All rights reserved.