カテゴリ:データ分析
NASAのNEOのデータを前処理するにあたって、「R」のコードによる方法とExcelのPower Queryによる方法の2種類を試してみました。
なお、データは、NASAのサイト(https://cneos.jpl.nasa.gov/ca/)からダウンロードしています。 結論としては、分析用データの前処理には、ExcelのPower Queryが便利なので、ExcelのPower Queryでできる処理はすべて行ってしまうのが効率的だと思います。 その際、列の分割、列名の変更など処理の種類ごとにまとめてクエリの作業をするようにすると、後でクエリの記録がわかりやすくなると思います。 そして、「R」のコードなど、コードによる処理が効率的な処理が残っていれば、その時にコードを利用すればよいと思います。 注意点があるとすれば、ダウンロードした元データをExcelのシートとして開いて変更したりしないということだと思います。 すべての前処理は、クエリかコードで行い、前処理で得られたデータのファイルは元データのファイルとは別名で保存するようにします。 クエリやコードを変更することはよくあるので、クエリやコードを変更しても元データからいつでもやり直せるというのが、クエリやコードを利用することで得られるメリットだと思います。 下記のように、「R」で何らかの前処理を追加することがあるかもしれませんが、ExcelのPower Queryでの前処理が効率化につながっていれば、その処理には意味があると思います。 NASAのNEOデータの場合では、NEOの推定サイズが欠損値の行を削除しようとした場合に、「R」のコードでは推定サイズ以外の欠損値の行も削除してしまっていたのですが、パワークエリでは簡単に処理できました。 ExcelのPower Queryで前処理 → Power BIで分析 → Rで前処理追加 →Rで分析 ⇒ ⇒ ということで、分析をPower BIで行う場合、Rで行う場合、いずれの場合でも前処理の最初の段階ではExcelのPower Queryを利用するのがよいのではないかと思います。 ▼データ件数のカレンダーヒートマップもPower BIで簡単に作成できます Rのggplotなどを利用する方法とは異なるデザインになります。 下図は、地球まで1LD以下の距離に接近したNEOの日ごとの分布です。 ▼Power BIでは、「R」とは異なるテイストのビジュアルを作成できます 「2015年~2019年8月」の期間に0.5LD以下の距離まで地球に接近したNEOの散布図です。 下図は、2015年以降のものですが、1900年以降で見ても「2019 OK」は、0.2LD以下の距離まで地球に接近したNEOの中で最大のものです。 この比較的大きな「2019 OK」が、地球に接近する直前までわからなかった、ということがNEOの観測の難しさを示していると思います。 ◆横軸:地球との距離、縦軸と円の大きさ:NEOのサイズの推定値(下限値) ▼ところで、直近のアステロイド(小惑星)の動向を表示するウィジェットを見つけました(https://www.nasa.gov/planetarydefense) これがあれば、観測されているNEOの動向を見逃すことはなさそうです。 でも、WindowsPCでは、「Yahoo ! ウィジェット」が必要なようです。「Yahoo ! ウィジェット」はサービス終了していたはずです。 Mac版のウィジェットがちゃんとあるので、NASAにおけるMacユーザーはかなり多いのかもしれません。 接近距離はマイルで表示されていますが、地球と月の距離(1LD)※が約239,000マイルなので、この距離を目安にすればいいと思います。 ※Average distance between Earth and the moon is about 239,000 miles (385,000 kilometers). ☆関連記事 ▼NASAのNEOデータを、Power Queryで前処理してみました:コードを使わずに前処理が可能です ▼NASAのNEO(地球に接近した小惑星)のデータの分析:データを「R言語」で前処理するコード:データを随時更新する場合は、繰り返し作業を「コード化」するのが一番です ▼8月21日放送のフジテレビ「とくダネ!」で「直径160mの小惑星が今月末に最接近」という話題がありましたが、地球にはあまり接近しないようです ▼地球に接近したNEOの日別の個数をMicrosoft Power BIで表示してみました ▼【平均値の差の検定をしてみました】地球に接近する小惑星の数の10月と8月の平均値には、統計的に有意な差が見られます ▼地球に接近する小惑星の数が多いのは10月頃?。少ないのは8月?:月別にかなり違いが見られます:Microsoft Power BI Desktopは、無料で利用できる、インタラクティブなインフォグラフィック作成ツールです ▼データ前処理の例(その2):Microsoft Power BI用データを準備するための処理の例:NASAのNEOデータをダウンロードし、英語の月名を含む日付の文字列を日付データに変換して、Power BIに読み込む ▼Microsoft Power BI用データを準備するための前処理の例です:NASAのNEOデータをダウンロードし、小惑星の大きさの推定値をExcelで取り出し、単位変換して、Power BIに読み込む ▼地球をかすめた小惑星「2019 OK」は、0.2LD以下の距離に接近したNEOの中で過去最大だったようです:NASAの1万3千件以上のNEOデータから ▼小惑星「2019 OK」は、過去3年間に0.2LD以下まで地球に接近したNEOの中でも最大でした:NASAのNEOデータをPower BIで分析してみました ▼【グラフを追加しました】:小惑星「2019 OK」はOKでしたが・・・:7月25日に地球とニアミスした、今年最大の小惑星の名前です。 お気に入りの記事を「いいね!」で応援しよう
Last updated
2020.02.02 06:53:28
コメント(0) | コメントを書く
[データ分析] カテゴリの最新記事
|
|