2117781
ホーム \| 日記 \| プロフィール	【フォローする】【ログイン】

くぴんのブログ

【毎日開催】

15記事にいいね！で1ポイント

10秒滞在

いいね! --/--

次の日記を探す

おめでとうございます！
ミッションを達成しました。

※「ポイントを獲得する」ボタンを押すと広告が表示されます。

プロフィール

くぴん７４

フォローする

フリーページ

健康

(6)

バックナンバー

2024年04月
2024年03月
2024年02月

2024年01月
2023年12月

お気に入りブログ

主力株候補のアイデ… New! みきまるファンドさん

dow 38085.8 -375.12… New! どらりん0206さん

楽天ラッキーくじ更…

じゃっかすさん

UV K5(8)が現在アリ… jashiさん

またしても訃報 Maryu21さん

ニューストピックス

キーワードサーチ

▼キーワード検索

< 新しい記事

新着記事一覧(全4564件)

過去の記事 >

2018年03月05日

第０章　機械学習のためのデータ処理とは
第１章　クローリングとスクレイピング
第２章　高度なスクレイピング
第３章　データソースと書式・整形
第４章　機械学習
第５章　深層学習に挑戦しよう
第６章　テキスト解析とチャットボットの作成
第７章　深層学習を実践してみよう
Ａｐｐｅｎｄｉｘ　作業の準備と環境構築

↓ぼくにとってのポイント

◯機械学習のためのデータ処理
・Webからデータをダウンロード
・ダウンロードしたデータから必要はデータを抽出
・抽出したデータを目的に応じたフォーマットで保存
・機械学習

◯クローリングとスクレイピング
・urllibでデータダウンロードが可能
・HTMLの解析→BeautifulSoupが便利
・DOMの調査、CSSセレクタ→Webブラウザの開発者ツール
・リンク先をまるごとダウンロード→相対パスを絶対パスに変換など

◯高度なスクレイピング
・HTTP通信はステートレス
・セッションを利用するとステートフルであるように振る舞える
・requestsパッケージ
・スクレイピングにはブラウザを動かさないといけない場合も多い→Selenium, PhantomJS
・サイトの構造を把握することが重要
・キーとなる要素やCSSスタイルを調べることで、機械的なスクレイピングが可能なこともある
・Web APIの利用
・cronで定期的な実行

◯データソースと書式・整形
・主な書式→XML, JSON, YAML, CSV
・データベース→SQLite, MySQL, MarinaDB, TinyDB
・データベース→同時アクセスに強く同時編集など不整合も起きにくい

◯機械学習
・機械学習→たくさんのデータを学習してパターンを見つける作業
・分類、推測、推薦が可能
・教師あり学習では各データ毎にデータと正解ラベルを指定する
・訓練データとテストデータの分類や、正解率の計算など、便利なメソッドが用意されている
・機械学習の学習結果をファイルに保存すれば、Webアプリなどで利用できる
・SVM→マージン最大化
・データを数値化するとき、分類変数か連続変数か確認する
・クロスバリデーションによりモデルの妥当性確認
・グリッドサーチ→より良いパラメータを自動で探せる

◯深層学習
・TensorBoardで可視化できる
・深層学習で精度向上が可能
・Keras→tensorflowやtheanoをscikit-learnと同様に記述できる
・日本語の形態素解析→Mecab, Janome
・Word2Vecで文章をベクトル化
・ベイズの定理で迷惑メール判定などが可能
・MLP（多層パーセプトロン）でテキスト分類が可能
・文章の類似度→レーベンシュタイン距離、n-gram
・自動で文章生成→マルコフ連鎖、LSTM
・類似画像検索→Average Hash
・Average Hash→画像をリサイズして白黒の２値化
・CNNで牛丼の画像を高精度で判定可能
・機械学習はデータを集めて整形するのが大切
・画像を回転・反転させることで不足しがちな入力データを補強可能
・OpenCVで顔認識

-----
この本はずいぶん前に買ったんだけれど、なかなか手を付けられていなかった。
目次をみるとわかるように、データ収集→データ整形→機械学習→深層学習とデータ解析に必要な技術についてサンプルコード付きで解説されている。さらに環境構築についても書かれている。
サンプルコードを動かすことで理解が深まる。

Pythonによるスクレイピング＆機械学習開発テクニック BeautifulSoup、scikit-lear [ クジラ飛行机 ]

お気に入りの記事を「いいね！」で応援しよう

最終更新日 2018年03月05日 06時16分31秒
コメント(0) | コメントを書く

[本の紹介] カテゴリの最新記事