YouTube API を利用して動画コメントを取得&スプレッドシートに書き出す方法をメモメモ…
動画についたコメントのデータをスクリプトから読み込んでスプレッドシートに出力する方法です。ややこしかったのでメモしておきます。自分もまだ勉強中で間違いがあるかもしれないので、参考程度にご覧ください。ちなみに Google Apps Script で YouTube API を使う方法についてはこちらの記事で解説しています。
というわけで、まずは完成したコードを見てみましょう!長いよ!
// メニュー項目を追加する function onOpen() { const menu = SpreadsheetApp.getUi().createMenu("スクリプト"); menu.addItem("コメント取得開始", "listYouTubeComments"); menu.addToUi(); } // YouTube の動画コメントを取得しシートに出力する function listYouTubeComments() { const videoId = "vBmU5v2EyxM"; const maxComments = 10000; const outputSheetName = "YouTubeComments"; const commentData = retrieveComments(videoId, maxComments); outputData(commentData, outputSheetName); } // 指定した動画のコメントを取得し配列に入れて返す function retrieveComments(videoId, maxComments) { let commentData = [["ID", "ParentID", "PublishedAt", "LikeCount", "AuthorDisplayName", "TextDisplay"]]; let nextPageToken = ""; // コメントの各種データを配列に格納する // 最大コメント数に到達した場合は false を返す function pushCommentData(comment) { const id = comment.id; const parent = comment.snippet.parentId; const time = comment.snippet.publishedAt; const likes = comment.snippet.likeCount; const name = comment.snippet.authorDisplayName; const text = comment.snippet.textDisplay.replace(/\r?\n/g,""); // 改行は削除 commentData.push([id, parent, time, likes, name, text]); return commentData.length < maxComments; } // 指定したコメントに対する返信コメントをすべて取得する // 途中で最大コメント数に到達してしまったら false を返す function getReplies(parentId) { let nextPageToken = ""; while(nextPageToken != null) { const replies = YouTube.Comments.list("id, snippet", { parentId: parentId, maxResults: 100, pageToken: nextPageToken, textFormat: "plainText" }); for(let i = 0; i < replies.items.length; i++) { if(!pushCommentData(replies.items[i])) return false; } nextPageToken = replies.nextPageToken; } return true; } // コメントスレッド(ツリー)最上位のコメントを拾っていく while(nextPageToken != null) { const commentThreads = YouTube.CommentThreads.list("id, replies, snippet", { videoId: videoId, maxResults: 100, pageToken: nextPageToken, textFormat: "plainText" }); const items = commentThreads.items; for(let i = 0; i < items.length; i++) { if(!pushCommentData(items[i].snippet.topLevelComment)) return commentData; if(items[i].replies == null) continue; // コメントに返信がついている場合はそちらも取得 if(items[i].replies.comments.length == items[i].snippet.totalReplyCount) { for(let j = 0; j < items[i].replies.comments.length; j++) { if(!pushCommentData(items[i].replies.comments[j])) return commentData; } // 返信が省略されてしまっている場合は Comments.list で取得しなおす }else { if(!getReplies(items[i].snippet.topLevelComment.id)) return commentData; } } nextPageToken = commentThreads.nextPageToken; } return commentData; } // 配列に入ったデータをシートに書き込む function outputData(array, sheetName) { const outputSheet = SpreadsheetApp.getActiveSpreadsheet().getSheetByName(sheetName); outputSheet.clearContents(); if(array == null || array.length == 0) return; outputSheet.getRange(1, 1, array.length, array[0].length).setValues(array); }
対象となる動画、取得するコメントの上限、出力先のシートなどをlistYouTubeComments関数内で指定して、実際にコメントを取ってくる処理はretrieveComments関数で行っています。ざっと眺めてもらえれば返信コメントに関する処理でかなりの行数を使っていることがわかると思いますが、この返信の扱いについては後述します。
Comments と CommentThreads
YouTube API のドキュメントには、コメント関連で Comments と CommentThreads という2つのリソースが登場します。自分はまずここで少し戸惑ってしまいましたが、両者の違いは次のような図を想像すると理解しやすいかもしれません。(コメント内容はイメージです) |
CommentThread には各スレッドの情報が含まれています。「スレッド」というのは「コメントとそれに対する返信をまとめたもの」ですよね。たとえば今回のスクリプトで使用したデータには
snippet.videoId | このスレッドがある動画のID |
---|---|
snippet.totalReplyCount | 返信コメント数 |
snippet.topLevelComment | 最初のコメントへの参照 |
などがあります(参考:プロパティ一覧)。そして、動画のコメント欄は、この CommentThread が集まってできています。それらを取得するのがYouTube.CommentThreads.listメソッドというわけです。第一引数で「どういう種類のデータを返してほしいか」を指定。第二引数で対象となる動画のID(複数指定可)やオプションなどを渡しています。
const commentThreads = YouTube.CommentThreads.list("id, replies, snippet", { videoId: videoId, maxResults: 100, pageToken: nextPageToken, textFormat: "plainText" });
一方、その CommentThread に含まれるコメントや返信のひとつひとつが Comment です。今回作成したスクリプトでは次のプロパティを利用しました。
id | コメントの固有ID |
---|---|
snippet.parentId | 返信先のコメントの固有ID |
snippet.publishedAt | 書き込まれた日時 |
snippet.likeCount | 高評価数 |
snippet.authorDisplayName | ユーザー名 |
snippet.textDisplay | コメント内容 |
ほかにもコメントを書き込んだユーザーのアイコンやチャンネルページへのURLなども取得できます。詳しくは公式リファレンスのプロパティ一覧を見てください。とにかく「今参照したいプロパティは Comments のものなのか、それとも CommentThreads のものなのか」ということをしっかり確認しながらコードを書かないと、迷子になります。注意しましょう。
返信コメントの取得方法
今回特にめんどくさかったのが返信コメントの扱いです。CommentThreads にreplies.commentsというプロパティがあったので「これで簡単に取得できるじゃ~ん!」と調子に乗っていたのですが…実はこれは罠でした。というのも、返信コメントが複数ある場合replies.commentsにすべてのコメントが含まれていないことがあるからです。このことはリファレンスにも書かれています。すべての返信コメントが含まれているかどうかは、77行目のようにtotalReplyCountの数値とreplies.commentsの要素数を比べてみればわかります。
if(items[i].replies.comments.length == items[i].snippet.totalReplyCount) {
もし両者の数が一致していればそのままreplies.commentsで取得してOK。一致しなかった場合はYouTube.Comments.listメソッドを利用して取得しなおす必要があります。今回のコードでは42行目からのgetRepliesというローカル関数内で返信コメント取得の処理を行っています。
function getReplies(parentId) { let nextPageToken = ""; while(nextPageToken != null) { const replies = YouTube.Comments.list("id, snippet", { parentId: parentId, maxResults: 100, pageToken: nextPageToken, textFormat: "plainText" }); for(let i = 0; i < replies.items.length; i++) { if(!pushCommentData(replies.items[i])) return false; } nextPageToken = replies.nextPageToken; } return true; }
YouTube.Comments.listはYouTube.CommentThreads.listとは違い、コメントのIDを渡すとそれに対する返信を取得できるメソッドです。ちなみにリファレンスには「現在はスレッドの最初のコメントに対する返信しかサポートしていないが、将来的には"返信への返信"にも対応するかも」ということが書かれています。そうなるとさらにややこしくなりそうですね…。
それから、何十万件何百万件レベルの大量のコメントを取得したい場合は、サービスの使用量上限にも注意しましょう。Google Apps Script での各処理はユーザーごとに1日の割り当てが決まっています。また YouTube Data API のメソッドの利用にもおそらくコストがかかります(「おそらく」というのは自分はまだ制限にひっかかったことがないからです)。たとえばCommentThreads.listやComments.listといったメソッドは呼び出して1ページ分(最大100件)読み込むごとに1コストかかります。処理ごとの制限やコストについては次のページを参照してください。
Quotas for Google Services | Apps Script | Google Developers
https://developers.google.com/apps-script/guides/services/quotas
YouTube Data API (v3) - Quota Calculator | Google Developers
https://developers.google.com/youtube/v3/determine_quota_cost
…ただ、そもそも割り当てが今どれだけ残っているかを確認する方法がさっぱりわからないんですよね… Google Cloud を通していれば専用の確認ページがあるのですが、GAS の場合はどこで見ればいいんだろう…
0 件のコメント:
コメントを投稿