SNS関連の研究 | 研究紹介

投稿情報を用いたバズるSNSトピックの自動提案に関する研究

対象SNS：Twitter／着目指標：いいね数（1万件以上を「バズ」扱い）／対象領域：食べ物プロモーション投稿

形態素解析不要語除去ノイズフィルタ LDA 推薦語句

研究ゴール

投稿文作成支援アプリの基盤

分析対象

食関連・大量投稿データ

出力

推薦語句＋潜在トピック

研究背景

マイクロブログ普及による宣伝・情報発信の一般化。ただし「バズ」を再現可能な知見の不足。インフルエンサー分析偏重への問題意識。

目的

いいね数などの評価値と語句出現の関係への着目。バズりやすい投稿に含まれる語句の抽出と候補提示。投稿作成の意思決定支援。

提案手法

ツイート収集→不要語削除・品詞分類→ノイズフィルタ→トピック解析（LDA）の処理パイプライン。影響力の有無を限定せず投稿収集、バズ／非バズ比較の前提整備。

ノイズフィルタ機能による「バズ投稿に偏在する語句」抽出。さらにトレンド文書との突合を併用したLDAにより、語句群を潜在トピックへ分解。トピック数6、各トピック出力語数19の設定。

実証実験

食べ物関連投稿を対象、バズ（いいね1万以上）と非バズの文書化・比較。文字のみ投稿と画像併用投稿の混在条件。期間は4月〜9月末、投稿数は約5.6万件条件。

結果と考察

抽出語句群の中に、キャンペーン性（当落・当たる等）、価値訴求（お得等）、味覚・体験（美味しい・旨い・楽しむ・見る等）を示す語の混在傾向。さらに季節語やイベント語の混入により、時期依存トピックの存在示唆。

トピック解析結果として、夏の暑さ・夏休み、祭り・フェス、月見・特典などの季節・限定品文脈、ならびに広告・番組等の外部要因文脈のまとまり確認。「当日トレンド」との関係性を前提とした設計意図の妥当性評価。

限界と展望

領域限定（食関連）による一般化限界。推薦語句の有効性評価（投稿生成・A/B評価）の追加余地。トレンド文書設計の改善余地（分野別学習データ、季節分割等）。

SNSの投稿情報を用いた観光地情報の抽出とその評価に関する研究

対象SNS：Twitter／目的：観光地の潜在課題抽出支援／中核技術：BERTによるポジネガ判定

感情分析 BERT 辞書手法比較観光地名抽出改善意見抽出

研究課題

口語・独自表現による辞書不一致

提案

投稿全体学習による判定

主要結果

適合率 76%（実験条件下）

研究背景

コロナ禍影響下の観光需要低迷。低迷要因・改善策探索の必要性。 SNS投稿に含まれる本音情報への期待。ただし大量投稿の人手分析の非現実性。

目的

ネガティブ投稿の収集・分析による潜在課題の抽出支援。既存の辞書ベース感情分析の弱点（表現不一致・無感情扱い増加）への対処。

提案手法

観光地名を含むツイート抽出（正規表現検索）と、観光地ごとの集計。さらに不要記号除去を前処理とし、BERTによる投稿全体のポジネガ判定。出力は判定結果の集積による観光地分析材料。

検証実験

既存手法（単語感情極性対応表）との比較評価。教師データ作成を通じた判定性能検証。観光地投稿に特有な口語表現の影響を評価対象化。

結果と考察

実験条件下で適合率76%の確認。既存辞書手法よりも、投稿全体学習に基づく判定の優位性確認。観光地改善に資する意見抽出の足場形成。

限界と展望

絵文字・記号の除去による感情表現欠落の可能性。絵文字等も教師データに含める学習拡張の必要性。実運用に向けた観光地別・時期別の継続モニタリング設計の余地。

SNS のユーザ属性ごとの注目キーワードの自動抽出手法に関する研究

対象SNS：Twitter／目的：年代別の注目分野の把握／構成：頻出語句抽出＋希少性（TF-IDF）＋トピック分類（LDA）

ユーザ属性 TF-IDF LDA 時間帯分析マーケティング活用

既存課題

属性非考慮で市場発掘困難

分析の軸

年代×時間帯

有用性確認

ニュース語句の年代差検出

研究背景

SNS投稿の増加とマーケティング活用期待。投稿から頻出語句を可視化する既存研究の存在。ただしユーザ属性未考慮により「誰が何に注目するか」の把握困難。

目的

ユーザ属性（年代）ごとの投稿内容から、注目語句と注目分野の推定。市場・ニーズ発掘に資するセグメント別理解の獲得。

提案手法

①頻出語句抽出：形態素解析による名詞中心の集計。 ②希少性抽出：年代別文書間でのTF-IDF算出、特定年代に偏在する語句の抽出。 ③トピック分析：LDAにより語句を分野単位へ分類、年代差の読み取り補助。

実証実験

年代別ツイートデータと、年代非分割データの比較検証。さらに時間帯別の語句変動の観察。 LDAのトレーニングデータとしてWikipedia単語タイトル約100万語の利用。

結果と考察

年代分割により、ニュース関連語句が一部年代で読み取れる現象の確認。時間帯によりリアルタイム性を含む語句や年代差が現れる傾向の確認。トピック分類は「趣味趣向の異なる群からの語句抽出」に必要という位置づけ。

一方で、トレーニングデータの無作為性に起因するトピック解釈困難の存在指摘。分野特化データによる分類精度改善可能性の示唆。加えて、年代ごとのユーザ数が少ない場合の偏りリスク指摘。

限界と展望

サンプル規模制約による偏り可能性。 LDA学習データの分野設計最適化の必要性。属性軸の追加（性別・地域等）と、実務KPI（広告反応等）との接続設計の余地。