ドロップボックスと連携してテキストファイルを朗読するAlexaスキルを開発しようとした話


<背景>

最近EchoDotにはまり、Kindle本を読んでもらいながら車通勤の暇をつぶしています。
ふと、IR資料(投資も興味があるので・・・)とかKindle本以外にも読んでもらいたいものあるなーと思い、
自分で作るかーと思いました。

<結論>

期待させるとあれなので結論を先に言うと、、、
AlexaスキルでDropboxのアカウントリンクができなかった。
原因:OAuth 2.0の認証のときにAlexaスキルの要求パラメータの"state"が671文字で
   Dropbox側の500文字制限を超えてしまっているため。
   現状、自分には解決方法が分からないです。。。

<システム構成案>

Alexaスキル開発は1回やったことがあるので、DropBox経由でやろうかなーとか適当に考えました。
本当はPdfアップロードしてLambda側で変換させたり、自動収集をとか色々やろうと思ったけど、とりあえず後回し。

AlexaSkill

AlexaSkill開発は色んな人がやっているので省略。以下、やったこと
①呼び出し名:あいあーるで登録
②インテント:read_kessan, サンプル発話=けっさんをよんで
③ビルド・保存
④エンドポイントをLambdaに設定

Lambda

Lambdaで実行するコードはこんな感じ

lambda_function.py
# -*- coding: utf-8 -*-
"""
This sample demonstrates a simple skill built with the Amazon Alexa Skills Kit.
The Intent Schema, Custom Slots, and Sample Utterances for this skill, as well
as testing instructions are located at http://amzn.to/1LzFrj6

For additional samples, visit the Alexa Skills Kit Getting Started guide at
http://amzn.to/1LGWsLG
"""

from __future__ import print_function


# --------------- Helpers that build all of the responses ----------------------

def build_speechlet_response(title, output, reprompt_text, should_end_session):
    return {
        'outputSpeech': {
            'type': 'PlainText',
            'text': output
        },
        'card': {
            'type': 'Simple',
            'title': "SessionSpeechlet - " + title,
            'content': "SessionSpeechlet - " + ""
        },
        'reprompt': {
            'outputSpeech': {
                'type': 'PlainText',
                'text': reprompt_text
            }
        },
        'shouldEndSession': should_end_session
    }


def build_response(session_attributes, speechlet_response):
    return {
        'version': '1.0',
        'sessionAttributes': session_attributes,
        'response': speechlet_response
    }


# --------------- Functions that control the skill's behavior ------------------

def get_welcome_response():
    """ If we wanted to initialize the session to have some attributes we could
    add those here
    """

    session_attributes = {}
    card_title = "Welcome、IR"
    speech_output = "IRを読むよ.何を読む?"
    # If the user either does not reply to the welcome message or says something
    # that is not understood, they will be prompted again with this text.
    reprompt_text = "何を読む?."
    should_end_session = False
    return build_response(session_attributes, build_speechlet_response(
        card_title, speech_output, reprompt_text, should_end_session))


def handle_session_end_request():
    card_title = "Session Ended"
    speech_output = "おつ."
    # Setting this to true ends the session and exits the skill.
    should_end_session = True
    return build_response({}, build_speechlet_response(
        card_title, speech_output, None, should_end_session))


#テキストファイルの読み込み
def input_text(file_path):
    f = open(file_path)
    text = f.read()
    f.close
    return text

#決算を読む
def read_kessan():
    session_attributes = {}
    card_title = "kessan"
    text=input_text('sample3.txt')
    speech_output = text
    reprompt_text = ""
    should_end_session = False
    return build_response(session_attributes, build_speechlet_response(
        card_title, speech_output, reprompt_text, should_end_session))



# --------------- Events ------------------

def on_session_started(session_started_request, session):
    """ Called when the session starts """

    print("on_session_started requestId=" + session_started_request['requestId']
          + ", sessionId=" + session['sessionId'])


def on_launch(launch_request, session):
    """ Called when the user launches the skill without specifying what they
    want
    """

    print("on_launch requestId=" + launch_request['requestId'] +
          ", sessionId=" + session['sessionId'])
    # Dispatch to your skill's launch
    return get_welcome_response()


def on_intent(intent_request, session):
    """ Called when the user specifies an intent for this skill """

    print("on_intent requestId=" + intent_request['requestId'] +
          ", sessionId=" + session['sessionId'])

    intent = intent_request['intent']
    intent_name = intent_request['intent']['name']

    # Dispatch to your skill's intent handlers
    if intent_name == "read_kessan":
        return read_kessan()
    elif intent_name == "AMAZON.HelpIntent":
        return get_welcome_response()
    elif intent_name == "AMAZON.CancelIntent" or intent_name == "AMAZON.StopIntent":
        return handle_session_end_request()
    else:
        raise ValueError("Invalid intent")


def on_session_ended(session_ended_request, session):
    """ Called when the user ends the session.

    Is not called when the skill returns should_end_session=true
    """
    print("on_session_ended requestId=" + session_ended_request['requestId'] +
          ", sessionId=" + session['sessionId'])
    # add cleanup logic here


# --------------- Main handler ------------------

def lambda_handler(event, context):
    """ Route the incoming request based on type (LaunchRequest, IntentRequest,
    etc.) The JSON body of the request is provided in the event parameter.
    """
    print("event.session.application.applicationId=" +
          event['session']['application']['applicationId'])

    """
    Uncomment this if statement and populate with your skill's application ID to
    prevent someone else from configuring a skill that sends requests to this
    function.
    """
    # if (event['session']['application']['applicationId'] !=
    #         "amzn1.echo-sdk-ams.app.[unique-value-here]"):
    #     raise ValueError("Invalid Application ID")

    if event['session']['new']:
        on_session_started({'requestId': event['request']['requestId']},
                           event['session'])

    if event['request']['type'] == "LaunchRequest":
        return on_launch(event['request'], event['session'])
    elif event['request']['type'] == "IntentRequest":
        return on_intent(event['request'], event['session'])
    elif event['request']['type'] == "SessionEndedRequest":
        return on_session_ended(event['request'], event['session'])

ここまででとりあえずEchoからの呼び出しでLambdaの開発フォルダにあるテキストファイルを朗読できるようになった。
ここからDropBox APIとAlexaSkillのアカウントリンクを行う。

DropboxのApp登録

・DropboxAPIを選択
・App folderを選択
・Appの名前を適当につける

・Appkey、Appsercretをメモる
・OAuth2のRedirectURIsを追加

AlexaSkillアカウントリンク

https://www.dropbox.com/developers/documentation/http/documentation#oauth2-authorize
↑みながら、認証画面のURIとアクセストークンのURIを記入。

これでリンク完了したから、アレクサアプリでアカウントリンクできるか確認。

ん?

なんか"state"が500文字を超えてますよ~。651文字も来てるよ~。みたいなエラーが、
、、

そういえばこここんな記述があった。

AlexaSkillのアカウントリクエストはこんな感じで
https://www.dropbox.com/oauth2/authorize?client_id="Appkey"&response_type=code&state=○○○○
↑の○○の部分が500文字超えちゃダメらしい。

今のところ解決方法が分からないです。